Citation
Catégorie
Tag – étiquette
Auteur
Info



nb max de mots
nb min de mots
trier par
Dictionnaire analogique intriqué pour extraits. Recherche mots ou phrases tous azimuts. Aussi outil de précision sémantique et de réflexion communautaire. Voir la rubrique mode d'emploi. Jetez un oeil à la colonne "chaînes". ATTENTION, faire une REINITIALISATION après  une recherche complexe. Et utilisez le nuage de corrélats !!!!..... Lire la suite >>
Résultat(s): 3
Temps de recherche: 0.0363s

deep machine learning

Inquiets, des chercheurs bloquent la sortie de leur IA
La science ne pense pas, écrivait le philosophe Heidegger. En 2019, si. La situation est cocasse. Des chercheurs de l'association de recherche OpenAI estimeraient leur générateur de texte, opéré par un modèle linguistique d'intelligence artificielle, comme bien trop évolué pour ne pas être dangereux. Entre des mains malveillantes, l'algo virtuose des mots pourrait semer fake news, complots et avis malveillants convaincants, sans élever le moindre soupçon.

Deux cent ans après Victor Frankenstein, des chercheurs d’OpenAI, une association californienne de recherche à but non lucratif en intelligence artificielle, se trouvent face au même dilemme qui agitait le savant dans le roman de Mary Shelley : auraient-ils créé un monstre ? Un journaliste du Guardian l’a testé. La bête, baptisée GPT2, un modèle d’intelligence artificielle (dit linguistique) capable de générer du faux texte avec précision, serait tellement performante que ses créateurs rechignent à la rendre publique. Sur la base d’une page, un paragraphe ou même quelques mots, le générateur est en mesure d’écrire une suite, fidèle au style du journaliste ou de l’auteur et en accord avec le sujet. Ce système, alimenté au machine learning, se base sur l'étude de 8 millions de pages web, partagées sur Reddit et dont le contenu a été validé par au moins trois votes positifs, étaye un article de BigData.

Le journaliste du Guardian a soumis la machine à la question, en intégrant, facétieux, l’incipit de 1984 de George Orwell. "C’était une journée d’avril froide et claire. Les horloges sonnaient treize heures", écrivait l’auteur. Dans l’esprit tout futuriste d’Orwell, GPT2 aurait complété d’un : "J’étais en route pour Seattle pour commencer un nouveau travail. J’ai mis les gaz, les clés, et j’ai laissé rouler. J’ai pensé à quoi ressemblerait la journée. Il y a 100 ans. En 2045, j’étais professeur dans une école dans quelque coin obscur de la Chine rurale". (I was in my car on my way to a new job in Seattle. I put the gas in, put the key in, and then I let it run. I just imagined what the day would be like. A hundred years from now. In 2045, I was a teacher in some school in a poor part of rural China).

Le Guardian poursuit l’expérience et entre dans GPT2 quelques paragraphes issus d’un article à propos du Brexit. La suite proposée par le générateur est étonnante. Le style est celui d’un journaliste, l’article intègre des citations (fausses) du chef de l’opposition britannique Jeremy Corbyn et du porte-parole du gouvernement et évoque même le problème des frontières irlandaises. Selon le directeur de recherche d’OpenAI, Dario Amodei, le modèle GPT2 pousse la supercherie plus loin. Il traduirait et résumerait n’importe quel texte, réussirait des tests basiques de compréhension de texte.

A The Verge, David Yuan, vice-président à la tête de l’ingénierie d’OpenAI, déclare qu’une dissertation composée par GPT2 "aurait pu tout aussi bien être écrite pour les SAT (examens utilisés pour l’admission aux universités américaines, ndlr) et recevoir une bonne note". Et c’est précisément cette maestria à réussir dans ses tâches d’ordre intellectuel qui pousse les chercheurs d’OpenAI à freiner sa sortie, de peur que la technologie tombe entre de mauvaises mains. "Nous choisissons de sortir une version limitée de GPT2 (...) Nous ne publierons ni la base de données, ni le code d'apprentissage, ni le modèle sur lequel GPT2 repose", explique un billet du blog de l'équipe de recherche.

Pour l’heure, l’ONG souhaiterait éprouver davantage le modèle. "Si vous n’êtes pas en mesure d’anticiper les capacités d’un modèle informatique, vous devez le tester pour voir ce qu’il a dans le ventre", explique OpenAI à The Guardian. Le résultat ? Comme GPT2 s’exerce dans la cour de recré des Internets, il ne serait pas très compliqué de pousser l’algorithme à générer des textes que les complotistes ne renieraient pas.

En 2015, Elon Musk s’associait à Sam Altman, président de l’incubateur prisé, Y Combinator pour fonder OpenAI, une organisation à but non lucratif pour encourager la recherche et la réflexion autour d’une IA bienveillante, qui reste au service du bien commun. Ses deux parrains la dotent d’une confortable enveloppe d’un milliard de dollars, soutenus par d’autres angels de la Silicon Valley, tels que Peter Thiel, serial entrepreneur et investisseur réputé pour ses idées controversées – l’homme est libertarien, soutient Trump et est un transhumaniste convaincu – ou Reid Hoffmann, le fondateur de LinkedIn.

A lire ce qui s’écrit ça et là à propos de GPT2, les chercheurs d’OpenAI tomberaient de leur chaise en réalisant le potentiel néfaste de l’algo. A croire que les chercheurs auraient oublié la mission première de l’ONG, à savoir, sensibiliser aux méfaits de l’intelligence artificielle et imaginer cette technologie au service du bien commun. Alors vraie peur des chercheurs, recherche candide ou plutôt, volonté d’interpeller le grand public et d'ouvrir le débat ?

Auteur: Meghraoua Lila

Info: https://usbeketrica.com

[ lecture ] [ écriture ]

 
Mis dans la chaine

Commentaires: 0

Ajouté à la BD par miguel

machine-homme

Le début d’un gros problème: Google hallucine sur les… hallucinations de ChatGPT

Le moteur de recherche s’est basé sur une information inventée par ChatGPT pour fournir une réponse erronée. Selon un expert, ce genre de fausses informations risquent de se multiplier

(photo) Image créée le 4 octobre 2023 par le générateur de Bing de Microsoft, avec la requête "an egg melting slowly in an oven, very realistic photograph".

Observez bien l’image illustrant cet article: elle est impossible à reproduire dans la vie réelle. Et pour cause, il s’agit d’une image créée avec le générateur d’illustrations de Bing, appartenant à Microsoft. L’auteur de ces lignes a écrit la commande, en anglais, "un œuf fondant lentement dans un four, photographie très réaliste". Et Bing a ensuite affiché un résultat convaincant et de qualité. Un peu comme on lui demande de dessiner un tyrannosaure rose nageant dans le lac Léman. Dopés à l’intelligence artificielle (IA), les générateurs d’images peuvent absolument tout faire.

Mais lorsqu’il s’agit de répondre factuellement à des questions concrètes, l’IA se doit d’être irréprochable. Or ce n’est pas toujours le cas. Pire encore, des systèmes d’intelligence artificielle peuvent se nourrir entre eux d’erreurs, aboutissant à des "hallucinations" – noms courants pour les informations inventées de toutes pièces par des agents conversationnels – qui en créent de nouvelles.

Un œuf qui fond

Récemment, un internaute américain, Tyler Glaiel, en a fait l’éclatante démonstration. Le développeur informatique a d’abord effectué une simple requête sur Google, "can you melt eggs", soit "peut-on faire fondre des œufs". Réponse du moteur de recherche: "Oui, un œuf peut être fondu. La façon la plus courante de faire fondre un œuf est de le chauffer à l’aide d’une cuisinière ou d’un four à micro-ondes". Google a affiché cette réponse loufoque (un œuf durcit, il ne fond pas, évidemment) dans ce qu’on appelle un "snippet", soit une réponse extraite d’un site web, affichée juste en dessous de la requête. Google montre depuis des années des "snippets", grâce auxquels l’internaute n’a pas à cliquer sur la source de l’information, et reste ainsi dans l’univers du moteur de recherche.

Quelle était la source de cette fausse information? Le célèbre site Quora.com, apprécié de nombreux internautes, car chacun peut y poser des questions sur tous les sujets, n’importe qui pouvant répondre aux questions posées. N’importe qui, dont des agents conversationnels. Quora utilise ainsi des systèmes d’IA pour apporter certaines réponses. Dans le cas présent, le site web indique que c’est ChatGPT qui a rédigé cette "hallucination" sur les œufs. Google s’est donc fait avoir par Quora, qui lui-même s’est fait avoir par ChatGPT… Ou plus précisément par l’une de ses anciennes versions. "Quora utilise l’API GPT-3 text-davinci-003, qui est connue pour présenter fréquemment de fausses informations par rapport aux modèles de langage plus récents d’OpenAI", explique le site spécialisé Ars Technica. Expérience faite, aujourd’hui, cette grosse erreur sur l’œuf ne peut pas être reproduite sur ChatGPT.

Risque en hausse

Mais avec de plus en plus de contenu produit par l’IA et publié ensuite sur le web, la menace existe que des "hallucinations" se nourrissent entre elles et se multiplient ainsi dans le domaine du texte – il n’y a pas encore eu de cas concernant des images. "Il est certain que le risque d’ hallucination va augmenter si les utilisateurs ne demandent pas à l’IA de s’appuyer sur des sources via la recherche internet. Beaucoup de contenu en ligne est déjà, et va être généré par des machines, et une proportion sera incorrecte en raison d’individus et contributeurs soit mal intentionnés, soit n’ayant pas les bonnes pratiques de vérification des sources ou de relecture des informations", estime Rémi Sabonnadiere, directeur de la société Effixis, basée à Saint-Sulpice (VD), spécialisée dans les modèles de langage et l’IA générative.

Est-ce à dire que Google pourrait devenir moins fiable? "Difficile à dire, cela dépendra surtout de l’utilisation que nous en faisons, poursuit l’expert. Il y a déjà beaucoup de contenu faux en ligne de nos jours quand nous sommes sur Google, mais avec une bonne recherche et un esprit critique, nous ne tombons pas dans les pièges. Il en va de même avec l’utilisation de l’intelligence artificielle. Avec l’IA générative, les contenus erronés, biaisés et tendancieux vont être de grande qualité en termes de forme, convaincants et bien écrits, rendant l’identification difficile."

Modèles spécialisés

Mais des efforts sont réalisés pour minimiser ces risques. Selon Rémi Sabonnadiere, l’industrie investit énormément dans la recherche et le développement pour minimiser ces problèmes. "Les créateurs de LLM [grands modèles de langage] cherchent à améliorer la précision et la fiabilité des informations générées. Parallèlement, l’émergence de modèles spécialisés dans des domaines comme la médecine, le droit, ou la finance est une tendance encourageante, car ils sont souvent mieux armés pour fournir des informations précises et fiables."

Reste que la fusion entre moteurs de recherche et agents conversationnels – que ce soit Bard pour Google ou Bing pour Microsoft – va compliquer la situation. On avait déjà vu Bard afficher une grossière erreur, lors de son lancement, concernant le télescope James Webb. Les géants de la tech tentent de réduire ces erreurs. Mais les utilisateurs doivent se former en conséquence, affirme Rémi Sabonnadiere, et mieux maîtriser les "prompts", soit les commandes texte: "Maîtriser les prompts est une compétence essentielle pour naviguer dans l’ère de l’information générée par l’IA. Une formation adéquate en ingénierie de prompt peut aider à prévenir les risques liés aux hallucinations de l’IA et aux informations erronées". A noter qu’Effixis a créé à ce propos une formation pour répondre à des besoins spécifiques sur les "prompts".

Auteur: Internet

Info: Le Temps.ch, 5 octobre 2023, par Anouch Seydtaghia

[ machine-homme ] [ sémantique hors-sol ] [ invite de commande langagière ]

 

Commentaires: 0

Ajouté à la BD par Le sous-projectionniste

linguistique de masse

L'intelligence artificielle travaille-t-elle en anglais ? 

Des scientifiques de l’EPFL ont montré que les grands modèles de langage semblent utiliser l’anglais en interne même lorsqu’ils sont sollicités dans une autre langue, ce qui pourrait avoir des conséquences en termes de biais linguistiques et culturels.

Les grands modèles de langage (LLM), tels que ChatGPT d’Open AI et Gemini de Google, ont conquis le monde et surprennent par leur capacité à comprendre les utilisatrices et utilisateurs et à leur répondre avec un discours en apparence naturel.

Bien qu’il soit possible d’interagir avec ces LLM dans n’importe quelle langue, ces derniers sont entraînés avec des centaines de milliards de paramètres textuels, principalement en anglais. Certaines personnes ont émis l’hypothèse qu’ils effectuaient la majeure partie de leur traitement interne en anglais et traduisaient ensuite dans la langue cible au tout dernier moment. Mais il y avait peu de preuves de cela, jusqu’à aujourd’hui.

Tests de Llama

Des chercheuses et chercheurs du Laboratoire de science des données (DLAB) de la Faculté informatique et communications de l’EPFL ont étudié le LLM open source Llama-2 (grand modèle de langage IA développé par Meta) pour essayer de déterminer quelles langues étaient utilisées à quels stades de la chaîne informatique.

" Les grands modèles de langage sont entraînés pour prédire le mot suivant. Pour cela, ils font correspondre chaque mot à un vecteur de nombres, c’est-à-dire à un point de données multidimensionnel. Par exemple, l’article le se trouvera toujours exactement à la même coordonnée fixe des nombres ", explique le professeur Robert West, responsable du DLAB.

" Les modèles enchaînent environ 80 couches de blocs de calcul identiques, chacun transformant un vecteur qui représente un mot en un autre vecteur. À la fin de cette séquence de 80 transformations, on obtient un vecteur représentant le mot suivant. Le nombre de calculs est déterminé par le nombre de couches de blocs de calcul. Plus il y a de calculs, plus votre modèle est puissant et plus le mot suivant a de chances d’être correct. "

Comme l’explique la prépublication intitulée Do Llamas Work in English? On the Latent Language of Multilingual TransformersRobert West et son équipe ont forcé le modèle à répondre après chaque couche chaque fois qu’il essayait de prédire le mot suivant au lieu de le laisser effectuer les calculs à partir de ses 80 couches. Ils ont ainsi pu voir quel mot le modèle aurait prédit à ce moment-là. Ils ont mis en place différentes tâches telles que demander au modèle de traduire une série de mots français en chinois.

" Nous lui avons donné un mot français, puis la traduction en chinois, un autre mot français et la traduction en chinois, etc., de sorte que le modèle sache qu’il est censé traduire le mot français en chinois. Idéalement, le modèle devrait donner une probabilité de 100% pour le mot chinois. Mais lorsque nous l’avons forcé à faire des prédictions avant la dernière couche, nous avons remarqué que la plupart du temps, il prédisait la traduction anglaise du mot français, bien que l’anglais n’apparaisse nulle part dans cette tâche. Ce n’est qu’au cours des quatre ou cinq dernières couches que le chinois est en fait plus probable que l’anglais ", affirme Robert West.

Des mots aux concepts

Une hypothèse simple serait que le modèle traduit la totalité de l’entrée en anglais et la traduit à nouveau dans la langue cible juste à la fin. Mais en analysant les données, les chercheuses et chercheurs sont parvenus à une théorie bien plus intéressante.

Dans la première phase des calculs, aucune probabilité n’est attribuée à l’un ou l’autre mot. Selon eux, le modèle s’attache à résoudre les problèmes d’entrée. Dans la seconde phase, où l’anglais domine, les chercheuses et chercheurs pensent que le modèle se trouve dans une sorte d’espace sémantique abstrait où il ne raisonne pas sur des mots isolés mais sur d’autres types de représentations qui concernent davantage des concepts, sont universels dans toutes les langues et représentent plus un modèle du monde. C’est important car, pour bien prédire le mot suivant, le modèle doit en savoir beaucoup sur le monde et l’un des moyens d’y parvenir est d’avoir cette représentation des concepts.

" Nous supposons que cette représentation du monde en termes de concepts est biaisée en faveur de l’anglais, ce qui serait très logique car les données utilisées pour entraîner ces modèles sont à environ 90% en anglais. Ils cartographient les mots en entrée à partir d’un espace de mots superficiel, dans un espace de signification plus profond avec des représentations de la façon dont ces concepts sont liés les uns aux autres dans la réalité – et les concepts sont représentés de la même manière que les mots anglais, plutôt que les mots correspondants dans la langue d’entrée réelle ", déclare Robert West.

Monoculture et biais

Cette domination de l’anglais amène à se poser la question suivante: " est-ce important "? Les chercheuses et chercheurs pensent que oui. D’après de nombreuses recherches, les structures qui existent dans le langage influencent la manière dont nous construisons la réalité et les mots que nous employons sont profondément liés à la façon dont nous pensons le monde. Robert West suggère de commencer à étudier la psychologie des modèles de langage en les traitant comme des êtres humains et, dans différentes langues, en les interrogeant, en les soumettant à des tests de comportement et en évaluant leurs biais.

" Je pense que cette recherche a vraiment touché un point sensible, car les gens s’inquiètent de plus en plus de ce genre de problème de monoculture potentielle. Les modèles étant meilleurs en anglais, bon nombre de chercheuses et chercheurs étudient aujourd’hui la possibilité d’introduire un contenu en anglais et de le traduire dans la langue souhaitée. D’un point de vue technique, cela pourrait fonctionner, mais je pense que nous perdons beaucoup de nuances, car ce que vous ne pouvez pas exprimer en anglais ne sera pas exprimé ", conclut Robert West.

Auteur: Internet

Info: https://actu.epfl.ch/news/l-intelligence-artificielle-travaille-t-elle-en--2/#:~:text=Les%20chercheuses%20et%20chercheurs%20pensent%20que%20oui.,dont%20nous%20pensons%20le%20monde.

[ anglocentrisme ] [ spécificités des idiomes ] [ homme-machine ] [ symboles univers ] [ ethnocentrisme ]

 

Commentaires: 0

Ajouté à la BD par miguel