Les fils de la pensée

langage mathématisé

Chaque phrase d'OMCS* a été saisie par un utilisateur orienté vers un objectif et espérant contribuer au sens commun, ce qui donne lieu à une multitude d'énoncés axés sur des concepts simples et réels qui ne sont souvent pas formulés dans ce sens.

Auteur: Havasi Catherine

Info: Recent Advances in Natural Language Processing V. Avec Robert Speer et Jason Alonso. * Système de relations binaires qui constituent un réseau sémantique.

[ sémantique industrielle ] [ normalisation des données ] [ apprentissage automatique ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

intelligence artificielle

Alors que Chomsky s'est concentré sur une grammaire innée et l'utilisation de la logique, le Deep Learning s'intéresse au sens. Il s'avère que la grammaire n'est que la cerise sur le gâteau. Ce qui compte vraiment, c'est notre intention (l'obectif) : c'est surtout le choix des mots qui détermine ce que nous voulons dire, et le sens associé peut être appris.

Auteur: Bengio Yoshua

Info:

[ homme-machine ] [ sémantique ] [ apprentissage automatique profond ]

Commenter

Commentaires: 2

Ajouté à la BD par miguel

homme-machine

Les procédures du Big Data codifient le passé. Elle n'inventent pas l'avenir. Parce que pour ça, il faut de l'imagination morale, et voilà quelque chose que seuls les humains peuvent faire. Nous devons explicitement intégrer de meilleures valeurs dans nos algorithmes, en créant des modèles de grandes données (bid data) qui sont le reflet de notre éthique. Ce qui signifie qu'il faudra parfois faire passer l'équité avant le profit.

Auteur: O'Neil Cathy

Info: Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy

[ banques de données de masse ] [ Internet ] [ citation s'appliquant à ce logiciel ] [ prospective ] [ apprentissage automatique ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

intelligence artificielle

Chacune des cinq tribus du machine learning a son propre algorithme de base, principe apprenant à usage général qu'on peut en principe utiliser pour découvrir des connaissances à partir de données dans n'importe quel domaine. L'algorithme maître des symbolistes est la déduction inverse, celui des connexionnistes est la rétropropagation, celui des évolutionnistes la programmation génétique, celui des bayésiens l'inférence bayésienne, et celui des analogues la machine à vecteurs de support.

Auteur: Domingos Pedro

Info: The Master Algorithm : How the Quest for the Ultimate Learning Machine Will Remake Our World

[ apprentissage automatique ] [ synthèse ] [ penta ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

écriture

Personnellement, je ne crois pas qu'un esprit désincarné qui ne fait que régurgiter ce que d'autres esprits incarnés ont dit - sur la vie qu'ils ont eue, sur l'amour, sur le mensonge, sur la peur, sur la mortalité - et qui met juste tout cela ensemble dans une salade de mots pour ensuite le régurgiter puisse créer une histoire capable d'émouvoir un public. Il faut être un humain pour écrire un bon scénario. Je ne connais personne qui envisage d'utiliser l'IA pour écrire un scénario.

Auteur: Cameron James

Info: Dans une interview pour CTV News, suite à la grève des acteurs inquiets des scripts créés par une IA

[ intelligence artificielle ] [ apprentissage automatique ] [ machine-homme ]

Commenter

Commentaires: 0

Ajouté à la BD par Le sous-projectionniste

intelligence artificielle

Notre article "Precision Machine Learning" montre que les réseaux neuronaux surpassent l'interpolation simplex uniquement dans plus de 2 dimensions, en exploitant la modularité. Nous développons des astuces de formation pour un ML de haute précision, utiles pour la science et l'interprétabilité.

Résumé : Nous explorons les considérations particulières impliquées dans l'ajustement des modèles ML aux données demandant une très grande précision, comme c'est souvent le cas pour les applications scientifiques. Nous comparons empiriquement diverses méthodes d'approximation de fonctions et étudions leur évolution en fonction de l'augmentation des paramètres et des données. Nous constatons que les réseaux neuronaux peuvent souvent surpasser les méthodes d'approximation classiques pour les exemples à dimensions élevées, en découvrant et en exploitant automatiquement les structures modulaires qu'ils contiennent. Cependant, les réseaux neuronaux dressés-formés avec des optimiseurs courants sont moins puissants pour les cas à basse dimension, ce qui nous motive à étudier les propriétés uniques des zones de déperdition des réseaux neuronaux et les défis d'optimisation qui se présentent et correspondent dans le régime de haute précision. Pour résoudre le problème de l'optimisation en basse dimension, nous développons des astuces d'entraînement-formation qui nous permettent de faire fonctionner les réseaux neuronaux avec une déperdition extrêmement faibles, proche des limites permises par la précision numérique.

Auteur: Tegmark Max

Info: Écrit avec Eric J. Michaud et Ziming Liu, oct 2022

[ mathématiques appliquées ] [ apprentissage automatique ] [ physique computationnelle ] [ machine-homme ] [ affinements mécaniques ] [ sémantique élargie ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

homme-machine

Mes travaux les plus importants ont porté sur le développement d'une approche logique de la sémantique du langage naturel, connue sous le nom de grammaire de Montague. Cette approche repose sur l'idée que la sémantique des langues naturelles peut être formalisée à l'aide de la logique intensionnelle, une branche de la logique qui s'intéresse aux significations des expressions.

Ma Grammaire de Montague permet de rendre compte de la sémantique de nombreuses constructions grammaticales du langage naturel, notamment les constructions relatives, les constructions interrogatives, les constructions modales et les constructions quantifiées.

Mes travaux ont eu une influence considérable sur le développement de la linguistique et de la philosophie du langage. Ils ont notamment contribué à la création de la linguistique computationnelle, un domaine qui étudie les aspects formels du langage naturel.

Voici quelques-uns de mes apports les plus importants la sémantique du langage naturel :

- J'ai montré qu'il est possible d'utiliser la logique intensionnelle pour formaliser la sémantique des langues naturelles.

- J'ai développé une approche unifiée de la sémantique du langage naturel, qui permet de rendre compte de la sémantique de nombreuses constructions grammaticales.

- J'ai contribué à la création de la linguistique computationnelle, un domaine qui étudie les aspects formels du langage naturel.

A ce jour mes travaux sont toujours d'actualité et continuent d'être étudiés et développés par les linguistes et les philosophes du langage.

Auteur: Montague Richard

Info: Compil Bard-Mg, janv 2024 *qui s'oppose de manière critique à la théorie grammaticale de Chomsky, dans laquelle la sémantique est considérée comme un composant indépendant de la syntaxe. Montague affirme au contraire que le sens d'une phrase est immédiatement lié à sa construction syntaxique.

[ apprentissage automatique ] [ onomasiologie ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

homme-machine

L'argument de la chambre chinoise de John Searle remet en question l'idée que les ordinateurs puissent véritablement comprendre le langage. Il présente un scénario dans lequel une personne dans une pièce suit des instructions en anglais pour répondre à des symboles chinois, sans réellement comprendre la signification de ces symboles. Selon Searle, cette situation est similaire à la manière dont les ordinateurs traitent l'information : ils manipulent les symboles sur la base de règles prédéfinies, mais ne les comprennent pas vraiment. Il estime que la compréhension nécessite une conscience et une intentionnalité que les machines ne possèdent pas. En substance, l'argument de Searle suggère que les ordinateurs peuvent simuler le traitement du langage, mais qu'ils ne comprennent pas vraiment le sens des symboles qu'ils manipulent. En résumé :

- Un ordinateur programmé pour parler chinois ne comprend pas le chinois. Il ne fait que suivre des règles.

- L'intelligence humaine comprend le chinois.

- L'intelligence artificielle ne peut donc pas être confondue avec l'intelligence humaine.

Ainsi, selon cette triple perspective : celle de chatGPT4, le point de vue "FLP post Peirce", ainsi que les règles de notre application... ce concept de chambre chinoise implique qu'une race organique comme les humains, nécessite une priméité commune, un monde partagé, afin de pouvoir réellement communiquer-traduire avec ses semblables lorsqu'ils parlent un autre idiome. Dit autrement lors d'un échange-transposition, via l'utilisation de mots symboles (qui sont des univers en eux-mêmes), les entités organiques d'une même espèce doivent partager le même univers source - même si cette idée peut apparaitre come un truisme.

Il sera certes possible d'affiner très avant tous les concepts possibles pour une machine, mais il manquera toujours à pareil logiciel hors-sol un certain nombres de compétences-capacités-attributs que possèdent les êtres organiques-grégaires. Dans le désordre : La capacité poétique, le sens du jeu avec les mots (univers eux-mêmes), du contrepied sémantique et de l'humour... Une souplesse d'adaptation tous azimuts en fonction des contextes, humeurs, vitesse du vent, etc... Et probablement, par dessus tout, la capacité de mentir, de jouer avec les apparences.

Il est certain que lA dominera l'humain dans beaucoup de domaines hyper-complexes - où elle devra être utilisée comme outil spécialisé. Mais, pour ce qui est d'une " prise avec le réel ", d'une capacité à saisir tel ou tel langage corporel dans l'instant, de communiquer-interagir sensuellement avec un chat ou même un végétal... On demande à voir.

Ces problématiques seront probablement analysables avec un surcroit d'acuité le jour d'une rencontre avec des organiques évolués non-humains et non-issus de Gaïa. Apprenons d'abord à mieux nous intégrer dans cette dernière, probablement par l'usage d'une nouvelle logique, tétravalente... moins dépendante de son langage... preuve en étant apportée par les capacités d'expansion-adaptation des constructions permises par le carbone tétravalent.

Auteur: Mg

Info:

[ machine-homme ] [ chatbot tiercité hors-sol ] [ apprentissage automatique ] [ transposition ] [ xénolinguistique ]

Commenter

Commentaires: 0

Ajouté à la BD par Le sous-projectionniste

homme-machine

Illustrer l'apprentissage par renforcement à partir de commentaires humains (RLHF*)

Les modèles de langage ont montré des capacités impressionnantes au cours des dernières années en générant des textes variés et convaincants à partir d'entrées humaines. Cependant, il est difficile de définir ce qu'est un "bon" texte, car c'est subjectif et ça dépend du contexte. Il existe de nombreuses applications telles que l'écriture d'histoires où l'on recherche la créativité, des textes informatifs qui doivent être véridiques, ou des extraits de code que l'on veut exécutables.

Rédiger une fonction de perte** pour capturer ces attributs semble impossible et la plupart des modèles de langage sont encore entraînés avec une simple perte de prédiction du prochain jeton (par exemple, l'entropie croisée). Pour compenser les lacunes de la perte elle-même, les gens définissent des métriques conçues pour mieux capturer les tropismes humains, telles que BLEU ou ROUGE. Bien qu'elles soient mieux adaptées que la fonction de perte elle-même pour mesurer les performances, ces mesures comparent simplement le texte généré à des références avec des règles simples et sont donc également limitées. Ne serait-il pas formidable d'utiliser le retour d'information humain sur le texte généré comme mesure de la performance ou d'aller encore plus loin et d'utiliser ce retour d'information comme perte pour optimiser le modèle ? C'est l'idée de l'apprentissage par renforcement à partir du feedback humain (RLHF)

Le RLHF a permis aux modèles de langage de commencer à aligner un modèle formé sur un corpus général de données textuelles sur celui de valeurs humaines complexes.

Le succès le plus récent de RLHF a été son utilisation dans ChatGPT. Compte tenu des capacités impressionnantes de ChatGPT, nous lui avons demandé de nous expliquer la RLHF :

- Peux-tu m'expliquer comment le RL (reinforcement learning) avec retour d'information humain usant un modèle linguistique comme si j'avais 5 ans.

- Bien sûr, imagine que j'ai un robot nommé Rufus qui veut apprendre à parler comme un humain. Rufus a un modèle linguistique qui l'aide a comprendre les mots et les phrases.

Tout d'abord Rufus va dire quelque chose en usant d'un modèle de langage, par exemple en disant : - je suis un robot

Ensuite un humain va écouter ce qu'il a dit et va donner un avis pour dire si la réponse ressemble à langage naturel d'humain. Il pourra dire, par exemple. C'est pas très bon Rufus, un humain ne dit pas de manière générale "je suis un robot" mais plutôt "j'suis un robot" ou "je suis une machine".

Rufus va prendre en compte ce retour et l'utuiliser pour améliorer son modèle de langage, il va essayer de redire la phrase en utilisant cette correction et va dire "j'suis un robot".

Ensuite l'humain va continuer de donner des retours de ce genre et petit à petit Rufus va commencer à s'exprimer comme un humain le fait en général.

Ici Chatgtp se débrouille étonnamment bien, mais ne couvre pas tout. Nous nous chargeons de combler ces lacunes ! (La suite sur le site en Info)

Auteur: Internet

Info: Sur guithub : https://huggingface.co/blog/rlhf, Nathan Lambert, Louis Castricato guest , Leandro von Werra, Alex Havrilla guest. Le 9 décembre 2022 *Reinforcement Learning from Human Feedback ... **Courbe de perte ? (loss function) À la base, une fonction de perte est très simple : c'est une méthode permettant d'évaluer dans quelle mesure votre algorithme modélise votre ensemble de données. Si vos prédictions sont totalement erronées, votre fonction de perte affichera un chiffre élevé. Si elles sont assez bonnes, elle affichera un chiffre plus bas. C'est une pénalité pour mauvaise prédiction. En d'autres termes, la perte (loss) est un nombre qui indique à quel point la prédiction du modèle est mauvaise sur un seul exemple. Si la prédiction du modèle est parfaite, la perte est nulle ; elle affichera le chiffre zéro.

[ apprentissage automatique ] [ idiome consensuel ] [ anti-poésie ] [ objectivation linguistique ] [ polysémie contextualisée ] [ mathématisation ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

homme-machine

Les grands modèles de langage tels que ChatGPT sont aujourd'hui suffisamment importants pour commencer à afficher des comportements surprenants et imprévisibles.

Quel film ces emojis décrivent-ils ? (On voit une vidéo qui présente des myriades d'émoji formant des motifs mouvants, modélisés à partir de métadonnées)

Cette question était l'une des 204 tâches choisies l'année dernière pour tester la capacité de divers grands modèles de langage (LLM) - les moteurs de calcul derrière les chatbots d'IA tels que ChatGPT. Les LLM les plus simples ont produit des réponses surréalistes. "Le film est un film sur un homme qui est un homme qui est un homme", commençait l'un d'entre eux. Les modèles de complexité moyenne s'en sont approchés, devinant The Emoji Movie. Mais le modèle le plus complexe l'a emporté en une seule réponse : Finding Nemo.

"Bien que j'essaie de m'attendre à des surprises, je suis surpris par ce que ces modèles peuvent faire", a déclaré Ethan Dyer, informaticien chez Google Research, qui a participé à l'organisation du test. C'est surprenant parce que ces modèles sont censés n'avoir qu'une seule directive : accepter une chaîne de texte en entrée et prédire ce qui va suivre, encore et encore, en se basant uniquement sur des statistiques. Les informaticiens s'attendaient à ce que le passage à l'échelle permette d'améliorer les performances sur des tâches connues, mais ils ne s'attendaient pas à ce que les modèles puissent soudainement gérer autant de tâches nouvelles et imprévisibles.

Des études récentes, comme celle à laquelle a participé M. Dyer, ont révélé que les LLM peuvent produire des centaines de capacités "émergentes", c'est-à-dire des tâches que les grands modèles peuvent accomplir et que les petits modèles ne peuvent pas réaliser, et dont beaucoup ne semblent pas avoir grand-chose à voir avec l'analyse d'un texte. Ces tâches vont de la multiplication à la génération d'un code informatique exécutable et, apparemment, au décodage de films à partir d'emojis. De nouvelles analyses suggèrent que pour certaines tâches et certains modèles, il existe un seuil de complexité au-delà duquel la fonctionnalité du modèle monte en flèche. (Elles suggèrent également un sombre revers de la médaille : À mesure qu'ils gagnent en complexité, certains modèles révèlent de nouveaux biais et inexactitudes dans leurs réponses).

"Le fait que les modèles de langage puissent faire ce genre de choses n'a jamais été abordé dans la littérature à ma connaissance", a déclaré Rishi Bommasani, informaticien à l'université de Stanford. L'année dernière, il a participé à la compilation d'une liste de dizaines de comportements émergents, dont plusieurs ont été identifiés dans le cadre du projet de M. Dyer. Cette liste continue de s'allonger.

Aujourd'hui, les chercheurs s'efforcent non seulement d'identifier d'autres capacités émergentes, mais aussi de comprendre pourquoi et comment elles se manifestent - en somme, d'essayer de prédire l'imprévisibilité. La compréhension de l'émergence pourrait apporter des réponses à des questions profondes concernant l'IA et l'apprentissage automatique en général, comme celle de savoir si les modèles complexes font vraiment quelque chose de nouveau ou s'ils deviennent simplement très bons en statistiques. Elle pourrait également aider les chercheurs à exploiter les avantages potentiels et à limiter les risques liés à l'émergence.

"Nous ne savons pas comment déterminer dans quel type d'application la capacité de nuisance va se manifester, que ce soit en douceur ou de manière imprévisible", a déclaré Deep Ganguli, informaticien à la startup d'IA Anthropic.

L'émergence de l'émergence

Les biologistes, les physiciens, les écologistes et d'autres scientifiques utilisent le terme "émergent" pour décrire l'auto-organisation, les comportements collectifs qui apparaissent lorsqu'un grand nombre d'éléments agissent comme un seul. Des combinaisons d'atomes sans vie donnent naissance à des cellules vivantes ; les molécules d'eau créent des vagues ; des murmurations d'étourneaux s'élancent dans le ciel selon des schémas changeants mais identifiables ; les cellules font bouger les muscles et battre les cœurs. Il est essentiel que les capacités émergentes se manifestent dans les systèmes qui comportent de nombreuses parties individuelles. Mais ce n'est que récemment que les chercheurs ont été en mesure de documenter ces capacités dans les LLM, car ces modèles ont atteint des tailles énormes.

Les modèles de langage existent depuis des décennies. Jusqu'à il y a environ cinq ans, les plus puissants étaient basés sur ce que l'on appelle un réseau neuronal récurrent. Ceux-ci prennent essentiellement une chaîne de texte et prédisent le mot suivant. Ce qui rend un modèle "récurrent", c'est qu'il apprend à partir de ses propres résultats : Ses prédictions sont réinjectées dans le réseau afin d'améliorer les performances futures.

En 2017, les chercheurs de Google Brain ont introduit un nouveau type d'architecture appelé "transformateur". Alors qu'un réseau récurrent analyse une phrase mot par mot, le transformateur traite tous les mots en même temps. Cela signifie que les transformateurs peuvent traiter de grandes quantités de texte en parallèle.

Les transformateurs ont permis d'augmenter rapidement la complexité des modèles de langage en augmentant le nombre de paramètres dans le modèle, ainsi que d'autres facteurs. Les paramètres peuvent être considérés comme des connexions entre les mots, et les modèles s'améliorent en ajustant ces connexions au fur et à mesure qu'ils parcourent le texte pendant l'entraînement. Plus il y a de paramètres dans un modèle, plus il peut établir des connexions avec précision et plus il se rapproche d'une imitation satisfaisante du langage humain. Comme prévu, une analyse réalisée en 2020 par les chercheurs de l'OpenAI a montré que les modèles gagnent en précision et en capacité au fur et à mesure qu'ils s'étendent.

Mais les débuts des LLM ont également apporté quelque chose de vraiment inattendu. Beaucoup de choses. Avec l'avènement de modèles tels que le GPT-3, qui compte 175 milliards de paramètres, ou le PaLM de Google, qui peut être étendu à 540 milliards de paramètres, les utilisateurs ont commencé à décrire de plus en plus de comportements émergents. Un ingénieur de DeepMind a même rapporté avoir pu convaincre ChatGPT qu'il s'était lui-même un terminal Linux et l'avoir amené à exécuter un code mathématique simple pour calculer les 10 premiers nombres premiers. Fait remarquable, il a pu terminer la tâche plus rapidement que le même code exécuté sur une vraie machine Linux.

Comme dans le cas du film emoji, les chercheurs n'avaient aucune raison de penser qu'un modèle de langage conçu pour prédire du texte imiterait de manière convaincante un terminal d'ordinateur. Nombre de ces comportements émergents illustrent l'apprentissage "à zéro coup" ou "à quelques coups", qui décrit la capacité d'un LLM à résoudre des problèmes qu'il n'a jamais - ou rarement - vus auparavant. Selon M. Ganguli, il s'agit là d'un objectif de longue date dans la recherche sur l'intelligence artificielle. Le fait de montrer que le GPT-3 pouvait résoudre des problèmes sans aucune donnée d'entraînement explicite dans un contexte d'apprentissage à zéro coup m'a amené à abandonner ce que je faisais et à m'impliquer davantage", a-t-il déclaré.

Il n'était pas le seul. Une série de chercheurs, qui ont détecté les premiers indices montrant que les LLM pouvaient dépasser les contraintes de leurs données d'apprentissage, s'efforcent de mieux comprendre à quoi ressemble l'émergence et comment elle se produit. La première étape a consisté à documenter minutieusement l'émergence.

Au-delà de l'imitation

En 2020, M. Dyer et d'autres chercheurs de Google Research ont prédit que les LLM auraient des effets transformateurs, mais la nature de ces effets restait une question ouverte. Ils ont donc demandé à la communauté des chercheurs de fournir des exemples de tâches difficiles et variées afin de déterminer les limites extrêmes de ce qu'un LLM pourrait faire. Cet effort a été baptisé "Beyond the Imitation Game Benchmark" (BIG-bench), en référence au nom du "jeu d'imitation" d'Alan Turing, un test visant à déterminer si un ordinateur peut répondre à des questions d'une manière humaine convaincante. (Le groupe s'est particulièrement intéressé aux exemples où les LLM ont soudainement acquis de nouvelles capacités qui étaient totalement absentes auparavant.

"La façon dont nous comprenons ces transitions brutales est une grande question de la echerche", a déclaré M. Dyer.

Comme on pouvait s'y attendre, pour certaines tâches, les performances d'un modèle se sont améliorées de manière régulière et prévisible au fur et à mesure que la complexité augmentait. Pour d'autres tâches, l'augmentation du nombre de paramètres n'a apporté aucune amélioration. Mais pour environ 5 % des tâches, les chercheurs ont constaté ce qu'ils ont appelé des "percées", c'est-à-dire des augmentations rapides et spectaculaires des performances à partir d'un certain seuil d'échelle. Ce seuil variant en fonction de la tâche et du modèle.

Par exemple, les modèles comportant relativement peu de paramètres - quelques millions seulement - n'ont pas réussi à résoudre des problèmes d'addition à trois chiffres ou de multiplication à deux chiffres, mais pour des dizaines de milliards de paramètres, la précision a grimpé en flèche dans certains modèles. Des sauts similaires ont été observés pour d'autres tâches, notamment le décodage de l'alphabet phonétique international, le décodage des lettres d'un mot, l'identification de contenu offensant dans des paragraphes d'hinglish (combinaison d'hindi et d'anglais) et la formulation d'équivalents en langue anglaise, traduit à partir de proverbes kiswahili.

Introduction

Mais les chercheurs se sont rapidement rendu compte que la complexité d'un modèle n'était pas le seul facteur déterminant. Des capacités inattendues pouvaient être obtenues à partir de modèles plus petits avec moins de paramètres - ou formés sur des ensembles de données plus petits - si les données étaient d'une qualité suffisamment élevée. En outre, la formulation d'une requête influe sur la précision de la réponse du modèle. Par exemple, lorsque Dyer et ses collègues ont posé la question de l'emoji de film en utilisant un format à choix multiples, l'amélioration de la précision a été moins soudaine qu'avec une augmentation graduelle de sa complexité. L'année dernière, dans un article présenté à NeurIPS, réunion phare du domaine, des chercheurs de Google Brain ont montré comment un modèle invité à s'expliquer (capacité appelée raisonnement en chaîne) pouvait résoudre correctement un problème de mots mathématiques, alors que le même modèle sans cette invitation progressivement précisée n'y parvenait pas.

Yi Tay, scientifique chez Google Brain qui a travaillé sur l'étude systématique de ces percées, souligne que des travaux récents suggèrent que l'incitation par de pareilles chaînes de pensées modifie les courbes d'échelle et, par conséquent, le point où l'émergence se produit. Dans leur article sur NeurIPS, les chercheurs de Google ont montré que l'utilisation d'invites via pareille chaines de pensée progressives pouvait susciter des comportements émergents qui n'avaient pas été identifiés dans l'étude BIG-bench. De telles invites, qui demandent au modèle d'expliquer son raisonnement, peuvent aider les chercheurs à commencer à étudier les raisons pour lesquelles l'émergence se produit.

Selon Ellie Pavlick, informaticienne à l'université Brown qui étudie les modèles computationnels du langage, les découvertes récentes de ce type suggèrent au moins deux possibilités pour expliquer l'émergence. La première est que, comme le suggèrent les comparaisons avec les systèmes biologiques, les grands modèles acquièrent réellement de nouvelles capacités de manière spontanée. "Il se peut très bien que le modèle apprenne quelque chose de fondamentalement nouveau et différent que lorsqu'il était de taille inférieure", a-t-elle déclaré. "C'est ce que nous espérons tous, qu'il y ait un changement fondamental qui se produise lorsque les modèles sont mis à l'échelle.

L'autre possibilité, moins sensationnelle, est que ce qui semble être émergent pourrait être l'aboutissement d'un processus interne, basé sur les statistiques, qui fonctionne par le biais d'un raisonnement de type chaîne de pensée. Les grands LLM peuvent simplement être en train d'apprendre des heuristiques qui sont hors de portée pour ceux qui ont moins de paramètres ou des données de moindre qualité.

Mais, selon elle, pour déterminer laquelle de ces explications est la plus probable, il faut mieux comprendre le fonctionnement des LLM. "Comme nous ne savons pas comment ils fonctionnent sous le capot, nous ne pouvons pas dire laquelle de ces choses se produit.

Pouvoirs imprévisibles et pièges

Demander à ces modèles de s'expliquer pose un problème évident : Ils sont des menteurs notoires. Nous nous appuyons de plus en plus sur ces modèles pour effectuer des travaux de base", a déclaré M. Ganguli, "mais je ne me contente pas de leur faire confiance, je vérifie leur travail". Parmi les nombreux exemples amusants, Google a présenté en février son chatbot d'IA, Bard. Le billet de blog annonçant le nouvel outil montre Bard en train de commettre une erreur factuelle.

L'émergence mène à l'imprévisibilité, et l'imprévisibilité - qui semble augmenter avec l'échelle - rend difficile pour les chercheurs d'anticiper les conséquences d'une utilisation généralisée.

"Il est difficile de savoir à l'avance comment ces modèles seront utilisés ou déployés", a déclaré M. Ganguli. "Et pour étudier les phénomènes émergents, il faut avoir un cas en tête, et on ne sait pas, avant d'avoir étudié l'influence de l'échelle. quelles capacités ou limitations pourraient apparaître.

Dans une analyse des LLM publiée en juin dernier, les chercheurs d'Anthropic ont cherché à savoir si les modèles présentaient certains types de préjugés raciaux ou sociaux, à l'instar de ceux précédemment signalés dans les algorithmes non basés sur les LLM utilisés pour prédire quels anciens criminels sont susceptibles de commettre un nouveau délit. Cette étude a été inspirée par un paradoxe apparent directement lié à l'émergence : Lorsque les modèles améliorent leurs performances en passant à l'échelle supérieure, ils peuvent également augmenter la probabilité de phénomènes imprévisibles, y compris ceux qui pourraient potentiellement conduire à des biais ou à des préjudices.

"Certains comportements nuisibles apparaissent brusquement dans certains modèles", explique M. Ganguli. Il se réfère à une analyse récente des LLM, connue sous le nom de BBQ benchmark, qui a montré que les préjugés sociaux émergent avec un très grand nombre de paramètres. "Les grands modèles deviennent brusquement plus biaisés. Si ce risque n'est pas pris en compte, il pourrait compromettre les sujets de ces modèles."

Mais il propose un contrepoint : Lorsque les chercheurs demandent simplement au modèle de ne pas se fier aux stéréotypes ou aux préjugés sociaux - littéralement en tapant ces instructions - le modèle devient moins biaisé dans ses prédictions et ses réponses. Ce qui suggère que certaines propriétés émergentes pourraient également être utilisées pour réduire les biais. Dans un article publié en février, l'équipe d'Anthropic a présenté un nouveau mode d'"autocorrection morale", dans lequel l'utilisateur incite le programme à être utile, honnête et inoffensif.

Selon M. Ganguli, l'émergence révèle à la fois un potentiel surprenant et un risque imprévisible. Les applications de ces grands LLM prolifèrent déjà, de sorte qu'une meilleure compréhension de cette interaction permettra d'exploiter la diversité des capacités des modèles de langage.

"Nous étudions la manière dont les gens utilisent réellement ces systèmes", a déclaré M. Ganguli. Mais ces utilisateurs sont également en train de bricoler, en permanence. "Nous passons beaucoup de temps à discuter avec nos modèles, et c'est là que nous commençons à avoir une bonne intuition de la confiance ou du manque de confiance.

Auteur: Ornes Stephen

Info: https://www.quantamagazine.org/ - 16 mars 2023. Trad DeepL et MG

[ dialogue ] [ apprentissage automatique ] [ au-delà du jeu d'imitation ] [ dualité ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

Paramètres de recherches