intelligence artificielle

Les capacités imprévisibles des grands modèles d'IA

Les grands modèles de langage tels que ChatGPT sont aujourd'hui suffisamment importants pour commencer à afficher des comportements surprenants et imprévisibles. (...)

Au-delà de l'imitation

En 2020, Dyer et d’autres de Google Research ont prédit que les LLM auraient des effets transformateurs – mais la nature de ces effets restait une question ouverte. Ils ont donc demandé à la communauté des chercheurs de fournir des exemples de tâches difficiles et diverses afin de tracer les limites extérieures de ce qu'un LLM pouvait faire. Cet effort a été appelé projet Beyond the Imitation Game Benchmark (BIG-bench), inspiré du nom du " jeu d'imitation " d'Alan Turing, un test permettant de déterminer si un ordinateur peut répondre aux questions d'une manière humaine et convaincante. (Ceci deviendra plus tard connu sous le nom de test de Turing.) Le groupe s'est particulièrement intéressé aux exemples dans lesquels les LLM ont soudainement atteint de nouvelles capacités qui étaient complètement absentes auparavant.

"La façon dont nous comprenons ces transitions brusques est une grande question de recherche", a déclaré Dyer.

Comme on pouvait s'y attendre, sur certaines tâches, les performances d'un modèle se sont améliorées de manière fluide et prévisible à mesure que la complexité augmentait. Et sur d’autres tâches, l’augmentation du nombre de paramètres n’a apporté aucune amélioration. Mais pour environ 5 % des tâches, les chercheurs ont découvert ce qu’ils ont appelé des " percées " : des progrès rapides et spectaculaires dans les performances à une certaine échelle seuil. Ce seuil variait en fonction de la tâche et du modèle.

Par exemple, les modèles avec relativement peu de paramètres (quelques millions seulement) ne pouvaient pas résoudre avec succès les problèmes d’addition à trois chiffres ou de multiplication à deux chiffres, mais pour des dizaines de milliards de paramètres, la précision a augmenté dans certains modèles. Des sauts similaires se sont produits pour d'autres tâches, notamment le décodage de l'alphabet phonétique international, le déchiffrement des lettres d'un mot, l'identification du contenu offensant dans les paragraphes de Hinglish (une combinaison d'hindi et d'anglais) et la génération d'un équivalent anglais similaire des proverbes kiswahili.

Mais les chercheurs se sont vite rendu compte que la complexité d’un modèle n’était pas le seul facteur déterminant. Certaines capacités inattendues pourraient être extraites de modèles plus petits avec moins de paramètres – ou entraînées sur des ensembles de données plus petits – si les données étaient de qualité suffisamment élevée. De plus, la façon dont une requête était formulée influençait l’exactitude de la réponse du modèle. Lorsque Dyer et ses collègues l'ont fait avec la tâche des emoji de film via un format à choix multiples, par exemple, l'amélioration de la précision était moins un saut soudain qu'une augmentation progressive avec plus de complexité. Et l'année dernière, dans un article présenté à NeurIPS , la réunion phare du domaine, des chercheurs de Google Brain ont montré comment un modèle invité à s'expliquer (une capacité appelée raisonnement en chaîne de pensée) pouvait résoudre correctement un problème de mots mathématiques, alors que le même le modèle sans cette invite ne pourrait pas.

Yi Tay, un scientifique de Google Brain qui a travaillé sur l'enquête systématique sur les percées, souligne des travaux récents suggérant que l'incitation à la chaîne de pensée modifie les courbes d'échelle et donc le point où l'émergence se produit. Dans leur article NeurIPS, les chercheurs de Google ont montré que l'utilisation d'invites de chaîne de pensée pouvait susciter des comportements émergents non identifiés dans l'étude BIG-bench. De telles invites, qui demandent au modèle d’expliquer son raisonnement, pourraient aider les chercheurs à commencer à étudier les raisons pour lesquelles l’émergence se produit.

Des découvertes récentes comme celles-ci suggèrent au moins deux possibilités pour expliquer pourquoi l'émergence se produit, a déclaré Ellie Pavlick, une informaticienne à l'Université Brown qui étudie les modèles informatiques du langage. La première est que, comme le suggèrent les comparaisons avec les systèmes biologiques, les modèles plus grands acquièrent effectivement spontanément de nouvelles capacités. "Il se peut très bien que le mannequin ait appris quelque chose de fondamentalement nouveau et différent qu'il n'aurait pas pu apprendre dans une taille plus petite", a-t-elle déclaré. "C'est ce que nous espérons tous, qu'un changement fondamental se produit lorsque les modèles sont étendus."

L’autre possibilité, moins sensationnelle, dit-elle, est que ce qui semble émerger pourrait plutôt être le point culminant d’un processus interne, axé sur les statistiques, qui fonctionne selon un raisonnement de type chaîne de pensée. Les grands LLM peuvent simplement apprendre des heuristiques hors de portée pour ceux qui disposent de moins de paramètres ou de données de moindre qualité.

Mais, a-t-elle déclaré, déterminer laquelle de ces explications est la plus probable dépend d’une meilleure compréhension du fonctionnement des LLM. "Comme nous ne savons pas comment ils fonctionnent sous le capot, nous ne pouvons pas dire laquelle de ces choses se produit."

Pouvoirs et pièges imprévisibles

Il y a un problème évident à demander à ces modèles de s’expliquer : ce sont des menteurs notoires. " Nous comptons de plus en plus sur ces modèles pour effectuer le travail de base ", a déclaré Ganguli, « mais je ne me contente pas de leur faire confiance. Je vérifie leur travail. Comme exemple parmi de nombreux exemples amusants, Google a présenté en février son chatbot IA, Bard. Le billet de blog annonçant le nouvel outil montre que Bard fait une erreur factuelle .

L’émergence conduit à l’imprévisibilité, et l’imprévisibilité – qui semble augmenter avec l’échelle – rend difficile pour les chercheurs d’anticiper les conséquences d’une utilisation généralisée.

" Il est difficile de savoir à l'avance comment ces modèles seront utilisés ou déployés ", a déclaré Ganguli. "Et pour étudier des phénomènes émergents, vous devez avoir un cas en tête, et vous ne saurez pas avant d'avoir étudié l'influence de l'échelle quelles capacités ou limitations pourraient survenir."

Dans une analyse des LLM publiée en juin dernier, les chercheurs d'Anthropic ont examiné si les modèles montreraient certains types de préjugés raciaux ou sociaux, un peu comme ceux précédemment rapportés dans les algorithmes non basés sur LLM utilisés pour prédire quels anciens criminels sont susceptibles d'en commettre un autre. crime. Cette étude a été inspirée par un paradoxe apparent directement lié à l’émergence : à mesure que les modèles améliorent leurs performances lors de leur mise à l’échelle, ils peuvent également augmenter la probabilité de phénomènes imprévisibles, y compris ceux qui pourraient potentiellement conduire à des biais ou à des dommages.

"Certains comportements nuisibles apparaissent brusquement dans certains modèles", a déclaré Ganguli. Il cite une analyse récente des LLM, connue sous le nom de BBQ benchmark, qui a montré que les préjugés sociaux émergent avec un très grand nombre de paramètres. " Les modèles plus grands deviennent brusquement plus biaisés. " Ne pas prendre en compte ce risque, a-t-il ajouté, pourrait mettre en péril les sujets de ces modèles.

Mais il propose un contrepoint : lorsque les chercheurs ont simplement dit au modèle de ne pas s’appuyer sur des stéréotypes ou des préjugés sociaux – littéralement en tapant ces instructions – le modèle était moins biaisé dans ses prédictions et ses réponses. Cela suggère que certaines propriétés émergentes pourraient également être utilisées pour réduire les biais. Dans un article publié en février, l'équipe d'Anthropic a fait état d'un nouveau mode " d'autocorrection morale ", dans lequel l'utilisateur incite le programme à être utile, honnête et inoffensif.

L’émergence, a déclaré Ganguli, révèle à la fois un potentiel surprenant et des risques imprévisibles. Les applications de ces grands LLM prolifèrent déjà, donc une meilleure compréhension de cette interaction aidera à exploiter la diversité des capacités des modèles linguistiques.

"Nous étudions comment les gens utilisent réellement ces systèmes", a déclaré Ganguli. Mais ces utilisateurs bricolent aussi constamment. "Nous passons beaucoup de temps à discuter avec nos modèles", a-t-il déclaré, "et c'est en fait là que vous commencez à avoir une bonne intuition sur la confiance – ou son absence."

Auteur: Internet

Info: Quanta Magazine, Stephen Ornes, 16 mars 2023 - Les capacités imprévisibles des grands modèles d'IA Les grands modèles de langage tels que ChatGPT sont aujourd'hui suffisamment importants pour commencer à afficher des comportements surprenants et imprévisibles.

[ dépassement ]

 

Commentaires: 0

Ajouté à la BD par miguel

Commentaires

No comments