Citation
Catégorie
Tag – étiquette
Auteur
Info
Rechercher par n'importe quelle lettre



nb max de mots
nb min de mots
trier par
Dictionnaire analogique intriqué pour extraits... Recherche mots ou phrases tous azimuts... Outil de précision sémantique et de réflexion communautaire... Voir aussi la rubrique mode d'emploi. Jetez un oeil à la colonne "chaînes". ATTENTION, faire une REINITIALISATION après  une recherche complexe. Et utilisez le nuage de corrélats ... Lire la suite >>
Résultat(s): 1
Temps de recherche: 0.0253s

Intelligence artificielle

Les logiciels de chatbot commencent à être confrontés à des limites fondamentales

Des résultats récents montrent que les grands modèles de langage ont du mal à effectuer des tâches de composition, ce qui suggère une limite stricte à leurs capacités.

Le 17 décembre 1962, Life International a publié une énigme logique composée de 15 phrases décrivant cinq maisons sur une rue. Chaque phrase était un indice, comme " L'Anglais vit dans la maison rouge " ou " Le lait est bu dans la maison du milieu ". Chaque maison était d'une couleur différente, avec des habitants de nationalités différentes, possédant des animaux différents, et ainsi de suite. Le titre de l'article posait la question : " Qui possède le zèbre ? " Des problèmes comme celui-ci se sont révélés être une mesure des capacités — ou plutôt des limites — des modèles d'apprentissage automatique actuels.

Également connu sous le nom d'énigme ou de casse-tête d'Einstein (attribution probablement apocryphe), ce problème teste un certain type de raisonnement en plusieurs étapes. Nouha Dziri, chercheuse scientifique à l'Allen Institute for AI, et ses collègues ont récemment soumis des modèles de langage basés sur des transformers ( LLMs ), comme ChatGPT, à ce type de tâches — et les ont largement trouvés insuffisants. " Ils pourraient ne pas être capables de raisonner au-delà de ce qu'ils ont vu dans les données d'entraînement pour des tâches difficiles ", a déclaré Dziri. " Ou du moins, ils font une approximation, et cette approximation peut être erronée. "

L'énigme d'Einstein nécessite de composer une solution globale à partir de solutions à des sous-problèmes, ce que les chercheurs appellent une tâche compositionnelle. L'équipe de Dziri a montré que les LLMs, qui ont été entraînés uniquement à prédire le mot suivant dans une séquence — ce qui est le cas de la plupart d'entre eux — sont fondamentalement limités dans leur capacité à résoudre des tâches de raisonnement compositionnel. D'autres chercheurs ont montré que les transformers, l'architecture de réseau neuronal utilisée par la plupart des LLMs, ont des limites mathématiques strictes lorsqu'il s'agit de résoudre de tels problèmes. Les scientifiques ont obtenu quelques succès en repoussant ces limites, mais ces solutions semblent de plus en plus être des correctifs à court terme. Si c'est le cas, cela signifie qu'il existe des limites computationnelles fondamentales aux capacités de ces formes d'IAs — ce qui pourrait signifier qu'il est temps d'envisager d'autres approches.

" Ce travail est vraiment motivé par l'idée d'aider la communauté à décider si les transformers sont vraiment l'architecture que nous voulons adopter pour un apprentissage universel ", a déclaré Andrew Wilson, expert en apprentissage automatique à l'Université de New York, qui n'a pas participé à cette étude.

Le succès attire l'examen

Ironiquement, les LLMs ne doivent s'en prendre qu'à eux-mêmes pour cette découverte de l'une de leurs limites. " La raison pour laquelle nous nous sommes tous demandé s'ils faisaient un vrai raisonnement est due à leurs capacités impressionnantes ", a déclaré Dziri. Ils ont impressionné sur des tâches impliquant le langage naturel, malgré la simplicité apparente de leur entraînement. Pendant la phase d'entraînement, un LLM est exposé à un fragment de phrase avec le dernier mot masqué (bien que techniquement, ce ne soit pas toujours un seul mot). Le modèle prédit les informations manquantes, puis " apprend " de ses erreurs.

Les plus grands LLMs — OpenAI's o1 et GPT-4, Google's Gemini, Anthropic's Claude — s'entraînent sur presque toutes les données disponibles sur Internet. En conséquence, les LLMs finissent par apprendre la syntaxe et une grande partie des connaissances sémantiques du langage écrit. Ces modèles " pré-entraînés " peuvent être encore entraînés, ou affinés, pour accomplir des tâches sophistiquées bien au-delà de la simple complétion de phrases, comme résumer un document complexe ou générer du code pour jouer à un jeu vidéo. Les résultats étaient si puissants que les modèles semblaient, à certains moments, capables de raisonner. Pourtant, ils échouaient aussi de manière à la fois évidente et surprenante.

" Sur certaines tâches, ils performent incroyablement bien ", a déclaré Dziri. " Sur d'autres, ils sont étonnamment stupides. "

Prenons la multiplication de base. Les LLMs standards, comme ChatGPT et GPT-4, échouent lamentablement. Début 2023, lorsque l'équipe de Dziri a demandé à GPT-4 de multiplier deux nombres à trois chiffres, il n'a réussi que 59 % du temps. Lorsqu'il a multiplié deux nombres à quatre chiffres, la précision est tombée à seulement 4 %.

L'équipe a également testé les LLMs sur des tâches comme l'énigme d'Einstein, où ils ont également eu un succès limité. GPT-4 a toujours donné la bonne réponse lorsque le puzzle impliquait deux maisons avec deux attributs par maison. Mais la précision est tombée à 10 % lorsque la complexité du puzzle est passée à quatre maisons avec quatre attributs par maison. Pour la version originale de Life International — cinq maisons, chacune avec cinq attributs — le taux de réussite était de 0 %.

L'équipe de Dziri a pensé que peut-être les LLMs n'avaient tout simplement pas vu assez d'exemples dans leurs données d'entraînement, alors ils ont affiné GPT-3 sur 1,8 million d'exemples de multiplication de deux nombres. Ensuite, lorsqu'ils lui ont présenté de nouveaux problèmes, le LLM les a réussis — mais seulement s'ils étaient suffisamment similaires à ce qu'il avait vu pendant l'entraînement. Par exemple, les données d'entraînement incluaient la multiplication de deux nombres à trois chiffres, et d'un nombre à deux chiffres avec un nombre à quatre chiffres, mais lorsque le modèle a été interrogé sur la multiplication d'un nombre à quatre chiffres avec un nombre à trois chiffres, il n'a réussi que 2 % du temps. " S'ils raisonnent vraiment et comprennent certaines tâches, ils devraient saisir l'algorithme implicite ", a déclaré Dziri. Ce n'est pas ce que son équipe a observé. " Cela soulève beaucoup de questions sur la façon dont les LLMs accomplissent les tâches et s'ils font un vrai raisonnement. "

L'équipe a observé le même schéma pour résoudre l'énigme d'Einstein : GPT-3 a échoué lorsqu'on lui a demandé de résoudre des versions plus grandes du puzzle par rapport à celles sur lesquelles il avait été affiné. " Il imite quelque chose qu'il a vu, mais il n'en a pas une compréhension complète ", a déclaré Dziri.

Limites dures

Alors que Dziri et ses co-auteurs finalisaient leurs résultats, une autre équipe adoptait une approche différente pour comprendre pourquoi les LLMs avaient du mal avec les tâches compositionnelles. Binghui Peng, alors doctorant à l'Université de Columbia, travaillait avec l'un de ses directeurs de thèse, Christos Papadimitriou, et des collègues pour comprendre pourquoi les LLMs " hallucinent ", c'est-à-dire génèrent des informations factuellement incorrectes. Peng, maintenant chercheur postdoctoral à l'Université de Stanford, soupçonnait que c'était parce que les transformers semblaient manquer de la " capacité de composition ".

Pour comprendre pourquoi, imaginez que nous donnons à un LLM deux informations : Le père de Frédéric Chopin était Nicolas Chopin, et Nicolas Chopin est né le 15 avril 1771. Si nous lui demandons ensuite : " Quelle est la date de naissance du père de Frédéric Chopin ? ", le LLM devrait répondre en composant, ou en assemblant, les différents faits. En effet, il devrait répondre à la question imbriquée suivante : " Quelle est la date de naissance de (Qui est le père de (Frédéric Chopin) ? " Si le LLM prédit les mauvais mots comme réponse, on dit qu'il a halluciné — dans ce cas, peut-être à cause de son échec à résoudre la tâche compositionnelle.

Peng voulait tester cette intuition. Son équipe a commencé par étudier les propriétés d'un transformer simple, avec une seule couche, qui apprend à " prêter attention " à l'ordre et à la position des mots d'une phrase lorsqu'il essaie de prédire le mot suivant. (Les LLMs modernes ont des dizaines de telles couches.) L'équipe a établi un lien entre la complexité de la couche de transformer et la " taille du domaine ", c'est-à-dire le nombre de bits nécessaires pour représenter les questions. En se concentrant sur ce modèle simple, ils ont prouvé une limite mathématique. " Si le nombre total de paramètres dans ce transformer à une couche est inférieur à la taille d'un domaine, alors les transformers ne peuvent pas résoudre la tâche compositionnelle ", a déclaré Peng. En d'autres termes, un LLM avec une seule couche de transformer était clairement et mathématiquement limité.

Bien que ce soit un résultat théorique fort, ses implications pratiques n'étaient pas claires, car les LLMs modernes sont bien plus complexes. " Il n'est pas facile d'étendre notre preuve ", a déclaré Peng. Son équipe a donc utilisé une approche différente pour étudier les capacités des transformers plus complexes : ils se sont tournés vers la théorie de la complexité computationnelle, qui étudie les problèmes en termes de ressources, comme le temps et la mémoire, nécessaires pour les résoudre.

Pousser les limites

Pour être clair, ce n'est pas la fin des LLMs. Wilson de NYU souligne que malgré ces limites, les chercheurs commencent à améliorer les transformers pour les aider à mieux gérer, entre autres, l'arithmétique. Par exemple, Tom Goldstein, informaticien à l'Université du Maryland, et ses collègues ont ajouté une astuce à la façon dont ils présentaient les nombres à un transformer entraîné à additionner, en intégrant des informations " positionnelles " supplémentaires dans chaque chiffre. En conséquence, le modèle pouvait être entraîné sur des nombres à 20 chiffres et additionner de manière fiable (avec 98 % de précision) des nombres à 100 chiffres, alors qu'un modèle entraîné sans cette astuce n'était précis qu'à environ 3 %. " Cela suggère qu'il y a peut-être des interventions basiques que l'on pourrait faire ", a déclaré Wilson. " Cela pourrait vraiment faire progresser ces problèmes sans avoir à repenser toute l'architecture. "

Une autre façon de surmonter les limites d'un LLM, au-delà de simplement augmenter la taille du modèle, est de fournir une solution étape par étape d'un problème dans l'invite, une technique connue sous le nom de chain-of-thought prompting. Des études empiriques ont montré que cette approche peut donner à un LLM comme GPT-4 une nouvelle capacité à résoudre des tâches plus variées. Il n'est pas tout à fait clair pourquoi, ce qui a poussé de nombreux chercheurs à étudier ce phénomène. " Nous étions curieux de savoir pourquoi c'est si puissant et pourquoi on peut faire tant de choses ", a déclaré Haotian Ye, doctorant à l'Université de Stanford.

Lorsque Ye était encore étudiant à l'Université de Pékin, lui et ses collègues ont modélisé le comportement des transformers avec et sans chain-of-thought prompting. Leur preuve, utilisant une autre branche de l'informatique appelée théorie de la complexité des circuits, a établi comment le chain-of-thought prompting transforme essentiellement un grand problème en une séquence de problèmes plus petits, permettant aux transformers de s'attaquer à des tâches compositionnelles plus complexes. " Cela signifie... qu'il peut résoudre certains problèmes qui se trouvent dans une classe computationnelle plus large ou plus difficile ", a déclaré Ye.

Mais Ye met en garde : leur résultat n'implique pas que les modèles du monde réel résoudront réellement de tels problèmes difficiles, même avec le chain-of-thought. Le travail s'est concentré sur ce qu'un modèle est théoriquement capable de faire ; les spécificités de la façon dont les modèles sont entraînés dictent comment ils peuvent atteindre cette limite supérieure.

En fin de compte, aussi impressionnants que soient ces résultats, ils ne contredisent pas les conclusions des équipes de Dziri et Peng. Les LLMs correspondent fondamentalement aux modèles qu'ils ont vus, et leurs capacités sont limitées par des frontières mathématiques. Les astuces d'incorporation et le chain-of-thought prompting étendent simplement leur capacité à faire des correspondances de modèles plus sophistiquées. Les résultats mathématiques impliquent que vous pouvez toujours trouver des tâches compositionnelles dont la complexité dépasse les capacités d'un système donné. Même certains modèles plus récents, comme les " modèles à espace d'états ", qui ont été présentés comme des alternatives plus puissantes aux transformers, montrent des limites similaires.

D'un côté, ces résultats ne changent rien pour la plupart des gens qui utilisent ces outils. " Le grand public ne se soucie pas de savoir s'ils raisonnent ou non ", a déclaré Dziri. Mais pour les personnes qui construisent ces modèles et essaient de comprendre leurs capacités, cela compte. " Nous devons vraiment comprendre ce qui se passe sous le capot ", a-t-elle déclaré. " Si nous comprenons comment ils accomplissent une tâche et comment ils raisonnent, nous pouvons probablement les améliorer. Mais si nous ne savons pas, c'est là que c'est vraiment difficile de faire quoi que ce soit. "




Auteur: Internet

Info: https://www.quantamagazine.org/chatbot-software-begins-to-face-fundamental-limitations-20250131/, Anil Ananthaswamy, 31 janv 2025

[ larges modèles de langage ] [ frontières cognitives ] [ limites architecturales ] [ données massives ]

 

Commentaires: 0

Ajouté à la BD par miguel