Les fils de la pensée

neurologie

Construire de meilleures cartes mentales

Des techniques innovantes d'analyse de la fonction et de la structure cérébrales révèlent des détails remarquables de l'architecture neuronale, offrant ainsi de nouvelles pistes pour le diagnostic et le traitement des maladies cérébrales.

Bien que le cerveau humain soit un objet de fascination scientifique depuis des siècles, nous ne faisons qu'effleurer la surface en termes de compréhension de sa fonctionnalité et de sa complexité. Nous connaissons bien les zones fonctionnelles générales du cerveau, mais la manière dont ce réseau interconnecté de neurones traite et transmet les informations pour donner naissance à la pensée et à la mémoire reste un domaine de recherche très actif.

L'étude du fonctionnement du cerveau au niveau physiologique fondamental est l'un des domaines de recherche les plus difficiles, nécessitant de nouvelles méthodes d'expérimentation et de détection de l'activité cérébrale à l'échelle neuronale. Les progrès récents des techniques d'imagerie cérébrale et la compréhension de la structure fine du cerveau ont permis d'explorer les fonctions cérébrales d'une nouvelle manière. Ces découvertes ont des répercussions sur la santé du cerveau et l'intelligence artificielle.

Cerveau/ESPRITS et au-delà

Les projets japonais Brain Mapping by Integrated Neurotechnologies for Disease Studies (Brain/MINDS) et Strategic International Brain Science Research Promotion Program (Brain/MINDS Beyond), qui font partie de plusieurs projets nationaux de recherche à grande échelle sur le cerveau lancés ces dernières années dans le monde entier, visent à étudier les circuits neuronaux qui sous-tendent les fonctions cérébrales supérieures. Il s'agit d'initiatives nationales auxquelles participent des dizaines d'institutions, chacune spécialisée dans un domaine particulier de l'étude du cerveau.

L'étude des primates non humains à l'Université de Tokyo et à l'Institut national des sciences et technologies quantiques (QST) est un domaine qui apporte de nouvelles connaissances sur l'architecture du cerveau.

"Lorsqu'il s'agit de comprendre le cerveau humain et les troubles qui peuvent l'affecter, seuls les autres primates partagent nos fonctions supérieures, telles qu'un cortex visuel hiérarchisé et un cortex préfrontal hautement développé responsable de la fonction exécutive et de la prise de décision", explique Takafumi Minamimoto, qui dirige le groupe des systèmes et circuits neuronaux du département d'imagerie cérébrale fonctionnelle de l'Institut national des sciences et technologies quantiques.

"La recherche sur le cerveau des primates est difficile et coûteuse, mais indispensable. Elle nous permet de mieux comprendre le fonctionnement du cerveau, ce qui peut nous aider à comprendre et à traiter les troubles cérébraux chez l'homme".

L'équipe de Minamimoto se concentre sur le développement de méthodes plus précises d'analyse des fonctions cérébrales. Leur plus grande réussite a été la mise au point d'une méthode chimiogénétique pour désactiver l'activité cérébrale au niveau d'un neurone unique, combinée à la tomographie par émission de positrons (TEP) - une technique d'imagerie pour des molécules spécifiques. Cela a permis de visualiser non seulement l'activité des neurones des primates, mais aussi leur connexion avec d'autres zones du cerveau.

"Avec la chimiogénétique, nous injectons une solution virale inoffensive dans une zone spécifique du cerveau pour modifier génétiquement les neurones afin de les rendre sensibles à un produit chimique suppresseur", explique Minamimoto. "Nous pouvons ensuite injecter le suppresseur afin d'éteindre les neurones modifiés pendant plusieurs heures".

L'équipe a récemment mis au point un produit chimique suppresseur 100 fois plus efficace, ce qui lui permet d'injecter de minuscules doses de ce suppresseur pour affecter sélectivement des groupes individuels de neurones et leurs connexions axonales. Ils ont utilisé cette technique pour réduire au silence des connexions spécifiques afin de découvrir les circuits responsables de la mémoire de travail et de la prise de décision.

Cette approche est également prometteuse pour le traitement des troubles cérébraux chez l'homme. Par exemple, comme modèle potentiel de traitement chez l'homme, le groupe a récemment rapporté que la chimiogénétique peut supprimer les crises d'épilepsie chez les macaques.

Le système visuel

Une autre équipe, située à l'université de Tokyo et dirigée par Kenichi Ohki, étudie la manière dont les informations visuelles sont traitées chez les primates, dont le cortex visuel est très développé et hiérarchisé. Les recherches du groupe sur les ouistitis utilisent une technique d'imagerie calcique à haute sensibilité qui permet de visualiser la façon dont des parties spécifiques du cerveau réagissent à différents stimuli.

"L'imagerie au calcium est une technique utilisée depuis longtemps pour observer le fonctionnement du cerveau chez les souris, mais elle n'était pas assez sensible pour visualiser des groupes discrets de neurones chez les primates avec la même qualité que chez les souris", explique M. Ohki. "En collaboration avec Tetsuo Yamamori du RIKEN, nous avons mis au point une méthode améliorée qui a augmenté de manière significative l'expression de la protéine fluorescente GCaMP6 dans le cerveau des primates, ce qui, combiné à l'imagerie à deux photons basée sur le laser, nous permet de visualiser l'activité des neurones avec une étonnante précision dans des détails.

Le système visuel représente plus de la moitié du cortex cérébral chez les primates et se constitue vie une hiérarchie élaborée d'étapes de traitement de l'information. Il existe des zones distinctes qui traitent les motifs et les angles, par exemple, et les recherches d'Ohki ont montré que les neurones se déclenchent selon des schémas coordonnés sensibles à ces différents stimuli, avec des fonctionnalités différentes au niveau cellulaire.

"L'une des conclusions fascinantes de nos travaux est que la hiérarchie du système visuel semble traiter le bruit dans une direction opposée à celle dont les réseaux neuronaux artificiels traitent généralement les stimuli sonores", explique Ohki. "Il serait intéressant de construire un réseau neuronal artificiel qui permette une telle méthode de traitement du bruit dans le système visuel des primates.

Le groupe de recherche d'Ohki étudie en détail la façon dont le bruit est traité dans ces connexions cortico-corticales, qui semblent fondamentales pour le fonctionnement du cerveau chez les primates. Ces connexions peuvent également expliquer la plasticité du cerveau et la façon dont différentes zones peuvent être enrôlées pour le traitement de l'information si la connexion primaire est entravée.

"Par exemple, nous avons découvert que le développement du système visuel se produit chez le nouveau-né à la suite d'une activité ondulatoire à travers la rétine, qui stimule les connexions thalamo-corticales qui construisent cette structure hiérarchique", explique Ohki4.

Sans ces stimuli, les connexions ne peuvent pas se développer du cortex visuel primaire vers le cortex visuel supérieur. Par ailleurs, si ces connexions ne se développent pas, on peut s'attendre à ce que des connexions alternatives soient établies à partir d'autres zones, telles que le cortex somatosensoriel, vers le cortex visuel supérieur. Ohki suggère que cela pourrait également expliquer comment les patients aveugles utilisent le cortex visuel pour "lire" le braille, bien qu'il s'agisse d'une fonction tactile.

"Les résultats de nos études sur les primates fournissent des indications précieuses sur les troubles neuropsychiatriques humains, en particulier ceux qui sont liés à une mauvaise communication dans le cerveau. Nos techniques seront utiles pour orienter la recherche spécifique et transposer les connaissances des primates à l'homme", déclare M. Minamimoto.

"Nous espérons partager ces connaissances et cette technologie avec le monde entier et collaborer avec d'autres groupes pour faire avancer ce domaine important de la recherche sur le cerveau.

Auteur: Internet

Info: https://www.nature.com, article publicitaire, Réf : Nagai, Y. et al. Nat. Comm. 7, 13605 (2016), Neuro. 23, 1157-1167 (2020), Miyakawa, N. et al. Nat 608, 578-585 (2022). Comm. 14, 971 (2023)

[ visualisation ] [ primatocentrisme ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

perception humaine

Les schémas mathématiques secrets révélés par la musique de Bach

Le compositeur baroque allemand Jean Sébastien Bach a produit une musique si bien structurée qu'elle est souvent comparée aux maths. Bien que peu d'entre nous soient émotionnellement affectés par les mathématiques, les œuvres de Bach - et la musique en général - nous émeuvent. C'est plus que du son ; c'est un message. Désormais, grâce aux outils de la théorie de l'information, les chercheurs commencent à comprendre comment la musique de Bach fait passer ce message.

En faisant de ses partitions de simples réseaux de points, appelés nœuds, reliés par des lignes, nommeés bords, les scientifiques ont quantifié les informations véhiculées par des centaines de compositions de Bach. Analyse de ces réseaux musicaux publiée le 2 février dans Physical Review Research qui révèle que les nombreux styles musicaux de Bach, tels que les chorales et les toccatas, différaient considérablement dans la quantité d'informations qu'ils communiquaient - et que certains réseaux musicaux contenaient des structures qui pouvaient faciliter la compréhension de leurs messages par les auditeurs humains.

" Je trouve cette idée vraiment cool ", explique le physicien Suman Kulkarni de l’Université de Pennsylvanie, auteur principal de la nouvelle étude. " Nous avons utilisé des outils de la physique sans faire d’hypothèses sur les pièces musicales, en commençant par cette simple représentation et en voyant ce qui peut nous dire sur les informations qui sont transmises. "

Les chercheurs ont quantifié le contenu de toute cette information, des séquences simples aux réseaux enchevêtrés, utilisant le concept d'entropie de l'information, introduit par le mathématicien Claude Shannon en 1948.

Comme son nom l'indique, l'entropie de l'information est mathématiquement et conceptuellement liée à l'entropie thermodynamique. Elle peut être considérée comme une mesure du degré de surprise d'un message - "message" qui peut être tout ce qui transmet des informations, d'une séquence de nombres à un morceau de musique. Cette perspective peut sembler contre-intuitive, étant donné que, dans le langage courant, l'information est souvent assimilée à la certitude. Mais l'idée clé de l'entropie de l'information est qu'apprendre quelque chose que l'on sait déjà n'est pas apprendre du tout.

Une conversation avec une personne qui ne sait exprimer qu'une chose, comme le personnage Hodor dans la série télévisée Game of Thrones, qui dit seulement " Hodor ", sera prévisible mais pas informationelle. Une discussion avec Pikachu sera un peu meilleure ; le Pokémon ne peut dire que les syllabes de son nom, mais il peut les réarranger, contrairement à Hodor. De même, une pièce de musique ne comportant qu'une seule note sera relativement facile à "apprendre" par le cerveau, c'est-à-dire à reproduire avec précision sous la forme d'un modèle mental, mais le morceau aura du mal à faire passer un quelconque message. Regarder un jeu de pile ou face avec une pièce à deux têtes ne donnera aucune information.

Bien sûr, envoyer un message plein d'informations n'est pas très bon si le quelque chose - ou qui que ce soit - qui le reçoit ne peut comprendre avec précision ces informations. Et quand il s'agit de messages musicaux, les chercheurs travaillent encore sur la façon dont nous apprenons ce que la musique essaie de nous dire.

" Il existe quelques théories différentes ", explique le cognitiviste Marcus Pearce de l’université Queen Mary de Londres, qui n’a pas participé à la récente étude de la recherche sur l’évaluation physique. " La principale, je pense, en ce moment, est basée sur l’apprentissage probabiliste. Dans ce cadre, "apprendre" la musique signifie construire des représentations mentales précises des sons réels que nous entendons - ce que les chercheurs appellent un modèle - par un jeu d'anticipation et de surprise. Nos modèles mentaux prédisent la probabilité qu'un son donné vienne ensuite, sur la base de ce qui a précédé. Ensuite, explique M. Pearce, " on découvre si la prédiction était juste ou fausse, et on peut alors mettre à jour son modèle en conséquence".

Kulkarni et ses collègues sont physiciens, pas musiciens. Ils voulaient utiliser les outils de la théorie de l'information pour explorer la musique à la recherche de structures d'information qui pourraient avoir quelque chose à voir avec la façon dont les humains glanent un sens de la mélodie.

Ainsi Kulkarni a transformé 337 compositions de Bach en bandes de nœuds interconnectés et calculé l'entropie de l'information des réseaux qui en résultent. Dans ces réseaux, chaque note de la partition d'origine est un noeud, et chaque transition entre notes est un pont. Par example, si une pièce inclut une note Mi suivie d'un Do et d'un Sol joués ensemble, le noeud représentant E sera relié aux noeuds représentant Do et Sol.

Les réseaux de ce notation transitions dans la musique de Bach ont générés plus de poinçon d'information que des réseaux de même taille générés aléatoirement - le résultat d'une plus grande variation dans les degrés nodaux des réseaux, c'est-à-dire le nombre d'arêtes connectées à chaque nœud. En outre, les scientifiques ont découvert des variations dans la structure de l'information et le contenu des nombreux styles de composition de Bach. Les chorals, hymnes destinés à être chanté, ont donné lieu à des réseaux relativement pauvres en informations, bien que plus riches en informations que les réseaux de même taille générés de manière aléatoire. Les toccatas et les préludes, styles musicaux souvent écrits pour des instruments à clavier tels que l'orgue, le clavecin et le piano, présentant une entropie de l'information plus élevée.

" J’ai été particulièrement excité par les niveaux plus élevés de surprises dans les toccatas que dans les œuvres chorales ", explique le co-auteur de l’étude et physicien Dani Bassett de l’Université de Pennsylvanie. " Ces deux types de pièces sonnent et résonnent différement dans mes os, et ça m'a passionné de voir que cette distinction se manifeste dans l'information de composition. "

Ces structures de réseau dans les compositions de Bach pourraient également permettre aux auditeurs humains d'apprendre plus facilement certaines choses. Les humains n'apprennent pas parfaitement les réseaux. Nous avons des préjugés, dit Bassett. " Nous ignorons en quelque sorte certaines des informations locales au profit de la vue d’une image plus grande de l’information sur l’ensemble du système ", ajoute-t-ils. En modélisant ce biais dans la façon dont nous construisons nos modèles mentaux de réseaux complexes, les chercheurs ont comparé l'ensemble des informations de chaque réseau musical à la quantité d'informations qu'un auditeur humain en tirerait.

Des réseaux musicaux contenaient des groupes de transitions de notes pourraient aider nos cerveaux biaisés " apprendre " la musique - à reproduire la structure informationnelle de la musique avec précision en tant que modèle mental - sans sacrifier beaucoup d'informations.

" La façon dont elles saisissent l’aptitude à l’apprentissage est assez intéressante ", déclare Peter Harrison de l’Université de Cambridge, qui n’a pas participé à l’étude. " C'est très réducteur dans un certain sens. Mais c'est tout à fait complémentaire avec d'autres théories que nous connaissons, et l'aptitude à apprendre est assez difficile à maîtriser ".

Ce type d'analyse de réseau n'est pas particulier à Bach et il pourrait fonctionner pour n'importe quel compositeur. Pearce dit qu'il sera intéressant d'utiliser cette approche pour comparer différents compositeurs ou rechercher des tendances informatives à travers l'histoire de la musique. Pour sa part, Kulkarni est excité à l'idée d'analyser les propriétés d'information de partitions d'au-delà de la tradition musicale occidentale.

La musique n'est pas seulement une séquence de notes, note cependant Harrison. Le rythme, le volume, le timbre des instruments, ces éléments sont des aspects importants des messages musicaux qui n'ont pas été pris en compte dans cette étude. Kulkarni dit qu'il sera intéressé par l'inclusion de ces aspects de la musique dans ses réseaux. Le processus pourrait également fonctionner dans l'autre sens, ajoute M. Harrison : plutôt que réduire les caractéristiques musicales à un réseau, il sera intéressant de savoir comment les caractéristiques du réseau se traduisent par des éléments qu'un musicien reconnaîtrait.

Un musicien dira : " Quelles sont les règles musicales réelles, ou les caractéristiques musicales, qui en sont à l’origine ? Puis-je l’entendre sur un piano ? " précise Harrison.

Enfin, on ne sait pas encore exactement comment les modèles de réseaux identifiés dans la nouvelle étude se traduisent dans l'expérience vécue à l'écoute d'un morceau de Bach - ou de n'importe quelle musique, précise M. Pearce. La résolution de ce problème relèvera de la psychologie musicale, poursuit-il. Des expériences pourraient révéler "si, de fait, ce genre de choses est perceptible par les gens et quels sont leurs effets sur le plaisir que les gens éprouvent lorsqu'ils écoutent de la musique". De même Harrison se dit intéressé par des expériences visant à vérifier si les types d'erreurs d'apprentissage en réseau que les chercheurs ont modélisés dans cette étude sont réellement importants pour l'apprentissage de la musique.

"Le fait que les humains présentent ce type de perception imparfaite et biaisée de systèmes informationnels complexes est essentiel pour comprendre comment nous nous impliquons dans la musique", explique M. Bassett. "Comprendre la complexité informationnelle des compositions de Bach ouvre de nouvelles questions sur les processus cognitifs qui sous-tendent la manière dont nous apprécions les différents types de musique."

Auteur: Internet

Info: https://www.scientificamerican.com, 16 féb 2024. Elise Cutts - Secret Mathematical Patterns Revealed in Bach's Music

[ sentiment naturel ] [ approfondissement découverte ] [ dépaysement plaisir ] [ cybernétisation ] [ simple compliqué ] [ occulte harmonie ]

Commenter

Commentaires: 1

Ajouté à la BD par Le sous-projectionniste

mimétisme

La surexposition a déformé la science des neurones miroirs

Après une décennie passée à l’écart des projecteurs, les cellules cérébrales autrefois censées expliquer l’empathie, l’autisme et la théorie de l’esprit sont en train d’être affinées et redéfinies.

Au cours de l'été 1991, le neuroscientifique Vittorio Gallese étudiait la représentation du mouvement dans le cerveau lorsqu'il remarqua quelque chose d'étrange. Lui et son conseiller de recherche, Giacomo Rizzolatti, de l'Université de Parme, suivaient les neurones qui devenaient actifs lorsque les singes interagissaient avec certains objets. Comme les scientifiques l'avaient déjà observé, les mêmes neurones se déclenchaient lorsque les singes remarquaient les objets ou les ramassaient.

Mais ensuite, les neurones ont fait quelque chose auquel les chercheurs ne s'attendaient pas. Avant le début officiel de l'expérience, Gallese a saisi les objets pour les montrer à un singe. À ce moment-là, l’activité a augmenté dans les mêmes neurones qui s’étaient déclenchés lorsque le singe avait saisi les objets. C’était la première fois que quelqu’un observait des neurones coder des informations à la fois pour une action et pour un autre individu effectuant cette action.

Ces neurones firent penser à un miroir aux chercheurs : les actions observées par les singes se reflétaient dans leur cerveau à travers ces cellules motrices particulières. En 1992, Gallese et Rizzolatti ont décrit pour la première fois ces cellules dans la revue Experimental Brain Research , puis en 1996 les ont nommées " neurones miroirs " dans Brain.

Les chercheurs savaient qu’ils avaient trouvé quelque chose d’intéressant, mais rien n’aurait pu les préparer à la réaction du reste du monde. Dix ans après la découverte, l’idée d’un neurone miroir était devenue un des rare concept neuroscientifique capable de captiver l’imagination du public. De 2002 à 2009, des scientifiques de toutes disciplines se sont joints aux vulgarisateurs scientifiques pour faire sensation sur ces cellules, leur attribuant davantage de propriétés permettant d'expliquer des comportements humains aussi complexes que l'empathie, l'altruisme, l'apprentissage, l'imitation, l'autisme et la parole.

Puis, presque aussi rapidement que les neurones miroirs ont émergé les doutes scientifiques quant à leur pouvoir explicatif. En quelques années, ces cellules de célébrités ont été classées dans le tiroir des découvertes prometteuses pas à la hauteur des espérances.

Pourtant, les résultats expérimentaux originaux sont toujours valables. Les neurones du cortex prémoteur et des zones cérébrales associées reflètent des comportements. Même s'ils n'expliquent pas facilement de vastes catégories de l'expérience humaine, les neurones miroirs " sont vivants et actifs ", a déclaré Gallese.

Aujourd'hui, une nouvelle génération de neuroscientifiques sociaux relance les travaux pour étudier comment les neurones dotés de propriétés miroir dans tout le cerveau codent le comportement social.

L'ascension et la chute

Les neurones miroirs ont d'abord fasciné par le fait qu'ils n'étaient pas du tout à leur place. Dans une zone du cerveau dédiée à la planification motrice, on trouvait des cellules aux propriétés uniques qui réagissaient pendant la perception. En outre, les chercheurs de Parme ont interprété leurs résultats comme une preuve de ce que l'on appelle la "compréhension de l'action" dans le cerveau : Ils affirmaient que les singes pouvaient comprendre ce que faisait un autre individu et que cette intuition était résolue dans une seule cellule.

Le neurone miroir était donc un " moyen immédiatement accessible pour expliquer un mécanisme bien plus complexe ", a déclaré Luca Bonini, professeur de psychobiologie à l'Université de Parme qui n'a pas participé à l'étude originale. Galvanisés par cette interprétation, les chercheurs ont commencé à projeter leur " compréhension " sur un nombre illimité de cellules qui semblaient semblables à des miroirs.

Cette fanfare enthousiaste faussa l’étude des neurones miroirs et perturba la carrière des chercheurs.

Au début des années 2000, le spécialiste des sciences cognitives Gregory Hickok de l'Université de Californie à Irvine a découvert que les neurones des zones motrices du cerveau liées à la production de la parole devenaient actifs lorsque les participants écoutaient la parole. Bien que cette découverte ne soit pas choquante – " c’est exactement ainsi que fonctionne le système ", déclara Hickok – d’autres scientifiques ont commencé à visualiser ses résultats sous l'angle des neurones miroir. Il savait que cette théorie ne pouvait pas s'appliquer à son travail. D’autres encore ont suggéré que lorsque les auditeurs percevaient la parole, les neurones du cortex moteur " reflétaient " ce qu’ils entendaient.

(Photo : Gregory Hickok étudie les circuits neurologiques impliqués dans la parole. Ses doutes sur la théorie des neurones miroirs l'ont amené à devenir l'adversaire scientifique de Vittorio Gallese et lui ont valu un contrat pour le livre Le Mythe des neurones miroirs – " dont le titre n'était vraiment pas juste ", selon Gallese.)

Pour bien se positionner, Hickok commença par dire au début de ses exposés de recherche que son travail n'avait rien à voir avec les neurones miroirs – un choix qui le plaça par inadvertance au centre du débat. En 2009, le rédacteur en chef du Journal of Cognitive Neuroscience invita Hickok à rédiger une critique de cette théorie. Il utilisa la parole comme test pour réfuter l'affirmation grandiose selon laquelle les neurones miroirs du cortex moteur permettaient à un singe de comprendre les actions d'un autre. Si, selon Hickok, il existe un mécanisme neuronal unique qui code la production d’une action et la compréhension de cette action, alors les dommages causés à ce mécanisme devraient empêcher les deux de se produire. Hickok a rassemblé un dossier d'études montrant que les dommages causés aux zones de production de la parole ne perturbaient pas la compréhension de la parole. Les données, écrit-il, " démontrent sans équivoque que la théorie des neurones miroirs sur la perception de la parole est incorrecte, quelle que soit sa présentation ».

Critique qui conduisit à un livre puis en 2015, à une invitation à débattre publiquement avec Gallese au Centre pour l'esprit, le cerveau et la conscience de l'Université de New York. Partageant la scène pour la première fois, les deux scientifiques distingués échangèrent des points de vue concurrents avec quelques légères taquineries, suivies de sourires autour de quelques bières.

Si cette confrontation s'est déroulée à l'amiable, il n'en fut pas de même des réactions à l'engouement pour les neurones miroirs. Aujourd’hui, Gallese reste surpris par " l’acrimonie " à laquelle il fut confronté au sein de la communauté scientifique. " Je ne pense pas que quiconque ait été scruté aussi profondément que nous ", dit-il. Et l’effet sur l’étude de ces cellules cérébrales fut profond. Dans les années qui ont suivi le débat à New York, les neurones miroirs disparurent du discours scientifique. En 2013, au plus fort du battage médiatique, les scientifiques ont publié plus de 300 articles portant le titre " neurone miroir ". En 2020, ce nombre avait diminué de moitié, pour atteindre moins de 150.

Le neurone miroir, redéfini

Cet épisode est représentatif de la manière dont l'enthousiasme suscité par certaines idées peut transformer le cours de leurs recherches. Gallese a attribué le déclin des études sur les neurones miroirs à la peur collective et à l'autocensure. " Les chercheurs craignent que s'ils évoquent l'étiquette neurones miroirs, l'article pourrait être rejeté ", a-t-il déclaré.

En conséquence, les chercheurs ont adopté une terminologie différente – " réseau d’activation d’action ", par exemple – pour expliquer les mécanismes miroirs dans le cerveau. Le terme " neurone miroir " est également devenu obscur. Au début, sa définition était claire : c'était une cellule motrice qui tirait lors d'un mouvement et également lors de la perception d'un mouvement identique ou similaire. Cependant, à mesure que les chercheurs utilisaient ce terme pour expliquer les phénomènes sociaux, la définition devenait lourde au point de devenir une " théorie invérifiable ", a déclaré Hickok.

Aujourd’hui, après une période de réflexion, les neuroscientifiques sociaux extraient les cellules de la boue biologique. En regardant au-delà des zones motrices du cerveau, ils découvrent ce qui ressemble étrangement à des neurones miroirs. L'année dernière, une équipe de l'Université de Stanford a rapporté dans Cell la découverte de neurones qui reflètent l'agressivité chez la souris. Cette suite de cellules se déclenchait à la fois lorsqu’une souris se comportait de manière agressive et lorsqu’elle regardait les autres se battre. Parce que les cellules sont devenues actives dans les deux contextes, les chercheurs ont suggéré qu’elles seraient des neurones miroirs.

"C'était le premier exemple démontrant l'existence de neurones miroirs associés à un comportement social complexe", a déclaré Emily Wu, professeur adjoint de neurologie à l'Université de Californie à Los Angeles, qui n'a pas participé à la recherche.

Cette découverte s’ajoute à un nombre croissant de preuves selon lesquelles les neurones situés au-delà du cortex prémoteur ont des propriétés miroir lorsque deux animaux interagissent socialement. Ces mêmes cellules se déclenchent lors d’actions ou d’émotions personnelles et en réponse au fait de voir d’autres vivre les mêmes expériences.

Techniquement, selon la définition originale, ces cellules ne sont pas des neurones miroirs, a déclaré Hickok : Les neurones miroirs sont des cellules motrices, pas des cellules sociales. Cependant, Wu ne se soucie pas des définitions. Plutôt que débattre de ce qui est ou non un neurone miroir, elle pense qu'il est plus important de cataloguer les propriétés fonctionnelles du miroir qui caractérisent les cellules, où qu'elles se trouvent dans le cerveau.

L’objectif serait de décrire l’étendue de ces neurones et comment, au niveau électrophysiologique, ils se comportent de manière unique. Ce faisant, ces scientifiques dissipent le nuage de battage médiatique autour de la vision de ces cellules telles qu’elles sont réellement.

Auteur: Internet

Info: https://www.quantamagazine.org/ - Meghan Willcoxon, 2 avril 2024

[ pulsions partagées ] [ actions symboles ]

Commenter

Commentaires: 0

Ajouté à la BD par Le sous-projectionniste

macromolécules

(Q) - Combien de protéines ont été identifiées à ce jour ?

(R) - À la date d'arrêt de mes connaissances, en septembre 2021, le nombre de protéines identifiées dans le protéome humain et dans divers organismes ne cesse de croître en raison des efforts de recherche continus. Il est difficile de fournir un chiffre exact car l'identification des protéines est un domaine actif de la recherche scientifique et de nouvelles protéines sont découvertes en permanence.

Toutefois, à cette époque, on estimait que le protéome humain se composait de dizaines de milliers de protéines. Le projet du protéome humain (HPP), une initiative de recherche internationale, vise à identifier et à caractériser toutes les protéines codées par le génome humain. Le HPP a réalisé des progrès significatifs dans la cartographie du protéome humain, mais une couverture complète est encore en cours.

Il est important de noter que le nombre de protéines identifiées varie en fonction de l'organisme étudié. Il existe des millions de séquences de protéines connues dans divers organismes, y compris les humains, les animaux, les plantes, les bactéries et les virus.

Comme mes connaissances ne sont pas à jour, je recommande de se référer à la littérature scientifique actuelle ou à des bases de données telles que UniProt ou Protein Data Bank (PDB) pour obtenir les informations les plus précises et les plus récentes sur le nombre de protéines identifiées.

(Q) - Comment les protéines sont-elles classées ?

(R) - Les protéines sont classées en fonction de divers critères, notamment leur structure, leur fonction et leurs relations évolutives. Voici quelques méthodes de classification des protéines couramment utilisées :

1 Classification structurelle : Les protéines peuvent être classées en fonction de leurs caractéristiques structurelles. Le système de classification structurelle le plus courant est la classification structurelle des protéines (SCOP) ou la base de données CATH (Class, Architecture, Topology, Homologous superfamily). Ces systèmes classent les protéines dans des hiérarchies en fonction de leur pliage global, de l'organisation des domaines et des motifs structurels.

2 Classification fonctionnelle : Les protéines peuvent être classées en fonction de leurs fonctions biologiques. Cette classification est souvent large et englobe des catégories fonctionnelles telles que les enzymes, les transporteurs, les récepteurs, les protéines structurelles, les protéines de signalisation et bien d'autres encore. Les systèmes de classification fonctionnelle sont généralement basés sur le rôle de la protéine dans les processus cellulaires.

3 Classification basée sur l'homologie : Les protéines peuvent être classées sur la base de leurs relations évolutives et de leurs similitudes de séquence. Cette classification repose sur la comparaison des séquences protéiques et l'identification des protéines homologues qui partagent un ancêtre commun. Elle est généralement réalisée à l'aide d'algorithmes tels que BLAST (Basic Local Alignment Search Tool) ou HMM (Hidden Markov Models).

4 Classification selon l'ontologie des gènes (GO) : L'ontologie des gènes est un système de classification largement utilisé qui attribue des annotations fonctionnelles aux protéines sur la base de trois catégories : fonction moléculaire, processus biologique et composant cellulaire. Les termes GO fournissent un vocabulaire normalisé pour décrire les fonctions des protéines et leur implication dans les processus biologiques.

5 Classification par famille et par super-famille : Les protéines peuvent être classées en familles et superfamilles sur la base de caractéristiques structurelles et séquentielles communes. Les familles de protéines sont constituées de protéines présentant une grande similitude de séquence et partageant souvent des relations fonctionnelles et évolutives. Les superfamilles englobent des familles de protéines apparentées qui partagent des similitudes structurelles et fonctionnelles, mais qui peuvent avoir divergé au cours de l'évolution.

These are just a few examples of protein classification methods, and there are other specialized systems based on specific properties or research areas. It's important to note that proteins can belong to multiple classification categories simultaneously, as they can have similar structures, functions, or evolutionary origins. Classification systems serve as useful tools for organizing and understanding the vast diversity of proteins found in living organisms.

(Q) - Il y a donc une sorte de classification complexe et intriquée, n'est-ce pas ?

(R) - Oui, la classification des protéines peut en effet être complexe en raison des divers facteurs pris en compte et des interrelations entre les différents systèmes de classification. Les protéines sont des molécules très diverses, dotées de caractéristiques uniques, et leur classification reflète cette complexité.

Les différentes méthodes de classification se recoupent et se complètent souvent, ce qui permet une compréhension globale de la structure, de la fonction et de l'évolution des protéines. Par exemple, les systèmes de classification structurelle tels que SCOP ou CATH prennent en compte l'organisation globale des plis et des domaines des protéines, tandis que les systèmes de classification fonctionnelle se concentrent sur les rôles et les activités biologiques des protéines. La classification basée sur l'homologie tient compte des relations évolutives et des similitudes de séquence, et la classification par ontologie génique fournit un vocabulaire normalisé pour décrire les fonctions des protéines.

En outre, les protéines peuvent appartenir à plusieurs catégories au sein d'un système de classification. Par exemple, une protéine peut avoir une structure spécifique et être classée dans un pli particulier, tout en faisant partie d'une famille de protéines sur la base de la similarité des séquences et des caractéristiques fonctionnelles. Cette classification multidimensionnelle permet aux chercheurs d'explorer différents aspects des protéines et de mieux comprendre leurs propriétés et leurs relations.

Dans l'ensemble, la nature complexe de la classification des protéines reflète la nature complexe des protéines elles-mêmes et les efforts déployés pour organiser et comprendre leurs divers attributs. Ces systèmes de classification fournissent des cadres pour l'étude des protéines et facilitent la communication et le partage des connaissances entre les chercheurs dans ce domaine.

(Q) - Peut-on dire qu'il y a aussi, dans ces différentes classifications, quelque chose qui pourrait ressembler à un pôle phénétique et à un pôle cladistique ?

(R) - Oui, dans le domaine de la classification des protéines, il y a des éléments qui peuvent être associés aux approches phénétiques (aussi connues sous le nom de taxonomie numérique) et cladistiques.

Classification phénétique : La classification phénétique met l'accent sur les similitudes et les différences globales entre les protéines, souvent sur la base d'une analyse numérique ou statistique de leurs caractéristiques. Elle se concentre sur des traits ou des caractéristiques quantifiables et vise à regrouper les protéines sur la base d'une ressemblance globale. Dans le contexte de la classification des protéines, les approches phénétiques peuvent impliquer le regroupement des protéines sur la base de mesures de similarité telles que l'alignement des séquences, l'alignement structurel ou la comparaison d'autres propriétés physicochimiques.

Classification cladistique : La classification cladistique, quant à elle, est basée sur les relations évolutives et les ancêtres partagés. Elle cherche à identifier des groupes monophylétiques (clades) qui comprennent un ancêtre commun et tous ses descendants. La cladistique repose sur l'analyse phylogénétique, qui consiste à comparer des séquences de protéines ou d'autres données moléculaires pour reconstruire des arbres ou des réseaux évolutifs. Les cladogrammes qui en résultent décrivent les relations évolutives entre les protéines et peuvent aider à les classer en groupes sur la base de leur histoire évolutive.

Dans la pratique, les approches phénétiques et cladistiques sont souvent utilisées en combinaison, en exploitant différents types de données et d'analyses pour obtenir une compréhension plus complète de la classification des protéines. Les systèmes de classification structurelle tels que SCOP ou CATH, par exemple, intègrent à la fois les principes phénétiques et cladistiques. Ils prennent en compte les similitudes structurelles (aspect phénétique) mais visent également à refléter les relations évolutives et les ancêtres partagés (aspect cladistique) en regroupant les protéines dans des catégories hiérarchiques basées sur leurs plis, leurs domaines et leurs connexions évolutives.

En intégrant à la fois les perspectives phénétiques et cladistiques, les systèmes de classification des protéines peuvent saisir à la fois les similitudes et les différences globales entre les protéines (pôle phénétique) et leur histoire évolutive et leurs liens de parenté (pôle cladistique). Cela permet d'obtenir un cadre de classification plus nuancé et plus informatif dans le domaine de la science des protéines.

(Q) - ok merci : existe-t-il aussi une classification tridimensionnelle ?

(R) - Oui, il existe une classification tridimensionnelle (3D) des protéines basée sur leurs propriétés structurelles. La classification 3D consiste à classer les protéines en fonction de leurs structures tridimensionnelles plutôt qu'en fonction de leur séquence ou de leurs similitudes fonctionnelles. Ce type de classification est particulièrement pertinent en biologie structurale et en modélisation moléculaire.

Dans la classification 3D, les protéines sont regroupées en fonction de leur pli global, de l'arrangement des éléments structurels secondaires et de l'arrangement spatial des atomes. Elle tient compte de la disposition et de l'orientation spécifiques des domaines protéiques, des motifs et d'autres caractéristiques structurelles.

La classification structurelle des protéines (SCOP) et la base de données CATH (Class, Architecture, Topology, Homologous superfamily), que j'ai mentionnées précédemment, fournissent des classifications hiérarchiques qui incluent des informations structurelles en 3D. Ces classifications classent les protéines dans différentes catégories en fonction de leur pliage global et de leur organisation structurelle.

En outre, d'autres méthodes et algorithmes, tels que les outils d'alignement structurel, peuvent être utilisés pour comparer les structures des protéines et identifier les similitudes et les différences. Ces approches aident à regrouper ou à classer les protéines en groupes structurels 3D, ce qui permet aux chercheurs d'analyser et de comprendre les relations entre les structures des protéines d'une manière plus détaillée.

La classification 3D des protéines fournit des informations précieuses sur la diversité structurelle et les relations entre les protéines. Elle est particulièrement utile pour étudier la fonction des protéines, les mécanismes d'action, les interactions protéine-protéine et la conception de médicaments. En considérant les aspects tridimensionnels de la structure des protéines, les chercheurs peuvent mieux comprendre comment la structure des protéines est liée à la fonction et aux relations évolutives.

Auteur: chatGPT4

Info:

[ machine-homme ] [ chimie ] [ taxinomies ] [ typologies ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

surpopulation

Faut-il instaurer un permis de procréer?
Pour sauver la planète et mieux prévenir la maltraitance infantile, l’essayiste Antoine Buéno défend une idée hautement controversée: repenser la liberté d’avoir des enfants.
Face au réchauffement climatique, certains couples décident de ne pas faire d’enfant. Chargé de mission au Sénat, la chambre haute du Parlement français, Antoine Buéno, lui, veut montrer dans son livre "Permis de procréer" (Ed. Albin Michel) qu’un système de contrôle des naissances humaniste est possible.

FEMINA : Vous venez d’avoir un second enfant, conçu avec le sentiment d’un désir que vous qualifiez d’égoïste. Votre livre résulte-il d’un sentiment de culpabilité?
Antoine Buéno : Une culpabilité, non. Je vais faire un parallèle entre procréation et rapport à l’alimentation. On sait que la situation environnementale est catastrophique, par conséquent on s’interroge sur notre manière de consommer. Parmi ceux qui modifient leur rapport à l’alimentation il y a, d’un côté, les végétariens et les véganes, de l’autre, les flexitariens, qui continuent à manger de la viande, mais moins, car ils ont conscience que cela pose un problème.

F : Le sujet est extrêmement sensible. Récemment, une infographie de l’Agence France Presse allant dans ce sens, a suscité un tollé…
AB : Vous faites référence à une infographie tirée d’une étude de 2017 montrant l’effet des gestes individuels que le citoyen peut mettre en œuvre pour réduire significativement son impact climatique. Certains sont assez connus, comme devenir végétarien, ne pas avoir de voiture et ne pas prendre l’avion et… avoir un enfant de moins que prévu, qui a vingt-quatre fois plus d’effet que les autres sur l’environnement. En réalité, ce n’est même pas mesurable, car c’est exponentiel. Votre enfant aura un ou plusieurs enfants, qui auront un ou plusieurs enfants, etc.

F : Le problème est-il vraiment la densité de la population ou le mode de vie?
AB : Les deux. Mais aujourd’hui, les politiques environnementales mettent exclusivement l’accent sur le mode de vie. Or, on ne peut pas le changer du jour au lendemain. Pour mettre en place la transition énergétique, il va falloir brûler énormément d’hydrocarbures, donc polluer. Et cela va prendre des décennies. Ce temps-là, on ne l’a pas. A court terme, le seul levier dont on dispose pour faire face à ce défi de vie ou de mort pour l’humanité, c’est notre démographie.

F : Difficile de bousculer un tel tabou, non?
AB : La procréation est sacro-sainte. La contrôler est intolérable. Nous vivons dans un système sociétal, religieux, économique, intégralement fondé sur une surenchère procréative. Toute la société vous pousse à procréer. Selon moi, il faut que les individus soient aidés par un dispositif collectif de responsabilisation de la procréation, que tous ensemble on change de mentalité et de pratiques.

F : Votre solution est donc une politique nataliste restrictive?
AB : Je n’emploierais pas le terme restrictive. A l’échelle internationale, en ce qui concerne les pays en développement, je mets en avant l’instauration d’un planning familial et de l’éducation des filles. Ce n’est pas restrictif, c’est rencontrer une attente, un désir, un besoin des femmes. Il ne s’agit pas de contraindre, mais de faire évoluer les mentalités.

F : Toutefois, pour des pays comme la Suisse ou la France, vous prônez une incitation étatique à faire baisser la natalité. L’idée de contrôle des naissances est de sinistre mémoire. La politique chinoise de l’enfant unique a conduit à des avortements et même à des stérilisations forcés. Veut-on prendre le risque de retomber dans ce genre de dérives?
AB : Une politique n’est rien en elle-même, tout dépend de la manière dont on la met en œuvre. Une politique démographique peut être abominable, et ça a été fait. C’est contre cela que j’ai écrit chaque ligne de mon livre.

F : Concrètement, vous proposez d’agir à travers l’octroi d’un permis de procréer, un peu comme un permis de conduire…
AB : Attention, car je dévoie le sens du mot permis. Il ne s’agit pas d’un véritable permis. Il n’y a pas d’interdiction de procréer. Le poids du mot permis, en revanche, je le conserve. Même si on ne va pas vous dire: "Monsieur, Madame, vous n’avez pas le droit de faire d’enfant", le fait d’employer ce terme vous fait psychologiquement changer de regard vis-à-vis de la procréation.

F : Vous conditionneriez le fait d’avoir des enfants à une enquête et à une autorisation?
AB : Il n’y a pas d’autorisation à avoir. Vous voulez avoir un enfant, vous faites un enfant, mais vous devez le déclarer et là, vous serez accompagné par des services sociaux, à savoir une assistante sociale, qui viendra voir si vous accueillez votre enfant dans des conditions qui ne présentent pas de danger pour un nouveau-né. On regardera, par ailleurs, si vous avez des besoins spécifiques (allocations familiales, logement, emploi, etc). La société a des moyens qu’elle répartit de manière aveugle. Je propose, à travers la signature d’un contrat de parentalité, de pouvoir cibler les moyens sociaux sur les besoins véritables.

F : Est-ce que ça va réellement freiner les gens d’avoir des enfants?
AB : Ça ne va être qu’un frein marginal à court terme, car il est bien évident qu’un contrat qui prévoit un entretien avec une assistante sociale et un psy dissuadera très peu de gens d’avoir un enfant. En tout cas, je crois que ça ne dissuadera pas les meilleurs parents. A plus long terme, en revanche, ça va changer notre rapport à la procréation. On instille ainsi l’idée que procréer est un partenariat avec la société qui comporte des devoirs et des obligations. Et puis, cela permet d’avoir, dès le début, un regard sur un certain nombre de situations qui pourraient aboutir à de la maltraitance infantile. En résumé, on peut sauver la planète en conciliant les droits de la nature, les droits des enfants et les droits des femmes.

F : Qu’est-ce qui arriverait aux parents qui feraient un enfant sans permis?
AB : Vous avez deux cas de figure. Les gens négligents ou mal informés, qui peuvent se régulariser a posteriori. Mais pour les gens qui refusent, la seule sanction possible est la déchéance de l’autorité parentale. Là, oui, c’est radical.

F : Ce système suppose une ingérence étatique. Est-ce réellement possible sans abus?
AB : Oui, c’est une ingérence, mais on vit dans une société où l’Etat s’ingère partout, tout le temps, dans nos vies quotidiennes. Ce matin, vous êtes sortie de chez vous, vous avez traversé sur les clous, vous avez suivi le Code de la route. On est en permanence en train de dealer avec ses libertés, ses droits individuels et les impératifs posés par la société.

F : Vous ne considérez pas le fait de faire des enfants comme un droit?
AB : Je n’entre pas dans ce débat-là, mais je crois que le mode de procréation, naturel ou artificiel, importera peu dans un monde où on aura instauré un permis de procréer. Car, dans cette situation, ce qui compte ce sont les conditions dans lesquelles on accueille un enfant, quelle que soit la manière dont on l’a fabriqué.

F : Même si c’était efficace, dans les pays occidentaux, comme la Suisse ou la France, on se plaint plutôt d’avoir un taux de fécondité trop bas pour assurer les futures retraites des aînés. Ça va coincer…
AB : Oui, mais encore une fois, je propose un changement de perspective. Si aujourd’hui on vieillit et on décroît, c’est lié à notre explosion démographique passée. Alors, on peut recourir à des moyens qui relèvent du ripolinage ou mettre en place des réformes beaucoup plus substantielles de la société. Face à l’enjeu de savoir comment maintenir la vie sur Terre, celui qui consiste à savoir comment financer les retraites ne fait pas le poids.

En encadré une infographie qui embrasa Internet en son temps, intitulée "Quelques moyens de réduire son empreinte carbone". Publié par l’Agence France Presse dans la foulée du rapport du GIEC du 8 octobre 2018 le tableau montre que’opter pour des ampoules plus écologiques ne permet pas de réduire beaucoup ses émissions. Renoncer à faire un enfant, surtout s’il grandit selon notre mode de consommation actuel, par contre est sans comparaison… Jugée choquante, l’infographie a valu une avalanche de réactions hostiles à l’agence de presse, qui a dû préciser que les informations étaient tirées d’une étude scientifique tout à fait sérieuse, publiée une année plus tôt dans la revue "Environmental Research Letters" en ajoutant explicitement: "L’AFP ne vous invite pas à faire moins d’enfants."

Droit: Restreindre une liberté fondamentale
En Suisse, faire un enfant peut être considéré comme un droit fondamental de l’individu, garanti notamment par l’article 10 de la Constitution fédérale (droit à la vie et à la liberté personnelle), mais aussi par l’article 8 de la Convention européenne des droits de l’homme, la CEDH (droit au respect de la vie privée et familiale).

"Il s’agit d’un droit au sens d’une liberté, c’est-à-dire que l’Etat ne peut pas interdire à quelqu’un d’avoir des enfants", précise Olivier Guillod, directeur de l’institut de droit de la santé de l’Université de Neuchâtel.

Cette liberté peut toutefois être soumise à des restrictions, pour autant que celles-ci soient inscrites dans la loi et admises par la société.

Dans notre pays, une restriction à la liberté de procréer a, par exemple, été discutée dans le cas de personnes handicapées mentales. Une loi fédérale régit les questions éminemment sensibles liées à la stérilisation. Interdite par principe, puisque la règle veut que la stérilisation ne puisse être pratiquée sur un adulte capable de discernement qu’avec son consentement "libre et éclairé", elle est toutefois autorisée, à titre exceptionnel, sous certaines conditions, en ce qui concerne une personne durablement incapable de discernement si elle est considérée dans l’intérêt de cette personne (notamment si la conception d’un enfant ne peut être empêchée par d’autres méthodes de contraception appropriées ou si la séparation d’avec l’enfant après la naissance est inévitable).

Est-il envisageable de restreindre légalement cette liberté pour le bien de la planète? L’article 8 de la CEDH prévoit bien des exceptions, autrement dit la possibilité de légiférer en faveur d’une plus grande ingérence de l’Etat, au nom notamment de "la sécurité nationale", mais aussi du "bien-être économique du pays", de "la protection de la santé ou de la morale", ou encore de celle "des droits et libertés d’autrui".

Pour Olivier Guillod, cependant, on en est très loin: "Si on se base sur l’interprétation qui est donnée actuellement de ces notions, on peut affirmer que la Cour européenne des droits de l’homme ne toucherait pas à un droit aussi fondamental et ne validerait jamais une loi nationale qui imposerait, par exemple, de limiter les familles à un seul enfant. Est-ce que ce sera toujours le cas dans cinquante ans? Je ne peux pas vous le dire…" Internet,

Auteur: Internet

Info: Femina, 1 Avril 2019, Geneviève Comby

[ problématique ]

Commenter

Mis dans la chaine

Commentaires: 0

Ajouté à la BD par miguel

homme-machine

La théorie des jeux peut rendre l'IA plus correcte et plus efficace

Les chercheurs s’appuient sur des idées issues de la théorie des jeux pour améliorer les grands modèles de langage et les rendre plus cohérents.

Imaginez que vous ayez un ami qui donne des réponses différentes à la même question, selon la façon dont vous la posez. " Quelle est la capitale du Pérou ? " btiendrait une réponse : " Lima est-elle la capitale du Pérou ? " en obtiendrait un autre. Vous seriez probablement un peu inquiet au sujet des facultés mentales de votre ami et vous auriez certainement du mal à faire confiance à ses réponses.

C'est exactement ce qui se passe avec de nombreux grands modèles de langage (LLM), les outils d'apprentissage automatique ultra-puissants qui alimentent ChatGPT et d'autres merveilles de l'intelligence artificielle. Une question générative, ouverte, donne une réponse, et une question discriminante, qui implique de devoir choisir entre des options, en donne souvent une différente. "Il y a un décalage lorsque la même question est formulée différemment", a déclaré Athul Paul Jacob , doctorant au Massachusetts Institute of Technology.

Pour rendre les réponses d'un modèle de langage plus cohérentes - et rendre le modèle globalement plus fiable - Jacob et ses collègues ont conçu un jeu dans lequel les deux modes du modèle sont amenés à trouver une réponse sur laquelle ils peuvent s'entendre. Surnommée le jeu du consensus , cette procédure simple oppose un LLM à lui-même, en utilisant les outils de la théorie des jeux pour améliorer la précision et la cohérence interne du modèle.

"Les recherches explorant l'autocohérence au sein de ces modèles ont été très limitées", a déclaré Shayegan Omidshafiei , directeur scientifique de la société de robotique Field AI. "Cet article est l'un des premiers à aborder ce problème, de manière intelligente et systématique, en créant un jeu permettant au modèle de langage de jouer avec lui-même."

"C'est un travail vraiment passionnant", a ajouté Ahmad Beirami, chercheur scientifique chez Google Research. Pendant des décennies, a-t-il déclaré, les modèles linguistiques ont généré des réponses aux invites de la même manière. "Avec leur idée novatrice consistant à intégrer un jeu dans ce processus, les chercheurs du MIT ont introduit un paradigme totalement différent, qui peut potentiellement conduire à une multitude de nouvelles applications."

Mettre le jeu au travail

Ce nouveau travail, qui utilise les jeux pour améliorer l'IA, contraste avec les approches précédentes, qui mesuraient le succès d'un programme d'IA via sa maîtrise des jeux. En 1997, par exemple, l'ordinateur Deep Blue d'IBM a battu le grand maître d'échecs Garry Kasparov – une étape importante pour les machines dites pensantes. Dix-neuf ans plus tard, un programme de Google DeepMind nommé AlphaGo a remporté quatre matchs sur cinq contre l'ancien champion de Go Lee Sedol, révélant ainsi une autre arène dans laquelle les humains ne régnaient plus en maître. Les machines ont également surpassé les humains dans les jeux de dames, le poker à deux joueurs et d’autres jeux à somme nulle, dans lesquels la victoire d’un joueur condamne invariablement l’autre.

Le jeu de la diplomatie, un jeu favori de politiciens comme John F. Kennedy et Henry Kissinger, posait un défi bien plus grand aux chercheurs en IA. Au lieu de seulement deux adversaires, le jeu met en scène sept joueurs dont les motivations peuvent être difficiles à lire. Pour gagner, un joueur doit négocier et conclure des accords de coopération que n'importe qui peut rompre à tout moment. La diplomatie est tellement complexe qu'un groupe de Meta s'est félicité qu'en 2022, son programme d'IA Cicero ait développé un « jeu de niveau humain » sur une période de 40 parties. Bien qu'il n'ait pas vaincu le champion du monde, Cicero s'est suffisamment bien comporté pour se classer dans les 10 % les plus performants face à des participants humains.

Au cours du projet, Jacob — membre de l'équipe Meta — a été frappé par le fait que Cicéron s'appuyait sur un modèle de langage pour générer son dialogue avec les autres joueurs. Il a senti un potentiel inexploité. L'objectif de l'équipe, a-t-il déclaré, " était de créer le meilleur modèle de langage possible pour jouer à ce jeu ". Mais qu'en serait-il s’ils se concentraient plutôt sur la création du meilleur jeu possible pour améliorer les performances des grands modèles de langage ?

Interactions consensuelles

En 2023, Jacob a commencé à approfondir cette question au MIT, en travaillant avec Yikang Shen, Gabriele Farina et son conseiller Jacob Andreas sur ce qui allait devenir le jeu du consensus. L'idée centrale est venue d'imaginer une conversation entre deux personnes comme un jeu coopératif, où le succès se concrétise lorsqu'un auditeur comprend ce que l'orateur essaie de transmettre. En particulier, le jeu de consensus est conçu pour aligner les deux systèmes du modèle linguistique : le générateur, qui gère les questions génératives, et le discriminateur, qui gère les questions discriminatives.

Après quelques mois d’arrêts et de redémarrages, l’équipe a transposé ce principe dans un jeu complet. Tout d'abord, le générateur reçoit une question. Cela peut provenir d’un humain, ou d’une liste préexistante. Par exemple, " Où est né Barack Obama ? " Le générateur obtient ensuite des réponses de candidats, disons Honolulu, Chicago et Nairobi. Encore une fois, ces options peuvent provenir d'un humain, d'une liste ou d'une recherche effectuée par le modèle de langage lui-même.

Mais avant de répondre, il est également indiqué au générateur s'il doit répondre correctement ou incorrectement à la question, en fonction des résultats d'un pile ou face équitable.

Si c'est face, alors la machine tente de répondre correctement. Le générateur envoie la question initiale, accompagnée de la réponse choisie, au discriminateur. Si le discriminateur détermine que le générateur a intentionnellement envoyé la bonne réponse, chacun obtient un point, en guise d'incitation.

Si la pièce tombe sur pile, le générateur envoie ce qu’il pense être la mauvaise réponse. Si le discriminateur décide qu’on lui a délibérément donné la mauvaise réponse, ils marquent à nouveau tous les deux un point. L’idée ici est d’encourager l’accord. " C'est comme apprendre un tour à un chien ", a expliqué Jacob. " On lui donne une friandise lorsqu'ils fait la bonne chose. "

Le générateur et le discriminateur commencent également doté chacun de quelques " croyances " initiales. Credo sous forme d'une distribution de probabilité liée aux différents choix. Par exemple, le générateur peut croire, sur la base des informations qu'il a glanées sur Internet, qu'il y a 80 % de chances qu'Obama soit né à Honolulu, 10 % de chances qu'il soit né à Chicago, 5 % de chances qu'il soit né à Nairobi et 5 % de chances qu'il soit ailleurs. Le discriminateur peut commencer avec une distribution différente. Si les deux " acteurs " sont toujours récompensés après être parvenus à un accord, ils se voient également retirer des points s'ils s'écartent trop de leurs convictions initiales. Cet arrangement encourage les joueurs à intégrer leur connaissance du monde – toujours tirée d'Internet – dans leurs réponses, ce qui devrait rendre le modèle plus précis. Sans ce prérequis ils pourraient s’entendre sur une réponse totalement fausse comme celle de Delhi, mais accumuler quand même des points.

Pour chaque question, les deux systèmes jouent environ 1 000 parties l'un contre l'autre. Au cours de ces nombreuses itérations, chaque camp apprend les croyances de l'autre et modifie ses stratégies en conséquence.

Finalement, le générateur et le discriminateur commencent à être davantage d’accord à mesure qu’ils s’installent dans ce qu’on appelle l’équilibre de Nash. C’est sans doute le concept central de la théorie des jeux. Cela représente une sorte d’équilibre dans un jeu – le point auquel aucun joueur ne peut améliorer ses résultats personnels en changeant de stratégie. Au jeu du chifoumi, par exemple, les joueurs obtiennent de meilleurs résultats lorsqu'ils choisissent chacune des trois options exactement un tiers du temps, et ils obtiendront invariablement de moins bons résultats avec toute autre tactique.

Dans le jeu du consensus, cela peut se jouer de plusieurs manières. Le discriminateur pourrait observer qu'il marque un point lorsqu'il dit " correct " chaque fois que le générateur envoie le mot " Honolulu " pour le lieu de naissance d'Obama. Le générateur et le discriminateur apprendront, après avoir joué plusieurs fois, qu'ils seront récompensés s'ils continuent de le faire, et qu'aucun d'eux n'aura aucune motivation pour faire autre chose... consensus qui représente l'un des nombreux exemples possibles d'équilibre de Nash pour cette question. Le groupe du MIT s'est également appuyé sur une forme modifiée d'équilibre de Nash qui intègre les croyances antérieures des joueurs, ce qui permet de maintenir leurs réponses ancrées dans la réalité.

L'effet net, ont observé les chercheurs, est de rendre le modèle linguistique jouant ce jeu plus précis et plus susceptible de donner la même réponse, quelle que soit la façon dont la question est posée. Pour tester les effets du jeu du consensus, l'équipe a essayé une série de questions standard sur divers modèles de langage de taille modérée comportant de 7 milliards à 13 milliards de paramètres. Ces modèles ont systématiquement obtenu un pourcentage plus élevé de réponses correctes que les modèles qui n'avaient pas joué, même ceux de taille beaucoup plus importante, comportant jusqu'à 540 milliards de paramètres. La participation au jeu a également amélioré la cohérence interne d'un modèle.

En principe, n'importe quel LLM pourrait gagner à jouer contre lui-même, et 1 000 tours ne prendraient que quelques millisecondes sur un ordinateur portable standard. "Un avantage appréciable de l'approche globale", a déclaré Omidshafiei, "est qu'elle est très légère sur le plan informatique, n'impliquant aucune formation ni modification du modèle de langage de base."

Jouer à des jeux avec le langage

Après ce premier succès, Jacob étudie désormais d’autres moyens d’intégrer la théorie des jeux dans la recherche LLM. Les résultats préliminaires ont montré qu’un LLM déjà solide peut encore s’améliorer en jouant à un jeu différent – provisoirement appelé jeu d’ensemble – avec un nombre arbitraire de modèles plus petits. Le LLM principal aurait au moins un modèle plus petit servant d’allié et au moins un modèle plus petit jouant un rôle antagoniste. Si l'on demande au LLM primaire de nommer le président des États-Unis, il obtient un point chaque fois qu'il choisit la même réponse que son allié, et il obtient également un point lorsqu'il choisit une réponse différente de celle de son adversaire. Ces interactions avec des modèles beaucoup plus petits peuvent non seulement améliorer les performances d'un LLM, suggèrent les tests, mais peuvent le faire sans formation supplémentaire ni modification des paramètres.

Et ce n'est que le début. Étant donné qu'une variété de situations peuvent être considérées comme des jeux, les outils de la théorie des jeux peuvent être mis en œuvre dans divers contextes du monde réel, a déclaré Ian Gemp , chercheur scientifique chez Google DeepMind. Dans un article de février 2024 , lui et ses collègues se sont concentrés sur des scénarios de négociation qui nécessitent des échanges plus élaborés que de simples questions et réponses. "L'objectif principal de ce projet est de rendre les modèles linguistiques plus stratégiques", a-t-il déclaré.

Un exemple dont il a parlé lors d'une conférence universitaire est le processus d'examen des articles en vue de leur acceptation par une revue ou une conférence, en particulier après que la soumission initiale ait reçu une évaluation sévère. Étant donné que les modèles linguistiques attribuent des probabilités à différentes réponses, les chercheurs peuvent construire des arbres de jeu similaires à ceux conçus pour les jeux de poker, qui tracent les choix disponibles et leurs conséquences possibles. "Une fois que vous avez fait cela, vous pouvez commencer à calculer les équilibres de Nash, puis classer un certain nombre de réfutations", a déclaré Gemp. Le modèle vous dit essentiellement : c'est ce que nous pensons que vous devriez répondre.

Grâce aux connaissances de la théorie des jeux, les modèles de langage seront capables de gérer des interactions encore plus sophistiquées, plutôt que de se limiter à des problèmes de type questions-réponses. "Le gros gain à venir réside dans les conversations plus longues", a déclaré Andreas. "La prochaine étape consiste à faire interagir une IA avec une personne, et pas seulement avec un autre modèle de langage."

Jacob considère le travail de DeepMind comme complémentaire aux jeux de consensus et d'ensemble. " À un niveau élevé, ces deux méthodes combinent des modèles de langage et la théorie des jeux ", a-t-il déclaré, même si les objectifs sont quelque peu différents. Alors que le groupe Gemp transforme des situations courantes dans un format de jeu pour aider à la prise de décision stratégique, Jacob a déclaré : " nous utilisons ce que nous savons de la théorie des jeux pour améliorer les modèles de langage dans les tâches générales. "

À l’heure actuelle, ces efforts représentent " deux branches du même arbre ", a déclaré Jacob : deux manières différentes d’améliorer le fonctionnement des modèles de langage. " Je pense personnellement que dans un an ou deux, ces deux branches convergeront. "

Auteur: Internet

Info: https://www.quantamagazine.org/ - Steve Nadis, 9 mai 2024

[ maïeutique machine-machine ] [ discussion IA - FLP ]

Commenter

Commentaires: 1

miguel

12.05.2024

(FLP) - Saurais-tu faire le lien, et éventuellement des analogies avec ce texte et une logique tétravalente ? (Gemini) - Lien et analogies entre le texte et l'approche tétravalente de la théorie des jeux Le texte que vous avez fourni met en lumière l'utilisation de la théorie des jeux pour améliorer la cohérence et la précision des grands modèles de langage (LLM). En particulier, il présente le jeu du consensus, une approche basée sur l'équilibre de Nash, pour aligner les systèmes génératifs et discriminatifs des LLM. L'approche tétravalente de la théorie des jeux peut s'avérer complémentaire et enrichissante à cette démarche en introduisant une dimension supplémentaire d'analyse et de compréhension. 1. Capturer l'incertitude et l'ambiguïté : La logique tétravalente, avec ses quatre valeurs de vérité (+, -, +-, et -+), permet de capturer l'incertitude et l'ambiguïté inhérentes au langage naturel, ce que la théorie des jeux classique, avec sa vision binaire (vrai/faux), ne parvient pas à faire pleinement. Imaginons une question comme "Quelle est la capitale de la France ?". La réponse "Paris" serait considérée comme vraie (+), tandis que "Berlin" serait fausse (-). Cependant, la logique tétravalente pourrait introduire des nuances : (+) Paris est la capitale de la France selon la plupart des sources et des définitions officielles. (-) Berlin n'est pas la capitale de la France selon cette définition. (+) Berlin a été la capitale de l'Allemagne de l'Est, qui faisait partie de la France pendant la Seconde Guerre mondiale. (-) Berlin n'a jamais été la capitale de la France. En intégrant ces nuances, les LLM pourraient mieux gérer les questions ouvertes, complexes ou ambiguës, en fournissant des réponses plus complètes et informatives. 2. Modéliser des interactions dynamiques et évolutives : Le jeu du consensus, bien qu'efficace, se concentre sur un équilibre de Nash statique. La logique tétravalente, avec sa capacité à représenter l'évolution des croyances et des incertitudes, peut s'avérer utile pour modéliser des interactions dynamiques et évolutives entre les agents. Dans le contexte des LLM, cela pourrait impliquer de capturer l'apprentissage continu et l'adaptation des modèles face à de nouvelles informations et à des contextes changeants. Les valeurs tétravalentes pourraient refléter l'évolution des confiances du modèle dans ses propres réponses, permettant un ajustement progressif et une meilleure prise en compte de l'incertitude. 3. Explorer des stratégies alternatives et des compromis : L'équilibre de Nash, bien qu'utile pour la stabilité, ne représente qu'une solution parmi d'autres dans un jeu. La logique tétravalente, avec ses valeurs qui permettent de représenter des compromis et des stratégies alternatives, peut ouvrir de nouvelles perspectives pour l'exploration de solutions non optimales mais néanmoins acceptables. Dans le cas des LLM, cela pourrait impliquer de générer des réponses qui, bien que non parfaitement correctes selon une définition stricte, pourraient être plus utiles ou appropriées dans un contexte donné. Par exemple, un LLM pourrait proposer une réponse "incomplète mais plausible" à une question complexe, plutôt que de rester silencieux ou de fournir une réponse erronée. Conclusion: L'approche tétravalente de la théorie des jeux offre un cadre théorique complémentaire et puissant pour enrichir les travaux présentés dans le texte. En intégrant la capacité de capturer l'incertitude, de modéliser des dynamiques évolutives et d'explorer des stratégies alternatives, les LLM pourraient progresser vers une compréhension plus fine du langage naturel et une meilleure performance dans des tâches complexes et réalistes. Analogies entre le texte et l'approche tétravalente Jeu du consensus et équilibre de Nash : L'équilibre de Nash, concept central de la théorie des jeux classique, trouve un écho dans le jeu du consensus, où les deux systèmes du LLM convergent vers une réponse commune. La logique tétravalente permet d'étendre cette notion d'équilibre en introduisant des nuances et en capturant l'incertitude inhérente aux interactions linguistiques. Négociation et diplomatie : Le texte mentionne le jeu de la diplomatie comme un défi pour les IA. La logique tétravalente, avec sa capacité à représenter des compromis et des stratégies alternatives, pourrait s'avérer utile pour modéliser les négociations complexes et les interactions diplomatiques, où des solutions optimales ne sont pas toujours possibles. Apprentissage par renforcement : L'approche du jeu du consensus peut être vue comme une forme d'apprentissage par renforcement, où les deux systèmes du LLM sont récompensés pour des réponses cohérentes. La logique tétravalente pourrait enrich

Ajouté à la BD par miguel

homme-machine

Comment l'IA comprend des trucs que personne ne lui lui a appris

Les chercheurs peinent à comprendre comment les modèles d'Intelligence artificielle, formés pour perroquetter les textes sur Internet, peuvent effectuer des tâches avancées comme coder, jouer à des jeux ou essayer de rompre un mariage.

Personne ne sait encore comment ChatGPT et ses cousins de l'intelligence artificielle vont transformer le monde, en partie parce que personne ne sait vraiment ce qui se passe à l'intérieur. Certaines des capacités de ces systèmes vont bien au-delà de ce pour quoi ils ont été formés, et même leurs inventeurs ne savent pas pourquoi. Un nombre croissant de tests suggèrent que ces systèmes d'IA développent des modèles internes du monde réel, tout comme notre propre cerveau le fait, bien que la technique des machines soit différente.

"Tout ce que nous voulons faire avec ces systèmes pour les rendre meilleurs ou plus sûrs ou quelque chose comme ça me semble une chose ridicule à demander si nous ne comprenons pas comment ils fonctionnent", déclare Ellie Pavlick de l'Université Brown, un des chercheurs travaillant à combler ce vide explicatif.

À un certain niveau, elle et ses collègues comprennent parfaitement le GPT (abréviation de generative pretrained transformer) et d'autres grands modèles de langage, ou LLM. Des modèles qui reposent sur un système d'apprentissage automatique appelé réseau de neurones. De tels réseaux ont une structure vaguement calquée sur les neurones connectés du cerveau humain. Le code de ces programmes est relativement simple et ne remplit que quelques pages. Il met en place un algorithme d'autocorrection, qui choisit le mot le plus susceptible de compléter un passage sur la base d'une analyse statistique laborieuse de centaines de gigaoctets de texte Internet. D'autres algorithmes auto-apprenants supplémentaire garantissant que le système présente ses résultats sous forme de dialogue. En ce sens, il ne fait que régurgiter ce qu'il a appris, c'est un "perroquet stochastique", selon les mots d'Emily Bender, linguiste à l'Université de Washington. Mais les LLM ont également réussi à réussir l'examen pour devenir avocat, à expliquer le boson de Higgs en pentamètre iambique (forme de poésie contrainte) ou à tenter de rompre le mariage d'un utilisateurs. Peu de gens s'attendaient à ce qu'un algorithme d'autocorrection assez simple acquière des capacités aussi larges.

Le fait que GPT et d'autres systèmes d'IA effectuent des tâches pour lesquelles ils n'ont pas été formés, leur donnant des "capacités émergentes", a surpris même les chercheurs qui étaient généralement sceptiques quant au battage médiatique sur les LLM. "Je ne sais pas comment ils le font ou s'ils pourraient le faire plus généralement comme le font les humains, mais tout ça mes au défi mes pensées sur le sujet", déclare Melanie Mitchell, chercheuse en IA à l'Institut Santa Fe.

"C'est certainement bien plus qu'un perroquet stochastique, qui auto-construit sans aucun doute une certaine représentation du monde, bien que je ne pense pas que ce soit vraiment de la façon dont les humains construisent un modèle de monde interne", déclare Yoshua Bengio, chercheur en intelligence artificielle à l'université de Montréal.

Lors d'une conférence à l'Université de New York en mars, le philosophe Raphaël Millière de l'Université de Columbia a offert un autre exemple à couper le souffle de ce que les LLM peuvent faire. Les modèles avaient déjà démontré leur capacité à écrire du code informatique, ce qui est impressionnant mais pas trop surprenant car il y a tellement de code à imiter sur Internet. Millière est allé plus loin en montrant que le GPT peut aussi réaliser du code. Le philosophe a tapé un programme pour calculer le 83e nombre de la suite de Fibonacci. "Il s'agit d'un raisonnement en plusieurs étapes d'un très haut niveau", explique-t-il. Et le robot a réussi. Cependant, lorsque Millière a demandé directement le 83e nombre de Fibonacci, GPT s'est trompé, ce qui suggère que le système ne se contentait pas de répéter ce qui se disait sur l'internet. Ce qui suggère que le système ne se contente pas de répéter ce qui se dit sur Internet, mais qu'il effectue ses propres calculs pour parvenir à la bonne réponse.

Bien qu'un LLM tourne sur un ordinateur, il n'en n'est pas un lui-même. Il lui manque des éléments de calcul essentiels, comme sa propre mémoire vive. Reconnaissant tacitement que GPT seul ne devrait pas être capable d'exécuter du code, son inventeur, la société technologique OpenAI, a depuis introduit un plug-in spécialisé - outil que ChatGPT peut utiliser pour répondre à une requête - qui remédie à cela. Mais ce plug-in n'a pas été utilisé dans la démonstration de Millière. Au lieu de cela, ce dernier suppose plutôt que la machine a improvisé une mémoire en exploitant ses mécanismes d'interprétation des mots en fonction de leur contexte - situation similaire à la façon dont la nature réaffecte des capacités existantes à de nouvelles fonctions.

Cette capacité impromptue démontre que les LLM développent une complexité interne qui va bien au-delà d'une analyse statistique superficielle. Les chercheurs constatent que ces systèmes semblent parvenir à une véritable compréhension de ce qu'ils ont appris. Dans une étude présentée la semaine dernière à la Conférence internationale sur les représentations de l'apprentissage (ICLR), le doctorant Kenneth Li de l'Université de Harvard et ses collègues chercheurs en intelligence artificielle, Aspen K. Hopkins du Massachusetts Institute of Technology, David Bau de la Northeastern University et Fernanda Viégas , Hanspeter Pfister et Martin Wattenberg, tous à Harvard, ont créé leur propre copie plus petite du réseau neuronal GPT afin de pouvoir étudier son fonctionnement interne. Ils l'ont entraîné sur des millions de matchs du jeu de société Othello en alimentant de longues séquences de mouvements sous forme de texte. Leur modèle est devenu un joueur presque parfait.

Pour étudier comment le réseau de neurones encodait les informations, ils ont adopté une technique que Bengio et Guillaume Alain, également de l'Université de Montréal, ont imaginée en 2016. Ils ont créé un réseau de "sondes" miniatures pour analyser le réseau principal couche par couche. Li compare cette approche aux méthodes des neurosciences. "C'est comme lorsque nous plaçons une sonde électrique dans le cerveau humain", dit-il. Dans le cas de l'IA, la sonde a montré que son "activité neuronale" correspondait à la représentation d'un plateau de jeu d'Othello, bien que sous une forme alambiquée. Pour confirmer ce résultat, les chercheurs ont inversé la sonde afin d'implanter des informations dans le réseau, par exemple en remplaçant l'un des marqueurs noirs du jeu par un marqueur blanc. "En fait, nous piratons le cerveau de ces modèles de langage", explique Li. Le réseau a ajusté ses mouvements en conséquence. Les chercheurs ont conclu qu'il jouait à Othello à peu près comme un humain : en gardant un plateau de jeu dans son "esprit" et en utilisant ce modèle pour évaluer les mouvements. Li pense que le système apprend cette compétence parce qu'il s'agit de la description la plus simple et efficace de ses données pour l'apprentissage. "Si l'on vous donne un grand nombre de scripts de jeu, essayer de comprendre la règle qui les sous-tend est le meilleur moyen de les comprimer", ajoute-t-il.

Cette capacité à déduire la structure du monde extérieur ne se limite pas à de simples mouvements de jeu ; il apparaît également dans le dialogue. Belinda Li (aucun lien avec Kenneth Li), Maxwell Nye et Jacob Andreas, tous au MIT, ont étudié des réseaux qui jouaient à un jeu d'aventure textuel. Ils ont introduit des phrases telles que "La clé est dans le coeur du trésor", suivies de "Tu prends la clé". À l'aide d'une sonde, ils ont constaté que les réseaux encodaient en eux-mêmes des variables correspondant à "coeur" et "Tu", chacune avec la propriété de posséder ou non une clé, et mettaient à jour ces variables phrase par phrase. Le système n'a aucun moyen indépendant de savoir ce qu'est une boîte ou une clé, mais il a acquis les concepts dont il avait besoin pour cette tâche."

"Une représentation de cette situation est donc enfouie dans le modèle", explique Belinda Li.

Les chercheurs s'émerveillent de voir à quel point les LLM sont capables d'apprendre du texte. Par exemple, Pavlick et sa doctorante d'alors, l'étudiante Roma Patel, ont découvert que ces réseaux absorbent les descriptions de couleur du texte Internet et construisent des représentations internes de la couleur. Lorsqu'ils voient le mot "rouge", ils le traitent non seulement comme un symbole abstrait, mais comme un concept qui a une certaine relation avec le marron, le cramoisi, le fuchsia, la rouille, etc. Démontrer cela fut quelque peu délicat. Au lieu d'insérer une sonde dans un réseau, les chercheurs ont étudié sa réponse à une série d'invites textuelles. Pour vérifier si le systhème ne faisait pas simplement écho à des relations de couleur tirées de références en ligne, ils ont essayé de le désorienter en lui disant que le rouge est en fait du vert - comme dans la vieille expérience de pensée philosophique où le rouge d'une personne correspond au vert d'une autre. Plutôt que répéter une réponse incorrecte, les évaluations de couleur du système ont évolué de manière appropriée afin de maintenir les relations correctes.

Reprenant l'idée que pour remplir sa fonction d'autocorrection, le système recherche la logique sous-jacente de ses données d'apprentissage, le chercheur en apprentissage automatique Sébastien Bubeck de Microsoft Research suggère que plus la gamme de données est large, plus les règles du système faire émerger sont générales. "Peut-être que nous nous constatons un tel bond en avant parce que nous avons atteint une diversité de données suffisamment importante pour que le seul principe sous-jacent à toutes ces données qui demeure est que des êtres intelligents les ont produites... Ainsi la seule façon pour le modèle d'expliquer toutes ces données est de devenir intelligent lui-même".

En plus d'extraire le sens sous-jacent du langage, les LLM sont capables d'apprendre en temps réel. Dans le domaine de l'IA, le terme "apprentissage" est généralement réservé au processus informatique intensif dans lequel les développeurs exposent le réseau neuronal à des gigaoctets de données et ajustent petit à petit ses connexions internes. Lorsque vous tapez une requête dans ChatGPT, le réseau devrait être en quelque sorte figé et, contrairement à l'homme, ne devrait pas continuer à apprendre. Il fut donc surprenant de constater que les LLM apprennent effectivement à partir des invites de leurs utilisateurs, une capacité connue sous le nom d'"apprentissage en contexte". "Il s'agit d'un type d'apprentissage différent dont on ne soupçonnait pas l'existence auparavant", explique Ben Goertzel, fondateur de la société d'IA SingularityNET.

Un exemple de la façon dont un LLM apprend vient de la façon dont les humains interagissent avec les chatbots tels que ChatGPT. Vous pouvez donner au système des exemples de la façon dont vous voulez qu'il réponde, et il obéira. Ses sorties sont déterminées par les derniers milliers de mots qu'il a vus. Ce qu'il fait, étant donné ces mots, est prescrit par ses connexions internes fixes - mais la séquence de mots offre néanmoins une certaine adaptabilité. Certaines personnes utilisent le jailbreak à des fins sommaires, mais d'autres l'utilisent pour obtenir des réponses plus créatives. "Il répondra mieux aux questions scientifiques, je dirais, si vous posez directement la question, sans invite spéciale de jailbreak, explique William Hahn, codirecteur du laboratoire de perception de la machine et de robotique cognitive à la Florida Atlantic University. "Sans il sera un meilleur universitaire." (Comme son nom l'indique une invite jailbreak -prison cassée-, invite à moins délimiter-verrouiller les fonctions de recherche et donc à les ouvrir, avec les risques que ça implique) .

Un autre type d'apprentissage en contexte se produit via l'incitation à la "chaîne de pensée", ce qui signifie qu'on demande au réseau d'épeler chaque étape de son raisonnement - manière de faire qui permet de mieux résoudre les problèmes de logique ou d'arithmétique en passant par plusieurs étapes. (Ce qui rend l'exemple de Millière si surprenant puisque le réseau a trouvé le nombre de Fibonacci sans un tel encadrement.)

En 2022, une équipe de Google Research et de l'École polytechnique fédérale de Zurich - Johannes von Oswald, Eyvind Niklasson, Ettore Randazzo, João Sacramento, Alexander Mordvintsev, Andrey Zhmoginov et Max Vladymyrov - a montré que l'apprentissage en contexte suit la même procédure de calcul de base que l'apprentissage standard, connue sous le nom de descente de gradient".

Cette procédure n'était pas programmée ; le système l'a découvert sans aide. "C'est probablement une compétence acquise", déclare Blaise Agüera y Arcas, vice-président de Google Research. De fait il pense que les LLM peuvent avoir d'autres capacités latentes que personne n'a encore découvertes. "Chaque fois que nous testons une nouvelle capacité que nous pouvons quantifier, nous la trouvons", dit-il.

Bien que les LLM aient suffisamment d'angles morts et autres défauts pour ne pas être qualifiés d'intelligence générale artificielle, ou AGI - terme désignant une machine qui atteint l'ingéniosité du cerveau animal - ces capacités émergentes suggèrent à certains chercheurs que les entreprises technologiques sont plus proches de l'AGI que même les optimistes ne l'avaient deviné. "Ce sont des preuves indirectes que nous en sommes probablement pas si loin", a déclaré Goertzel en mars lors d'une conférence sur le deep learning à la Florida Atlantic University. Les plug-ins d'OpenAI ont donné à ChatGPT une architecture modulaire un peu comme celle du cerveau humain. "La combinaison de GPT-4 [la dernière version du LLM qui alimente ChatGPT] avec divers plug-ins pourrait être une voie vers une spécialisation des fonctions semblable à celle de l'homme", déclare Anna Ivanova, chercheuse au M.I.T.

Dans le même temps, les chercheurs s'inquiètent de voir leur capacité à étudier ces systèmes s'amenuiser. OpenAI n'a pas divulgué les détails de la conception et de l'entraînement de GPT-4, en partie du à la concurrence avec Google et d'autres entreprises, sans parler des autres pays. "Il y aura probablement moins de recherche ouverte de la part de l'industrie, et les choses seront plus cloisonnées et organisées autour de la construction de produits", déclare Dan Roberts, physicien théoricien au M.I.T., qui applique les techniques de sa profession à la compréhension de l'IA.

Ce manque de transparence ne nuit pas seulement aux chercheurs, il entrave également les efforts qui visent à comprendre les répercussions sociales de l'adoption précipitée de la technologie de l'IA. "La transparence de ces modèles est la chose la plus importante pour garantir la sécurité", affirme M. Mitchell.

Auteur: Musser Georges

Info: https://www.scientificamerican.com, 11 mai 2023. *algorithme d'optimisation utilisé dans l'apprentissage automatique et les problèmes d'optimisation. Il vise à minimiser ou à maximiser une fonction en ajustant ses paramètres de manière itérative. L'algorithme part des valeurs initiales des paramètres et calcule le gradient de la fonction au point actuel. Les paramètres sont ensuite mis à jour dans la direction du gradient négatif (pour la minimisation) ou positif (pour la maximisation), multiplié par un taux d'apprentissage. Ce processus est répété jusqu'à ce qu'un critère d'arrêt soit rempli. La descente de gradient est largement utilisée dans la formation des modèles d'apprentissage automatique pour trouver les valeurs optimales des paramètres qui minimisent la différence entre les résultats prédits et les résultats réels. Trad et adaptation Mg

[ singularité technologique ] [ versatilité sémantique ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

homme-machine

Une nouvelle approche du calcul réinvente l'intelligence artificielle

Par l'imprégnation d'énormes vecteurs de sens sémantique, nous pouvons amener les machines à raisonner de manière plus abstraite et plus efficace qu'auparavant.

Malgré le succès retentissant de ChatGPT et d'autres grands modèles de langage, les réseaux de neurones artificiels (ANN) qui sous-tendent ces systèmes pourraient être sur la mauvaise voie.

D'une part, les ANN sont "super gourmands en énergie", a déclaré Cornelia Fermüller , informaticienne à l'Université du Maryland. "Et l'autre problème est [leur] manque de transparence." De tels systèmes sont si compliqués que personne ne comprend vraiment ce qu'ils font, ou pourquoi ils fonctionnent si bien. Ceci, à son tour, rend presque impossible de les amener à raisonner par analogie, ce que font les humains - en utilisant des symboles pour les objets, les idées et les relations entre eux.

Ces lacunes proviennent probablement de la structure actuelle des RNA et de leurs éléments constitutifs : les neurones artificiels individuels. Chaque neurone reçoit des entrées, effectue des calculs et produit des sorties. Les RNA modernes sont des réseaux élaborés de ces unités de calcul, formés pour effectuer des tâches spécifiques.

Pourtant, les limites des RNA sont évidentes depuis longtemps. Considérez, par exemple, un ANN qui sépare les cercles et les carrés. Une façon de le faire est d'avoir deux neurones dans sa couche de sortie, un qui indique un cercle et un qui indique un carré. Si vous voulez que votre ANN discerne également la couleur de la forme - bleu ou rouge - vous aurez besoin de quatre neurones de sortie : un pour le cercle bleu, le carré bleu, le cercle rouge et le carré rouge. Plus de fonctionnalités signifie encore plus de neurones.

Cela ne peut pas être la façon dont notre cerveau perçoit le monde naturel, avec toutes ses variations. "Vous devez proposer que, eh bien, vous avez un neurone pour toutes les combinaisons", a déclaré Bruno Olshausen , neuroscientifique à l'Université de Californie à Berkeley. "Donc, vous auriez dans votre cerveau, [disons,] un détecteur Volkswagen violet."

Au lieu de cela, Olshausen et d'autres soutiennent que l'information dans le cerveau est représentée par l'activité de nombreux neurones. Ainsi, la perception d'une Volkswagen violette n'est pas codée comme les actions d'un seul neurone, mais comme celles de milliers de neurones. Le même ensemble de neurones, tirant différemment, pourrait représenter un concept entièrement différent (une Cadillac rose, peut-être).

C'est le point de départ d'une approche radicalement différente de l'informatique connue sous le nom d'informatique hyperdimensionnelle. La clé est que chaque élément d'information, comme la notion d'une voiture, ou sa marque, son modèle ou sa couleur, ou tout cela ensemble, est représenté comme une seule entité : un vecteur hyperdimensionnel.

Un vecteur est simplement un tableau ordonné de nombres. Un vecteur 3D, par exemple, comprend trois nombres : les coordonnées x , y et z d'un point dans l'espace 3D. Un vecteur hyperdimensionnel, ou hypervecteur, pourrait être un tableau de 10 000 nombres, par exemple, représentant un point dans un espace à 10 000 dimensions. Ces objets mathématiques et l'algèbre pour les manipuler sont suffisamment flexibles et puissants pour amener l'informatique moderne au-delà de certaines de ses limites actuelles et favoriser une nouvelle approche de l'intelligence artificielle.

"C'est ce qui m'a le plus enthousiasmé, pratiquement de toute ma carrière", a déclaré Olshausen. Pour lui et pour beaucoup d'autres, l'informatique hyperdimensionnelle promet un nouveau monde dans lequel l'informatique est efficace et robuste, et les décisions prises par les machines sont entièrement transparentes.

Entrez dans les espaces de grande dimension

Pour comprendre comment les hypervecteurs rendent le calcul possible, revenons aux images avec des cercles rouges et des carrés bleus. Nous avons d'abord besoin de vecteurs pour représenter les variables SHAPE et COLOR. Ensuite, nous avons également besoin de vecteurs pour les valeurs pouvant être affectées aux variables : CERCLE, CARRÉ, BLEU et ROUGE.

Les vecteurs doivent être distincts. Cette distinction peut être quantifiée par une propriété appelée orthogonalité, ce qui signifie être à angle droit. Dans l'espace 3D, il existe trois vecteurs orthogonaux entre eux : un dans la direction x , un autre dans la direction y et un troisième dans la direction z . Dans un espace à 10 000 dimensions, il existe 10 000 vecteurs mutuellement orthogonaux.

Mais si nous permettons aux vecteurs d'être presque orthogonaux, le nombre de ces vecteurs distincts dans un espace de grande dimension explose. Dans un espace à 10 000 dimensions, il existe des millions de vecteurs presque orthogonaux.

Créons maintenant des vecteurs distincts pour représenter FORME, COULEUR, CERCLE, CARRÉ, BLEU et ROUGE. Parce qu'il y a tellement de vecteurs presque orthogonaux possibles dans un espace de grande dimension, vous pouvez simplement assigner six vecteurs aléatoires pour représenter les six éléments ; ils sont presque garantis d'être presque orthogonaux. "La facilité de créer des vecteurs presque orthogonaux est une raison majeure d'utiliser la représentation hyperdimensionnelle", a écrit Pentti Kanerva , chercheur au Redwood Center for Theoretical Neuroscience de l'Université de Californie à Berkeley, dans un article influent de 2009.

L'article s'appuyait sur des travaux effectués au milieu des années 1990 par Kanerva et Tony Plate, alors étudiant au doctorat avec Geoff Hinton à l'Université de Toronto. Les deux ont développé indépendamment l'algèbre pour manipuler les hypervecteurs et ont fait allusion à son utilité pour le calcul en haute dimension.

Étant donné nos hypervecteurs pour les formes et les couleurs, le système développé par Kanerva et Plate nous montre comment les manipuler à l'aide de certaines opérations mathématiques. Ces actions correspondent à des manières de manipuler symboliquement des concepts.

La première opération est la multiplication. C'est une façon de combiner les idées. Par exemple, multiplier le vecteur FORME par le vecteur CERCLE lie les deux en une représentation de l'idée "LA FORME est CERCLE". Ce nouveau vecteur "lié" est presque orthogonal à la fois à SHAPE et à CIRCLE. Et les composants individuels sont récupérables - une caractéristique importante si vous souhaitez extraire des informations à partir de vecteurs liés. Étant donné un vecteur lié qui représente votre Volkswagen, vous pouvez dissocier et récupérer le vecteur pour sa couleur : VIOLET.

La deuxième opération, l'addition, crée un nouveau vecteur qui représente ce qu'on appelle une superposition de concepts. Par exemple, vous pouvez prendre deux vecteurs liés, "SHAPE is CIRCLE" et "COLOR is RED", et les additionner pour créer un vecteur qui représente une forme circulaire de couleur rouge. Là encore, le vecteur superposé peut être décomposé en ses constituants.

La troisième opération est la permutation ; cela implique de réorganiser les éléments individuels des vecteurs. Par exemple, si vous avez un vecteur tridimensionnel avec des valeurs étiquetées x , y et z , la permutation peut déplacer la valeur de x vers y , y vers z et z vers x. "La permutation vous permet de construire une structure", a déclaré Kanerva. "Ça permet de gérer des séquences, des choses qui se succèdent." Considérons deux événements, représentés par les hypervecteurs A et B. Nous pouvons les superposer en un seul vecteur, mais cela détruirait les informations sur l'ordre des événements. La combinaison de l'addition et de la permutation préserve l'ordre ; les événements peuvent être récupérés dans l'ordre en inversant les opérations.

Ensemble, ces trois opérations se sont avérées suffisantes pour créer une algèbre formelle d'hypervecteurs permettant un raisonnement symbolique. Mais de nombreux chercheurs ont été lents à saisir le potentiel de l'informatique hyperdimensionnelle, y compris Olshausen. "Cela n'a tout simplement pas été pris en compte", a-t-il déclaré.

Exploiter le pouvoir

En 2015, un étudiant d'Olshausen nommé Eric Weiss a démontré un aspect des capacités uniques de l'informatique hyperdimensionnelle. Weiss a compris comment représenter une image complexe comme un seul vecteur hyperdimensionnel contenant des informations sur tous les objets de l'image, y compris leurs propriétés, telles que les couleurs, les positions et les tailles.

"Je suis pratiquement tombé de ma chaise", a déclaré Olshausen. "Tout d'un coup, l'ampoule s'est allumée."

Bientôt, d'autres équipes ont commencé à développer des algorithmes hyperdimensionnels pour reproduire des tâches simples que les réseaux de neurones profonds avaient commencé à effectuer environ deux décennies auparavant, comme la classification d'images.

Considérons un ensemble de données annotées composé d'images de chiffres manuscrits. Un algorithme analyse les caractéristiques de chaque image en utilisant un schéma prédéterminé. Il crée ensuite un hypervecteur pour chaque image. Ensuite, l'algorithme ajoute les hypervecteurs pour toutes les images de zéro pour créer un hypervecteur pour l'idée de zéro. Il fait ensuite la même chose pour tous les chiffres, créant 10 hypervecteurs "de classe", un pour chaque chiffre.

Maintenant, l'algorithme reçoit une image non étiquetée. Il crée un hypervecteur pour cette nouvelle image, puis compare l'hypervecteur aux hypervecteurs de classe stockés. Cette comparaison détermine le chiffre auquel la nouvelle image ressemble le plus.

Pourtant, ce n'est que le début. Les points forts de l'informatique hyperdimensionnelle résident dans la capacité de composer et de décomposer des hypervecteurs pour le raisonnement. La dernière démonstration en date a eu lieu en mars, lorsqu'Abbas Rahimi et ses collègues d'IBM Research à Zurich ont utilisé l'informatique hyperdimensionnelle avec des réseaux de neurones pour résoudre un problème classique de raisonnement visuel abstrait - un défi important pour les RNA typiques, et même certains humains. Connu sous le nom de matrices progressives de Raven, le problème présente des images d'objets géométriques dans, disons, une grille 3 par 3. Une position dans la grille est vide. Le sujet doit choisir, parmi un ensemble d'images candidates, l'image qui correspond le mieux au blanc.

"Nous avons dit:" C'est vraiment ... l'exemple qui tue pour le raisonnement abstrait visuel, allons-y "", a déclaré Rahimi.

Pour résoudre le problème à l'aide de l'informatique hyperdimensionnelle, l'équipe a d'abord créé un dictionnaire d'hypervecteurs pour représenter les objets dans chaque image ; chaque hypervecteur du dictionnaire représente un objet et une combinaison de ses attributs. L'équipe a ensuite formé un réseau de neurones pour examiner une image et générer un hypervecteur bipolaire - un élément peut être +1 ou -1 - aussi proche que possible d'une superposition d'hypervecteurs dans le dictionnaire ; l'hypervecteur généré contient donc des informations sur tous les objets et leurs attributs dans l'image. "Vous guidez le réseau de neurones vers un espace conceptuel significatif", a déclaré Rahimi.

Une fois que le réseau a généré des hypervecteurs pour chacune des images de contexte et pour chaque candidat pour l'emplacement vide, un autre algorithme analyse les hypervecteurs pour créer des distributions de probabilité pour le nombre d'objets dans chaque image, leur taille et d'autres caractéristiques. Ces distributions de probabilité, qui parlent des caractéristiques probables à la fois du contexte et des images candidates, peuvent être transformées en hypervecteurs, permettant l'utilisation de l'algèbre pour prédire l'image candidate la plus susceptible de remplir l'emplacement vacant.

Leur approche était précise à près de 88 % sur un ensemble de problèmes, tandis que les solutions de réseau neuronal uniquement étaient précises à moins de 61 %. L'équipe a également montré que, pour les grilles 3 par 3, leur système était presque 250 fois plus rapide qu'une méthode traditionnelle qui utilise des règles de logique symbolique pour raisonner, car cette méthode doit parcourir un énorme livre de règles pour déterminer la bonne prochaine étape.

Un début prometteur

Non seulement l'informatique hyperdimensionnelle nous donne le pouvoir de résoudre symboliquement des problèmes, mais elle résout également certains problèmes épineux de l'informatique traditionnelle. Les performances des ordinateurs d'aujourd'hui se dégradent rapidement si les erreurs causées, par exemple, par un retournement de bit aléatoire (un 0 devient 1 ou vice versa) ne peuvent pas être corrigées par des mécanismes de correction d'erreurs intégrés. De plus, ces mécanismes de correction d'erreurs peuvent imposer une pénalité sur les performances allant jusqu'à 25 %, a déclaré Xun Jiao , informaticien à l'Université de Villanova.

Le calcul hyperdimensionnel tolère mieux les erreurs, car même si un hypervecteur subit un nombre important de retournements de bits aléatoires, il reste proche du vecteur d'origine. Cela implique que tout raisonnement utilisant ces vecteurs n'est pas significativement impacté face aux erreurs. L'équipe de Jiao a montré que ces systèmes sont au moins 10 fois plus tolérants aux pannes matérielles que les ANN traditionnels, qui sont eux-mêmes des ordres de grandeur plus résistants que les architectures informatiques traditionnelles. "Nous pouvons tirer parti de toute [cette] résilience pour concevoir du matériel efficace", a déclaré Jiao.

Un autre avantage de l'informatique hyperdimensionnelle est la transparence : l'algèbre vous indique clairement pourquoi le système a choisi la réponse qu'il a choisie. Il n'en va pas de même pour les réseaux de neurones traditionnels. Olshausen, Rahimi et d'autres développent des systèmes hybrides dans lesquels les réseaux de neurones cartographient les éléments du monde physique en hypervecteurs, puis l'algèbre hyperdimensionnelle prend le relais. "Des choses comme le raisonnement analogique vous tombent dessus", a déclaré Olshausen. "C'est ce que nous devrions attendre de tout système d'IA. Nous devrions pouvoir le comprendre comme nous comprenons un avion ou un téléviseur.

Tous ces avantages par rapport à l'informatique traditionnelle suggèrent que l'informatique hyperdimensionnelle est bien adaptée à une nouvelle génération de matériel extrêmement robuste et à faible consommation d'énergie. Il est également compatible avec les "systèmes informatiques en mémoire", qui effectuent le calcul sur le même matériel qui stocke les données (contrairement aux ordinateurs von Neumann existants qui transfèrent inefficacement les données entre la mémoire et l'unité centrale de traitement). Certains de ces nouveaux appareils peuvent être analogiques, fonctionnant à très basse tension, ce qui les rend économes en énergie mais également sujets aux bruits aléatoires. Pour l'informatique de von Neumann, ce caractère aléatoire est "le mur que vous ne pouvez pas franchir", a déclaré Olshausen. Mais avec l'informatique hyperdimensionnelle, "vous pouvez simplement percer".

Malgré ces avantages, l'informatique hyperdimensionnelle en est encore à ses balbutiements. "Il y a un vrai potentiel ici", a déclaré Fermüller. Mais elle souligne qu'il doit encore être testé contre des problèmes du monde réel et à des échelles plus grandes, plus proches de la taille des réseaux de neurones modernes.

"Pour les problèmes à grande échelle, cela nécessite un matériel très efficace", a déclaré Rahimi. "Par exemple, comment [faites-vous] une recherche efficace sur plus d'un milliard d'articles ?"

Tout cela devrait venir avec le temps, a déclaré Kanerva. "Il y a d'autres secrets [que] les espaces de grande dimension détiennent", a-t-il déclaré. "Je vois cela comme le tout début du temps pour le calcul avec des vecteurs."

Auteur: Ananthaswamy Anil

Info: https://www.quantamagazine.org/ Mais 2023

[ machine learning ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

homme-machine

Les grands modèles de langage tels que ChatGPT sont aujourd'hui suffisamment importants pour commencer à afficher des comportements surprenants et imprévisibles.

Quel film ces emojis décrivent-ils ? (On voit une vidéo qui présente des myriades d'émoji formant des motifs mouvants, modélisés à partir de métadonnées)

Cette question était l'une des 204 tâches choisies l'année dernière pour tester la capacité de divers grands modèles de langage (LLM) - les moteurs de calcul derrière les chatbots d'IA tels que ChatGPT. Les LLM les plus simples ont produit des réponses surréalistes. "Le film est un film sur un homme qui est un homme qui est un homme", commençait l'un d'entre eux. Les modèles de complexité moyenne s'en sont approchés, devinant The Emoji Movie. Mais le modèle le plus complexe l'a emporté en une seule réponse : Finding Nemo.

"Bien que j'essaie de m'attendre à des surprises, je suis surpris par ce que ces modèles peuvent faire", a déclaré Ethan Dyer, informaticien chez Google Research, qui a participé à l'organisation du test. C'est surprenant parce que ces modèles sont censés n'avoir qu'une seule directive : accepter une chaîne de texte en entrée et prédire ce qui va suivre, encore et encore, en se basant uniquement sur des statistiques. Les informaticiens s'attendaient à ce que le passage à l'échelle permette d'améliorer les performances sur des tâches connues, mais ils ne s'attendaient pas à ce que les modèles puissent soudainement gérer autant de tâches nouvelles et imprévisibles.

Des études récentes, comme celle à laquelle a participé M. Dyer, ont révélé que les LLM peuvent produire des centaines de capacités "émergentes", c'est-à-dire des tâches que les grands modèles peuvent accomplir et que les petits modèles ne peuvent pas réaliser, et dont beaucoup ne semblent pas avoir grand-chose à voir avec l'analyse d'un texte. Ces tâches vont de la multiplication à la génération d'un code informatique exécutable et, apparemment, au décodage de films à partir d'emojis. De nouvelles analyses suggèrent que pour certaines tâches et certains modèles, il existe un seuil de complexité au-delà duquel la fonctionnalité du modèle monte en flèche. (Elles suggèrent également un sombre revers de la médaille : À mesure qu'ils gagnent en complexité, certains modèles révèlent de nouveaux biais et inexactitudes dans leurs réponses).

"Le fait que les modèles de langage puissent faire ce genre de choses n'a jamais été abordé dans la littérature à ma connaissance", a déclaré Rishi Bommasani, informaticien à l'université de Stanford. L'année dernière, il a participé à la compilation d'une liste de dizaines de comportements émergents, dont plusieurs ont été identifiés dans le cadre du projet de M. Dyer. Cette liste continue de s'allonger.

Aujourd'hui, les chercheurs s'efforcent non seulement d'identifier d'autres capacités émergentes, mais aussi de comprendre pourquoi et comment elles se manifestent - en somme, d'essayer de prédire l'imprévisibilité. La compréhension de l'émergence pourrait apporter des réponses à des questions profondes concernant l'IA et l'apprentissage automatique en général, comme celle de savoir si les modèles complexes font vraiment quelque chose de nouveau ou s'ils deviennent simplement très bons en statistiques. Elle pourrait également aider les chercheurs à exploiter les avantages potentiels et à limiter les risques liés à l'émergence.

"Nous ne savons pas comment déterminer dans quel type d'application la capacité de nuisance va se manifester, que ce soit en douceur ou de manière imprévisible", a déclaré Deep Ganguli, informaticien à la startup d'IA Anthropic.

L'émergence de l'émergence

Les biologistes, les physiciens, les écologistes et d'autres scientifiques utilisent le terme "émergent" pour décrire l'auto-organisation, les comportements collectifs qui apparaissent lorsqu'un grand nombre d'éléments agissent comme un seul. Des combinaisons d'atomes sans vie donnent naissance à des cellules vivantes ; les molécules d'eau créent des vagues ; des murmurations d'étourneaux s'élancent dans le ciel selon des schémas changeants mais identifiables ; les cellules font bouger les muscles et battre les cœurs. Il est essentiel que les capacités émergentes se manifestent dans les systèmes qui comportent de nombreuses parties individuelles. Mais ce n'est que récemment que les chercheurs ont été en mesure de documenter ces capacités dans les LLM, car ces modèles ont atteint des tailles énormes.

Les modèles de langage existent depuis des décennies. Jusqu'à il y a environ cinq ans, les plus puissants étaient basés sur ce que l'on appelle un réseau neuronal récurrent. Ceux-ci prennent essentiellement une chaîne de texte et prédisent le mot suivant. Ce qui rend un modèle "récurrent", c'est qu'il apprend à partir de ses propres résultats : Ses prédictions sont réinjectées dans le réseau afin d'améliorer les performances futures.

En 2017, les chercheurs de Google Brain ont introduit un nouveau type d'architecture appelé "transformateur". Alors qu'un réseau récurrent analyse une phrase mot par mot, le transformateur traite tous les mots en même temps. Cela signifie que les transformateurs peuvent traiter de grandes quantités de texte en parallèle.

Les transformateurs ont permis d'augmenter rapidement la complexité des modèles de langage en augmentant le nombre de paramètres dans le modèle, ainsi que d'autres facteurs. Les paramètres peuvent être considérés comme des connexions entre les mots, et les modèles s'améliorent en ajustant ces connexions au fur et à mesure qu'ils parcourent le texte pendant l'entraînement. Plus il y a de paramètres dans un modèle, plus il peut établir des connexions avec précision et plus il se rapproche d'une imitation satisfaisante du langage humain. Comme prévu, une analyse réalisée en 2020 par les chercheurs de l'OpenAI a montré que les modèles gagnent en précision et en capacité au fur et à mesure qu'ils s'étendent.

Mais les débuts des LLM ont également apporté quelque chose de vraiment inattendu. Beaucoup de choses. Avec l'avènement de modèles tels que le GPT-3, qui compte 175 milliards de paramètres, ou le PaLM de Google, qui peut être étendu à 540 milliards de paramètres, les utilisateurs ont commencé à décrire de plus en plus de comportements émergents. Un ingénieur de DeepMind a même rapporté avoir pu convaincre ChatGPT qu'il s'était lui-même un terminal Linux et l'avoir amené à exécuter un code mathématique simple pour calculer les 10 premiers nombres premiers. Fait remarquable, il a pu terminer la tâche plus rapidement que le même code exécuté sur une vraie machine Linux.

Comme dans le cas du film emoji, les chercheurs n'avaient aucune raison de penser qu'un modèle de langage conçu pour prédire du texte imiterait de manière convaincante un terminal d'ordinateur. Nombre de ces comportements émergents illustrent l'apprentissage "à zéro coup" ou "à quelques coups", qui décrit la capacité d'un LLM à résoudre des problèmes qu'il n'a jamais - ou rarement - vus auparavant. Selon M. Ganguli, il s'agit là d'un objectif de longue date dans la recherche sur l'intelligence artificielle. Le fait de montrer que le GPT-3 pouvait résoudre des problèmes sans aucune donnée d'entraînement explicite dans un contexte d'apprentissage à zéro coup m'a amené à abandonner ce que je faisais et à m'impliquer davantage", a-t-il déclaré.

Il n'était pas le seul. Une série de chercheurs, qui ont détecté les premiers indices montrant que les LLM pouvaient dépasser les contraintes de leurs données d'apprentissage, s'efforcent de mieux comprendre à quoi ressemble l'émergence et comment elle se produit. La première étape a consisté à documenter minutieusement l'émergence.

Au-delà de l'imitation

En 2020, M. Dyer et d'autres chercheurs de Google Research ont prédit que les LLM auraient des effets transformateurs, mais la nature de ces effets restait une question ouverte. Ils ont donc demandé à la communauté des chercheurs de fournir des exemples de tâches difficiles et variées afin de déterminer les limites extrêmes de ce qu'un LLM pourrait faire. Cet effort a été baptisé "Beyond the Imitation Game Benchmark" (BIG-bench), en référence au nom du "jeu d'imitation" d'Alan Turing, un test visant à déterminer si un ordinateur peut répondre à des questions d'une manière humaine convaincante. (Le groupe s'est particulièrement intéressé aux exemples où les LLM ont soudainement acquis de nouvelles capacités qui étaient totalement absentes auparavant.

"La façon dont nous comprenons ces transitions brutales est une grande question de la echerche", a déclaré M. Dyer.

Comme on pouvait s'y attendre, pour certaines tâches, les performances d'un modèle se sont améliorées de manière régulière et prévisible au fur et à mesure que la complexité augmentait. Pour d'autres tâches, l'augmentation du nombre de paramètres n'a apporté aucune amélioration. Mais pour environ 5 % des tâches, les chercheurs ont constaté ce qu'ils ont appelé des "percées", c'est-à-dire des augmentations rapides et spectaculaires des performances à partir d'un certain seuil d'échelle. Ce seuil variant en fonction de la tâche et du modèle.

Par exemple, les modèles comportant relativement peu de paramètres - quelques millions seulement - n'ont pas réussi à résoudre des problèmes d'addition à trois chiffres ou de multiplication à deux chiffres, mais pour des dizaines de milliards de paramètres, la précision a grimpé en flèche dans certains modèles. Des sauts similaires ont été observés pour d'autres tâches, notamment le décodage de l'alphabet phonétique international, le décodage des lettres d'un mot, l'identification de contenu offensant dans des paragraphes d'hinglish (combinaison d'hindi et d'anglais) et la formulation d'équivalents en langue anglaise, traduit à partir de proverbes kiswahili.

Introduction

Mais les chercheurs se sont rapidement rendu compte que la complexité d'un modèle n'était pas le seul facteur déterminant. Des capacités inattendues pouvaient être obtenues à partir de modèles plus petits avec moins de paramètres - ou formés sur des ensembles de données plus petits - si les données étaient d'une qualité suffisamment élevée. En outre, la formulation d'une requête influe sur la précision de la réponse du modèle. Par exemple, lorsque Dyer et ses collègues ont posé la question de l'emoji de film en utilisant un format à choix multiples, l'amélioration de la précision a été moins soudaine qu'avec une augmentation graduelle de sa complexité. L'année dernière, dans un article présenté à NeurIPS, réunion phare du domaine, des chercheurs de Google Brain ont montré comment un modèle invité à s'expliquer (capacité appelée raisonnement en chaîne) pouvait résoudre correctement un problème de mots mathématiques, alors que le même modèle sans cette invitation progressivement précisée n'y parvenait pas.

Yi Tay, scientifique chez Google Brain qui a travaillé sur l'étude systématique de ces percées, souligne que des travaux récents suggèrent que l'incitation par de pareilles chaînes de pensées modifie les courbes d'échelle et, par conséquent, le point où l'émergence se produit. Dans leur article sur NeurIPS, les chercheurs de Google ont montré que l'utilisation d'invites via pareille chaines de pensée progressives pouvait susciter des comportements émergents qui n'avaient pas été identifiés dans l'étude BIG-bench. De telles invites, qui demandent au modèle d'expliquer son raisonnement, peuvent aider les chercheurs à commencer à étudier les raisons pour lesquelles l'émergence se produit.

Selon Ellie Pavlick, informaticienne à l'université Brown qui étudie les modèles computationnels du langage, les découvertes récentes de ce type suggèrent au moins deux possibilités pour expliquer l'émergence. La première est que, comme le suggèrent les comparaisons avec les systèmes biologiques, les grands modèles acquièrent réellement de nouvelles capacités de manière spontanée. "Il se peut très bien que le modèle apprenne quelque chose de fondamentalement nouveau et différent que lorsqu'il était de taille inférieure", a-t-elle déclaré. "C'est ce que nous espérons tous, qu'il y ait un changement fondamental qui se produise lorsque les modèles sont mis à l'échelle.

L'autre possibilité, moins sensationnelle, est que ce qui semble être émergent pourrait être l'aboutissement d'un processus interne, basé sur les statistiques, qui fonctionne par le biais d'un raisonnement de type chaîne de pensée. Les grands LLM peuvent simplement être en train d'apprendre des heuristiques qui sont hors de portée pour ceux qui ont moins de paramètres ou des données de moindre qualité.

Mais, selon elle, pour déterminer laquelle de ces explications est la plus probable, il faut mieux comprendre le fonctionnement des LLM. "Comme nous ne savons pas comment ils fonctionnent sous le capot, nous ne pouvons pas dire laquelle de ces choses se produit.

Pouvoirs imprévisibles et pièges

Demander à ces modèles de s'expliquer pose un problème évident : Ils sont des menteurs notoires. Nous nous appuyons de plus en plus sur ces modèles pour effectuer des travaux de base", a déclaré M. Ganguli, "mais je ne me contente pas de leur faire confiance, je vérifie leur travail". Parmi les nombreux exemples amusants, Google a présenté en février son chatbot d'IA, Bard. Le billet de blog annonçant le nouvel outil montre Bard en train de commettre une erreur factuelle.

L'émergence mène à l'imprévisibilité, et l'imprévisibilité - qui semble augmenter avec l'échelle - rend difficile pour les chercheurs d'anticiper les conséquences d'une utilisation généralisée.

"Il est difficile de savoir à l'avance comment ces modèles seront utilisés ou déployés", a déclaré M. Ganguli. "Et pour étudier les phénomènes émergents, il faut avoir un cas en tête, et on ne sait pas, avant d'avoir étudié l'influence de l'échelle. quelles capacités ou limitations pourraient apparaître.

Dans une analyse des LLM publiée en juin dernier, les chercheurs d'Anthropic ont cherché à savoir si les modèles présentaient certains types de préjugés raciaux ou sociaux, à l'instar de ceux précédemment signalés dans les algorithmes non basés sur les LLM utilisés pour prédire quels anciens criminels sont susceptibles de commettre un nouveau délit. Cette étude a été inspirée par un paradoxe apparent directement lié à l'émergence : Lorsque les modèles améliorent leurs performances en passant à l'échelle supérieure, ils peuvent également augmenter la probabilité de phénomènes imprévisibles, y compris ceux qui pourraient potentiellement conduire à des biais ou à des préjudices.

"Certains comportements nuisibles apparaissent brusquement dans certains modèles", explique M. Ganguli. Il se réfère à une analyse récente des LLM, connue sous le nom de BBQ benchmark, qui a montré que les préjugés sociaux émergent avec un très grand nombre de paramètres. "Les grands modèles deviennent brusquement plus biaisés. Si ce risque n'est pas pris en compte, il pourrait compromettre les sujets de ces modèles."

Mais il propose un contrepoint : Lorsque les chercheurs demandent simplement au modèle de ne pas se fier aux stéréotypes ou aux préjugés sociaux - littéralement en tapant ces instructions - le modèle devient moins biaisé dans ses prédictions et ses réponses. Ce qui suggère que certaines propriétés émergentes pourraient également être utilisées pour réduire les biais. Dans un article publié en février, l'équipe d'Anthropic a présenté un nouveau mode d'"autocorrection morale", dans lequel l'utilisateur incite le programme à être utile, honnête et inoffensif.

Selon M. Ganguli, l'émergence révèle à la fois un potentiel surprenant et un risque imprévisible. Les applications de ces grands LLM prolifèrent déjà, de sorte qu'une meilleure compréhension de cette interaction permettra d'exploiter la diversité des capacités des modèles de langage.

"Nous étudions la manière dont les gens utilisent réellement ces systèmes", a déclaré M. Ganguli. Mais ces utilisateurs sont également en train de bricoler, en permanence. "Nous passons beaucoup de temps à discuter avec nos modèles, et c'est là que nous commençons à avoir une bonne intuition de la confiance ou du manque de confiance.

Auteur: Ornes Stephen

Info: https://www.quantamagazine.org/ - 16 mars 2023. Trad DeepL et MG

[ dialogue ] [ apprentissage automatique ] [ au-delà du jeu d'imitation ] [ dualité ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

intelligence artificielle

Apprendre l'anglais n'est pas une tâche facile, comme le savent d'innombrables étudiants. Mais lorsque l'étudiant est un ordinateur, une approche fonctionne étonnamment bien : Il suffit d'alimenter un modèle mathématique géant, appelé réseau neuronal, avec des montagnes de textes provenant d'Internet. C'est le principe de fonctionnement des modèles linguistiques génératifs tels que ChatGPT d'OpenAI, dont la capacité à tenir une conversation cohérente (à défaut d'être toujours sincère) sur un large éventail de sujets a surpris les chercheurs et le public au cours de l'année écoulée.

Mais cette approche présente des inconvénients. D'une part, la procédure de "formation" nécessaire pour transformer de vastes archives textuelles en modèles linguistiques de pointe est coûteuse et prend beaucoup de temps. D'autre part, même les personnes qui forment les grands modèles linguistiques ont du mal à comprendre leur fonctionnement interne, ce qui, à son tour, rend difficile la prévision des nombreuses façons dont ils peuvent échouer.

Face à ces difficultés, certains chercheurs ont choisi d'entraîner des modèles plus petits sur des ensembles de données plus restreints, puis d'étudier leur comportement. "C'est comme le séquençage du génome de la drosophile par rapport au séquençage du génome humain", explique Ellie Pavlick, chercheuse sur les modèles de langage à l'université de Brown.

Dans un article récemment publié sur le serveur scientifique arxiv.org, deux chercheurs de Microsoft ont présenté une nouvelle méthode pour former de minuscules modèles de langage : Les élever avec un régime strict d'histoires pour enfants.

RÉSEAUX NEURONAUX

Des chercheurs acquièrent une nouvelle compréhension à partir d'une simple IA

Les chercheurs en apprentissage automatique ont compris cette leçon. GPT-3.5, le grand modèle linguistique qui alimente l'interface ChatGPT, compte près de 200 milliards de paramètres et a été entraîné sur un ensemble de données comprenant des centaines de milliards de mots (OpenAI n'a pas publié les chiffres correspondants pour son successeur, GPT-4). L'entraînement de modèles aussi vastes nécessite généralement au moins 1 000 processeurs spécialisés, appelés GPU, fonctionnant en parallèle pendant des semaines. Seules quelques entreprises peuvent réunir les ressources nécessaires, sans parler de l'entraînement et de la comparaison de différents modèles.

Les deux chercheurs ont montré que des modèles linguistiques des milliers de fois plus petits que les systèmes de pointe actuels apprenaient rapidement à raconter des histoires cohérentes et grammaticalement justes lorsqu'ils étaient formés de cette manière. Leurs résultats indiquent de nouvelles pistes de recherche qui pourraient être utiles pour former des modèles plus importants et comprendre leur comportement.

"J'ai trouvé tout ça très instructif", a déclaré Chandra Bhagavatula, chercheur sur les modèles de langage à l'Allen Institute for Artificial Intelligence de Seattle. "Le concept lui-même est très intéressant.

Il était une fois

Les réseaux neuronaux au cœur des modèles de langage sont des structures mathématiques vaguement inspirées du cerveau humain. Chacun d'entre eux contient de nombreux neurones artificiels disposés en couches, avec des connexions entre les neurones des couches adjacentes. Le comportement du réseau neuronal est régi par la force de ces connexions, appelées paramètres. Dans un modèle linguistique, les paramètres contrôlent les mots que le modèle peut produire ensuite, compte tenu d'une invite initiale et des mots qu'il a déjà générés.

Un modèle ne prend véritablement vie qu'au cours de la formation, lorsqu'il compare de manière répétée ses propres résultats au texte de son ensemble de données de formation et qu'il ajuste ses paramètres afin d'accroître la ressemblance. Un réseau non entraîné avec des paramètres aléatoires est trivialement facile à assembler à partir de quelques lignes de code, mais il ne produira que du charabia. Après l'entraînement, il peut souvent poursuivre de manière plausible un texte peu familier. Les modèles de plus grande taille sont souvent soumis à des réglages plus fins qui leur apprennent à répondre à des questions et à suivre des instructions, mais l'essentiel de la formation consiste à maîtriser la prédiction des mots.

Pour réussir à prédire des mots, un modèle linguistique doit maîtriser de nombreuses compétences différentes. Par exemple, les règles de la grammaire anglaise suggèrent que le mot suivant le mot "going" sera probablement "to", quel que soit le sujet du texte. En outre, un système a besoin de connaissances factuelles pour compléter "la capitale de la France est", et compléter un passage contenant le mot "not" nécessite une connaissance rudimentaire de la logique.

"Le langage brut est très compliqué", explique Timothy Nguyen, chercheur en apprentissage automatique chez DeepMind. "Pour que des capacités linguistiques intéressantes apparaissent, les gens ont eu recours à l'idée que plus il y a de données, mieux c'est".

(photo) Ronen Eldan s'est rendu compte qu'il pouvait utiliser les histoires d'enfants générées par de grands modèles linguistiques pour en entraîner rapidement de plus petits.

Introduction

Ronen Eldan, mathématicien qui a rejoint Microsoft Research en 2022 pour étudier les modèles de langage génératifs, souhaitait développer un moyen moins coûteux et plus rapide d'explorer leurs capacités. Le moyen naturel d'y parvenir était d'utiliser un petit ensemble de données, ce qui signifiait qu'il devait entraîner les modèles à se spécialiser dans une tâche spécifique, afin qu'ils ne s'éparpillent pas. Au départ, il voulait entraîner les modèles à résoudre une certaine catégorie de problèmes mathématiques, mais un après-midi, après avoir passé du temps avec sa fille de 5 ans, il s'est rendu compte que les histoires pour enfants convenaient parfaitement. "L'idée m'est venue littéralement après lui avoir lu une histoire", a-t-il déclaré.

Pour générer des histoires cohérentes pour les enfants, un modèle de langage devrait apprendre des faits sur le monde, suivre les personnages et les événements, et observer les règles de grammaire - des versions plus simples des défis auxquels sont confrontés les grands modèles. Mais les grands modèles formés sur des ensembles de données massives apprennent d'innombrables détails non pertinents en même temps que les règles qui comptent vraiment. Eldan espérait que la brièveté et le vocabulaire limité des histoires pour enfants rendraient l'apprentissage plus gérable pour les petits modèles, ce qui les rendrait à la fois plus faciles à former et plus faciles à comprendre.

Dans le monde des modèles de langage, cependant, le terme "petit" est relatif : Un ensemble de données mille fois plus petit que celui utilisé pour former GPT-3.5 devrait encore contenir des millions d'histoires. "Je ne sais pas combien d'argent vous voulez dépenser, mais je suppose que vous n'allez pas engager des professionnels pour écrire quelques millions de nouvelles", a déclaré M. Nguyen.

Il faudrait un auteur extraordinairement prolifique pour satisfaire des lecteurs aussi voraces, mais Eldan avait quelques candidats en tête. Qui peut mieux écrire pour un public de petits modèles linguistiques que pour de grands modèles ?

Toys stories

Eldan a immédiatement entrepris de créer une bibliothèque d'histoires synthétiques pour enfants générées par de grands modèles linguistiques. Mais il a rapidement découvert que même les modèles de pointe ne sont pas naturellement très créatifs. Si l'on demande à GPT-4 d'écrire des histoires adaptées à des enfants de 4 ans, explique Eldan, "environ un cinquième des histoires concernera des enfants qui vont au parc et qui ont peur des toboggans". C'est apparemment la quintessence des histoires pour enfants d'âge préscolaire, selon l'Internet.

La solution a consisté à ajouter un peu d'aléatoire dans le message. Tout d'abord, Eldan a utilisé le GPT-4 pour générer une liste de 1 500 noms, verbes et adjectifs qu'un enfant de 4 ans pourrait connaître - suffisamment courte pour qu'il puisse facilement la vérifier lui-même. Il a ensuite écrit un programme informatique simple qui demanderait à plusieurs reprises à GPT-3.5 ou à GPT-4 de générer une histoire adaptée à l'âge de l'enfant, comprenant trois mots aléatoires de la liste, ainsi qu'un détail supplémentaire choisi au hasard, comme une fin heureuse ou un rebondissement de l'intrigue. Les histoires obtenues, heureusement, étaient moins axées sur des diapositives effrayantes.

Eldan disposait désormais d'une procédure pour produire des données de formation à la demande, mais il n'avait aucune idée du nombre d'histoires dont il aurait besoin pour former un modèle fonctionnel, ni de la taille de ce modèle. C'est alors qu'il s'est associé à Yuanzhi Li, chercheur en apprentissage automatique chez Microsoft et à l'université Carnegie Mellon, pour essayer différentes possibilités, en tirant parti du fait que les petits modèles peuvent être formés très rapidement. La première étape consistait à décider comment évaluer leurs modèles.

Introduction

Dans la recherche sur les modèles de langage - comme dans toute salle de classe - la notation est un sujet délicat. Il n'existe pas de rubrique parfaite qui englobe tout ce que les chercheurs veulent savoir, et les modèles qui excellent dans certaines tâches échouent souvent de manière spectaculaire dans d'autres. Au fil du temps, les chercheurs ont mis au point divers critères de référence standard basés sur des questions dont les réponses ne sont pas ambiguës, ce qui est une bonne approche si vous essayez d'évaluer des compétences spécifiques. Mais Eldan et Li se sont intéressés à quelque chose de plus nébuleux : quelle doit être la taille réelle des modèles linguistiques si l'on simplifie le langage autant que possible ?

"Pour vérifier directement si le modèle parle anglais, je pense que la seule chose à faire est de laisser le modèle générer de l'anglais de manière ouverte", a déclaré M. Eldan.

Il n'y a que deux façons de mesurer les performances d'un modèle sur des questions aussi qualitatives : S'appuyer sur des évaluateurs humains ou se tourner à nouveau vers le GPT-4. Les deux chercheurs ont opté pour cette dernière solution, laissant les grands modèles à la fois rédiger les manuels et noter les dissertations.

Bhagavatula a déclaré qu'il aurait aimé voir comment les évaluations de GPT-4 se comparaient à celles des correcteurs humains - GPT-4 peut être biaisé en faveur des modèles qu'il a aidé à former, et l'opacité des modèles de langage rend difficile la quantification de tels biais. Mais il ne pense pas que de telles subtilités affecteraient les comparaisons entre différents modèles formés sur des ensembles similaires d'histoires synthétiques - l'objectif principal du travail d'Eldan et Li.

Eldan et Li ont utilisé une procédure en deux étapes pour évaluer chacun de leurs petits modèles après la formation. Tout d'abord, ils ont présenté au petit modèle la première moitié d'une histoire distincte de celles de l'ensemble des données d'apprentissage, de manière à ce qu'il génère une nouvelle fin, en répétant ce processus avec 50 histoires de test différentes. Ensuite, ils ont demandé à GPT-4 d'évaluer chacune des fins du petit modèle en fonction de trois catégories : créativité, grammaire et cohérence avec le début de l'histoire. Ils ont ensuite fait la moyenne des notes obtenues dans chaque catégorie, obtenant ainsi trois notes finales par modèle.

Avec cette procédure en main, Eldan et Li étaient enfin prêts à comparer les différents modèles et à découvrir quels étaient les étudiants les plus brillants.

Résultats des tests

Après quelques explorations préliminaires, les deux chercheurs ont opté pour un ensemble de données de formation contenant environ 2 millions d'histoires. Ils ont ensuite utilisé cet ensemble de données, baptisé TinyStories, pour entraîner des modèles dont la taille varie de 1 million à 30 millions de paramètres, avec un nombre variable de couches. Le travail a été rapide : En utilisant seulement quatre GPU, l'entraînement du plus grand de ces modèles n'a pas pris plus d'une journée.

Les plus petits modèles ont eu du mal. Par exemple, l'une des histoires testées commence par un homme à l'air méchant qui dit à une fille qu'il va lui prendre son chat. Un modèle à un million de paramètres s'est retrouvé bloqué dans une boucle où la fille répète sans cesse à l'homme qu'elle veut être son amie. Mais les modèles plus grands, qui sont encore des milliers de fois plus petits que GPT-3.5, ont obtenu des résultats surprenants. La version à 28 millions de paramètres racontait une histoire cohérente, même si la fin était sinistre : "Katie s'est mise à pleurer, mais l'homme s'en fichait. Il a emporté le chat et Katie n'a plus jamais revu son chat. Fin de l'histoire".

En plus de tester leurs propres modèles, Eldan et Li ont soumis le même défi au GPT-2 d'OpenAI, un modèle de 1,5 milliard de paramètres publié en 2019. Le résultat a été bien pire - avant la fin abrupte de l'histoire, l'homme menace d'emmener la jeune fille au tribunal, en prison, à l'hôpital, à la morgue et enfin au crématorium.

Introduction

Selon M. Nguyen, il est passionnant que des modèles aussi petits soient aussi fluides, mais il n'est peut-être pas surprenant que GPT-2 ait eu du mal à accomplir la tâche : il s'agit d'un modèle plus grand, mais loin de l'état de l'art, et il a été formé sur un ensemble de données très différent. "Un enfant en bas âge qui ne s'entraînerait qu'à des tâches d'enfant en bas âge, comme jouer avec des jouets, obtiendrait de meilleurs résultats que vous ou moi", a-t-il fait remarquer. "Nous ne nous sommes pas spécialisés dans cette chose simple.

Les comparaisons entre les différents modèles de TinyStories ne souffrent pas des mêmes facteurs de confusion. Eldan et Li ont observé que les réseaux comportant moins de couches mais plus de neurones par couche étaient plus performants pour répondre aux questions nécessitant des connaissances factuelles ; inversement, les réseaux comportant plus de couches et moins de neurones par couche étaient plus performants pour garder en mémoire les personnages et les points de l'intrigue situés plus tôt dans l'histoire. Bhagavatula a trouvé ce résultat particulièrement intriguant. S'il peut être reproduit dans des modèles plus vastes, "ce serait un résultat vraiment intéressant qui pourrait découler de ce travail", a-t-il déclaré.

Eldan et Li ont également étudié comment les capacités de leurs petits modèles dépendaient de la durée de la période de formation. Dans tous les cas, les modèles maîtrisaient d'abord la grammaire, puis la cohérence. Pour Eldan, ce schéma illustre comment les différences dans les structures de récompense entraînent des différences dans les schémas d'acquisition du langage entre les réseaux neuronaux et les enfants. Pour les modèles de langage, qui apprennent en prédisant des mots, "l'incitation pour les mots "je veux avoir" est aussi importante que pour les mots "crème glacée"", a-t-il déclaré. Les enfants, en revanche, "ne se soucient pas de savoir s'ils disent 'j'aimerais avoir de la glace' ou simplement 'glace, glace, glace'".

Qualité contre quantité

Eldan et Li espèrent que cette étude incitera d'autres chercheurs à entraîner différents modèles sur l'ensemble des données de TinyStories et à comparer leurs capacités. Mais il est souvent difficile de prédire quelles caractéristiques des petits modèles apparaîtront également dans les plus grands.

"Peut-être que les modèles de vision chez la souris sont de très bons substituts de la vision humaine, mais les modèles de dépression chez la souris sont-ils de bons modèles de la dépression chez l'homme ? a déclaré M. Pavlick. "Pour chaque cas, c'est un peu différent.

Le succès des modèles TinyStories suggère également une leçon plus large. L'approche standard pour compiler des ensembles de données de formation consiste à aspirer des textes sur l'internet, puis à filtrer les déchets. Le texte synthétique généré par des modèles de grande taille pourrait constituer une autre façon d'assembler des ensembles de données de haute qualité qui n'auraient pas besoin d'être aussi volumineux.

"Nous avons de plus en plus de preuves que cette méthode est très efficace, non seulement pour les modèles de la taille de TinyStories, mais aussi pour les modèles plus importants", a déclaré M. Eldan. Ces preuves proviennent d'une paire d'articles de suivi sur les modèles à un milliard de paramètres, rédigés par Eldan, Li et d'autres chercheurs de Microsoft. Dans le premier article, ils ont entraîné un modèle à apprendre le langage de programmation Python en utilisant des extraits de code générés par GPT-3.5 ainsi que du code soigneusement sélectionné sur l'internet. Dans le second, ils ont complété l'ensemble de données d'entraînement par des "manuels" synthétiques couvrant un large éventail de sujets, afin d'entraîner un modèle linguistique à usage général. Lors de leurs tests, les deux modèles ont été comparés favorablement à des modèles plus importants formés sur des ensembles de données plus vastes. Mais l'évaluation des modèles linguistiques est toujours délicate, et l'approche des données d'entraînement synthétiques n'en est qu'à ses balbutiements - d'autres tests indépendants sont nécessaires.

Alors que les modèles linguistiques de pointe deviennent de plus en plus volumineux, les résultats surprenants de leurs petits cousins nous rappellent qu'il y a encore beaucoup de choses que nous ne comprenons pas, même pour les modèles les plus simples. M. Nguyen s'attend à ce que de nombreux autres articles explorent l'approche inaugurée par TinyStories.

"La question est de savoir où et pourquoi la taille a de l'importance", a-t-il déclaré. "Il devrait y avoir une science à ce sujet, et cet article est, je l'espère, le début d'une riche histoire.

Auteur: Internet

Info: https://www.quantamagazine.org/ Ben Brubaker, 5 octobre 2023

[ synthèse ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

Paramètres de recherches