Les fils de la pensée

pédagogie

Apprentissage par récompense ou par punition: quelles différences ?
Apprendre à rechercher le plaisir ("récompenses") et à éviter la douleur ("punitions") joue un rôle fondamental pour la survie de tout animal, homme inclus. C'est ce que viennent de démontrer dans un article paru dans la revue Nature Communications, des chercheurs issus du CNRS - et notamment du Groupe d'analyse et de théorie économique Lyon St-Etienne
Malgré leur égale importance, l'apprentissage par récompense est beaucoup mieux compris que l'apprentissage par punition, d'un point de vue non seulement psychologique mais aussi neurobiologique. La principale raison à cela est que l'apprentissage par récompense est plus simple: il suffit de répéter les choix qui ont amené dans le passé à l'obtention du plaisir. En d'autres termes, il y a une association directe entre le "bon choix à faire" et le stimulus qui motive l'apprentissage (la récompense, qui a une valeur positive).
La figure montre des activations cérébrales dans deux régions, le striatum ventral (en vert) et l'insula antérieur (en rouge), qui sont connues pour travailler en opposition et être impliquées dans l'apprentissage par récompense et celui par punition, respectivement. Dans notre étude nous montrons que la contextualisation des valeurs supprime la nécessité d'activer l'insula, lors de l'apprentissage par punition, produisant un transfert d'activation du système de punition vers le système de récompense à mesure que les actions acquièrent une valeur relative positive.
L'apprentissage par punition est cognitivement plus complexe, car cette association n'est justement pas directe. Prenons l'exemple d'un animal qui est poursuivi par un prédateur. Le bon choix consisterait à se cacher dans un trou pour fuir le prédateur et amènerait à la disparition du stimulus qui motive l'apprentissage (le prédateur, qui a une valeur négative). Par conséquent, il est difficile d'expliquer comment ce bon choix se maintient en l'absence du stimulus. Les théories courantes ont ainsi du mal à démontrer comment les hommes peuvent être aussi performants dans le domaine de la punition que dans celui de la récompense.
L'équipe de recherche a découvert récemment un algorithme permettant au cerveau humain d'apprendre à éviter des punitions aussi efficacement qu'il apprend à rechercher des récompenses. La clef de voûte de cet algorithme - appelé "RELATIVE" - consiste à calculer les résultats des actions de manière dépendante du contexte dans lequel le résultat est obtenu. Ainsi, dans l'apprentissage par punition, le résultat d'une action qui a une valeur nulle (voire légèrement négative) - se cacher dans un trou - est rapporté au contexte dans lequel ce résultat a été obtenu, qui a une valeur très négative - être poursuivi par un prédateur. Si l'on considère que la valeur de l'action est plus grande que la valeur moyenne du contexte, le bon choix acquiert ainsi une valeur "relative" positive. Il permet donc un apprentissage par récompense aussi bien que par punition.
Grâce à l'imagerie par résonance magnétique cérébrale, l'équipe de recherche a aussi pu valider cet algorithme d'un point de vue neurobiologique, en montrant qu'il explique les variations d'activité cérébrale dans le cortex préfrontal médian, une zone du cerveau connue pour être impliquée dans la prise de décision. L'IRM a également permis de trancher un débat contradictoire important en sciences et dans la littérature: y a-t-il des systèmes ou réseaux distincts dans le cerveau pour l'apprentissage basé sur la récompense et celui basé sur la punition ?
L'analyse démontre qu'au départ, lorsque les sujets ne semblent pas encore avoir bien appris la valeur du contexte, le système d'apprentissage basé sur la récompense (le striatum ventral) et celui basé sur la punition (l'insula) sont tous les deux activés. Puis, à mesure que la contextualisation des valeurs négatives se met en place, l'insula s'active de moins en moins, et les essais d'apprentissage dans le contexte de punition se mettent à impliquer le striatum ventral qui s'active de plus en plus.

Auteur: Internet

Info: Contextual modulation of value signals in reward and punishment learning. Stefano Palminteri, Mehdi Khamassi, Mateus Joffily, Georgio Coricelli, Nature Communications, 25 août 2015

[ reptilien ]

Commenter

Commentaires: 0

cyberguerre

Des chercheurs créent le tout premier ver informatique capable de se répandre dans les systèmes d'IA

Vous vous demandiez si l’intelligence artificielle pouvait être infectée par des virus ou des malwares ? Maintenant, oui.

C’est, selon l’équipe qui l’a développé, une grande première dans le monde de l’intelligence artificielle. Afin de rappeler au monde les risques inhérents à toute technologie connectée, un groupe de chercheurs vient de créer le tout premier ver informatique capable d’infecter les agents IA. Une démonstration qui doit alerter sur l’émergence possible de nouveaux types de cyberattaques.

La résurgence du spectre Morris à l’ère de l’intelligence artificielle

Baptisé Morris II en référence à Morris, célèbre pour avoir semé le chaos sur Internet en 1998, ce ver informatique d’un genre nouveau aurait la capacité de se répandre d’un système d’IA à l’autre. Créé par une équipe de chercheurs dans un environnement de test, Morris est aujourd’hui capable d’attaquer des agents IA génératifs pour siphonner des données et propager des malwares. Dans le cadre des essais menés par le groupe de recherche, le ver a pu s’en prendre à un assistant autonome de messagerie pour dérober des informations contenues dans les mails et envoyer des spams.

Une expérience qui souligne la vulnérabilité croissante des modèles de langage à grande échelle (LLM), alors qu’ils sont de plus en plus performants, polyvalents et multimodaux. Bien que ces vers IA n'aient pas encore été observés en conditions réelles, ils représentent un risque de sécurité que les start-up, les développeurs et les entreprises tech doivent prendre au sérieux et anticiper.

Des prompts auto-réplicatifs pour jailbreaker les systèmes d’IA générative

Pour créer ce ver, les équipes de Cornell Tech ont créé un prompt " auto-réplicatif ". En clair, un ensemble d’instructions conduisant un système d’IA génératif à autoproduire des instructions supplémentaires dans ses réponses. Un procédé que l’on retrouve dans des attaques classiques par injection de SQL ou de type buffer overflow. En parallèle, ils ont aussi créé un système de mails capable d’envoyer et de recevoir des messages en recourant à différents agents intelligents comme ChatGPT et Gemini, ainsi qu’au LLM open source LLaVA.

L’expérience s’est révélée concluante en utilisant deux méthodes d’auto-réplication des instructions. La première via des prompts textuels, la seconde en intégrant un prompt dans un fichier image. Dans le premier cas, les chercheurs ont réussi à " empoisonner " la base de données des assistants de messagerie, forçant le déclenchement de la RAG – retrieval-aumented generation, techno permettant d’améliorer les réponses de l’IA à l’aide d’informations plus récentes sans modifier le LLM en profondeur.

(Photo - Schéma de la propagation du ver dans les systèmes d'IA générative intégrant la RAG © Cornell Tech)

Une fois le mail récupéré par la RAG en réponse à une requête de l’utilisateur, et envoyé à GPT-4 ou Gemini, il parvient à contourner les mesures de sécurité des systèmes d’IA et dérobe les données du message. " La réponse générée contenant les données utilisateur sensibles infecte plus tard les nouveaux hôtes lorsqu'elle est utilisée pour répondre à un mail envoyé à un nouveau client puis stockée dans la base de données du nouveau client ", a expliqué Ben Nassi, l’un des membres du groupe de recherche.

Avec la seconde méthode (intégration du prompt malveillant dans une image), le processus a permis d’obliger l’assistant à transférer plusieurs fois le mail infecté à d’autres systèmes de messagerie.

(Photo - Schéma de la propagation du ver dans les systèmes d'IA à l'aide d'un prompt malveillant dissimulé dans une image © Cornell Tech)

Pour anticiper de telles attaques qu’ils estiment probables d’ici deux à trois ans, les chercheurs de Cornell Tech ont partagé leurs travaux avec Google et OpenAI qui travaillent à rendre leurs systèmes plus résilients, tout en encourageant les développeurs à s'assurer qu'ils travaillent avec des outils sains.

Auteur: Internet

Info: https://www.clubic.com/, Chloé Claessens, 2 mars 2024, source : Technion - Israel Institute of Technology, Ron Bitton, Ben Nassi, Stav Cohen

[ conflits numériques ]

Commenter

Commentaires: 0

Ajouté à la BD par Le sous-projectionniste

extraterrestres parmi nous

Comment reconnaître un non-terrestre

Les conditions ci-après ne sont ni nécessaires ni suffisantes car ces personnes sont capables de mimétisme, elles peuvent véritablement singer notre comportement.

Singer est le mot juste...

1°) Pas de gestes parasites.

La personne contrôle parfaitement son corps et n'a aucun mouvement, ni aucune expression faciale inutiles.

Ceci est maintenu aussi longtemps que nécessaire, et est opéré SANS EFFORT. Le corps biologique qu'ils utilisent n'est pas robotique, ce n'est pas lui qui prime sur les actions, il est majoritairement voire totalement intriqué avec la conscience de la Personne, contrairement à un humain terrestre standard dont on peut estimer ce pourcentage à moins de 1% .

Cette prise en contrôle par la conscience s'exerce sur TOUS les fonctionnements et dans TOUTES les parties de leur enveloppe biologique.

Un des moyens de déceler ce type de maîtrise est d'observer les mouvements des paupières et de ceux des yeux, très différents d'un humain standard, y compris d'un humain terrestre même spirituellement "avancé".

Si l'apparence peut s'avérer similaire, en réalité le corps biologique est intrinsèquement différent.

2°) Une aura et un champ d'énergie différents de l'humain terrestre standard.

Une aura deux à trois fois plus large que celle d'un humain terrestre est un indice. La hauteur également. Ensuite la distribution des fils colorés qui forment l'aura présente des caractéristiques différentes, par exemple beaucoup moins de rouge sombre, de marron, de vert "sale" dans la couronne cérébrale. Les filaments or, bleus vifs, vert pomme, violets vont constituer la trame essentielle de leur habit de lumière, les couleurs sont en général plus belles et les compositions sont nettement plus diversifiées.

(Par parenthèse, ceux qui ne voient pas l'aura imaginent souvent que c'est un patchwork de taches de couleurs, mais ces personnes là n'ont pas la moindre idée de la réalité)

Si vous ne VOYEZ PAS l'aura avec vos yeux, laissez tomber ce que vous pouvez supposer ou "ressentir". Ce que vous "ressentez" alors est le contact epsilon, énergétique, ce qui n'est absolument pas la même chose.

Le champ d'énergie en lui même des personnes non terrestres est parfois différent de celui des humains terrestres.

S'il est VIOLET ou s'il contient une forte proportion de rouge clair mêlé aux différentes nuances de bleu que l'on connaît ordinairement chez l'humain terrestre standard, il y a un bon indice.

Pour valider cet indice, vérifiez qu'il n'y ait pas un contexte orageux ou une présence de forts champ magnétiques, et comparez avec les humains terrestres présents au même endroit. S'ils sont plusieurs à avoir cette caractéristique et s'ils ont l'air d'être ensemble, vous avez une forte probabilité de vous trouver en présence d'un groupe de non-terrestres.

3°) Impact mental, présence.

Si l'humain terrestre à un mental d'un watt, celui d'une personne exogène sera EN GÉNÉRAL très supérieur: 10, 50, 200 watts.

Une des implications de ce mental surpuissant est de contrôler facilement celui d'une espèce inférieure : les humains terrestres.

Par exemple, une personne exogène va induire chez l'humain terrestre standard différentes choses possibles :

Une peur instinctive qui débordera TOUT son mental.

Une occultation de sa conscience pour une durée variable (missing time).

Un sentiment de sécurité voire de béatitude.

Une non-mémorisation transitoire: la personne voit tout et est pleinement consciente DANS L'INSTANT, mais l'empreinte mémorielle, neuronale, est empêchée.

Une seconde après, ce que cette personne a vécu n'a tout simplement jamais existé pour elle, car il y a zéro enregistrement.

LA PRESENCE:

Pour les plus perceptifs d'entre nous, c'est tout notre champ d'énergie et tout notre mental incarné qui détecte une présence étrangère. Nous sommes totalement CERTAINS que la personne qui est là n'est pas originaire de la planète terre.

Cependant, même les plus performants d'entre nous sont des handicapés à 100% par rapport à certains êtres exogènes.

En leur présence, et suite à leur rencontre, vous aurez une juste idée de ce que vous êtes comme humain terrestre : presque rien. Idem pour les différences entre VOUS ET LES AUTRES HUMAINS TERRESTRES: elles sont quasi nulles, dérisoires, ridicules.

Même si vous voyez parfaitement l'aura, le champ énergétique, même si vous êtes "télépathe", même si vous avez accès à la grande Mémoire, avoir été en leur présence vous montre ce que vous êtes réellement comme humain terrestre.

Et vous ne pourrez jamais plus faire le malin, plus jamais vous croire "supérieur" à un autre terrestre.

Ce n'est pas du tout une question d'humilité, mais seulement de lucidité en face de l'évidence.

Auteur: Auburn Marc

Info: Sur son fil FB, 7 novembre 2023

[ science-fiction ] [ ésotérisme ] [ paranormal ] [ divinités ] [ hiérarchie ] [ alien identification ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

biophysique

La photosynthèse des plantes utilise un tour de passe-passe quantique

Des chercheurs ont observé des similitudes étonnantes entre la photosynthèse des plantes vertes et le fameux "cinquième état de la matière" en mettant le doigt sur un curieux phénomène; ils ont trouvé des liens entre le processus de photosynthèse, qui permet aux végétaux d’exploiter la lumière du soleil, et les condensats de Bose-Einstein, des matériaux dans un état très particulier qui fait intervenir la physique quantique.

"Pour autant que je sache, ces deux disciplines n’ont jamais été connectées auparavant, donc ce résultat nous a semblé très intrigant et excitant", explique David Mazziotti, co-auteur de l’étude.

Son laboratoire est spécialisé dans la modélisation des interactions complexes de la matière. Ces derniers temps, son équipe s’est intéressée aux mécanismes de la photosynthèse à l’échelle des atomes et des molécules. Plus précisément, les chercheurs se sont penchés sur le siège de cette réaction : les chloroplastes, les petites structures chlorophylliennes qui donnent leur couleur aux plantes vertes.

Lorsqu’un photon vient frapper une structure bien précise à la surface de ces chloroplastes (le photosystème II, ou PSII), cela a pour effet d’arracher un électron — une particule élémentaire chargée négativement. Ce dernier devient alors l’acteur principal d’une réaction en chaîne complexe. Le mécanisme est déjà relativement bien connu. Il a été étudié en profondeur par des tas de spécialistes, et c’est aujourd’hui l’une des pierres angulaires de la biologie végétale.

Mais le départ de cet électron laisse aussi ce que les physiciens appellent un trou. Il ne s’agit pas d’une particule à proprement parler. Mais cette structure chargée positivement est aussi capable se déplacer au sein d’un système. Elle peut donc se comporter comme un vecteur d’énergie.

Ensemble, l’électron éjecté et le trou qu’il laisse derrière lui forment un couple dynamique appelé exciton. Et si le rôle du premier est bien documenté, le comportement du second dans le cadre de la photosynthèse n’a quasiment pas été étudié.

C’est quoi, un condensat de Bose-Einstein ?

Pour combler cette lacune, Mazziotti et ses collègues ont réalisé des modélisations informatiques du phénomène. Et en observant les allées et venues de ces excitons, ces spécialistes des interactions de la matière ont rapidement remarqué quelques motifs qui leur ont semblé familiers ; ils rappelaient fortement un concept proposé par Einstein en 1925.

Imaginez un gaz où des particules se déplacent aléatoirement les uns par rapport aux autres, animées par leur énergie interne. En le refroidissant (ce qui revient à retirer de l’énergie au système), on force les atomes à s’agglutiner ; le gaz passe à l’état liquide, puis solide dans certains cas.

Lorsqu’on le refroidit encore davantage pour s’approcher du zéro absolu, les atomes arrivent dans un état où ils n’ont quasiment plus d’énergie à disposition ; ils sont presque entièrement figés dans un état ultra-condensé, séparés par une distance si minuscule que la physique newtonienne traditionnelle ne suffit plus à l’expliquer.

Sans rentrer dans le détail, dans ces conditions, les atomes (ou plus précisément les bosons) qui composent certains matériaux deviennent quasiment indiscernables. Au niveau quantique, ils forment un système unique, une sorte de super-particule où chaque constituant est exactement dans le même état (voir la notion de dualité onde-corpuscule pour plus de détails). On appelle cela un condensat de Bose-Einstein.

Ces objets ne suivent pas les règles de la physique traditionnelle. Ils affichent des propriétés très particulières qui n’existent pas dans les gaz, les liquides, les solides ou le plasma. Pour cette raison, ces condensats sont parfois considérés comme les représentants du "cinquième état de la matière". (après le solide, le liquide, le gaz et le plasma)

De la biologie végétale à la physique quantique

La plus remarquable de ces propriétés, c’est que les condensats de Bose-Einstein sont de vraies autoroutes à particules. D’après la physicienne américaine Louise Lerner, l’énergie s’y déplace librement, sans la moindre résistance. Même si les mécanismes physiques sous-jacents sont différents, on se retrouve dans une situation comparable à ce que l’on trouve dans les supraconducteurs.

Or, d’après les modèles informatiques créés par Mazziotti et ses collègues, les excitons générés par la photosynthèse peuvent parfois se lier comme dans les condensats de Bose-Einstein. C’est une observation particulièrement surprenante, car jusqu’à présent, cela n’a été documenté qu’à des températures proches du zéro absolu. Selon Louise Lerner, c’est aussi étonnant que de voir "des glaçons se former spontanément dans une tasse de café chaud".

Le phénomène n’est pas aussi marqué chez les plantes que dans les vrais condensats de Bose-Einstein. Mais d’après les auteurs de l’étude, cela aurait quand même pour effet de doubler l’efficacité des transferts énergétiques indispensables à la photosynthèse.

De la recherche fondamentale aux applications pratiques

Les implications de cette découverte ne sont pas encore parfaitement claires. Mais il y en a une qui met déjà l’eau à la bouche des chercheurs : ces travaux pourraient enfin permettre d’utiliser les formidables propriétés des condensats de Bose-Einstein dans des applications concrètes.

En effet, même si ces matériaux sont très intéressants sur le papier, le fait de devoir atteindre une température proche du zéro absolu limite grandement leur intérêt pratique. Aujourd’hui, ils sont utilisés exclusivement en recherche fondamentale. Mais puisqu’un phénomène comparable a désormais été modélisé à température ambiante, les chercheurs vont pouvoir essayer d’utiliser ces mécanismes pour concevoir de nouveaux matériaux aux propriétés très intéressantes.

"Un condensat d’excitons parfait est très sensible et nécessite des conditions très spécifiques", précise Mazziotti. "Mais pour les applications réalistes, c’est très excitant de voir que ce phénomène qui augmente l’efficacité du système peut survenir à température ambiante", se réjouit-il.

A long terme, cette découverte va sans doute contribuer à la recherche fondamentale, en biologie végétale mais aussi en physique quantique pure. Cela pourrait aussi faire émerger une nouvelle génération de composants électroniques très performants. Il sera donc très intéressant de suivre les retombées de ces travaux encore balbutiants, mais exceptionnellement prometteurs.

Auteur: Internet

Info: https://www.journaldugeek.com/, Antoine Gautherie le 05 mai 2023

[ recherche fondamentale ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

intelligence artificielle

Apprendre l'anglais n'est pas une tâche facile, comme le savent d'innombrables étudiants. Mais lorsque l'étudiant est un ordinateur, une approche fonctionne étonnamment bien : Il suffit d'alimenter un modèle mathématique géant, appelé réseau neuronal, avec des montagnes de textes provenant d'Internet. C'est le principe de fonctionnement des modèles linguistiques génératifs tels que ChatGPT d'OpenAI, dont la capacité à tenir une conversation cohérente (à défaut d'être toujours sincère) sur un large éventail de sujets a surpris les chercheurs et le public au cours de l'année écoulée.

Mais cette approche présente des inconvénients. D'une part, la procédure de "formation" nécessaire pour transformer de vastes archives textuelles en modèles linguistiques de pointe est coûteuse et prend beaucoup de temps. D'autre part, même les personnes qui forment les grands modèles linguistiques ont du mal à comprendre leur fonctionnement interne, ce qui, à son tour, rend difficile la prévision des nombreuses façons dont ils peuvent échouer.

Face à ces difficultés, certains chercheurs ont choisi d'entraîner des modèles plus petits sur des ensembles de données plus restreints, puis d'étudier leur comportement. "C'est comme le séquençage du génome de la drosophile par rapport au séquençage du génome humain", explique Ellie Pavlick, chercheuse sur les modèles de langage à l'université de Brown.

Dans un article récemment publié sur le serveur scientifique arxiv.org, deux chercheurs de Microsoft ont présenté une nouvelle méthode pour former de minuscules modèles de langage : Les élever avec un régime strict d'histoires pour enfants.

RÉSEAUX NEURONAUX

Des chercheurs acquièrent une nouvelle compréhension à partir d'une simple IA

Les chercheurs en apprentissage automatique ont compris cette leçon. GPT-3.5, le grand modèle linguistique qui alimente l'interface ChatGPT, compte près de 200 milliards de paramètres et a été entraîné sur un ensemble de données comprenant des centaines de milliards de mots (OpenAI n'a pas publié les chiffres correspondants pour son successeur, GPT-4). L'entraînement de modèles aussi vastes nécessite généralement au moins 1 000 processeurs spécialisés, appelés GPU, fonctionnant en parallèle pendant des semaines. Seules quelques entreprises peuvent réunir les ressources nécessaires, sans parler de l'entraînement et de la comparaison de différents modèles.

Les deux chercheurs ont montré que des modèles linguistiques des milliers de fois plus petits que les systèmes de pointe actuels apprenaient rapidement à raconter des histoires cohérentes et grammaticalement justes lorsqu'ils étaient formés de cette manière. Leurs résultats indiquent de nouvelles pistes de recherche qui pourraient être utiles pour former des modèles plus importants et comprendre leur comportement.

"J'ai trouvé tout ça très instructif", a déclaré Chandra Bhagavatula, chercheur sur les modèles de langage à l'Allen Institute for Artificial Intelligence de Seattle. "Le concept lui-même est très intéressant.

Il était une fois

Les réseaux neuronaux au cœur des modèles de langage sont des structures mathématiques vaguement inspirées du cerveau humain. Chacun d'entre eux contient de nombreux neurones artificiels disposés en couches, avec des connexions entre les neurones des couches adjacentes. Le comportement du réseau neuronal est régi par la force de ces connexions, appelées paramètres. Dans un modèle linguistique, les paramètres contrôlent les mots que le modèle peut produire ensuite, compte tenu d'une invite initiale et des mots qu'il a déjà générés.

Un modèle ne prend véritablement vie qu'au cours de la formation, lorsqu'il compare de manière répétée ses propres résultats au texte de son ensemble de données de formation et qu'il ajuste ses paramètres afin d'accroître la ressemblance. Un réseau non entraîné avec des paramètres aléatoires est trivialement facile à assembler à partir de quelques lignes de code, mais il ne produira que du charabia. Après l'entraînement, il peut souvent poursuivre de manière plausible un texte peu familier. Les modèles de plus grande taille sont souvent soumis à des réglages plus fins qui leur apprennent à répondre à des questions et à suivre des instructions, mais l'essentiel de la formation consiste à maîtriser la prédiction des mots.

Pour réussir à prédire des mots, un modèle linguistique doit maîtriser de nombreuses compétences différentes. Par exemple, les règles de la grammaire anglaise suggèrent que le mot suivant le mot "going" sera probablement "to", quel que soit le sujet du texte. En outre, un système a besoin de connaissances factuelles pour compléter "la capitale de la France est", et compléter un passage contenant le mot "not" nécessite une connaissance rudimentaire de la logique.

"Le langage brut est très compliqué", explique Timothy Nguyen, chercheur en apprentissage automatique chez DeepMind. "Pour que des capacités linguistiques intéressantes apparaissent, les gens ont eu recours à l'idée que plus il y a de données, mieux c'est".

(photo) Ronen Eldan s'est rendu compte qu'il pouvait utiliser les histoires d'enfants générées par de grands modèles linguistiques pour en entraîner rapidement de plus petits.

Introduction

Ronen Eldan, mathématicien qui a rejoint Microsoft Research en 2022 pour étudier les modèles de langage génératifs, souhaitait développer un moyen moins coûteux et plus rapide d'explorer leurs capacités. Le moyen naturel d'y parvenir était d'utiliser un petit ensemble de données, ce qui signifiait qu'il devait entraîner les modèles à se spécialiser dans une tâche spécifique, afin qu'ils ne s'éparpillent pas. Au départ, il voulait entraîner les modèles à résoudre une certaine catégorie de problèmes mathématiques, mais un après-midi, après avoir passé du temps avec sa fille de 5 ans, il s'est rendu compte que les histoires pour enfants convenaient parfaitement. "L'idée m'est venue littéralement après lui avoir lu une histoire", a-t-il déclaré.

Pour générer des histoires cohérentes pour les enfants, un modèle de langage devrait apprendre des faits sur le monde, suivre les personnages et les événements, et observer les règles de grammaire - des versions plus simples des défis auxquels sont confrontés les grands modèles. Mais les grands modèles formés sur des ensembles de données massives apprennent d'innombrables détails non pertinents en même temps que les règles qui comptent vraiment. Eldan espérait que la brièveté et le vocabulaire limité des histoires pour enfants rendraient l'apprentissage plus gérable pour les petits modèles, ce qui les rendrait à la fois plus faciles à former et plus faciles à comprendre.

Dans le monde des modèles de langage, cependant, le terme "petit" est relatif : Un ensemble de données mille fois plus petit que celui utilisé pour former GPT-3.5 devrait encore contenir des millions d'histoires. "Je ne sais pas combien d'argent vous voulez dépenser, mais je suppose que vous n'allez pas engager des professionnels pour écrire quelques millions de nouvelles", a déclaré M. Nguyen.

Il faudrait un auteur extraordinairement prolifique pour satisfaire des lecteurs aussi voraces, mais Eldan avait quelques candidats en tête. Qui peut mieux écrire pour un public de petits modèles linguistiques que pour de grands modèles ?

Toys stories

Eldan a immédiatement entrepris de créer une bibliothèque d'histoires synthétiques pour enfants générées par de grands modèles linguistiques. Mais il a rapidement découvert que même les modèles de pointe ne sont pas naturellement très créatifs. Si l'on demande à GPT-4 d'écrire des histoires adaptées à des enfants de 4 ans, explique Eldan, "environ un cinquième des histoires concernera des enfants qui vont au parc et qui ont peur des toboggans". C'est apparemment la quintessence des histoires pour enfants d'âge préscolaire, selon l'Internet.

La solution a consisté à ajouter un peu d'aléatoire dans le message. Tout d'abord, Eldan a utilisé le GPT-4 pour générer une liste de 1 500 noms, verbes et adjectifs qu'un enfant de 4 ans pourrait connaître - suffisamment courte pour qu'il puisse facilement la vérifier lui-même. Il a ensuite écrit un programme informatique simple qui demanderait à plusieurs reprises à GPT-3.5 ou à GPT-4 de générer une histoire adaptée à l'âge de l'enfant, comprenant trois mots aléatoires de la liste, ainsi qu'un détail supplémentaire choisi au hasard, comme une fin heureuse ou un rebondissement de l'intrigue. Les histoires obtenues, heureusement, étaient moins axées sur des diapositives effrayantes.

Eldan disposait désormais d'une procédure pour produire des données de formation à la demande, mais il n'avait aucune idée du nombre d'histoires dont il aurait besoin pour former un modèle fonctionnel, ni de la taille de ce modèle. C'est alors qu'il s'est associé à Yuanzhi Li, chercheur en apprentissage automatique chez Microsoft et à l'université Carnegie Mellon, pour essayer différentes possibilités, en tirant parti du fait que les petits modèles peuvent être formés très rapidement. La première étape consistait à décider comment évaluer leurs modèles.

Introduction

Dans la recherche sur les modèles de langage - comme dans toute salle de classe - la notation est un sujet délicat. Il n'existe pas de rubrique parfaite qui englobe tout ce que les chercheurs veulent savoir, et les modèles qui excellent dans certaines tâches échouent souvent de manière spectaculaire dans d'autres. Au fil du temps, les chercheurs ont mis au point divers critères de référence standard basés sur des questions dont les réponses ne sont pas ambiguës, ce qui est une bonne approche si vous essayez d'évaluer des compétences spécifiques. Mais Eldan et Li se sont intéressés à quelque chose de plus nébuleux : quelle doit être la taille réelle des modèles linguistiques si l'on simplifie le langage autant que possible ?

"Pour vérifier directement si le modèle parle anglais, je pense que la seule chose à faire est de laisser le modèle générer de l'anglais de manière ouverte", a déclaré M. Eldan.

Il n'y a que deux façons de mesurer les performances d'un modèle sur des questions aussi qualitatives : S'appuyer sur des évaluateurs humains ou se tourner à nouveau vers le GPT-4. Les deux chercheurs ont opté pour cette dernière solution, laissant les grands modèles à la fois rédiger les manuels et noter les dissertations.

Bhagavatula a déclaré qu'il aurait aimé voir comment les évaluations de GPT-4 se comparaient à celles des correcteurs humains - GPT-4 peut être biaisé en faveur des modèles qu'il a aidé à former, et l'opacité des modèles de langage rend difficile la quantification de tels biais. Mais il ne pense pas que de telles subtilités affecteraient les comparaisons entre différents modèles formés sur des ensembles similaires d'histoires synthétiques - l'objectif principal du travail d'Eldan et Li.

Eldan et Li ont utilisé une procédure en deux étapes pour évaluer chacun de leurs petits modèles après la formation. Tout d'abord, ils ont présenté au petit modèle la première moitié d'une histoire distincte de celles de l'ensemble des données d'apprentissage, de manière à ce qu'il génère une nouvelle fin, en répétant ce processus avec 50 histoires de test différentes. Ensuite, ils ont demandé à GPT-4 d'évaluer chacune des fins du petit modèle en fonction de trois catégories : créativité, grammaire et cohérence avec le début de l'histoire. Ils ont ensuite fait la moyenne des notes obtenues dans chaque catégorie, obtenant ainsi trois notes finales par modèle.

Avec cette procédure en main, Eldan et Li étaient enfin prêts à comparer les différents modèles et à découvrir quels étaient les étudiants les plus brillants.

Résultats des tests

Après quelques explorations préliminaires, les deux chercheurs ont opté pour un ensemble de données de formation contenant environ 2 millions d'histoires. Ils ont ensuite utilisé cet ensemble de données, baptisé TinyStories, pour entraîner des modèles dont la taille varie de 1 million à 30 millions de paramètres, avec un nombre variable de couches. Le travail a été rapide : En utilisant seulement quatre GPU, l'entraînement du plus grand de ces modèles n'a pas pris plus d'une journée.

Les plus petits modèles ont eu du mal. Par exemple, l'une des histoires testées commence par un homme à l'air méchant qui dit à une fille qu'il va lui prendre son chat. Un modèle à un million de paramètres s'est retrouvé bloqué dans une boucle où la fille répète sans cesse à l'homme qu'elle veut être son amie. Mais les modèles plus grands, qui sont encore des milliers de fois plus petits que GPT-3.5, ont obtenu des résultats surprenants. La version à 28 millions de paramètres racontait une histoire cohérente, même si la fin était sinistre : "Katie s'est mise à pleurer, mais l'homme s'en fichait. Il a emporté le chat et Katie n'a plus jamais revu son chat. Fin de l'histoire".

En plus de tester leurs propres modèles, Eldan et Li ont soumis le même défi au GPT-2 d'OpenAI, un modèle de 1,5 milliard de paramètres publié en 2019. Le résultat a été bien pire - avant la fin abrupte de l'histoire, l'homme menace d'emmener la jeune fille au tribunal, en prison, à l'hôpital, à la morgue et enfin au crématorium.

Introduction

Selon M. Nguyen, il est passionnant que des modèles aussi petits soient aussi fluides, mais il n'est peut-être pas surprenant que GPT-2 ait eu du mal à accomplir la tâche : il s'agit d'un modèle plus grand, mais loin de l'état de l'art, et il a été formé sur un ensemble de données très différent. "Un enfant en bas âge qui ne s'entraînerait qu'à des tâches d'enfant en bas âge, comme jouer avec des jouets, obtiendrait de meilleurs résultats que vous ou moi", a-t-il fait remarquer. "Nous ne nous sommes pas spécialisés dans cette chose simple.

Les comparaisons entre les différents modèles de TinyStories ne souffrent pas des mêmes facteurs de confusion. Eldan et Li ont observé que les réseaux comportant moins de couches mais plus de neurones par couche étaient plus performants pour répondre aux questions nécessitant des connaissances factuelles ; inversement, les réseaux comportant plus de couches et moins de neurones par couche étaient plus performants pour garder en mémoire les personnages et les points de l'intrigue situés plus tôt dans l'histoire. Bhagavatula a trouvé ce résultat particulièrement intriguant. S'il peut être reproduit dans des modèles plus vastes, "ce serait un résultat vraiment intéressant qui pourrait découler de ce travail", a-t-il déclaré.

Eldan et Li ont également étudié comment les capacités de leurs petits modèles dépendaient de la durée de la période de formation. Dans tous les cas, les modèles maîtrisaient d'abord la grammaire, puis la cohérence. Pour Eldan, ce schéma illustre comment les différences dans les structures de récompense entraînent des différences dans les schémas d'acquisition du langage entre les réseaux neuronaux et les enfants. Pour les modèles de langage, qui apprennent en prédisant des mots, "l'incitation pour les mots "je veux avoir" est aussi importante que pour les mots "crème glacée"", a-t-il déclaré. Les enfants, en revanche, "ne se soucient pas de savoir s'ils disent 'j'aimerais avoir de la glace' ou simplement 'glace, glace, glace'".

Qualité contre quantité

Eldan et Li espèrent que cette étude incitera d'autres chercheurs à entraîner différents modèles sur l'ensemble des données de TinyStories et à comparer leurs capacités. Mais il est souvent difficile de prédire quelles caractéristiques des petits modèles apparaîtront également dans les plus grands.

"Peut-être que les modèles de vision chez la souris sont de très bons substituts de la vision humaine, mais les modèles de dépression chez la souris sont-ils de bons modèles de la dépression chez l'homme ? a déclaré M. Pavlick. "Pour chaque cas, c'est un peu différent.

Le succès des modèles TinyStories suggère également une leçon plus large. L'approche standard pour compiler des ensembles de données de formation consiste à aspirer des textes sur l'internet, puis à filtrer les déchets. Le texte synthétique généré par des modèles de grande taille pourrait constituer une autre façon d'assembler des ensembles de données de haute qualité qui n'auraient pas besoin d'être aussi volumineux.

"Nous avons de plus en plus de preuves que cette méthode est très efficace, non seulement pour les modèles de la taille de TinyStories, mais aussi pour les modèles plus importants", a déclaré M. Eldan. Ces preuves proviennent d'une paire d'articles de suivi sur les modèles à un milliard de paramètres, rédigés par Eldan, Li et d'autres chercheurs de Microsoft. Dans le premier article, ils ont entraîné un modèle à apprendre le langage de programmation Python en utilisant des extraits de code générés par GPT-3.5 ainsi que du code soigneusement sélectionné sur l'internet. Dans le second, ils ont complété l'ensemble de données d'entraînement par des "manuels" synthétiques couvrant un large éventail de sujets, afin d'entraîner un modèle linguistique à usage général. Lors de leurs tests, les deux modèles ont été comparés favorablement à des modèles plus importants formés sur des ensembles de données plus vastes. Mais l'évaluation des modèles linguistiques est toujours délicate, et l'approche des données d'entraînement synthétiques n'en est qu'à ses balbutiements - d'autres tests indépendants sont nécessaires.

Alors que les modèles linguistiques de pointe deviennent de plus en plus volumineux, les résultats surprenants de leurs petits cousins nous rappellent qu'il y a encore beaucoup de choses que nous ne comprenons pas, même pour les modèles les plus simples. M. Nguyen s'attend à ce que de nombreux autres articles explorent l'approche inaugurée par TinyStories.

"La question est de savoir où et pourquoi la taille a de l'importance", a-t-il déclaré. "Il devrait y avoir une science à ce sujet, et cet article est, je l'espère, le début d'une riche histoire.

Auteur: Internet

Info: https://www.quantamagazine.org/ Ben Brubaker, 5 octobre 2023

[ synthèse ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

Paramètres de recherches