Citation
Catégorie
Tag – étiquette
Auteur
Info



nb max de mots
nb min de mots
trier par
Dictionnaire analogique intriqué pour extraits. Recherche mots ou phrases tous azimuts. Aussi outil de précision sémantique et de réflexion communautaire. Voir la rubrique mode d'emploi. Jetez un oeil à la colonne "chaînes". ATTENTION, faire une REINITIALISATION après  une recherche complexe. Et utilisez le nuage de corrélats !!!!..... Lire la suite >>
Résultat(s): 32
Temps de recherche: 0.0319s

nanomonde verrouillé

Comment un tour de passe-passe mathématique a sauvé la physique des particules

La renormalisation est peut-être l'avancée la plus importante de la physique théorique depuis 50 ans. 

Dans les années 1940, certains physiciens avant-gardistes tombèrent sur une nouvelle couche de la réalité. Les particules n'existaient plus et les champs - entités expansives et ondulantes qui remplissent l'espace comme un océan - étaient dedans. Une ondulation dans un champ était un électron, une autre un photon, et leurs interactions semblaient expliquer tous les événements électromagnétiques.

Il n'y avait qu'un seul problème : la théorie était constituée d'espoirs et de prières. Ce n'est qu'en utilisant une technique appelée "renormalisation", qui consiste à occulter soigneusement des quantités infinies, que les chercheurs purent éviter les prédictions erronées. Le processus fonctionnait, mais même ceux qui développaient la théorie soupçonnaient qu'il s'agissait d'un château de cartes reposant sur un tour de passe-passe mathématique tortueux.

"C'est ce que j'appellerais un processus divertissant", écrira plus tard Richard Feynman. "Le fait de devoir recourir à de tels tours de passe-passe nous a empêchés de prouver que la théorie de l'électrodynamique quantique est mathématiquement cohérente.

La justification vint des décennies plus tard, d'une branche de la physique apparemment sans rapport. Les chercheurs qui étudiaient la magnétisation découvrirent que la renormalisation ne concernait aucunement les infinis. Elle évoquait plutôt la séparation de l'univers en domaines de tailles distinctes, point de vue qui guide aujourd'hui de nombreux domaines de la physique.

La renormalisation, écrit David Tong, théoricien à l'université de Cambridge, est "sans doute l'avancée la plus importante de ces 50 dernières années dans le domaine de la physique théorique".

L'histoire de deux charges

Selon certains critères, les théories des champs sont les théories les plus fructueuses de toute la science. La théorie de l'électrodynamique quantique (QED), qui constitue l'un des piliers du modèle standard de la physique des particules, a permis de faire des prédictions théoriques qui correspondent aux résultats expérimentaux avec une précision d'un sur un milliard.

Mais dans les années 1930 et 1940, l'avenir de la théorie était loin d'être assuré. L'approximation du comportement complexe des champs donnait souvent des réponses absurdes et infinies, ce qui amena certains théoriciens à penser que les théories des champs étaient peut-être une impasse.

Feynman et d'autres cherchèrent de toutes nouvelles perspectives - éventuellement même susceptibles de ramener les particules sur le devant de la scène - mais ils finirent par trouver un moyen de contourner l'obstacle. Ils constatèrent que les équations QED  permettaient d'obtenir des prédictions respectables, à condition qu'elles soient corrigées par la procédure impénétrable de renormalisation.

L'exercice est le suivant. Lorsqu'un calcul QED conduit à une somme infinie, il faut l'abréger. Mettez la partie qui tend vers l'infini dans un coefficient - un nombre fixe - placé devant la somme. Remplacez ce coefficient par une mesure finie provenant du laboratoire. Enfin, laissez la somme nouvellement apprivoisée retourner à l'infini.

Pour certains, cette méthode s'apparente à un jeu de dupes. "Ce ne sont tout simplement pas des mathématiques raisonnables", écrivit Paul Dirac, théoricien quantique novateur.

Le cœur du problème - germe de sa solution éventuelle - se trouve dans la manière dont les physiciens ont traité la charge de l'électron.

Dans ce schéma la charge électrique provient du coefficient - la valeur qui engloutit l'infini au cours du brassage mathématique. Pour les théoriciens qui s'interrogeaient sur la signification physique de la renormalisation, la théorie QED laissait entendre que l'électron avait deux charges : une charge théorique, qui était infinie, et la charge mesurée, qui ne l'était pas. Peut-être que le noyau de l'électron contenait une charge infinie. Mais dans la pratique, les effets de champ quantique (qu'on peut visualiser comme un nuage virtuel de particules positives) masquaient l'électron, de sorte que les expérimentateurs ne mesuraient qu'une charge nette modeste.

Deux physiciens, Murray Gell-Mann et Francis Low, concrétisèrent cette idée en 1954. Ils ont relié les deux charges des électrons à une charge "effective" qui varie en fonction de la distance. Plus on se rapproche (et plus on pénètre le manteau positif de l'électron), plus la charge est importante.

Leurs travaux furent les premiers à lier la renormalisation à l'idée d'échelle. Ils laissaient entendre que les physiciens quantiques avaient trouvé la bonne réponse à la mauvaise question. Plutôt que de se préoccuper des infinis, ils auraient dû s'attacher à relier le minuscule à l'énorme.

La renormalisation est "la version mathématique d'un microscope", a déclaré Astrid Eichhorn, physicienne à l'université du Danemark du Sud, qui utilise la renormalisation pour ses recherches en théorie de la gravité quantique. "Et inversement, vous pouvez commencer par le système microscopique et faire un zoom arrière. C'est une combinaison de microscope et de télescope".

La renormalisation capture la tendance de la nature à se subdiviser en mondes essentiellement indépendants.

Les aimants sauvent la mise

Un deuxième indice apparut dans le monde de la matière condensée, ici les physiciens s'interrogeaient sur la manière dont un modèle magnétique grossier parvenait à saisir les détails de certaines transformations. Le modèle d'Ising n'était guère plus qu'une grille de flèches atomiques qui ne pouvaient pointer que vers le haut ou vers le bas, mais il prédisait les comportements d'aimants réels avec une perfection improbable.

À basse température, la plupart des atomes s'alignent, ce qui magnétise le matériau. À haute température, ils deviennent désordonnés et le réseau se démagnétise. Mais à un point de transition critique, des îlots d'atomes alignés de toutes tailles coexistent. Il est essentiel de noter que la manière dont certaines quantités varient autour de ce "point critique" semble identique dans le modèle d'Ising, dans les aimants réels de différents matériaux et même dans des systèmes sans rapport, tels que la transition à haute pression où l'eau devient indiscernable de la vapeur d'eau. La découverte de ce phénomène, que les théoriciens ont appelé universalité, était aussi bizarre que de découvrir que les éléphants et les aigrettes se déplacent exactement à la même vitesse de pointe.

Les physiciens n'ont pas pour habitude de s'occuper d'objets de tailles différentes en même temps. Mais ce comportement universel autour des points critiques les obligea à tenir compte de toutes les échelles de longueur à la fois.

Leo Kadanoff, chercheur dans le domaine de la matière condensée, a compris comment procéder en 1966. Il a mis au point une technique de "spin par blocs", en décomposant une grille d'Ising trop complexe pour être abordée de front, en blocs modestes comportant quelques flèches par côté. Il calcula l'orientation moyenne d'un groupe de flèches et  remplaça tout le bloc par cette valeur. En répétant le processus, il lissa les détails fins du réseau, faisant un zoom arrière pour comprendre le comportement global du système.

Enfin, Ken Wilson -  ancien étudiant de Gell-Mann qui avait les pieds tant dans le monde de la physique des particules et de la matière condensée -  réunit les idées de Gell-Mann et de Low avec celles de Kadanoff. Son "groupe de renormalisation", qu'il décrivit pour la première fois en 1971, justifiait les calculs tortueux de la QED et a fourni une échelle permettant de gravir les échelons des systèmes universels. Ce travail a valu à Wilson un prix Nobel et a changé la physique pour toujours.

Selon Paul Fendley, théoricien de la matière condensée à l'université d'Oxford, la meilleure façon de conceptualiser le groupe de renormalisation de Wilson est de le considérer comme une "théorie des théories" reliant le microscopique au macroscopique.

Considérons la grille magnétique. Au niveau microscopique, il est facile d'écrire une équation reliant deux flèches voisines. Mais extrapoler cette simple formule à des trillions de particules est en fait impossible. Vous raisonnez à la mauvaise échelle.

Le groupe de renormalisation de Wilson décrit la transformation d'une théorie des éléments constitutifs en une théorie des structures. On commence avec une théorie de petits éléments, par exemple les atomes d'une boule de billard. On tourne la manivelle mathématique de Wilson et on obtient une théorie connexe décrivant des groupes de éléments, par exemple les molécules d'une boule de billard. En continuant de tourner la manivelle, on obtient des groupes de plus en plus grands - grappes de molécules de boules de billard, secteurs de boules de billard, et ainsi de suite. Finalement, vous voilà en mesure de calculer quelque chose d'intéressant, comme la trajectoire d'une boule de billard entière.

Telle est la magie du groupe de renormalisation : Il permet d'identifier les quantités à grande échelle qu'il est utile de mesurer et les détails microscopiques alambiqués qui peuvent être ignorés. Un surfeur s'intéresse à la hauteur des vagues, et non à la bousculade des molécules d'eau. De même, en physique subatomique, la renormalisation indique aux physiciens quand ils peuvent s'occuper d'un proton relativement simple plutôt que de son enchevêtrement de quarks intérieurs.

Le groupe de renormalisation de Wilson suggère également que les malheurs de Feynman et de ses contemporains venaient du fait qu'ils essayaient de comprendre l'électron d'infiniment près. "Nous ne nous attendons pas à ce que  ces théories soient valables jusqu'à des échelles [de distance] arbitrairement petites", a déclaré James Fraser, philosophe de la physique à l'université de Durham, au Royaume-Uni. Ajoutant : "La coupure absorbe notre ignorance de ce qui se passe aux niveaux inférieurs".

En d'autres termes, la QED et le modèle standard ne peuvent tout simplement pas dire quelle est la charge nue de l'électron à une distance de zéro nanomètre. Il s'agit de ce que les physiciens appellent des théories "effectives". Elles fonctionnent mieux sur des distances bien définies. L'un des principaux objectifs de la physique des hautes énergies étant de découvrir ce qui se passe exactement lorsque les particules deviennent encore plus proches.

Du grand au petit

Aujourd'hui, le "dippy process" de Feynman est devenu aussi omniprésent en physique que le calcul, et ses mécanismes révèlent les raisons de certains des plus grands succès de la discipline et de ses défis actuels. Avec la renormalisation, les câpres submicroscopiques compliqués ont tendance à disparaître. Ils sont peut-être réels, mais ils n'ont pas d'incidence sur le tableau d'ensemble. "La simplicité est une vertu", a déclaré M. Fendley. "Il y a un dieu là-dedans.

Ce fait mathématique illustre la tendance de la nature à se diviser en mondes essentiellement indépendants. Lorsque les ingénieurs conçoivent un gratte-ciel, ils ignorent les molécules individuelles de l'acier. Les chimistes analysent les liaisons moléculaires mais ignorent superbement les quarks et les gluons. La séparation des phénomènes par longueur, quantifiée par le groupe de renormalisation, a permis aux scientifiques de passer progressivement du grand au petit au cours des siècles, plutôt que briser toutes les échelles en même temps.

En même temps, l'hostilité de la renormalisation à l'égard des détails microscopiques va à l'encontre des efforts des physiciens modernes, avides de signes du domaine immédiatement inférieur. La séparation des échelles suggère qu'ils devront creuser en profondeur pour surmonter le penchant de la nature à dissimuler ses points les plus fins à des géants curieux comme nous.

"La renormalisation nous aide à simplifier le problème", explique Nathan Seiberg, physicien théoricien à l'Institute for Advanced Study de Princeton, dans le New Jersey. Mais "elle cache aussi ce qui se passe à très courte distance. On ne peut pas avoir le beurre et l'argent du beurre".


Auteur: Internet

Info: https://www.quantamagazine.org/. Charlie Wood, september 17, 2020

 

Commentaires: 0

Ajouté à la BD par miguel

intelligence artificielle

Apprendre l'anglais n'est pas une tâche facile, comme le savent d'innombrables étudiants. Mais lorsque l'étudiant est un ordinateur, une approche fonctionne étonnamment bien : Il suffit d'alimenter un modèle mathématique géant, appelé réseau neuronal, avec des montagnes de textes provenant d'Internet. C'est le principe de fonctionnement des modèles linguistiques génératifs tels que ChatGPT d'OpenAI, dont la capacité à tenir une conversation cohérente (à défaut d'être toujours sincère) sur un large éventail de sujets a surpris les chercheurs et le public au cours de l'année écoulée.

Mais cette approche présente des inconvénients. D'une part, la procédure de "formation" nécessaire pour transformer de vastes archives textuelles en modèles linguistiques de pointe est coûteuse et prend beaucoup de temps. D'autre part, même les personnes qui forment les grands modèles linguistiques ont du mal à comprendre leur fonctionnement interne, ce qui, à son tour, rend difficile la prévision des nombreuses façons dont ils peuvent échouer.

Face à ces difficultés, certains chercheurs ont choisi d'entraîner des modèles plus petits sur des ensembles de données plus restreints, puis d'étudier leur comportement. "C'est comme le séquençage du génome de la drosophile par rapport au séquençage du génome humain", explique Ellie Pavlick, chercheuse sur les modèles de langage à l'université de Brown.

Dans un article récemment publié sur le serveur scientifique arxiv.org, deux chercheurs de Microsoft ont présenté une nouvelle méthode pour former de minuscules modèles de langage : Les élever avec un régime strict d'histoires pour enfants.

RÉSEAUX NEURONAUX

Des chercheurs acquièrent une nouvelle compréhension à partir d'une simple IA  

Les chercheurs en apprentissage automatique ont compris cette leçon. GPT-3.5, le grand modèle linguistique qui alimente l'interface ChatGPT, compte près de 200 milliards de paramètres et a été entraîné sur un ensemble de données comprenant des centaines de milliards de mots (OpenAI n'a pas publié les chiffres correspondants pour son successeur, GPT-4).  L'entraînement de modèles aussi vastes nécessite généralement au moins 1 000 processeurs spécialisés, appelés GPU, fonctionnant en parallèle pendant des semaines. Seules quelques entreprises peuvent réunir les ressources nécessaires, sans parler de l'entraînement et de la comparaison de différents modèles.

Les deux chercheurs ont montré que des modèles linguistiques des milliers de fois plus petits que les systèmes de pointe actuels apprenaient rapidement à raconter des histoires cohérentes et grammaticalement justes lorsqu'ils étaient formés de cette manière. Leurs résultats indiquent de nouvelles pistes de recherche qui pourraient être utiles pour former des modèles plus importants et comprendre leur comportement.

"J'ai trouvé tout  ça très instructif", a déclaré Chandra Bhagavatula, chercheur sur les modèles de langage à l'Allen Institute for Artificial Intelligence de Seattle. "Le concept lui-même est très intéressant.

Il était une fois

Les réseaux neuronaux au cœur des modèles de langage sont des structures mathématiques vaguement inspirées du cerveau humain. Chacun d'entre eux contient de nombreux neurones artificiels disposés en couches, avec des connexions entre les neurones des couches adjacentes. Le comportement du réseau neuronal est régi par la force de ces connexions, appelées paramètres. Dans un modèle linguistique, les paramètres contrôlent les mots que le modèle peut produire ensuite, compte tenu d'une invite initiale et des mots qu'il a déjà générés.

Un modèle ne prend véritablement vie qu'au cours de la formation, lorsqu'il compare de manière répétée ses propres résultats au texte de son ensemble de données de formation et qu'il ajuste ses paramètres afin d'accroître la ressemblance. Un réseau non entraîné avec des paramètres aléatoires est trivialement facile à assembler à partir de quelques lignes de code, mais il ne produira que du charabia. Après l'entraînement, il peut souvent poursuivre de manière plausible un texte peu familier. Les modèles de plus grande taille sont souvent soumis à des réglages plus fins qui leur apprennent à répondre à des questions et à suivre des instructions, mais l'essentiel de la formation consiste à maîtriser la prédiction des mots.

Pour réussir à prédire des mots, un modèle linguistique doit maîtriser de nombreuses compétences différentes. Par exemple, les règles de la grammaire anglaise suggèrent que le mot suivant le mot "going" sera probablement "to", quel que soit le sujet du texte. En outre, un système a besoin de connaissances factuelles pour compléter "la capitale de la France est", et compléter un passage contenant le mot "not" nécessite une connaissance rudimentaire de la logique.

"Le langage brut est très compliqué", explique Timothy Nguyen, chercheur en apprentissage automatique chez DeepMind. "Pour que des capacités linguistiques intéressantes apparaissent, les gens ont eu recours à l'idée que plus il y a de données, mieux c'est".

(photo) Ronen Eldan s'est rendu compte qu'il pouvait utiliser les histoires d'enfants générées par de grands modèles linguistiques pour en entraîner rapidement de plus petits.

Introduction

Ronen Eldan, mathématicien qui a rejoint Microsoft Research en 2022 pour étudier les modèles de langage génératifs, souhaitait développer un moyen moins coûteux et plus rapide d'explorer leurs capacités. Le moyen naturel d'y parvenir était d'utiliser un petit ensemble de données, ce qui signifiait qu'il devait entraîner les modèles à se spécialiser dans une tâche spécifique, afin qu'ils ne s'éparpillent pas. Au départ, il voulait entraîner les modèles à résoudre une certaine catégorie de problèmes mathématiques, mais un après-midi, après avoir passé du temps avec sa fille de 5 ans, il s'est rendu compte que les histoires pour enfants convenaient parfaitement. "L'idée m'est venue littéralement après lui avoir lu une histoire", a-t-il déclaré.

Pour générer des histoires cohérentes pour les enfants, un modèle de langage devrait apprendre des faits sur le monde, suivre les personnages et les événements, et observer les règles de grammaire - des versions plus simples des défis auxquels sont confrontés les grands modèles. Mais les grands modèles formés sur des ensembles de données massives apprennent d'innombrables détails non pertinents en même temps que les règles qui comptent vraiment. Eldan espérait que la brièveté et le vocabulaire limité des histoires pour enfants rendraient l'apprentissage plus gérable pour les petits modèles, ce qui les rendrait à la fois plus faciles à former et plus faciles à comprendre.

Dans le monde des modèles de langage, cependant, le terme "petit" est relatif : Un ensemble de données mille fois plus petit que celui utilisé pour former GPT-3.5 devrait encore contenir des millions d'histoires. "Je ne sais pas combien d'argent vous voulez dépenser, mais je suppose que vous n'allez pas engager des professionnels pour écrire quelques millions de nouvelles", a déclaré M. Nguyen.

Il faudrait un auteur extraordinairement prolifique pour satisfaire des lecteurs aussi voraces, mais Eldan avait quelques candidats en tête. Qui peut mieux écrire pour un public de petits modèles linguistiques que pour de grands modèles ?

Toys stories

Eldan a immédiatement entrepris de créer une bibliothèque d'histoires synthétiques pour enfants générées par de grands modèles linguistiques. Mais il a rapidement découvert que même les modèles de pointe ne sont pas naturellement très créatifs. Si l'on demande à GPT-4 d'écrire des histoires adaptées à des enfants de 4 ans, explique Eldan, "environ un cinquième des histoires concernera des enfants qui vont au parc et qui ont peur des toboggans". C'est apparemment la quintessence des histoires pour enfants d'âge préscolaire, selon l'Internet.

La solution a consisté à ajouter un peu d'aléatoire dans le message. Tout d'abord, Eldan a utilisé le GPT-4 pour générer une liste de 1 500 noms, verbes et adjectifs qu'un enfant de 4 ans pourrait connaître - suffisamment courte pour qu'il puisse facilement la vérifier lui-même. Il a ensuite écrit un programme informatique simple qui demanderait à plusieurs reprises à GPT-3.5 ou à GPT-4 de générer une histoire adaptée à l'âge de l'enfant, comprenant trois mots aléatoires de la liste, ainsi qu'un détail supplémentaire choisi au hasard, comme une fin heureuse ou un rebondissement de l'intrigue. Les histoires obtenues, heureusement, étaient moins axées sur des diapositives effrayantes.

Eldan disposait désormais d'une procédure pour produire des données de formation à la demande, mais il n'avait aucune idée du nombre d'histoires dont il aurait besoin pour former un modèle fonctionnel, ni de la taille de ce modèle. C'est alors qu'il s'est associé à Yuanzhi Li, chercheur en apprentissage automatique chez Microsoft et à l'université Carnegie Mellon, pour essayer différentes possibilités, en tirant parti du fait que les petits modèles peuvent être formés très rapidement. La première étape consistait à décider comment évaluer leurs modèles.

Introduction

Dans la recherche sur les modèles de langage - comme dans toute salle de classe - la notation est un sujet délicat. Il n'existe pas de rubrique parfaite qui englobe tout ce que les chercheurs veulent savoir, et les modèles qui excellent dans certaines tâches échouent souvent de manière spectaculaire dans d'autres. Au fil du temps, les chercheurs ont mis au point divers critères de référence standard basés sur des questions dont les réponses ne sont pas ambiguës, ce qui est une bonne approche si vous essayez d'évaluer des compétences spécifiques. Mais Eldan et Li se sont intéressés à quelque chose de plus nébuleux : quelle doit être la taille réelle des modèles linguistiques si l'on simplifie le langage autant que possible ?

"Pour vérifier directement si le modèle parle anglais, je pense que la seule chose à faire est de laisser le modèle générer de l'anglais de manière ouverte", a déclaré M. Eldan.

Il n'y a que deux façons de mesurer les performances d'un modèle sur des questions aussi qualitatives : S'appuyer sur des évaluateurs humains ou se tourner à nouveau vers le GPT-4. Les deux chercheurs ont opté pour cette dernière solution, laissant les grands modèles à la fois rédiger les manuels et noter les dissertations.

Bhagavatula a déclaré qu'il aurait aimé voir comment les évaluations de GPT-4 se comparaient à celles des correcteurs humains - GPT-4 peut être biaisé en faveur des modèles qu'il a aidé à former, et l'opacité des modèles de langage rend difficile la quantification de tels biais. Mais il ne pense pas que de telles subtilités affecteraient les comparaisons entre différents modèles formés sur des ensembles similaires d'histoires synthétiques - l'objectif principal du travail d'Eldan et Li.

Eldan et Li ont utilisé une procédure en deux étapes pour évaluer chacun de leurs petits modèles après la formation. Tout d'abord, ils ont présenté au petit modèle la première moitié d'une histoire distincte de celles de l'ensemble des données d'apprentissage, de manière à ce qu'il génère une nouvelle fin, en répétant ce processus avec 50 histoires de test différentes. Ensuite, ils ont demandé à GPT-4 d'évaluer chacune des fins du petit modèle en fonction de trois catégories : créativité, grammaire et cohérence avec le début de l'histoire. Ils ont ensuite fait la moyenne des notes obtenues dans chaque catégorie, obtenant ainsi trois notes finales par modèle.

Avec cette procédure en main, Eldan et Li étaient enfin prêts à comparer les différents modèles et à découvrir quels étaient les étudiants les plus brillants.

Résultats des tests

Après quelques explorations préliminaires, les deux chercheurs ont opté pour un ensemble de données de formation contenant environ 2 millions d'histoires. Ils ont ensuite utilisé cet ensemble de données, baptisé TinyStories, pour entraîner des modèles dont la taille varie de 1 million à 30 millions de paramètres, avec un nombre variable de couches. Le travail a été rapide : En utilisant seulement quatre GPU, l'entraînement du plus grand de ces modèles n'a pas pris plus d'une journée.

Les plus petits modèles ont eu du mal. Par exemple, l'une des histoires testées commence par un homme à l'air méchant qui dit à une fille qu'il va lui prendre son chat. Un modèle à un million de paramètres s'est retrouvé bloqué dans une boucle où la fille répète sans cesse à l'homme qu'elle veut être son amie. Mais les modèles plus grands, qui sont encore des milliers de fois plus petits que GPT-3.5, ont obtenu des résultats surprenants. La version à 28 millions de paramètres racontait une histoire cohérente, même si la fin était sinistre : "Katie s'est mise à pleurer, mais l'homme s'en fichait. Il a emporté le chat et Katie n'a plus jamais revu son chat. Fin de l'histoire".

En plus de tester leurs propres modèles, Eldan et Li ont soumis le même défi au GPT-2 d'OpenAI, un modèle de 1,5 milliard de paramètres publié en 2019. Le résultat a été bien pire - avant la fin abrupte de l'histoire, l'homme menace d'emmener la jeune fille au tribunal, en prison, à l'hôpital, à la morgue et enfin au crématorium.

Introduction

Selon M. Nguyen, il est passionnant que des modèles aussi petits soient aussi fluides, mais il n'est peut-être pas surprenant que GPT-2 ait eu du mal à accomplir la tâche : il s'agit d'un modèle plus grand, mais loin de l'état de l'art, et il a été formé sur un ensemble de données très différent. "Un enfant en bas âge qui ne s'entraînerait qu'à des tâches d'enfant en bas âge, comme jouer avec des jouets, obtiendrait de meilleurs résultats que vous ou moi", a-t-il fait remarquer. "Nous ne nous sommes pas spécialisés dans cette chose simple.

Les comparaisons entre les différents modèles de TinyStories ne souffrent pas des mêmes facteurs de confusion. Eldan et Li ont observé que les réseaux comportant moins de couches mais plus de neurones par couche étaient plus performants pour répondre aux questions nécessitant des connaissances factuelles ; inversement, les réseaux comportant plus de couches et moins de neurones par couche étaient plus performants pour garder en mémoire les personnages et les points de l'intrigue situés plus tôt dans l'histoire. Bhagavatula a trouvé ce résultat particulièrement intriguant. S'il peut être reproduit dans des modèles plus vastes, "ce serait un résultat vraiment intéressant qui pourrait découler de ce travail", a-t-il déclaré.

Eldan et Li ont également étudié comment les capacités de leurs petits modèles dépendaient de la durée de la période de formation. Dans tous les cas, les modèles maîtrisaient d'abord la grammaire, puis la cohérence. Pour Eldan, ce schéma illustre comment les différences dans les structures de récompense entraînent des différences dans les schémas d'acquisition du langage entre les réseaux neuronaux et les enfants. Pour les modèles de langage, qui apprennent en prédisant des mots, "l'incitation pour les mots "je veux avoir" est aussi importante que pour les mots "crème glacée"", a-t-il déclaré. Les enfants, en revanche, "ne se soucient pas de savoir s'ils disent 'j'aimerais avoir de la glace' ou simplement 'glace, glace, glace'".

Qualité contre quantité

Eldan et Li espèrent que cette étude incitera d'autres chercheurs à entraîner différents modèles sur l'ensemble des données de TinyStories et à comparer leurs capacités. Mais il est souvent difficile de prédire quelles caractéristiques des petits modèles apparaîtront également dans les plus grands.

"Peut-être que les modèles de vision chez la souris sont de très bons substituts de la vision humaine, mais les modèles de dépression chez la souris sont-ils de bons modèles de la dépression chez l'homme ? a déclaré M. Pavlick. "Pour chaque cas, c'est un peu différent.

Le succès des modèles TinyStories suggère également une leçon plus large. L'approche standard pour compiler des ensembles de données de formation consiste à aspirer des textes sur l'internet, puis à filtrer les déchets. Le texte synthétique généré par des modèles de grande taille pourrait constituer une autre façon d'assembler des ensembles de données de haute qualité qui n'auraient pas besoin d'être aussi volumineux.

"Nous avons de plus en plus de preuves que cette méthode est très efficace, non seulement pour les modèles de la taille de TinyStories, mais aussi pour les modèles plus importants", a déclaré M. Eldan. Ces preuves proviennent d'une paire d'articles de suivi sur les modèles à un milliard de paramètres, rédigés par Eldan, Li et d'autres chercheurs de Microsoft. Dans le premier article, ils ont entraîné un modèle à apprendre le langage de programmation Python en utilisant des extraits de code générés par GPT-3.5 ainsi que du code soigneusement sélectionné sur l'internet. Dans le second, ils ont complété l'ensemble de données d'entraînement par des "manuels" synthétiques couvrant un large éventail de sujets, afin d'entraîner un modèle linguistique à usage général. Lors de leurs tests, les deux modèles ont été comparés favorablement à des modèles plus importants formés sur des ensembles de données plus vastes. Mais l'évaluation des modèles linguistiques est toujours délicate, et l'approche des données d'entraînement synthétiques n'en est qu'à ses balbutiements - d'autres tests indépendants sont nécessaires.

Alors que les modèles linguistiques de pointe deviennent de plus en plus volumineux, les résultats surprenants de leurs petits cousins nous rappellent qu'il y a encore beaucoup de choses que nous ne comprenons pas, même pour les modèles les plus simples. M. Nguyen s'attend à ce que de nombreux autres articles explorent l'approche inaugurée par TinyStories.

"La question est de savoir où et pourquoi la taille a de l'importance", a-t-il déclaré. "Il devrait y avoir une science à ce sujet, et cet article est, je l'espère, le début d'une riche histoire.



 



 

Auteur: Internet

Info: https://www.quantamagazine.org/ Ben Brubaker, 5 octobre 2023

[ synthèse ]

 

Commentaires: 0

Ajouté à la BD par miguel