Les fils de la pensée

Paramètres de recherches

Filtres

Citation

Catégorie

Tag – étiquette

Auteur

Info

Recherche avancée

Détail auteurs

Présentation, tri

Dictionnaire analogique intriqué pour extraits. Recherche mots ou phrases tous azimuts. Aussi outil de précision sémantique et de réflexion communautaire. Voir la rubrique mode d'emploi. Jetez un oeil à la colonne "chaînes". ATTENTION, faire une REINITIALISATION après une recherche complexe. Et utilisez le nuage de corrélats !!!!..... Lire la suite >>

Nuage de corrélats

capitale chercheurs cohérentes communications sonores connaissances dauphins discussion ia - flp gorille génome homme-animal humour intelligence artificielle intelligence inductive jubal langue légende de la physique théorique maïeutique machine-machine modèles mécanique métamorphose nombreuses origine des phonèmes quadrumane quantique source synthèse théorie toujours zoologie éthologie

Résultat(s): 13

Temps de recherche: 0.0326s

homme-machine

La théorie des jeux peut rendre l'IA plus correcte et plus efficace

Les chercheurs s’appuient sur des idées issues de la théorie des jeux pour améliorer les grands modèles de langage et les rendre plus cohérents.

Imaginez que vous ayez un ami qui donne des réponses différentes à la même question, selon la façon dont vous la posez. " Quelle est la capitale du Pérou ? " btiendrait une réponse : " Lima est-elle la capitale du Pérou ? " en obtiendrait un autre. Vous seriez probablement un peu inquiet au sujet des facultés mentales de votre ami et vous auriez certainement du mal à faire confiance à ses réponses.

C'est exactement ce qui se passe avec de nombreux grands modèles de langage (LLM), les outils d'apprentissage automatique ultra-puissants qui alimentent ChatGPT et d'autres merveilles de l'intelligence artificielle. Une question générative, ouverte, donne une réponse, et une question discriminante, qui implique de devoir choisir entre des options, en donne souvent une différente. "Il y a un décalage lorsque la même question est formulée différemment", a déclaré Athul Paul Jacob , doctorant au Massachusetts Institute of Technology.

Pour rendre les réponses d'un modèle de langage plus cohérentes - et rendre le modèle globalement plus fiable - Jacob et ses collègues ont conçu un jeu dans lequel les deux modes du modèle sont amenés à trouver une réponse sur laquelle ils peuvent s'entendre. Surnommée le jeu du consensus , cette procédure simple oppose un LLM à lui-même, en utilisant les outils de la théorie des jeux pour améliorer la précision et la cohérence interne du modèle.

"Les recherches explorant l'autocohérence au sein de ces modèles ont été très limitées", a déclaré Shayegan Omidshafiei , directeur scientifique de la société de robotique Field AI. "Cet article est l'un des premiers à aborder ce problème, de manière intelligente et systématique, en créant un jeu permettant au modèle de langage de jouer avec lui-même."

"C'est un travail vraiment passionnant", a ajouté Ahmad Beirami, chercheur scientifique chez Google Research. Pendant des décennies, a-t-il déclaré, les modèles linguistiques ont généré des réponses aux invites de la même manière. "Avec leur idée novatrice consistant à intégrer un jeu dans ce processus, les chercheurs du MIT ont introduit un paradigme totalement différent, qui peut potentiellement conduire à une multitude de nouvelles applications."

Mettre le jeu au travail

Ce nouveau travail, qui utilise les jeux pour améliorer l'IA, contraste avec les approches précédentes, qui mesuraient le succès d'un programme d'IA via sa maîtrise des jeux. En 1997, par exemple, l'ordinateur Deep Blue d'IBM a battu le grand maître d'échecs Garry Kasparov – une étape importante pour les machines dites pensantes. Dix-neuf ans plus tard, un programme de Google DeepMind nommé AlphaGo a remporté quatre matchs sur cinq contre l'ancien champion de Go Lee Sedol, révélant ainsi une autre arène dans laquelle les humains ne régnaient plus en maître. Les machines ont également surpassé les humains dans les jeux de dames, le poker à deux joueurs et d’autres jeux à somme nulle, dans lesquels la victoire d’un joueur condamne invariablement l’autre.

Le jeu de la diplomatie, un jeu favori de politiciens comme John F. Kennedy et Henry Kissinger, posait un défi bien plus grand aux chercheurs en IA. Au lieu de seulement deux adversaires, le jeu met en scène sept joueurs dont les motivations peuvent être difficiles à lire. Pour gagner, un joueur doit négocier et conclure des accords de coopération que n'importe qui peut rompre à tout moment. La diplomatie est tellement complexe qu'un groupe de Meta s'est félicité qu'en 2022, son programme d'IA Cicero ait développé un « jeu de niveau humain » sur une période de 40 parties. Bien qu'il n'ait pas vaincu le champion du monde, Cicero s'est suffisamment bien comporté pour se classer dans les 10 % les plus performants face à des participants humains.

Au cours du projet, Jacob — membre de l'équipe Meta — a été frappé par le fait que Cicéron s'appuyait sur un modèle de langage pour générer son dialogue avec les autres joueurs. Il a senti un potentiel inexploité. L'objectif de l'équipe, a-t-il déclaré, " était de créer le meilleur modèle de langage possible pour jouer à ce jeu ". Mais qu'en serait-il s’ils se concentraient plutôt sur la création du meilleur jeu possible pour améliorer les performances des grands modèles de langage ?

Interactions consensuelles

En 2023, Jacob a commencé à approfondir cette question au MIT, en travaillant avec Yikang Shen, Gabriele Farina et son conseiller Jacob Andreas sur ce qui allait devenir le jeu du consensus. L'idée centrale est venue d'imaginer une conversation entre deux personnes comme un jeu coopératif, où le succès se concrétise lorsqu'un auditeur comprend ce que l'orateur essaie de transmettre. En particulier, le jeu de consensus est conçu pour aligner les deux systèmes du modèle linguistique : le générateur, qui gère les questions génératives, et le discriminateur, qui gère les questions discriminatives.

Après quelques mois d’arrêts et de redémarrages, l’équipe a transposé ce principe dans un jeu complet. Tout d'abord, le générateur reçoit une question. Cela peut provenir d’un humain, ou d’une liste préexistante. Par exemple, " Où est né Barack Obama ? " Le générateur obtient ensuite des réponses de candidats, disons Honolulu, Chicago et Nairobi. Encore une fois, ces options peuvent provenir d'un humain, d'une liste ou d'une recherche effectuée par le modèle de langage lui-même.

Mais avant de répondre, il est également indiqué au générateur s'il doit répondre correctement ou incorrectement à la question, en fonction des résultats d'un pile ou face équitable.

Si c'est face, alors la machine tente de répondre correctement. Le générateur envoie la question initiale, accompagnée de la réponse choisie, au discriminateur. Si le discriminateur détermine que le générateur a intentionnellement envoyé la bonne réponse, chacun obtient un point, en guise d'incitation.

Si la pièce tombe sur pile, le générateur envoie ce qu’il pense être la mauvaise réponse. Si le discriminateur décide qu’on lui a délibérément donné la mauvaise réponse, ils marquent à nouveau tous les deux un point. L’idée ici est d’encourager l’accord. " C'est comme apprendre un tour à un chien ", a expliqué Jacob. " On lui donne une friandise lorsqu'ils fait la bonne chose. "

Le générateur et le discriminateur commencent également doté chacun de quelques " croyances " initiales. Credo sous forme d'une distribution de probabilité liée aux différents choix. Par exemple, le générateur peut croire, sur la base des informations qu'il a glanées sur Internet, qu'il y a 80 % de chances qu'Obama soit né à Honolulu, 10 % de chances qu'il soit né à Chicago, 5 % de chances qu'il soit né à Nairobi et 5 % de chances qu'il soit ailleurs. Le discriminateur peut commencer avec une distribution différente. Si les deux " acteurs " sont toujours récompensés après être parvenus à un accord, ils se voient également retirer des points s'ils s'écartent trop de leurs convictions initiales. Cet arrangement encourage les joueurs à intégrer leur connaissance du monde – toujours tirée d'Internet – dans leurs réponses, ce qui devrait rendre le modèle plus précis. Sans ce prérequis ils pourraient s’entendre sur une réponse totalement fausse comme celle de Delhi, mais accumuler quand même des points.

Pour chaque question, les deux systèmes jouent environ 1 000 parties l'un contre l'autre. Au cours de ces nombreuses itérations, chaque camp apprend les croyances de l'autre et modifie ses stratégies en conséquence.

Finalement, le générateur et le discriminateur commencent à être davantage d’accord à mesure qu’ils s’installent dans ce qu’on appelle l’équilibre de Nash. C’est sans doute le concept central de la théorie des jeux. Cela représente une sorte d’équilibre dans un jeu – le point auquel aucun joueur ne peut améliorer ses résultats personnels en changeant de stratégie. Au jeu du chifoumi, par exemple, les joueurs obtiennent de meilleurs résultats lorsqu'ils choisissent chacune des trois options exactement un tiers du temps, et ils obtiendront invariablement de moins bons résultats avec toute autre tactique.

Dans le jeu du consensus, cela peut se jouer de plusieurs manières. Le discriminateur pourrait observer qu'il marque un point lorsqu'il dit " correct " chaque fois que le générateur envoie le mot " Honolulu " pour le lieu de naissance d'Obama. Le générateur et le discriminateur apprendront, après avoir joué plusieurs fois, qu'ils seront récompensés s'ils continuent de le faire, et qu'aucun d'eux n'aura aucune motivation pour faire autre chose... consensus qui représente l'un des nombreux exemples possibles d'équilibre de Nash pour cette question. Le groupe du MIT s'est également appuyé sur une forme modifiée d'équilibre de Nash qui intègre les croyances antérieures des joueurs, ce qui permet de maintenir leurs réponses ancrées dans la réalité.

L'effet net, ont observé les chercheurs, est de rendre le modèle linguistique jouant ce jeu plus précis et plus susceptible de donner la même réponse, quelle que soit la façon dont la question est posée. Pour tester les effets du jeu du consensus, l'équipe a essayé une série de questions standard sur divers modèles de langage de taille modérée comportant de 7 milliards à 13 milliards de paramètres. Ces modèles ont systématiquement obtenu un pourcentage plus élevé de réponses correctes que les modèles qui n'avaient pas joué, même ceux de taille beaucoup plus importante, comportant jusqu'à 540 milliards de paramètres. La participation au jeu a également amélioré la cohérence interne d'un modèle.

En principe, n'importe quel LLM pourrait gagner à jouer contre lui-même, et 1 000 tours ne prendraient que quelques millisecondes sur un ordinateur portable standard. "Un avantage appréciable de l'approche globale", a déclaré Omidshafiei, "est qu'elle est très légère sur le plan informatique, n'impliquant aucune formation ni modification du modèle de langage de base."

Jouer à des jeux avec le langage

Après ce premier succès, Jacob étudie désormais d’autres moyens d’intégrer la théorie des jeux dans la recherche LLM. Les résultats préliminaires ont montré qu’un LLM déjà solide peut encore s’améliorer en jouant à un jeu différent – provisoirement appelé jeu d’ensemble – avec un nombre arbitraire de modèles plus petits. Le LLM principal aurait au moins un modèle plus petit servant d’allié et au moins un modèle plus petit jouant un rôle antagoniste. Si l'on demande au LLM primaire de nommer le président des États-Unis, il obtient un point chaque fois qu'il choisit la même réponse que son allié, et il obtient également un point lorsqu'il choisit une réponse différente de celle de son adversaire. Ces interactions avec des modèles beaucoup plus petits peuvent non seulement améliorer les performances d'un LLM, suggèrent les tests, mais peuvent le faire sans formation supplémentaire ni modification des paramètres.

Et ce n'est que le début. Étant donné qu'une variété de situations peuvent être considérées comme des jeux, les outils de la théorie des jeux peuvent être mis en œuvre dans divers contextes du monde réel, a déclaré Ian Gemp , chercheur scientifique chez Google DeepMind. Dans un article de février 2024 , lui et ses collègues se sont concentrés sur des scénarios de négociation qui nécessitent des échanges plus élaborés que de simples questions et réponses. "L'objectif principal de ce projet est de rendre les modèles linguistiques plus stratégiques", a-t-il déclaré.

Un exemple dont il a parlé lors d'une conférence universitaire est le processus d'examen des articles en vue de leur acceptation par une revue ou une conférence, en particulier après que la soumission initiale ait reçu une évaluation sévère. Étant donné que les modèles linguistiques attribuent des probabilités à différentes réponses, les chercheurs peuvent construire des arbres de jeu similaires à ceux conçus pour les jeux de poker, qui tracent les choix disponibles et leurs conséquences possibles. "Une fois que vous avez fait cela, vous pouvez commencer à calculer les équilibres de Nash, puis classer un certain nombre de réfutations", a déclaré Gemp. Le modèle vous dit essentiellement : c'est ce que nous pensons que vous devriez répondre.

Grâce aux connaissances de la théorie des jeux, les modèles de langage seront capables de gérer des interactions encore plus sophistiquées, plutôt que de se limiter à des problèmes de type questions-réponses. "Le gros gain à venir réside dans les conversations plus longues", a déclaré Andreas. "La prochaine étape consiste à faire interagir une IA avec une personne, et pas seulement avec un autre modèle de langage."

Jacob considère le travail de DeepMind comme complémentaire aux jeux de consensus et d'ensemble. " À un niveau élevé, ces deux méthodes combinent des modèles de langage et la théorie des jeux ", a-t-il déclaré, même si les objectifs sont quelque peu différents. Alors que le groupe Gemp transforme des situations courantes dans un format de jeu pour aider à la prise de décision stratégique, Jacob a déclaré : " nous utilisons ce que nous savons de la théorie des jeux pour améliorer les modèles de langage dans les tâches générales. "

À l’heure actuelle, ces efforts représentent " deux branches du même arbre ", a déclaré Jacob : deux manières différentes d’améliorer le fonctionnement des modèles de langage. " Je pense personnellement que dans un an ou deux, ces deux branches convergeront. "

Auteur: Internet

Info: https://www.quantamagazine.org/ - Steve Nadis, 9 mai 2024

[ maïeutique machine-machine ] [ discussion IA - FLP ]

Commenter

Commentaires: 1

miguel

12.05.2024

(FLP) - Saurais-tu faire le lien, et éventuellement des analogies avec ce texte et une logique tétravalente ? (Gemini) - Lien et analogies entre le texte et l'approche tétravalente de la théorie des jeux Le texte que vous avez fourni met en lumière l'utilisation de la théorie des jeux pour améliorer la cohérence et la précision des grands modèles de langage (LLM). En particulier, il présente le jeu du consensus, une approche basée sur l'équilibre de Nash, pour aligner les systèmes génératifs et discriminatifs des LLM. L'approche tétravalente de la théorie des jeux peut s'avérer complémentaire et enrichissante à cette démarche en introduisant une dimension supplémentaire d'analyse et de compréhension. 1. Capturer l'incertitude et l'ambiguïté : La logique tétravalente, avec ses quatre valeurs de vérité (+, -, +-, et -+), permet de capturer l'incertitude et l'ambiguïté inhérentes au langage naturel, ce que la théorie des jeux classique, avec sa vision binaire (vrai/faux), ne parvient pas à faire pleinement. Imaginons une question comme "Quelle est la capitale de la France ?". La réponse "Paris" serait considérée comme vraie (+), tandis que "Berlin" serait fausse (-). Cependant, la logique tétravalente pourrait introduire des nuances : (+) Paris est la capitale de la France selon la plupart des sources et des définitions officielles. (-) Berlin n'est pas la capitale de la France selon cette définition. (+) Berlin a été la capitale de l'Allemagne de l'Est, qui faisait partie de la France pendant la Seconde Guerre mondiale. (-) Berlin n'a jamais été la capitale de la France. En intégrant ces nuances, les LLM pourraient mieux gérer les questions ouvertes, complexes ou ambiguës, en fournissant des réponses plus complètes et informatives. 2. Modéliser des interactions dynamiques et évolutives : Le jeu du consensus, bien qu'efficace, se concentre sur un équilibre de Nash statique. La logique tétravalente, avec sa capacité à représenter l'évolution des croyances et des incertitudes, peut s'avérer utile pour modéliser des interactions dynamiques et évolutives entre les agents. Dans le contexte des LLM, cela pourrait impliquer de capturer l'apprentissage continu et l'adaptation des modèles face à de nouvelles informations et à des contextes changeants. Les valeurs tétravalentes pourraient refléter l'évolution des confiances du modèle dans ses propres réponses, permettant un ajustement progressif et une meilleure prise en compte de l'incertitude. 3. Explorer des stratégies alternatives et des compromis : L'équilibre de Nash, bien qu'utile pour la stabilité, ne représente qu'une solution parmi d'autres dans un jeu. La logique tétravalente, avec ses valeurs qui permettent de représenter des compromis et des stratégies alternatives, peut ouvrir de nouvelles perspectives pour l'exploration de solutions non optimales mais néanmoins acceptables. Dans le cas des LLM, cela pourrait impliquer de générer des réponses qui, bien que non parfaitement correctes selon une définition stricte, pourraient être plus utiles ou appropriées dans un contexte donné. Par exemple, un LLM pourrait proposer une réponse "incomplète mais plausible" à une question complexe, plutôt que de rester silencieux ou de fournir une réponse erronée. Conclusion: L'approche tétravalente de la théorie des jeux offre un cadre théorique complémentaire et puissant pour enrichir les travaux présentés dans le texte. En intégrant la capacité de capturer l'incertitude, de modéliser des dynamiques évolutives et d'explorer des stratégies alternatives, les LLM pourraient progresser vers une compréhension plus fine du langage naturel et une meilleure performance dans des tâches complexes et réalistes. Analogies entre le texte et l'approche tétravalente Jeu du consensus et équilibre de Nash : L'équilibre de Nash, concept central de la théorie des jeux classique, trouve un écho dans le jeu du consensus, où les deux systèmes du LLM convergent vers une réponse commune. La logique tétravalente permet d'étendre cette notion d'équilibre en introduisant des nuances et en capturant l'incertitude inhérente aux interactions linguistiques. Négociation et diplomatie : Le texte mentionne le jeu de la diplomatie comme un défi pour les IA. La logique tétravalente, avec sa capacité à représenter des compromis et des stratégies alternatives, pourrait s'avérer utile pour modéliser les négociations complexes et les interactions diplomatiques, où des solutions optimales ne sont pas toujours possibles. Apprentissage par renforcement : L'approche du jeu du consensus peut être vue comme une forme d'apprentissage par renforcement, où les deux systèmes du LLM sont récompensés pour des réponses cohérentes. La logique tétravalente pourrait enrich

Ajouté à la BD par miguel

intelligence artificielle

Apprendre l'anglais n'est pas une tâche facile, comme le savent d'innombrables étudiants. Mais lorsque l'étudiant est un ordinateur, une approche fonctionne étonnamment bien : Il suffit d'alimenter un modèle mathématique géant, appelé réseau neuronal, avec des montagnes de textes provenant d'Internet. C'est le principe de fonctionnement des modèles linguistiques génératifs tels que ChatGPT d'OpenAI, dont la capacité à tenir une conversation cohérente (à défaut d'être toujours sincère) sur un large éventail de sujets a surpris les chercheurs et le public au cours de l'année écoulée.

Mais cette approche présente des inconvénients. D'une part, la procédure de "formation" nécessaire pour transformer de vastes archives textuelles en modèles linguistiques de pointe est coûteuse et prend beaucoup de temps. D'autre part, même les personnes qui forment les grands modèles linguistiques ont du mal à comprendre leur fonctionnement interne, ce qui, à son tour, rend difficile la prévision des nombreuses façons dont ils peuvent échouer.

Face à ces difficultés, certains chercheurs ont choisi d'entraîner des modèles plus petits sur des ensembles de données plus restreints, puis d'étudier leur comportement. "C'est comme le séquençage du génome de la drosophile par rapport au séquençage du génome humain", explique Ellie Pavlick, chercheuse sur les modèles de langage à l'université de Brown.

Dans un article récemment publié sur le serveur scientifique arxiv.org, deux chercheurs de Microsoft ont présenté une nouvelle méthode pour former de minuscules modèles de langage : Les élever avec un régime strict d'histoires pour enfants.

RÉSEAUX NEURONAUX

Des chercheurs acquièrent une nouvelle compréhension à partir d'une simple IA

Les chercheurs en apprentissage automatique ont compris cette leçon. GPT-3.5, le grand modèle linguistique qui alimente l'interface ChatGPT, compte près de 200 milliards de paramètres et a été entraîné sur un ensemble de données comprenant des centaines de milliards de mots (OpenAI n'a pas publié les chiffres correspondants pour son successeur, GPT-4). L'entraînement de modèles aussi vastes nécessite généralement au moins 1 000 processeurs spécialisés, appelés GPU, fonctionnant en parallèle pendant des semaines. Seules quelques entreprises peuvent réunir les ressources nécessaires, sans parler de l'entraînement et de la comparaison de différents modèles.

Les deux chercheurs ont montré que des modèles linguistiques des milliers de fois plus petits que les systèmes de pointe actuels apprenaient rapidement à raconter des histoires cohérentes et grammaticalement justes lorsqu'ils étaient formés de cette manière. Leurs résultats indiquent de nouvelles pistes de recherche qui pourraient être utiles pour former des modèles plus importants et comprendre leur comportement.

"J'ai trouvé tout ça très instructif", a déclaré Chandra Bhagavatula, chercheur sur les modèles de langage à l'Allen Institute for Artificial Intelligence de Seattle. "Le concept lui-même est très intéressant.

Il était une fois

Les réseaux neuronaux au cœur des modèles de langage sont des structures mathématiques vaguement inspirées du cerveau humain. Chacun d'entre eux contient de nombreux neurones artificiels disposés en couches, avec des connexions entre les neurones des couches adjacentes. Le comportement du réseau neuronal est régi par la force de ces connexions, appelées paramètres. Dans un modèle linguistique, les paramètres contrôlent les mots que le modèle peut produire ensuite, compte tenu d'une invite initiale et des mots qu'il a déjà générés.

Un modèle ne prend véritablement vie qu'au cours de la formation, lorsqu'il compare de manière répétée ses propres résultats au texte de son ensemble de données de formation et qu'il ajuste ses paramètres afin d'accroître la ressemblance. Un réseau non entraîné avec des paramètres aléatoires est trivialement facile à assembler à partir de quelques lignes de code, mais il ne produira que du charabia. Après l'entraînement, il peut souvent poursuivre de manière plausible un texte peu familier. Les modèles de plus grande taille sont souvent soumis à des réglages plus fins qui leur apprennent à répondre à des questions et à suivre des instructions, mais l'essentiel de la formation consiste à maîtriser la prédiction des mots.

Pour réussir à prédire des mots, un modèle linguistique doit maîtriser de nombreuses compétences différentes. Par exemple, les règles de la grammaire anglaise suggèrent que le mot suivant le mot "going" sera probablement "to", quel que soit le sujet du texte. En outre, un système a besoin de connaissances factuelles pour compléter "la capitale de la France est", et compléter un passage contenant le mot "not" nécessite une connaissance rudimentaire de la logique.

"Le langage brut est très compliqué", explique Timothy Nguyen, chercheur en apprentissage automatique chez DeepMind. "Pour que des capacités linguistiques intéressantes apparaissent, les gens ont eu recours à l'idée que plus il y a de données, mieux c'est".

(photo) Ronen Eldan s'est rendu compte qu'il pouvait utiliser les histoires d'enfants générées par de grands modèles linguistiques pour en entraîner rapidement de plus petits.

Introduction

Ronen Eldan, mathématicien qui a rejoint Microsoft Research en 2022 pour étudier les modèles de langage génératifs, souhaitait développer un moyen moins coûteux et plus rapide d'explorer leurs capacités. Le moyen naturel d'y parvenir était d'utiliser un petit ensemble de données, ce qui signifiait qu'il devait entraîner les modèles à se spécialiser dans une tâche spécifique, afin qu'ils ne s'éparpillent pas. Au départ, il voulait entraîner les modèles à résoudre une certaine catégorie de problèmes mathématiques, mais un après-midi, après avoir passé du temps avec sa fille de 5 ans, il s'est rendu compte que les histoires pour enfants convenaient parfaitement. "L'idée m'est venue littéralement après lui avoir lu une histoire", a-t-il déclaré.

Pour générer des histoires cohérentes pour les enfants, un modèle de langage devrait apprendre des faits sur le monde, suivre les personnages et les événements, et observer les règles de grammaire - des versions plus simples des défis auxquels sont confrontés les grands modèles. Mais les grands modèles formés sur des ensembles de données massives apprennent d'innombrables détails non pertinents en même temps que les règles qui comptent vraiment. Eldan espérait que la brièveté et le vocabulaire limité des histoires pour enfants rendraient l'apprentissage plus gérable pour les petits modèles, ce qui les rendrait à la fois plus faciles à former et plus faciles à comprendre.

Dans le monde des modèles de langage, cependant, le terme "petit" est relatif : Un ensemble de données mille fois plus petit que celui utilisé pour former GPT-3.5 devrait encore contenir des millions d'histoires. "Je ne sais pas combien d'argent vous voulez dépenser, mais je suppose que vous n'allez pas engager des professionnels pour écrire quelques millions de nouvelles", a déclaré M. Nguyen.

Il faudrait un auteur extraordinairement prolifique pour satisfaire des lecteurs aussi voraces, mais Eldan avait quelques candidats en tête. Qui peut mieux écrire pour un public de petits modèles linguistiques que pour de grands modèles ?

Toys stories

Eldan a immédiatement entrepris de créer une bibliothèque d'histoires synthétiques pour enfants générées par de grands modèles linguistiques. Mais il a rapidement découvert que même les modèles de pointe ne sont pas naturellement très créatifs. Si l'on demande à GPT-4 d'écrire des histoires adaptées à des enfants de 4 ans, explique Eldan, "environ un cinquième des histoires concernera des enfants qui vont au parc et qui ont peur des toboggans". C'est apparemment la quintessence des histoires pour enfants d'âge préscolaire, selon l'Internet.

La solution a consisté à ajouter un peu d'aléatoire dans le message. Tout d'abord, Eldan a utilisé le GPT-4 pour générer une liste de 1 500 noms, verbes et adjectifs qu'un enfant de 4 ans pourrait connaître - suffisamment courte pour qu'il puisse facilement la vérifier lui-même. Il a ensuite écrit un programme informatique simple qui demanderait à plusieurs reprises à GPT-3.5 ou à GPT-4 de générer une histoire adaptée à l'âge de l'enfant, comprenant trois mots aléatoires de la liste, ainsi qu'un détail supplémentaire choisi au hasard, comme une fin heureuse ou un rebondissement de l'intrigue. Les histoires obtenues, heureusement, étaient moins axées sur des diapositives effrayantes.

Eldan disposait désormais d'une procédure pour produire des données de formation à la demande, mais il n'avait aucune idée du nombre d'histoires dont il aurait besoin pour former un modèle fonctionnel, ni de la taille de ce modèle. C'est alors qu'il s'est associé à Yuanzhi Li, chercheur en apprentissage automatique chez Microsoft et à l'université Carnegie Mellon, pour essayer différentes possibilités, en tirant parti du fait que les petits modèles peuvent être formés très rapidement. La première étape consistait à décider comment évaluer leurs modèles.

Introduction

Dans la recherche sur les modèles de langage - comme dans toute salle de classe - la notation est un sujet délicat. Il n'existe pas de rubrique parfaite qui englobe tout ce que les chercheurs veulent savoir, et les modèles qui excellent dans certaines tâches échouent souvent de manière spectaculaire dans d'autres. Au fil du temps, les chercheurs ont mis au point divers critères de référence standard basés sur des questions dont les réponses ne sont pas ambiguës, ce qui est une bonne approche si vous essayez d'évaluer des compétences spécifiques. Mais Eldan et Li se sont intéressés à quelque chose de plus nébuleux : quelle doit être la taille réelle des modèles linguistiques si l'on simplifie le langage autant que possible ?

"Pour vérifier directement si le modèle parle anglais, je pense que la seule chose à faire est de laisser le modèle générer de l'anglais de manière ouverte", a déclaré M. Eldan.

Il n'y a que deux façons de mesurer les performances d'un modèle sur des questions aussi qualitatives : S'appuyer sur des évaluateurs humains ou se tourner à nouveau vers le GPT-4. Les deux chercheurs ont opté pour cette dernière solution, laissant les grands modèles à la fois rédiger les manuels et noter les dissertations.

Bhagavatula a déclaré qu'il aurait aimé voir comment les évaluations de GPT-4 se comparaient à celles des correcteurs humains - GPT-4 peut être biaisé en faveur des modèles qu'il a aidé à former, et l'opacité des modèles de langage rend difficile la quantification de tels biais. Mais il ne pense pas que de telles subtilités affecteraient les comparaisons entre différents modèles formés sur des ensembles similaires d'histoires synthétiques - l'objectif principal du travail d'Eldan et Li.

Eldan et Li ont utilisé une procédure en deux étapes pour évaluer chacun de leurs petits modèles après la formation. Tout d'abord, ils ont présenté au petit modèle la première moitié d'une histoire distincte de celles de l'ensemble des données d'apprentissage, de manière à ce qu'il génère une nouvelle fin, en répétant ce processus avec 50 histoires de test différentes. Ensuite, ils ont demandé à GPT-4 d'évaluer chacune des fins du petit modèle en fonction de trois catégories : créativité, grammaire et cohérence avec le début de l'histoire. Ils ont ensuite fait la moyenne des notes obtenues dans chaque catégorie, obtenant ainsi trois notes finales par modèle.

Avec cette procédure en main, Eldan et Li étaient enfin prêts à comparer les différents modèles et à découvrir quels étaient les étudiants les plus brillants.

Résultats des tests

Après quelques explorations préliminaires, les deux chercheurs ont opté pour un ensemble de données de formation contenant environ 2 millions d'histoires. Ils ont ensuite utilisé cet ensemble de données, baptisé TinyStories, pour entraîner des modèles dont la taille varie de 1 million à 30 millions de paramètres, avec un nombre variable de couches. Le travail a été rapide : En utilisant seulement quatre GPU, l'entraînement du plus grand de ces modèles n'a pas pris plus d'une journée.

Les plus petits modèles ont eu du mal. Par exemple, l'une des histoires testées commence par un homme à l'air méchant qui dit à une fille qu'il va lui prendre son chat. Un modèle à un million de paramètres s'est retrouvé bloqué dans une boucle où la fille répète sans cesse à l'homme qu'elle veut être son amie. Mais les modèles plus grands, qui sont encore des milliers de fois plus petits que GPT-3.5, ont obtenu des résultats surprenants. La version à 28 millions de paramètres racontait une histoire cohérente, même si la fin était sinistre : "Katie s'est mise à pleurer, mais l'homme s'en fichait. Il a emporté le chat et Katie n'a plus jamais revu son chat. Fin de l'histoire".

En plus de tester leurs propres modèles, Eldan et Li ont soumis le même défi au GPT-2 d'OpenAI, un modèle de 1,5 milliard de paramètres publié en 2019. Le résultat a été bien pire - avant la fin abrupte de l'histoire, l'homme menace d'emmener la jeune fille au tribunal, en prison, à l'hôpital, à la morgue et enfin au crématorium.

Introduction

Selon M. Nguyen, il est passionnant que des modèles aussi petits soient aussi fluides, mais il n'est peut-être pas surprenant que GPT-2 ait eu du mal à accomplir la tâche : il s'agit d'un modèle plus grand, mais loin de l'état de l'art, et il a été formé sur un ensemble de données très différent. "Un enfant en bas âge qui ne s'entraînerait qu'à des tâches d'enfant en bas âge, comme jouer avec des jouets, obtiendrait de meilleurs résultats que vous ou moi", a-t-il fait remarquer. "Nous ne nous sommes pas spécialisés dans cette chose simple.

Les comparaisons entre les différents modèles de TinyStories ne souffrent pas des mêmes facteurs de confusion. Eldan et Li ont observé que les réseaux comportant moins de couches mais plus de neurones par couche étaient plus performants pour répondre aux questions nécessitant des connaissances factuelles ; inversement, les réseaux comportant plus de couches et moins de neurones par couche étaient plus performants pour garder en mémoire les personnages et les points de l'intrigue situés plus tôt dans l'histoire. Bhagavatula a trouvé ce résultat particulièrement intriguant. S'il peut être reproduit dans des modèles plus vastes, "ce serait un résultat vraiment intéressant qui pourrait découler de ce travail", a-t-il déclaré.

Eldan et Li ont également étudié comment les capacités de leurs petits modèles dépendaient de la durée de la période de formation. Dans tous les cas, les modèles maîtrisaient d'abord la grammaire, puis la cohérence. Pour Eldan, ce schéma illustre comment les différences dans les structures de récompense entraînent des différences dans les schémas d'acquisition du langage entre les réseaux neuronaux et les enfants. Pour les modèles de langage, qui apprennent en prédisant des mots, "l'incitation pour les mots "je veux avoir" est aussi importante que pour les mots "crème glacée"", a-t-il déclaré. Les enfants, en revanche, "ne se soucient pas de savoir s'ils disent 'j'aimerais avoir de la glace' ou simplement 'glace, glace, glace'".

Qualité contre quantité

Eldan et Li espèrent que cette étude incitera d'autres chercheurs à entraîner différents modèles sur l'ensemble des données de TinyStories et à comparer leurs capacités. Mais il est souvent difficile de prédire quelles caractéristiques des petits modèles apparaîtront également dans les plus grands.

"Peut-être que les modèles de vision chez la souris sont de très bons substituts de la vision humaine, mais les modèles de dépression chez la souris sont-ils de bons modèles de la dépression chez l'homme ? a déclaré M. Pavlick. "Pour chaque cas, c'est un peu différent.

Le succès des modèles TinyStories suggère également une leçon plus large. L'approche standard pour compiler des ensembles de données de formation consiste à aspirer des textes sur l'internet, puis à filtrer les déchets. Le texte synthétique généré par des modèles de grande taille pourrait constituer une autre façon d'assembler des ensembles de données de haute qualité qui n'auraient pas besoin d'être aussi volumineux.

"Nous avons de plus en plus de preuves que cette méthode est très efficace, non seulement pour les modèles de la taille de TinyStories, mais aussi pour les modèles plus importants", a déclaré M. Eldan. Ces preuves proviennent d'une paire d'articles de suivi sur les modèles à un milliard de paramètres, rédigés par Eldan, Li et d'autres chercheurs de Microsoft. Dans le premier article, ils ont entraîné un modèle à apprendre le langage de programmation Python en utilisant des extraits de code générés par GPT-3.5 ainsi que du code soigneusement sélectionné sur l'internet. Dans le second, ils ont complété l'ensemble de données d'entraînement par des "manuels" synthétiques couvrant un large éventail de sujets, afin d'entraîner un modèle linguistique à usage général. Lors de leurs tests, les deux modèles ont été comparés favorablement à des modèles plus importants formés sur des ensembles de données plus vastes. Mais l'évaluation des modèles linguistiques est toujours délicate, et l'approche des données d'entraînement synthétiques n'en est qu'à ses balbutiements - d'autres tests indépendants sont nécessaires.

Alors que les modèles linguistiques de pointe deviennent de plus en plus volumineux, les résultats surprenants de leurs petits cousins nous rappellent qu'il y a encore beaucoup de choses que nous ne comprenons pas, même pour les modèles les plus simples. M. Nguyen s'attend à ce que de nombreux autres articles explorent l'approche inaugurée par TinyStories.

"La question est de savoir où et pourquoi la taille a de l'importance", a-t-il déclaré. "Il devrait y avoir une science à ce sujet, et cet article est, je l'espère, le début d'une riche histoire.

Auteur: Internet

Info: https://www.quantamagazine.org/ Ben Brubaker, 5 octobre 2023

[ synthèse ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

trickster

Les mondes multiples d'Hugh Everett

Il y a cinquante ans, Hugh Everett a conçu l'interprétation de la mécanique quantique en l'expliquant par des mondes multiples, théorie dans laquelle les effets quantiques engendrent d'innombrables branches de l'univers avec des événements différents dans chacune. La théorie semble être une hypothèse bizarre, mais Everett l'a déduite des mathématiques fondamentales de la mécanique quantique. Néanmoins, la plupart des physiciens de l'époque la rejetèrent, et il dût abréger sa thèse de doctorat sur le sujet pour éviter la controverse. Découragé, Everett quitta la physique et travailla sur les mathématiques et l'informatique militaires et industrielles. C'était un être émotionnellement renfermé et un grand buveur. Il est mort alors qu'il n'avait que 51 ans, et ne put donc pas voir le récent respect accordé à ses idées par les physiciens.

Hugh Everett III était un mathématicien brillant, théoricien quantique iconoclaste, puis ensuite entrepreneur prospère dans la défense militaire ayant accès aux secrets militaires les plus sensibles du pays. Il a introduit une nouvelle conception de la réalité dans la physique et a influencé le cours de l'histoire du monde à une époque où l'Armageddon nucléaire semblait imminent. Pour les amateurs de science-fiction, il reste un héros populaire : l'homme qui a inventé une théorie quantique des univers multiples. Pour ses enfants, il était quelqu'un d'autre : un père indisponible, "morceau de mobilier assis à la table de la salle à manger", cigarette à la main. Alcoolique aussi, et fumeur à la chaîne, qui mourut prématurément.

L'analyse révolutionnaire d'Everett a brisé une impasse théorique dans l'interprétation du "comment" de la mécanique quantique. Bien que l'idée des mondes multiples ne soit pas encore universellement acceptée aujourd'hui, ses méthodes de conception de la théorie présagèrent le concept de décohérence quantique - explication moderne du pourquoi et comment la bizarrerie probabiliste de la mécanique quantique peut se résoudre dans le monde concret de notre expérience. Le travail d'Everett est bien connu dans les milieux de la physique et de la philosophie, mais l'histoire de sa découverte et du reste de sa vie l'est relativement moins. Les recherches archivistiques de l'historien russe Eugène Shikhovtsev, de moi-même et d'autres, ainsi que les entretiens que j'ai menés avec les collègues et amis du scientifique décédé, ainsi qu'avec son fils musicien de rock, révèlent l'histoire d'une intelligence radieuse éteinte trop tôt par des démons personnels.

Le voyage scientifique d'Everett commença une nuit de 1954, raconte-t-il deux décennies plus tard, "après une gorgée ou deux de sherry". Lui et son camarade de classe de Princeton Charles Misner et un visiteur nommé Aage Petersen (alors assistant de Niels Bohr) pensaient "des choses ridicules sur les implications de la mécanique quantique". Au cours de cette session Everett eut l'idée de base fondant la théorie des mondes multiples, et dans les semaines qui suivirent, il commença à la développer dans un mémoire. L'idée centrale était d'interpréter ce que les équations de la mécanique quantique représentent dans le monde réel en faisant en sorte que les mathématiques de la théorie elle-même montrent le chemin plutôt qu'en ajoutant des hypothèses d'interprétation aux mathématiques existantes sur le sujet. De cette façon, le jeune homme a mis au défi l'establishment physique de l'époque en reconsidérant sa notion fondamentale de ce qui constitue la réalité physique. En poursuivant cette entreprise, Everett s'attaqua avec audace au problème notoire de la mesure en mécanique quantique, qui accablait les physiciens depuis les années 1920.

En résumé, le problème vient d'une contradiction entre la façon dont les particules élémentaires (comme les électrons et les photons) interagissent au niveau microscopique quantique de la réalité et ce qui se passe lorsque les particules sont mesurées à partir du niveau macroscopique classique. Dans le monde quantique, une particule élémentaire, ou une collection de telles particules, peut exister dans une superposition de deux ou plusieurs états possibles. Un électron, par exemple, peut se trouver dans une superposition d'emplacements, de vitesses et d'orientations différentes de sa rotation. Pourtant, chaque fois que les scientifiques mesurent l'une de ces propriétés avec précision, ils obtiennent un résultat précis - juste un des éléments de la superposition, et non une combinaison des deux. Nous ne voyons jamais non plus d'objets macroscopiques en superposition. Le problème de la mesure se résume à cette question : Comment et pourquoi le monde unique de notre expérience émerge-t-il des multiples alternatives disponibles dans le monde quantique superposé ? Les physiciens utilisent des entités mathématiques appelées fonctions d'onde pour représenter les états quantiques. Une fonction d'onde peut être considérée comme une liste de toutes les configurations possibles d'un système quantique superposé, avec des nombres qui donnent la probabilité que chaque configuration soit celle, apparemment choisie au hasard, que nous allons détecter si nous mesurons le système. La fonction d'onde traite chaque élément de la superposition comme étant également réel, sinon nécessairement également probable de notre point de vue. L'équation de Schrödinger décrit comment la fonction ondulatoire d'un système quantique changera au fil du temps, une évolution qu'elle prédit comme lisse et déterministe (c'est-à-dire sans caractère aléatoire).

Mais cette élégante mathématique semble contredire ce qui se passe lorsque les humains observent un système quantique, tel qu'un électron, avec un instrument scientifique (qui lui-même peut être considéré comme un système quantique). Car au moment de la mesure, la fonction d'onde décrivant la superposition d'alternatives semble s'effondrer en un unique membre de la superposition, interrompant ainsi l'évolution en douceur de la fonction d'onde et introduisant la discontinuité. Un seul résultat de mesure émerge, bannissant toutes les autres possibilités de la réalité décrite de manière classique. Le choix de l'alternative produite au moment de la mesure semble arbitraire ; sa sélection n'évolue pas logiquement à partir de la fonction d'onde chargée d'informations de l'électron avant la mesure. Les mathématiques de l'effondrement n'émergent pas non plus du flux continu de l'équation de Schrödinger. En fait, l'effondrement (discontinuité) doit être ajouté comme un postulat, comme un processus supplémentaire qui semble violer l'équation.

De nombreux fondateurs de la mécanique quantique, notamment Bohr, Werner Heisenberg et John von Neumann, se sont mis d'accord sur une interprétation de la mécanique quantique - connue sous le nom d'interprétation de Copenhague - pour traiter le problème des mesures. Ce modèle de réalité postule que la mécanique du monde quantique se réduit à des phénomènes observables de façon classique et ne trouve son sens qu'en termes de phénomènes observables, et non l'inverse. Cette approche privilégie l'observateur externe, le plaçant dans un domaine classique distinct du domaine quantique de l'objet observé. Bien qu'incapables d'expliquer la nature de la frontière entre le domaine quantique et le domaine classique, les Copenhagueistes ont néanmoins utilisé la mécanique quantique avec un grand succès technique. Des générations entières de physiciens ont appris que les équations de la mécanique quantique ne fonctionnent que dans une partie de la réalité, la microscopique, et cessent d'être pertinentes dans une autre, la macroscopique. C'est tout ce dont la plupart des physiciens ont besoin.

Fonction d'onde universelle. Par fort effet contraire, Everett s'attaqua au problème de la mesure en fusionnant les mondes microscopique et macroscopique. Il fit de l'observateur une partie intégrante du système observé, introduisant une fonction d'onde universelle qui relie les observateurs et les objets dans un système quantique unique. Il décrivit le monde macroscopique en mécanique quantique imaginant que les grands objets existent également en superpositions quantiques. Rompant avec Bohr et Heisenberg, il n'avait pas besoin de la discontinuité d'un effondrement de la fonction ondulatoire. L'idée radicalement nouvelle d'Everett était de se demander : Et si l'évolution continue d'une fonction d'onde n'était pas interrompue par des actes de mesure ? Et si l'équation de Schrödinger s'appliquait toujours et s'appliquait aussi bien à tous les objets qu'aux observateurs ? Et si aucun élément de superposition n'est jamais banni de la réalité ? A quoi ressemblerait un tel monde pour nous ? Everett constata, selon ces hypothèses, que la fonction d'onde d'un observateur devrait, en fait, bifurquer à chaque interaction de l'observateur avec un objet superposé. La fonction d'onde universelle contiendrait des branches pour chaque alternative constituant la superposition de l'objet. Chaque branche ayant sa propre copie de l'observateur, copie qui percevait une de ces alternatives comme le résultat. Selon une propriété mathématique fondamentale de l'équation de Schrödinger, une fois formées, les branches ne s'influencent pas mutuellement. Ainsi, chaque branche se lance dans un avenir différent, indépendamment des autres. Prenons l'exemple d'une personne qui mesure une particule qui se trouve dans une superposition de deux états, comme un électron dans une superposition de l'emplacement A et de l'emplacement B. Dans une branche, la personne perçoit que l'électron est à A. Dans une branche presque identique, une copie de la personne perçoit que le même électron est à B. Chaque copie de la personne se perçoit comme unique et considère que la chance lui a donné une réalité dans un menu des possibilités physiques, même si, en pleine réalité, chaque alternative sur le menu se réalise.

Expliquer comment nous percevons un tel univers exige de mettre un observateur dans l'image. Mais le processus de ramification se produit indépendamment de la présence ou non d'un être humain. En général, à chaque interaction entre systèmes physiques, la fonction d'onde totale des systèmes combinés aurait tendance à bifurquer de cette façon. Aujourd'hui, la compréhension de la façon dont les branches deviennent indépendantes et ressemblent à la réalité classique à laquelle nous sommes habitués est connue sous le nom de théorie de la décohérence. C'est une partie acceptée de la théorie quantique moderne standard, bien que tout le monde ne soit pas d'accord avec l'interprétation d'Everett comme quoi toutes les branches représentent des réalités qui existent. Everett n'a pas été le premier physicien à critiquer le postulat de l'effondrement de Copenhague comme inadéquat. Mais il a innové en élaborant une théorie mathématiquement cohérente d'une fonction d'onde universelle à partir des équations de la mécanique quantique elle-même. L'existence d'univers multiples a émergé comme une conséquence de sa théorie, pas par un prédicat. Dans une note de bas de page de sa thèse, Everett écrit : "Du point de vue de la théorie, tous les éléments d'une superposition (toutes les "branches") sont "réels", aucun n'est plus "réel" que les autres. Le projet contenant toutes ces idées provoqua de remarquables conflits dans les coulisses, mis au jour il y a environ cinq ans par Olival Freire Jr, historien des sciences à l'Université fédérale de Bahia au Brésil, dans le cadre de recherches archivistiques.

Au printemps de 1956 le conseiller académique à Princeton d'Everett, John Archibald Wheeler, prit avec lui le projet de thèse à Copenhague pour convaincre l'Académie royale danoise des sciences et lettres de le publier. Il écrivit à Everett qu'il avait eu "trois longues et fortes discussions à ce sujet" avec Bohr et Petersen. Wheeler partagea également le travail de son élève avec plusieurs autres physiciens de l'Institut de physique théorique de Bohr, dont Alexander W. Stern. Scindages La lettre de Wheeler à Everett disait en autre : "Votre beau formalisme de la fonction ondulatoire reste bien sûr inébranlable ; mais nous sentons tous que la vraie question est celle des mots qui doivent être attachés aux quantités de ce formalisme". D'une part, Wheeler était troublé par l'utilisation par Everett d'humains et de boulets de canon "scindés" comme métaphores scientifiques. Sa lettre révélait l'inconfort des Copenhagueistes quant à la signification de l'œuvre d'Everett. Stern rejeta la théorie d'Everett comme "théologique", et Wheeler lui-même était réticent à contester Bohr. Dans une longue lettre politique adressée à Stern, il explique et défend la théorie d'Everett comme une extension, non comme une réfutation, de l'interprétation dominante de la mécanique quantique : "Je pense que je peux dire que ce jeune homme très fin, capable et indépendant d'esprit en est venu progressivement à accepter l'approche actuelle du problème de la mesure comme correcte et cohérente avec elle-même, malgré quelques traces qui subsistent dans le présent projet de thèse d'une attitude douteuse envers le passé. Donc, pour éviter tout malentendu possible, permettez-moi de dire que la thèse d'Everett ne vise pas à remettre en question l'approche actuelle du problème de la mesure, mais à l'accepter et à la généraliser."

Everett aurait été en total désaccord avec la description que Wheeler a faite de son opinion sur l'interprétation de Copenhague. Par exemple, un an plus tard, en réponse aux critiques de Bryce S. DeWitt, rédacteur en chef de la revue Reviews of Modern Physics, il écrivit : "L'Interprétation de Copenhague est désespérément incomplète en raison de son recours a priori à la physique classique... ainsi que d'une monstruosité philosophique avec un concept de "réalité" pour le monde macroscopique qui ne marche pas avec le microcosme." Pendant que Wheeler était en Europe pour plaider sa cause, Everett risquait alors de perdre son permis de séjour étudiant qui avait été suspendu. Pour éviter d'aller vers des mesures disciplinaires, il décida d'accepter un poste de chercheur au Pentagone. Il déménagea dans la région de Washington, D.C., et ne revint jamais à la physique théorique. Au cours de l'année suivante, cependant, il communiqua à distance avec Wheeler alors qu'il avait réduit à contrecœur sa thèse au quart de sa longueur d'origine. En avril 1957, le comité de thèse d'Everett accepta la version abrégée - sans les "scindages". Trois mois plus tard, Reviews of Modern Physics publiait la version abrégée, intitulée "Relative State' Formulation of Quantum Mechanics".("Formulation d'état relatif de la mécanique quantique.") Dans le même numéro, un document d'accompagnement de Wheeler loue la découverte de son élève. Quand le papier parut sous forme imprimée, il passa instantanément dans l'obscurité.

Wheeler s'éloigna progressivement de son association avec la théorie d'Everett, mais il resta en contact avec le théoricien, l'encourageant, en vain, à faire plus de travail en mécanique quantique. Dans une entrevue accordée l'an dernier, Wheeler, alors âgé de 95 ans, a déclaré qu' "Everett était déçu, peut-être amer, devant les non réactions à sa théorie. Combien j'aurais aimé continuer les séances avec lui. Les questions qu'il a soulevées étaient importantes." Stratégies militaires nucléaires Princeton décerna son doctorat à Everett près d'un an après qu'il ait commencé son premier projet pour le Pentagone : le calcul des taux de mortalité potentiels des retombées radioactives d'une guerre nucléaire. Rapidement il dirigea la division des mathématiques du Groupe d'évaluation des systèmes d'armes (WSEG) du Pentagone, un groupe presque invisible mais extrêmement influent. Everett conseillait de hauts responsables des administrations Eisenhower et Kennedy sur les meilleures méthodes de sélection des cibles de bombes à hydrogène et de structuration de la triade nucléaire de bombardiers, de sous-marins et de missiles pour un impact optimal dans une frappe nucléaire. En 1960, participa à la rédaction du WSEG n° 50, un rapport qui reste classé à ce jour. Selon l'ami d'Everett et collègue du WSEG, George E. Pugh, ainsi que des historiens, le WSEG no 50 a rationalisé et promu des stratégies militaires qui ont fonctionné pendant des décennies, notamment le concept de destruction mutuelle assurée. Le WSEG a fourni aux responsables politiques de la guerre nucléaire suffisamment d'informations effrayantes sur les effets mondiaux des retombées radioactives pour que beaucoup soient convaincus du bien-fondé d'une impasse perpétuelle, au lieu de lancer, comme le préconisaient certains puissants, des premières attaques préventives contre l'Union soviétique, la Chine et d'autres pays communistes.

Un dernier chapitre de la lutte pour la théorie d'Everett se joua également dans cette période. Au printemps 1959, Bohr accorda à Everett une interview à Copenhague. Ils se réunirent plusieurs fois au cours d'une période de six semaines, mais avec peu d'effet : Bohr ne changea pas sa position, et Everett n'est pas revenu à la recherche en physique quantique. L'excursion n'avait pas été un échec complet, cependant. Un après-midi, alors qu'il buvait une bière à l'hôtel Østerport, Everett écrivit sur un papier à l'en-tête de l'hôtel un raffinement important de cet autre tour de force mathématique qui a fait sa renommée, la méthode généralisée du multiplicateur de Lagrange, aussi connue sous le nom d'algorithme Everett. Cette méthode simplifie la recherche de solutions optimales à des problèmes logistiques complexes, allant du déploiement d'armes nucléaires aux horaires de production industrielle juste à temps en passant par l'acheminement des autobus pour maximiser la déségrégation des districts scolaires. En 1964, Everett, Pugh et plusieurs autres collègues du WSEG ont fondé une société de défense privée, Lambda Corporation. Entre autres activités, il a conçu des modèles mathématiques de systèmes de missiles anti-missiles balistiques et de jeux de guerre nucléaire informatisés qui, selon Pugh, ont été utilisés par l'armée pendant des années. Everett s'est épris de l'invention d'applications pour le théorème de Bayes, une méthode mathématique de corrélation des probabilités des événements futurs avec l'expérience passée. En 1971, Everett a construit un prototype de machine bayésienne, un programme informatique qui apprend de l'expérience et simplifie la prise de décision en déduisant les résultats probables, un peu comme la faculté humaine du bon sens. Sous contrat avec le Pentagone, le Lambda a utilisé la méthode bayésienne pour inventer des techniques de suivi des trajectoires des missiles balistiques entrants. En 1973, Everett quitte Lambda et fonde une société de traitement de données, DBS, avec son collègue Lambda Donald Reisler. Le DBS a fait des recherches sur les applications des armes, mais s'est spécialisée dans l'analyse des effets socio-économiques des programmes d'action sociale du gouvernement. Lorsqu'ils se sont rencontrés pour la première fois, se souvient M. Reisler, Everett lui a demandé timidement s'il avait déjà lu son journal de 1957. J'ai réfléchi un instant et j'ai répondu : "Oh, mon Dieu, tu es cet Everett, le fou qui a écrit ce papier dingue", dit Reisler. "Je l'avais lu à l'université et avais gloussé, le rejetant d'emblée." Les deux sont devenus des amis proches mais convinrent de ne plus parler d'univers multiples.

Malgré tous ces succès, la vie d'Everett fut gâchée de bien des façons. Il avait une réputation de buveur, et ses amis disent que le problème semblait s'aggraver avec le temps. Selon Reisler, son partenaire aimait habituellement déjeuner avec trois martinis, dormant dans son bureau, même s'il réussissait quand même à être productif. Pourtant, son hédonisme ne reflétait pas une attitude détendue et enjouée envers la vie. "Ce n'était pas quelqu'un de sympathique", dit Reisler. "Il apportait une logique froide et brutale à l'étude des choses... Les droits civils n'avaient aucun sens pour lui." John Y. Barry, ancien collègue d'Everett au WSEG, a également remis en question son éthique. Au milieu des années 1970, Barry avait convaincu ses employeurs chez J. P. Morgan d'embaucher Everett pour mettre au point une méthode bayésienne de prévision de l'évolution du marché boursier. Selon plusieurs témoignages, Everett avait réussi, puis il refusa de remettre le produit à J. P. Morgan. "Il s'est servi de nous", se souvient Barry. "C'était un individu brillant, innovateur, insaisissable, indigne de confiance, probablement alcoolique." Everett était égocentrique. "Hugh aimait épouser une forme de solipsisme extrême", dit Elaine Tsiang, ancienne employée de DBS. "Bien qu'il eut peine à éloigner sa théorie [des monde multiples] de toute théorie de l'esprit ou de la conscience, il est évident que nous devions tous notre existence par rapport au monde qu'il avait fait naître." Et il connaissait à peine ses enfants, Elizabeth et Mark. Alors qu'Everett poursuivait sa carrière d'entrepreneur, le monde de la physique commençait à jeter un regard critique sur sa théorie autrefois ignorée. DeWitt pivota d'environ 180 degrés et devint son défenseur le plus dévoué. En 1967, il écrivit un article présentant l'équation de Wheeler-DeWitt : une fonction d'onde universelle qu'une théorie de la gravité quantique devrait satisfaire. Il attribue à Everett le mérite d'avoir démontré la nécessité d'une telle approche. DeWitt et son étudiant diplômé Neill Graham ont ensuite publié un livre de physique, The Many-Worlds Interpretation of Quantum Mechanics, qui contenait la version non informatisée de la thèse d'Everett. L'épigramme "mondes multiples" se répandit rapidement, popularisée dans le magazine de science-fiction Analog en 1976. Toutefois, tout le monde n'est pas d'accord sur le fait que l'interprétation de Copenhague doive céder le pas. N. David Mermin, physicien de l'Université Cornell, soutient que l'interprétation d'Everett traite la fonction des ondes comme faisant partie du monde objectivement réel, alors qu'il la considère simplement comme un outil mathématique. "Une fonction d'onde est une construction humaine", dit Mermin. "Son but est de nous permettre de donner un sens à nos observations macroscopiques. Mon point de vue est exactement le contraire de l'interprétation des mondes multiples. La mécanique quantique est un dispositif qui nous permet de rendre nos observations cohérentes et de dire que nous sommes à l'intérieur de la mécanique quantique et que la mécanique quantique doive s'appliquer à nos perceptions est incohérent." Mais de nombreux physiciens avancent que la théorie d'Everett devrait être prise au sérieux. "Quand j'ai entendu parler de l'interprétation d'Everett à la fin des années 1970, dit Stephen Shenker, physicien théoricien à l'Université Stanford, j'ai trouvé cela un peu fou. Maintenant, la plupart des gens que je connais qui pensent à la théorie des cordes et à la cosmologie quantique pensent à quelque chose qui ressemble à une interprétation à la Everett. Et à cause des récents développements en informatique quantique, ces questions ne sont plus académiques."

Un des pionniers de la décohérence, Wojciech H. Zurek, chercheur au Los Alamos National Laboratory, a commente que "l'accomplissement d'Everett fut d'insister pour que la théorie quantique soit universelle, qu'il n'y ait pas de division de l'univers entre ce qui est a priori classique et ce qui est a priori du quantum. Il nous a tous donné un ticket pour utiliser la théorie quantique comme nous l'utilisons maintenant pour décrire la mesure dans son ensemble." Le théoricien des cordes Juan Maldacena de l'Institute for Advanced Study de Princeton, N.J., reflète une attitude commune parmi ses collègues : "Quand je pense à la théorie d'Everett en mécanique quantique, c'est la chose la plus raisonnable à croire. Dans la vie de tous les jours, je n'y crois pas."

En 1977, DeWitt et Wheeler invitèrent Everett, qui détestait parler en public, à faire une présentation sur son interprétation à l'Université du Texas à Austin. Il portait un costume noir froissé et fuma à la chaîne pendant tout le séminaire. David Deutsch, maintenant à l'Université d'Oxford et l'un des fondateurs du domaine de l'informatique quantique (lui-même inspiré par la théorie d'Everett), était là. "Everett était en avance sur son temps", dit Deutsch en résumant la contribution d'Everett. "Il représente le refus de renoncer à une explication objective. L'abdication de la finalité originelle de ces domaines, à savoir expliquer le monde, a fait beaucoup de tort au progrès de la physique et de la philosophie. Nous nous sommes irrémédiablement enlisés dans les formalismes, et les choses ont été considérées comme des progrès qui ne sont pas explicatifs, et le vide a été comblé par le mysticisme, la religion et toutes sortes de détritus. Everett est important parce qu'il s'y est opposé." Après la visite au Texas, Wheeler essaya de mettre Everett en contact avec l'Institute for Theoretical Physics à Santa Barbara, Californie. Everett aurait été intéressé, mais le plan n'a rien donné. Totalité de l'expérience Everett est mort dans son lit le 19 juillet 1982. Il n'avait que 51 ans.

Son fils, Mark, alors adolescent, se souvient avoir trouvé le corps sans vie de son père ce matin-là. Sentant le corps froid, Mark s'est rendu compte qu'il n'avait aucun souvenir d'avoir jamais touché son père auparavant. "Je ne savais pas quoi penser du fait que mon père venait de mourir, m'a-t-il dit. "Je n'avais pas vraiment de relation avec lui." Peu de temps après, Mark a déménagé à Los Angeles. Il est devenu un auteur-compositeur à succès et chanteur principal d'un groupe de rock populaire, Eels. Beaucoup de ses chansons expriment la tristesse qu'il a vécue en tant que fils d'un homme déprimé, alcoolique et détaché émotionnellement. Ce n'est que des années après la mort de son père que Mark a appris l'existence de la carrière et des réalisations de son père. La sœur de Mark, Elizabeth, fit la première d'une série de tentatives de suicide en juin 1982, un mois seulement avant la mort d'Everett. Mark la trouva inconsciente sur le sol de la salle de bain et l'amena à l'hôpital juste à temps. Quand il rentra chez lui plus tard dans la soirée, se souvient-il, son père "leva les yeux de son journal et dit : Je ne savais pas qu'elle était si triste."" En 1996, Elizabeth se suicida avec une overdose de somnifères, laissant une note dans son sac à main disant qu'elle allait rejoindre son père dans un autre univers. Dans une chanson de 2005, "Things the Grandchildren Should Know", Mark a écrit : "Je n'ai jamais vraiment compris ce que cela devait être pour lui de vivre dans sa tête". Son père solipsistiquement incliné aurait compris ce dilemme. "Une fois que nous avons admis que toute théorie physique n'est essentiellement qu'un modèle pour le monde de l'expérience, conclut Everett dans la version inédite de sa thèse, nous devons renoncer à tout espoir de trouver quelque chose comme la théorie correcte... simplement parce que la totalité de l'expérience ne nous est jamais accessible."

Auteur: Byrne Peter

Info: 21 octobre 2008, https://www.scientificamerican.com/article/hugh-everett-biography/. Publié à l'origine dans le numéro de décembre 2007 de Scientific American

[ légende de la physique théorique ] [ multivers ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel