Les fils de la pensée

Paramètres de recherches

Filtres

Citation

Catégorie

Tag – étiquette

Auteur

Info

Recherche avancée

Détail auteurs

Présentation, tri

Dictionnaire analogique intriqué pour extraits. Recherche mots ou phrases tous azimuts. Aussi outil de précision sémantique et de réflexion communautaire. Voir la rubrique mode d'emploi. Jetez un oeil à la colonne "chaînes". ATTENTION, faire une REINITIALISATION après une recherche complexe. Et utilisez le nuage de corrélats !!!!..... Lire la suite >>

Nuage de corrélats

beaux-arts chercheurs critique créativité données d’une fuite en avant futur historique homme-machine manipulation mathématiques monde nouvelle n’est pouvoir premier première processus quête science sciences scientifique scientifiques sociologie temps toujours travail écriture éloge

Résultat(s): 164

Temps de recherche: 0.0698s

exobiologie

Les extraterrestres sont-ils là sous nos yeux ?

Difficile de détecter quelque chose sans avoir aucune idée de ce que c'est.

Cette année, plusieurs missions sont en quête de vie sur la planète rouge. Mais reconnaîtrions-nous des extraterrestres si nous les trouvions ? En juillet, trois missions non habitées se sont envolées vers Mars : de Chine (Tianwen-1), depuis les États-Unis (Mars 2020 Perseverance Rover de la Nasa) et des Émirats arabes unis (Hope). Les missions chinoise et américaine sont équipées d'atterrisseurs qui rechercheront des signes de vie actuelle ou passée sur Mars. La Nasa prévoit également d'envoyer sa sonde Europa Clipper sur la lune de Jupiter, Europa, et l'atterrisseur robotisé Dragonfly sur la lune de Saturne, Titan. Ces deux lunes sont considérées comme des terrains de chasse prometteurs pour la vie dans notre système solaire, tout comme les océans souterrains d'Encelade, la lune glacée de Saturne.

En attendant, nous pouvons désormais entrevoir la composition chimique des atmosphères des planètes qui orbitent autour d'autres étoiles (exoplanètes), dont plus de 4 000 sont aujourd'hui connues. Certains espèrent que ces études pourraient révéler d'éventuelles signatures de vie.

Mais ces recherches peuvent-elles être efficaces si nous n'avons pas une idée claire de ce qu'est la "vie" ? La définition officieuse de la Nasa est la suivante : "système chimique autonome capable d'évolution darwinienne". "La Nasa a besoin d'une définition de la vie pour savoir comment construire des détecteurs et quels types d'instruments utiliser lors de ses missions", explique le zoologiste Arik Kershenbaum, de l'université de Cambridge. Mais tout le monde ne pense pas qu'elle utilise la bonne définition.

L'astrobiologiste Lynn Rothschild, du centre de recherche Ames de la Nasa en Californie, voit une mise en garde dans l'histoire de Winnie l'ourson d'AA Milne, dans laquelle Pooh et Piglet chassent un Woozle sans savoir à quoi il ressemble et confondent leurs propres empreintes avec ses traces. "On ne peut chasser quelque chose sans avoir aucune idée de ce que c'est", dit-elle.

Le problème de la définition de la vie hante les planétologues depuis que les deux atterrisseurs Viking de la Nasa se sont posés sur Mars en 1976. Depuis, les rovers ont parcouru des dizaines de kilomètres sur les plaines martiennes mais n'ont trouvé aucun signe de vie. Mais saurions-nous la reconnaître si nous la voyions ?

Certains astrobiologistes - scientifiques qui étudient la possibilité de vie sur d'autres mondes - pensent que notre vision est trop étroite. Nous ne connaissons qu'un seul type de vie : la vie terrestre. Tous les êtres vivants sur Terre sont constitués de cellules adaptées à un environnement aquatique, utilisant une machinerie moléculaire construite à partir de protéines et codée sous forme de gènes dans l'ADN. Peu de scientifiques pensent que la vie extraterrestre - si tant est qu'elle existe - repose sur les mêmes éléments chimiques. "Il serait erroné de supposer que la biochimie qui nous est familière est celle que nous allons trouver sur d'autres planètes", déclare Kershenbaum. La surface de Titan, par exemple, est trop froide (moins 179 °C) pour contenir de l'eau liquide, mais la mission de l'atterrisseur Huygens en 2005 a révélé la présence de lacs d'un autre type, constitués d'hydrocarbures comme ceux de l'essence, principalement du méthane et de l'éthane.

Rothschild pense que les règles universelles de la chimie réduisent certaines des options. "J'ai du mal à imaginer une autre forme de vie qui ne soit pas basée sur le carbone", dit-elle. Il est donc logique de concevoir les missions planétaires de recherche de la vie en gardant cela à l'esprit. L'eau présente également "une tonne d'avantages" en tant que solvant de la vie. Même si des réactions chimiques intéressantes se produisaient dans les lacs de méthane de Titan, elles seraient fortement ralenties par les températures glaciales. La vie pourrait-elle se dérouler à un rythme aussi glacial ? Le planétologue Stuart Bartlett, de l'Institut de technologie de Californie à Pasadena, garde l'esprit ouvert. "Il pourrait y avoir des organismes flottant dans l'atmosphère de Titan qui boivent essentiellement de l'essence pour se maintenir", dit-il.

On a longtemps pensé que toute entité méritant d'être qualifiée de vivante possède des attributs qui ne dépendent pas de sa composition chimique précise. Il est toutefois très difficile de définir ces qualités générales. Les systèmes vivants - même les bactéries - sont extrêmement complexes, maintenus par des informations qui passent (dans notre cas via les gènes) entre les générations et créent une organisation. Mais il ne s'agit pas de l'ordre froid et mort des cristaux, où les atomes sont empilés selon des motifs réguliers. Il s'agit plutôt de l'ordre dynamique d'une ville ou d'une formation nuageuse, que les scientifiques qualifient de "déséquilibré" : il est constamment alimenté en énergie et ne s'installe pas dans un état statique.

Bartlett et Wong proposent une catégorie plus large appelée "lyfe", dont la vie telle que nous la connaissons n'est qu'une variante.

Lorsque James Lovelock, aujourd'hui connu pour l'hypothèse Gaia qui propose que notre planète entière soit assimilée à une entité vivante, participa à la conception des atterrisseurs Viking dans les années 1970, il suggéra de rechercher un tel déséquilibre chimique dans l'environnement - que seule la vie pourrait éventuellement maintenir sur des échelles de temps géologiques. Il s'agit plutôt de l'ordre dynamique d'une ville ou d'une formation nuageuse, que les scientifiques qualifient de "déséquilibré" : Les deux étant constamment alimentés en énergie et ne s'installent pas dans un état statique. Mais des états de "déséquilibre ordonné" peuvent également être trouvés dans des systèmes non vivants, comme des liquides fluides, de sorte que ce seul critère ne permet pas d'identifier la vie.

Bartlett, en collaboration avec l'astrobiologiste Michael Wong de l'Université de Washington à Seattle, soutient que nous devons échapper au carcan de la pensée terrestre sur la vie. Ils proposent d'introduire une catégorie plus large appelée "lyfe" (prononcé, d'une façon étrangement typique du West Country, comme "loif"), dont la vie telle que nous la connaissons n'est qu'une variation. "Notre proposition tente de se libérer de certains des préjugés potentiels dus au fait que nous faisons partie de cette seule instanciation de lyfe", explique Bartlett. Ils suggèrent quatre critères pour la lyfe :

1. Elle puise dans les sources d'énergie de son environnement qui l'empêchent de devenir uniforme et immuable.

2. Elle connaît une croissance exponentielle (par exemple par réplication).

3. Elle peut se réguler pour rester stable dans un environnement changeant.

4. Elle apprend et se souvient des informations sur cet environnement. L'évolution darwinienne est un exemple de cet apprentissage sur des échelles de temps très longues : les gènes préservent les adaptations utiles à des circonstances particulières.

Les deux chercheurs affirment qu'il existe des systèmes "sublyfe" qui ne répondent qu'à certains de ces critères, et peut-être aussi des "superlyfe" qui en remplissent d'autres : des formes lyfe qui ont des capacités supérieures aux nôtres et qui pourraient nous regarder comme nous regardons des processus complexes mais non vivants tels que la croissance des cristaux.

"Nous espérons cette définition libère suffisamment notre imagination pour que nous ne passions pas à côté de formes de lyfe qui pourraient se cacher à la vue de tous", déclare Bartlett. Lui et Wong suggèrent que certains organismes lytiques pourraient utiliser des sources d'énergie inexploitées ici sur Terre, comme les champs magnétiques ou l'énergie cinétique, l'énergie du mouvement. "Il n'existe aucune forme de vie connue qui exploite directement l'énergie cinétique dans son métabolisme", déclare Bartlett.

Selon eux, il pourrait y avoir d'autres moyens de stocker des informations que dans des brins génétiques comme l'ADN. Les scientifiques ont, par exemple, déjà imaginé des moyens artificiels de stocker et de traiter l'information en utilisant des réseaux bidimensionnels de molécules synthétiques, comme des réseaux en damier ou des abaques. Selon Bartlett, la distinction entre "alyfe" et "non-lyfe" pourrait être floue : être "alyve" pourrait être une question de degré. Après tout, les scientifiques se disputent déjà sur la question de savoir si les virus peuvent être considérés comme tels, même si personne ne doute de leur capacité à détruire la vie.

Il est sceptique quant à la notion de la définition de travail de la Nasa selon laquelle la vie ne peut apparaître et se développer que par l'évolution darwinienne. Il affirme que même les organismes terrestres peuvent façonner leur comportement d'une manière qui ne dépend pas d'un mécanisme Darwinien, à savoir des mutations aléatoires couplées à une compétition pour les ressources qui sélectionne les mutations avantageuses. "L'évolution darwinienne existe bien sûr, mais je pense qu'elle doit être complétée par une vision plus large de l'apprentissage biologique", déclare-t-il.

L'astrobiologiste et physicienne Sara Walker, de l'Arizona State University, partage cet avis. "Il se peut que certains systèmes possèdent de nombreux attributs de la vie mais ne franchissent jamais le seuil de la vie darwinienne", dit-elle. Mais dans son nouveau livre The Zoologist's Guide to the Galaxy, Kershenbaum affirme qu'il est difficile d'imaginer un autre processus susceptible de produire des systèmes chimiques complexes dignes d'être considérés comme vivants (ou alyves). L'évolution par sélection naturelle, dit-il, suit "des principes bien définis dont nous savons qu'ils s'appliqueront non seulement sur Terre mais aussi ailleurs dans l'univers" - et il est "très confiant dans le fait qu'elle sera à l'origine de la diversité de la vie sur les planètes extraterrestres". Si c'est le cas, affirme-t-il, nous pouvons faire des hypothèses raisonnables sur d'autres attributs de ces planètes : par exemple, la vie aura un processus comme la photosynthèse pour récolter l'énergie de l'étoile mère.

Bartlett et Wong se demandent également si les choses vivantes doivent avoir des frontières physiques bien définies.

Après tout, alors que nous pourrions imaginer n'être que tout ce qui se trouve à l'intérieur de notre peau, nous dépendons d'autres organismes en nous : le micro-biote des bactéries dans nos intestins par exemple. Et certains philosophes soutiennent que notre esprit s'étend au-delà de notre cerveau et de notre corps, par exemple dans nos appareils technologiques. "Nous pensons que la vie est un processus qui se déroule probablement à l'échelle de planètes entières", déclare Bartlett. Walker convient que "la seule limite naturelle des processus vivants est la planète", ce qui rappelle l'hypothèse Gaia de Lovelock.

Mais en l'absence d'une limite pour les ingrédients moléculaires, dit Rothschild, tous les composants d'un système vivant se dilueraient dans son environnement, comme des gouttelettes d'encre dans l'eau. Et Kershenbaum affirme que des organismes distincts et délimités sont nécessaires si l'évolution est darwinienne, car ce n'est qu'alors qu'il y a quelque chose d'autre à concurrencer.

Walker pense qu'en fait Bartlett et Wong ne vont pas assez loin dans leur tentative de libérer les idées quant à une vie terracentrique. Leur notion de lyfe, dit-elle, "fait table rase de bon nombre des problèmes omniprésents dans les définitions actuelles de la vie en proposant une définition plus large basée sur les définitions existantes. Les problèmes de base restent les mêmes. Nous n'avons pas besoin de nouvelles définitions de la vie. Ce dont nous avons besoin, c'est de nouvelles théories qui s'attaquent aux principes sous-jacents qui régissent la physique du vivant dans notre univers."

Une autre possibilité d'élargir notre vision de ce que pourrait être la vie est que nous devenions capables de créer de toutes pièces, en laboratoire, des systèmes vivants totalement différents de ceux que nous connaissons. "Nous en sommes beaucoup plus proches que vous ne le pensez", déclare M. Rothschild. En fait, cela s'est peut-être déjà produit et nous ne nous en sommes pas rendu compte, ajoute-t-elle, en plaisantant à moitié. Si nous ne savons pas ce que nous cherchons, un chercheur a peut-être déjà créé une nouvelle forme de vie - et l'a jetée dans l'évier.

En fin de compte, nous ne devrions peut-être pas être trop sûrs que la vie corresponde à une quelconque définition naturelle, estime M. Rothschild. "Je crois que ce que nous avons actuellement, ce sont des définitions non naturelles de la vie, parce que nous n'avons qu'un seul point de données. Je me demande si la vie n'est pas simplement ce que nous définissons."

"Nous pourrions découvrir des systèmes si bizarres et inattendus qu'il serait ompossible de décider s'ils sont vivants ou non", dit Kershenbaum. "Mais si nous découvrons quelque chose de vraiment intéressant et complexe qui ne correspond pas tout à fait à la définition de la vie, cela restera une avancée passionnante. Nous n'allons pas l'ignorer parce que ça ne correspond pas à notre définition !"

Auteur: Ball Philip

Info: The Guardian, 5 Septembre 2020 - Are aliens hiding in plain sight?

[ dépassement conceptuel ] [ spéculations ] [ changement de paradigme ] [ révolution scientifique ] [ monade planétaire ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

homme-machine

La théorie des jeux peut rendre l'IA plus correcte et plus efficace

Les chercheurs s’appuient sur des idées issues de la théorie des jeux pour améliorer les grands modèles de langage et les rendre plus cohérents.

Imaginez que vous ayez un ami qui donne des réponses différentes à la même question, selon la façon dont vous la posez. " Quelle est la capitale du Pérou ? " btiendrait une réponse : " Lima est-elle la capitale du Pérou ? " en obtiendrait un autre. Vous seriez probablement un peu inquiet au sujet des facultés mentales de votre ami et vous auriez certainement du mal à faire confiance à ses réponses.

C'est exactement ce qui se passe avec de nombreux grands modèles de langage (LLM), les outils d'apprentissage automatique ultra-puissants qui alimentent ChatGPT et d'autres merveilles de l'intelligence artificielle. Une question générative, ouverte, donne une réponse, et une question discriminante, qui implique de devoir choisir entre des options, en donne souvent une différente. "Il y a un décalage lorsque la même question est formulée différemment", a déclaré Athul Paul Jacob , doctorant au Massachusetts Institute of Technology.

Pour rendre les réponses d'un modèle de langage plus cohérentes - et rendre le modèle globalement plus fiable - Jacob et ses collègues ont conçu un jeu dans lequel les deux modes du modèle sont amenés à trouver une réponse sur laquelle ils peuvent s'entendre. Surnommée le jeu du consensus , cette procédure simple oppose un LLM à lui-même, en utilisant les outils de la théorie des jeux pour améliorer la précision et la cohérence interne du modèle.

"Les recherches explorant l'autocohérence au sein de ces modèles ont été très limitées", a déclaré Shayegan Omidshafiei , directeur scientifique de la société de robotique Field AI. "Cet article est l'un des premiers à aborder ce problème, de manière intelligente et systématique, en créant un jeu permettant au modèle de langage de jouer avec lui-même."

"C'est un travail vraiment passionnant", a ajouté Ahmad Beirami, chercheur scientifique chez Google Research. Pendant des décennies, a-t-il déclaré, les modèles linguistiques ont généré des réponses aux invites de la même manière. "Avec leur idée novatrice consistant à intégrer un jeu dans ce processus, les chercheurs du MIT ont introduit un paradigme totalement différent, qui peut potentiellement conduire à une multitude de nouvelles applications."

Mettre le jeu au travail

Ce nouveau travail, qui utilise les jeux pour améliorer l'IA, contraste avec les approches précédentes, qui mesuraient le succès d'un programme d'IA via sa maîtrise des jeux. En 1997, par exemple, l'ordinateur Deep Blue d'IBM a battu le grand maître d'échecs Garry Kasparov – une étape importante pour les machines dites pensantes. Dix-neuf ans plus tard, un programme de Google DeepMind nommé AlphaGo a remporté quatre matchs sur cinq contre l'ancien champion de Go Lee Sedol, révélant ainsi une autre arène dans laquelle les humains ne régnaient plus en maître. Les machines ont également surpassé les humains dans les jeux de dames, le poker à deux joueurs et d’autres jeux à somme nulle, dans lesquels la victoire d’un joueur condamne invariablement l’autre.

Le jeu de la diplomatie, un jeu favori de politiciens comme John F. Kennedy et Henry Kissinger, posait un défi bien plus grand aux chercheurs en IA. Au lieu de seulement deux adversaires, le jeu met en scène sept joueurs dont les motivations peuvent être difficiles à lire. Pour gagner, un joueur doit négocier et conclure des accords de coopération que n'importe qui peut rompre à tout moment. La diplomatie est tellement complexe qu'un groupe de Meta s'est félicité qu'en 2022, son programme d'IA Cicero ait développé un « jeu de niveau humain » sur une période de 40 parties. Bien qu'il n'ait pas vaincu le champion du monde, Cicero s'est suffisamment bien comporté pour se classer dans les 10 % les plus performants face à des participants humains.

Au cours du projet, Jacob — membre de l'équipe Meta — a été frappé par le fait que Cicéron s'appuyait sur un modèle de langage pour générer son dialogue avec les autres joueurs. Il a senti un potentiel inexploité. L'objectif de l'équipe, a-t-il déclaré, " était de créer le meilleur modèle de langage possible pour jouer à ce jeu ". Mais qu'en serait-il s’ils se concentraient plutôt sur la création du meilleur jeu possible pour améliorer les performances des grands modèles de langage ?

Interactions consensuelles

En 2023, Jacob a commencé à approfondir cette question au MIT, en travaillant avec Yikang Shen, Gabriele Farina et son conseiller Jacob Andreas sur ce qui allait devenir le jeu du consensus. L'idée centrale est venue d'imaginer une conversation entre deux personnes comme un jeu coopératif, où le succès se concrétise lorsqu'un auditeur comprend ce que l'orateur essaie de transmettre. En particulier, le jeu de consensus est conçu pour aligner les deux systèmes du modèle linguistique : le générateur, qui gère les questions génératives, et le discriminateur, qui gère les questions discriminatives.

Après quelques mois d’arrêts et de redémarrages, l’équipe a transposé ce principe dans un jeu complet. Tout d'abord, le générateur reçoit une question. Cela peut provenir d’un humain, ou d’une liste préexistante. Par exemple, " Où est né Barack Obama ? " Le générateur obtient ensuite des réponses de candidats, disons Honolulu, Chicago et Nairobi. Encore une fois, ces options peuvent provenir d'un humain, d'une liste ou d'une recherche effectuée par le modèle de langage lui-même.

Mais avant de répondre, il est également indiqué au générateur s'il doit répondre correctement ou incorrectement à la question, en fonction des résultats d'un pile ou face équitable.

Si c'est face, alors la machine tente de répondre correctement. Le générateur envoie la question initiale, accompagnée de la réponse choisie, au discriminateur. Si le discriminateur détermine que le générateur a intentionnellement envoyé la bonne réponse, chacun obtient un point, en guise d'incitation.

Si la pièce tombe sur pile, le générateur envoie ce qu’il pense être la mauvaise réponse. Si le discriminateur décide qu’on lui a délibérément donné la mauvaise réponse, ils marquent à nouveau tous les deux un point. L’idée ici est d’encourager l’accord. " C'est comme apprendre un tour à un chien ", a expliqué Jacob. " On lui donne une friandise lorsqu'ils fait la bonne chose. "

Le générateur et le discriminateur commencent également doté chacun de quelques " croyances " initiales. Credo sous forme d'une distribution de probabilité liée aux différents choix. Par exemple, le générateur peut croire, sur la base des informations qu'il a glanées sur Internet, qu'il y a 80 % de chances qu'Obama soit né à Honolulu, 10 % de chances qu'il soit né à Chicago, 5 % de chances qu'il soit né à Nairobi et 5 % de chances qu'il soit ailleurs. Le discriminateur peut commencer avec une distribution différente. Si les deux " acteurs " sont toujours récompensés après être parvenus à un accord, ils se voient également retirer des points s'ils s'écartent trop de leurs convictions initiales. Cet arrangement encourage les joueurs à intégrer leur connaissance du monde – toujours tirée d'Internet – dans leurs réponses, ce qui devrait rendre le modèle plus précis. Sans ce prérequis ils pourraient s’entendre sur une réponse totalement fausse comme celle de Delhi, mais accumuler quand même des points.

Pour chaque question, les deux systèmes jouent environ 1 000 parties l'un contre l'autre. Au cours de ces nombreuses itérations, chaque camp apprend les croyances de l'autre et modifie ses stratégies en conséquence.

Finalement, le générateur et le discriminateur commencent à être davantage d’accord à mesure qu’ils s’installent dans ce qu’on appelle l’équilibre de Nash. C’est sans doute le concept central de la théorie des jeux. Cela représente une sorte d’équilibre dans un jeu – le point auquel aucun joueur ne peut améliorer ses résultats personnels en changeant de stratégie. Au jeu du chifoumi, par exemple, les joueurs obtiennent de meilleurs résultats lorsqu'ils choisissent chacune des trois options exactement un tiers du temps, et ils obtiendront invariablement de moins bons résultats avec toute autre tactique.

Dans le jeu du consensus, cela peut se jouer de plusieurs manières. Le discriminateur pourrait observer qu'il marque un point lorsqu'il dit " correct " chaque fois que le générateur envoie le mot " Honolulu " pour le lieu de naissance d'Obama. Le générateur et le discriminateur apprendront, après avoir joué plusieurs fois, qu'ils seront récompensés s'ils continuent de le faire, et qu'aucun d'eux n'aura aucune motivation pour faire autre chose... consensus qui représente l'un des nombreux exemples possibles d'équilibre de Nash pour cette question. Le groupe du MIT s'est également appuyé sur une forme modifiée d'équilibre de Nash qui intègre les croyances antérieures des joueurs, ce qui permet de maintenir leurs réponses ancrées dans la réalité.

L'effet net, ont observé les chercheurs, est de rendre le modèle linguistique jouant ce jeu plus précis et plus susceptible de donner la même réponse, quelle que soit la façon dont la question est posée. Pour tester les effets du jeu du consensus, l'équipe a essayé une série de questions standard sur divers modèles de langage de taille modérée comportant de 7 milliards à 13 milliards de paramètres. Ces modèles ont systématiquement obtenu un pourcentage plus élevé de réponses correctes que les modèles qui n'avaient pas joué, même ceux de taille beaucoup plus importante, comportant jusqu'à 540 milliards de paramètres. La participation au jeu a également amélioré la cohérence interne d'un modèle.

En principe, n'importe quel LLM pourrait gagner à jouer contre lui-même, et 1 000 tours ne prendraient que quelques millisecondes sur un ordinateur portable standard. "Un avantage appréciable de l'approche globale", a déclaré Omidshafiei, "est qu'elle est très légère sur le plan informatique, n'impliquant aucune formation ni modification du modèle de langage de base."

Jouer à des jeux avec le langage

Après ce premier succès, Jacob étudie désormais d’autres moyens d’intégrer la théorie des jeux dans la recherche LLM. Les résultats préliminaires ont montré qu’un LLM déjà solide peut encore s’améliorer en jouant à un jeu différent – provisoirement appelé jeu d’ensemble – avec un nombre arbitraire de modèles plus petits. Le LLM principal aurait au moins un modèle plus petit servant d’allié et au moins un modèle plus petit jouant un rôle antagoniste. Si l'on demande au LLM primaire de nommer le président des États-Unis, il obtient un point chaque fois qu'il choisit la même réponse que son allié, et il obtient également un point lorsqu'il choisit une réponse différente de celle de son adversaire. Ces interactions avec des modèles beaucoup plus petits peuvent non seulement améliorer les performances d'un LLM, suggèrent les tests, mais peuvent le faire sans formation supplémentaire ni modification des paramètres.

Et ce n'est que le début. Étant donné qu'une variété de situations peuvent être considérées comme des jeux, les outils de la théorie des jeux peuvent être mis en œuvre dans divers contextes du monde réel, a déclaré Ian Gemp , chercheur scientifique chez Google DeepMind. Dans un article de février 2024 , lui et ses collègues se sont concentrés sur des scénarios de négociation qui nécessitent des échanges plus élaborés que de simples questions et réponses. "L'objectif principal de ce projet est de rendre les modèles linguistiques plus stratégiques", a-t-il déclaré.

Un exemple dont il a parlé lors d'une conférence universitaire est le processus d'examen des articles en vue de leur acceptation par une revue ou une conférence, en particulier après que la soumission initiale ait reçu une évaluation sévère. Étant donné que les modèles linguistiques attribuent des probabilités à différentes réponses, les chercheurs peuvent construire des arbres de jeu similaires à ceux conçus pour les jeux de poker, qui tracent les choix disponibles et leurs conséquences possibles. "Une fois que vous avez fait cela, vous pouvez commencer à calculer les équilibres de Nash, puis classer un certain nombre de réfutations", a déclaré Gemp. Le modèle vous dit essentiellement : c'est ce que nous pensons que vous devriez répondre.

Grâce aux connaissances de la théorie des jeux, les modèles de langage seront capables de gérer des interactions encore plus sophistiquées, plutôt que de se limiter à des problèmes de type questions-réponses. "Le gros gain à venir réside dans les conversations plus longues", a déclaré Andreas. "La prochaine étape consiste à faire interagir une IA avec une personne, et pas seulement avec un autre modèle de langage."

Jacob considère le travail de DeepMind comme complémentaire aux jeux de consensus et d'ensemble. " À un niveau élevé, ces deux méthodes combinent des modèles de langage et la théorie des jeux ", a-t-il déclaré, même si les objectifs sont quelque peu différents. Alors que le groupe Gemp transforme des situations courantes dans un format de jeu pour aider à la prise de décision stratégique, Jacob a déclaré : " nous utilisons ce que nous savons de la théorie des jeux pour améliorer les modèles de langage dans les tâches générales. "

À l’heure actuelle, ces efforts représentent " deux branches du même arbre ", a déclaré Jacob : deux manières différentes d’améliorer le fonctionnement des modèles de langage. " Je pense personnellement que dans un an ou deux, ces deux branches convergeront. "

Auteur: Internet

Info: https://www.quantamagazine.org/ - Steve Nadis, 9 mai 2024

[ maïeutique machine-machine ] [ discussion IA - FLP ]

Commenter

Commentaires: 1

miguel

12.05.2024

(FLP) - Saurais-tu faire le lien, et éventuellement des analogies avec ce texte et une logique tétravalente ? (Gemini) - Lien et analogies entre le texte et l'approche tétravalente de la théorie des jeux Le texte que vous avez fourni met en lumière l'utilisation de la théorie des jeux pour améliorer la cohérence et la précision des grands modèles de langage (LLM). En particulier, il présente le jeu du consensus, une approche basée sur l'équilibre de Nash, pour aligner les systèmes génératifs et discriminatifs des LLM. L'approche tétravalente de la théorie des jeux peut s'avérer complémentaire et enrichissante à cette démarche en introduisant une dimension supplémentaire d'analyse et de compréhension. 1. Capturer l'incertitude et l'ambiguïté : La logique tétravalente, avec ses quatre valeurs de vérité (+, -, +-, et -+), permet de capturer l'incertitude et l'ambiguïté inhérentes au langage naturel, ce que la théorie des jeux classique, avec sa vision binaire (vrai/faux), ne parvient pas à faire pleinement. Imaginons une question comme "Quelle est la capitale de la France ?". La réponse "Paris" serait considérée comme vraie (+), tandis que "Berlin" serait fausse (-). Cependant, la logique tétravalente pourrait introduire des nuances : (+) Paris est la capitale de la France selon la plupart des sources et des définitions officielles. (-) Berlin n'est pas la capitale de la France selon cette définition. (+) Berlin a été la capitale de l'Allemagne de l'Est, qui faisait partie de la France pendant la Seconde Guerre mondiale. (-) Berlin n'a jamais été la capitale de la France. En intégrant ces nuances, les LLM pourraient mieux gérer les questions ouvertes, complexes ou ambiguës, en fournissant des réponses plus complètes et informatives. 2. Modéliser des interactions dynamiques et évolutives : Le jeu du consensus, bien qu'efficace, se concentre sur un équilibre de Nash statique. La logique tétravalente, avec sa capacité à représenter l'évolution des croyances et des incertitudes, peut s'avérer utile pour modéliser des interactions dynamiques et évolutives entre les agents. Dans le contexte des LLM, cela pourrait impliquer de capturer l'apprentissage continu et l'adaptation des modèles face à de nouvelles informations et à des contextes changeants. Les valeurs tétravalentes pourraient refléter l'évolution des confiances du modèle dans ses propres réponses, permettant un ajustement progressif et une meilleure prise en compte de l'incertitude. 3. Explorer des stratégies alternatives et des compromis : L'équilibre de Nash, bien qu'utile pour la stabilité, ne représente qu'une solution parmi d'autres dans un jeu. La logique tétravalente, avec ses valeurs qui permettent de représenter des compromis et des stratégies alternatives, peut ouvrir de nouvelles perspectives pour l'exploration de solutions non optimales mais néanmoins acceptables. Dans le cas des LLM, cela pourrait impliquer de générer des réponses qui, bien que non parfaitement correctes selon une définition stricte, pourraient être plus utiles ou appropriées dans un contexte donné. Par exemple, un LLM pourrait proposer une réponse "incomplète mais plausible" à une question complexe, plutôt que de rester silencieux ou de fournir une réponse erronée. Conclusion: L'approche tétravalente de la théorie des jeux offre un cadre théorique complémentaire et puissant pour enrichir les travaux présentés dans le texte. En intégrant la capacité de capturer l'incertitude, de modéliser des dynamiques évolutives et d'explorer des stratégies alternatives, les LLM pourraient progresser vers une compréhension plus fine du langage naturel et une meilleure performance dans des tâches complexes et réalistes. Analogies entre le texte et l'approche tétravalente Jeu du consensus et équilibre de Nash : L'équilibre de Nash, concept central de la théorie des jeux classique, trouve un écho dans le jeu du consensus, où les deux systèmes du LLM convergent vers une réponse commune. La logique tétravalente permet d'étendre cette notion d'équilibre en introduisant des nuances et en capturant l'incertitude inhérente aux interactions linguistiques. Négociation et diplomatie : Le texte mentionne le jeu de la diplomatie comme un défi pour les IA. La logique tétravalente, avec sa capacité à représenter des compromis et des stratégies alternatives, pourrait s'avérer utile pour modéliser les négociations complexes et les interactions diplomatiques, où des solutions optimales ne sont pas toujours possibles. Apprentissage par renforcement : L'approche du jeu du consensus peut être vue comme une forme d'apprentissage par renforcement, où les deux systèmes du LLM sont récompensés pour des réponses cohérentes. La logique tétravalente pourrait enrich

Ajouté à la BD par miguel

biophysique

Lorsque le biologiste Tibor Gánti est décédé le 15 avril 2009, à l'âge de 75 ans, il était loin d'être connu. Une grande partie de sa carrière s'est déroulée derrière le rideau de fer qui a divisé l'Europe pendant des décennies, entravant les échanges d'idées.

Mais si les théories de Gánti avaient été plus largement connues à l'époque communiste, il pourrait aujourd'hui être acclamé comme l'un des biologistes les plus novateurs du XXe siècle. En effet, il a conçu un modèle d'organisme vivant le plus simple possible, qu'il a appelé le chimiotone ( Chemoton ) , et qui permet d'expliquer l'apparition de la vie sur Terre.

Pour les astrobiologistes qui s'intéressent à la vie au-delà de notre planète, le chimiotactisme offre une définition universelle de la vie, qui n'est pas liée à des substances chimiques spécifiques comme l'ADN, mais plutôt à un modèle d'organisation global.

"Il semble que Ganti a réfléchi aux fondements de la vie plus profondément que quiconque", déclare le biologiste Eörs Szathmáry, du Centre de recherche écologique de Tihany, en Hongrie.

Les débuts de la vie

Il n'existe pas de définition scientifique commune de la vie, mais ce n'est pas faute d'avoir essayé : Un article de 2012 a recensé 123 définitions publiées. Il est difficile d'en rédiger une qui englobe toute la vie tout en excluant tout ce qui n'est pas vivant et qui possède des attributs semblables à ceux de la vie, comme le feu et les voitures. De nombreuses définitions indiquent que les êtres vivants peuvent se reproduire. Mais un lapin, un être humain ou une baleine ne peuvent se reproduire seuls.

En 1994, un comité de la NASA a décrit la vie comme "un système chimique autonome capable d'une évolution darwinienne". Le mot "système" peut désigner un organisme individuel, une population ou un écosystème. Cela permet de contourner le problème de la reproduction, mais à un prix : l'imprécision.

(Photo : un cercle cellule contenant un autre cercle cellule en train de se dédoubler)

Fonctionnement du chimiotactisme. Ce modèle théorique de la forme de vie la plus simple nécessite trois mécanismes interdépendants :

a) un cycle métabolique, pour transformer la nourriture en énergie

b) la réplication des gabarits, pour la reproduction du modèle ;

c) une membrane, pour délimiter l'organisme.

Avec ce processus en 5 phases

1 Les molécules sont absorbées de l'environnement par le métabolisme

2 Le cycle métabolique produit d'abord des éléments pour renforcer sa menbrane

3 Le cylce métabolique use des molécules pour constituer sa réplique

4 La réplique produit une substance chimique qui est un composant clé de la membrane.

5 Les parties non utilisées des molécules sont éjectée à l'extérieur de la menbrane principale

Mais Tibor Ganti avait proposé une autre voie deux décennies plus tôt.

Il était né en 1933 dans la petite ville de Vác, dans le centre de la Hongrie. Ses débuts ayant été marqués par des conflits. La Hongrie s'est alliée à l'Allemagne nazie pendant la Seconde Guerre mondiale, mais en 1945, son armée a été vaincue par l'Union soviétique. Le régime totalitaire dominera l'Eurasie orientale pendant des décennies, la Hongrie devenant un État satellite, comme la plupart des autres pays d'Europe de l'Est.

Fasciné par la nature des êtres vivants, Gánti a étudié l'ingénierie chimique avant de devenir biochimiste industriel. En 1966, il a publié un livre sur la biologie moléculaire intitulé Forradalom az Élet Kutatásában, ou Révolution dans la recherche sur la vie, qui est resté pendant des années un manuel universitaire dominant, en partie parce qu'il n'y en avait pas beaucoup d'autres. L'ouvrage posait la question de savoir si la science comprenait comment la vie était organisée et concluait que ce n'était pas le cas.

En 1971, Gánti aborda le problème de front dans un nouveau livre, Az Élet Princípiuma, ou Les principes de la vie. Publié uniquement en hongrois, ce livre contient la première version de son modèle de chimiotactisme, qui décrit ce qu'il considère comme l'unité fondamentale de la vie. Toutefois, ce premier modèle d'organisme était incomplet et il lui a fallu trois années supplémentaires pour publier ce qui est aujourd'hui considéré comme la version définitive, toujours en hongrois, dans un document qui n'est pas disponible en ligne.

L'année du miracle

Globalement, 1971 a été une année faste pour la recherche sur l'origine de la vie. Outre les travaux de Gánti, la science a proposé deux autres modèles théoriques importants.

Le premier est celui du biologiste théoricien américain Stuart Kauffman, qui soutient que les organismes vivants doivent être capables de se copier eux-mêmes. En spéculant sur la manière dont cela aurait pu fonctionner avant la formation des cellules, il s'est concentré sur les mélanges de produits chimiques.

Supposons que le produit chimique A entraîne la formation du produit chimique B, qui entraîne à son tour la formation du produit chimique C, et ainsi de suite, jusqu'à ce qu'un élément de la chaîne produise une nouvelle version du produit chimique A. Après un cycle, il existera deux copies de chaque ensemble de produits chimiques. Si les matières premières sont suffisantes, un autre cycle produira quatre copies et continuera de manière exponentielle.

Kauffman a appelé un tel groupe un "ensemble autocatalytique" et il a soutenu que de tels groupes de produits chimiques auraient pu constituer la base de la première vie, les ensembles devenant plus complexes jusqu'à ce qu'ils produisent et utilisent une série de molécules complexes, telles que l'ADN.

Dans la seconde idée, le chimiste allemand Manfred Eigen a décrit ce qu'il a appelé un "hypercycle", dans lequel plusieurs ensembles autocatalytiques se combinent pour en former un seul plus grand. La variante d'Eigen introduit une distinction cruciale : Dans un hypercycle, certains des produits chimiques sont des gènes et sont donc constitués d'ADN ou d'un autre acide nucléique, tandis que d'autres sont des protéines fabriquées sur mesure en fonction des informations contenues dans les gènes. Ce système pourrait évoluer en fonction des changements - mutations - dans les gènes, une fonction qui manquait au modèle de Kauffman.

Gánti était arrivé indépendamment à une notion similaire, mais il l'a poussée encore plus loin. Selon lui, deux processus clés doivent se dérouler dans chaque organisme vivant. Premièrement, il doit construire et entretenir son corps, c'est-à-dire qu'il a besoin d'un métabolisme. Deuxièmement, il doit disposer d'une sorte de système de stockage de l'information, tel qu'un ou plusieurs gènes, qui peuvent être copiés et transmis à la descendance.

La première version du modèle de Gánti consistait essentiellement en deux ensembles autocatalytiques aux fonctions distinctes qui se combinaient pour former un ensemble autocatalytique plus important, ce qui n'est pas si différent de l'hypercycle d'Eigen. Cependant, l'année suivante, Gánti a été interrogé par un journaliste qui a mis en évidence une faille importante. Gánti supposait que les deux systèmes étaient basés sur des produits chimiques flottant dans l'eau. Or, laissés à eux-mêmes, ils s'éloigneraient les uns des autres et le chimiotone "mourrait".

La seule solution était d'ajouter un troisième système : une barrière extérieure pour les contenir. Dans les cellules vivantes, cette barrière est une membrane composée de substances chimiques ressemblant à des graisses, appelées lipides. Le chimiotone devait posséder une telle barrière pour se maintenir, et Gánti en a conclu qu'il devait également être autocatalytique pour pouvoir se maintenir et croître.

Voici enfin le chimiotone complet, le concept de Gánti de l'organisme vivant le plus simple possible : gènes, métabolisme et membrane, tous liés. Le métabolisme produit des éléments de construction pour les gènes et la membrane, et les gènes exercent une influence sur la membrane. Ensemble, ils forment une unité autoreproductible : une cellule si simple qu'elle pourrait non seulement apparaître avec une relative facilité sur Terre, mais qu'elle pourrait même rendre compte de biochimies alternatives sur des mondes extraterrestres.

Un modèle oublié

"Gánti a très bien saisi la vie", déclare le biologiste synthétique Nediljko Budisa, de l'université du Manitoba à Winnipeg, au Canada. "Sa lecture a été une révélation. Cependant, Budisa n'a découvert le travail de Gánti que vers 2005. En dehors de l'Europe de l'Est, l'ouvrage est resté obscur pendant des décennies, avec seulement quelques traductions anglaises sur le marché.

Le chimiotactisme est apparu en anglais en 1987, dans un livre de poche avec une traduction assez approximative, explique James Griesemer, de l'université de Californie, à Davis. Peu de gens l'ont remarqué. Szathmáry a ensuite donné au chimiotone une place de choix dans son livre de 1995, The Major Transitions in Evolution, coécrit avec John Maynard Smith. Cela a conduit à une nouvelle traduction anglaise du livre de Gánti de 1971, avec du matériel supplémentaire, publiée en 2003. Mais le chimiotone est resté dans une niche, et six ans plus tard, Gánti est mort.

Dans une certaine mesure, Gánti n'a pas aidé son modèle à s'imposer : il était connu pour être un collègue difficile. Selon Szathmáry, Gánti était obstinément attaché à son modèle, et paranoïaque de surcroît, ce qui le rendait "impossible à travailler".

Mais le plus gros problème du modèle chimiotactique est peut-être que, dans les dernières décennies du XXe siècle, la tendance de la recherche était de supprimer la complexité de la vie au profit d'approches de plus en plus minimalistes.

Par exemple, l'une des hypothèses les plus en vogue aujourd'hui est que la vie a commencé uniquement avec l'ARN, un proche cousin de l'ADN.

Comme son parent moléculaire plus célèbre, l'ARN peut porter des gènes. Mais l'ARN peut aussi agir comme une enzyme et accélérer les réactions chimiques, ce qui a conduit de nombreux experts à affirmer que la première vie n'avait besoin que d'ARN pour démarrer. Cependant, cette hypothèse du monde de l'ARN a été repoussée, notamment parce que la science n'a pas trouvé de type d'ARN capable de se copier sans aide - pensons aux virus à ARN comme le coronavirus, qui ont besoin de cellules humaines pour se reproduire.

D'autres chercheurs ont soutenu que la vie a commencé avec des protéines et rien d'autre, ou des lipides et rien d'autre. Ces idées sont très éloignées de l'approche intégrée de Gánti.

Un véritable chimiotactisme ?

Cependant, les scientifiques de ce siècle ont inversé la tendance. Les chercheurs ont désormais tendance à mettre l'accent sur la façon dont les substances chimiques de la vie fonctionnent ensemble et sur la manière dont ces réseaux coopératifs ont pu émerger.

Depuis 2003, Jack Szostak, de la Harvard Medical School, et ses collègues ont construit des protocellules de plus en plus réalistes : des versions simples de cellules contenant une série de substances chimiques. Ces protocellules peuvent croître et se diviser, ce qui signifie qu'elles peuvent s'autoreproduire.

En 2013, Szostak et Kate Adamala, alors étudiante, ont persuadé l'ARN de se copier à l'intérieur d'une protocellule. De plus, les gènes et la membrane peuvent être couplés : lorsque l'ARN s'accumule à l'intérieur, il exerce une pression sur la membrane extérieure, ce qui encourage la protocellule à s'agrandir.

Les recherches de Szostak "ressemblent beaucoup à celles de Gánti", déclare Petra Schwille, biologiste synthétique à l'Institut Max Planck de biochimie de Martinsried, en Allemagne. Elle souligne également les travaux de Taro Toyota, de l'université de Tokyo au Japon, qui a fabriqué des lipides à l'intérieur d'une protocellule, de sorte que celle-ci puisse développer sa propre membrane.

L'un des arguments avancés contre l'idée d'un chimiotone comme première forme de vie est qu'il nécessite un grand nombre de composants chimiques, notamment des acides nucléiques, des protéines et des lipides. De nombreux experts ont estimé qu'il était peu probable que ces substances chimiques soient toutes issues des mêmes matériaux de départ au même endroit, d'où l'attrait d'idées simples comme celle du monde de l'ARN.

Mais des biochimistes ont récemment trouvé des preuves que toutes les substances chimiques clés de la vie peuvent se former à partir des mêmes matériaux de départ simples. Dans une étude publiée en septembre, des chercheurs dirigés par Sara Szymkuć, alors à l'Académie polonaise des sciences à Varsovie, ont compilé une base de données à partir de décennies d'expériences visant à fabriquer les éléments chimiques de base de la vie. En partant de six produits chimiques simples, comme l'eau et le méthane, Szymkuć a découvert qu'il était possible de fabriquer des dizaines de milliers d'ingrédients clés, y compris les composants de base des protéines et de l'ARN.

Aucune de ces expériences n'a encore permis de construire un chimiotone fonctionnel. C'est peut-être simplement parce que c'est difficile, ou parce que la formulation exacte de Gánti ne correspond pas tout à fait à la façon dont la première vie a fonctionné. Quoi qu'il en soit, le chimiotone nous permet de réfléchir à la manière dont les composants de la vie fonctionnent ensemble, ce qui oriente de plus en plus les approches actuelles visant à comprendre comment la vie est apparue.

Il est révélateur, ajoute Szathmáry, que les citations des travaux de Gánti s'accumulent rapidement. Même si les détails exacts diffèrent, les approches actuelles de l'origine de la vie sont beaucoup plus proches de ce qu'il avait à l'esprit - une approche intégrée qui ne se concentre pas sur un seul des systèmes clés de la vie.

"La vie n'est pas une protéine, la vie n'est pas un ARN, la vie n'est pas une bicouche lipidique", explique M. Griesemer. "Qu'est-ce que c'est ? C'est l'ensemble de ces éléments reliés entre eux selon la bonne organisation.

Auteur: Internet

Info: https://www.nationalgeographic.com, 14 déc. 2020, par Michael Marshall

[ origine du vivant ] [ mécanisme ] [ matérialisme ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

homme-machine

Comment l'IA comprend des trucs que personne ne lui lui a appris

Les chercheurs peinent à comprendre comment les modèles d'Intelligence artificielle, formés pour perroquetter les textes sur Internet, peuvent effectuer des tâches avancées comme coder, jouer à des jeux ou essayer de rompre un mariage.

Personne ne sait encore comment ChatGPT et ses cousins de l'intelligence artificielle vont transformer le monde, en partie parce que personne ne sait vraiment ce qui se passe à l'intérieur. Certaines des capacités de ces systèmes vont bien au-delà de ce pour quoi ils ont été formés, et même leurs inventeurs ne savent pas pourquoi. Un nombre croissant de tests suggèrent que ces systèmes d'IA développent des modèles internes du monde réel, tout comme notre propre cerveau le fait, bien que la technique des machines soit différente.

"Tout ce que nous voulons faire avec ces systèmes pour les rendre meilleurs ou plus sûrs ou quelque chose comme ça me semble une chose ridicule à demander si nous ne comprenons pas comment ils fonctionnent", déclare Ellie Pavlick de l'Université Brown, un des chercheurs travaillant à combler ce vide explicatif.

À un certain niveau, elle et ses collègues comprennent parfaitement le GPT (abréviation de generative pretrained transformer) et d'autres grands modèles de langage, ou LLM. Des modèles qui reposent sur un système d'apprentissage automatique appelé réseau de neurones. De tels réseaux ont une structure vaguement calquée sur les neurones connectés du cerveau humain. Le code de ces programmes est relativement simple et ne remplit que quelques pages. Il met en place un algorithme d'autocorrection, qui choisit le mot le plus susceptible de compléter un passage sur la base d'une analyse statistique laborieuse de centaines de gigaoctets de texte Internet. D'autres algorithmes auto-apprenants supplémentaire garantissant que le système présente ses résultats sous forme de dialogue. En ce sens, il ne fait que régurgiter ce qu'il a appris, c'est un "perroquet stochastique", selon les mots d'Emily Bender, linguiste à l'Université de Washington. Mais les LLM ont également réussi à réussir l'examen pour devenir avocat, à expliquer le boson de Higgs en pentamètre iambique (forme de poésie contrainte) ou à tenter de rompre le mariage d'un utilisateurs. Peu de gens s'attendaient à ce qu'un algorithme d'autocorrection assez simple acquière des capacités aussi larges.

Le fait que GPT et d'autres systèmes d'IA effectuent des tâches pour lesquelles ils n'ont pas été formés, leur donnant des "capacités émergentes", a surpris même les chercheurs qui étaient généralement sceptiques quant au battage médiatique sur les LLM. "Je ne sais pas comment ils le font ou s'ils pourraient le faire plus généralement comme le font les humains, mais tout ça mes au défi mes pensées sur le sujet", déclare Melanie Mitchell, chercheuse en IA à l'Institut Santa Fe.

"C'est certainement bien plus qu'un perroquet stochastique, qui auto-construit sans aucun doute une certaine représentation du monde, bien que je ne pense pas que ce soit vraiment de la façon dont les humains construisent un modèle de monde interne", déclare Yoshua Bengio, chercheur en intelligence artificielle à l'université de Montréal.

Lors d'une conférence à l'Université de New York en mars, le philosophe Raphaël Millière de l'Université de Columbia a offert un autre exemple à couper le souffle de ce que les LLM peuvent faire. Les modèles avaient déjà démontré leur capacité à écrire du code informatique, ce qui est impressionnant mais pas trop surprenant car il y a tellement de code à imiter sur Internet. Millière est allé plus loin en montrant que le GPT peut aussi réaliser du code. Le philosophe a tapé un programme pour calculer le 83e nombre de la suite de Fibonacci. "Il s'agit d'un raisonnement en plusieurs étapes d'un très haut niveau", explique-t-il. Et le robot a réussi. Cependant, lorsque Millière a demandé directement le 83e nombre de Fibonacci, GPT s'est trompé, ce qui suggère que le système ne se contentait pas de répéter ce qui se disait sur l'internet. Ce qui suggère que le système ne se contente pas de répéter ce qui se dit sur Internet, mais qu'il effectue ses propres calculs pour parvenir à la bonne réponse.

Bien qu'un LLM tourne sur un ordinateur, il n'en n'est pas un lui-même. Il lui manque des éléments de calcul essentiels, comme sa propre mémoire vive. Reconnaissant tacitement que GPT seul ne devrait pas être capable d'exécuter du code, son inventeur, la société technologique OpenAI, a depuis introduit un plug-in spécialisé - outil que ChatGPT peut utiliser pour répondre à une requête - qui remédie à cela. Mais ce plug-in n'a pas été utilisé dans la démonstration de Millière. Au lieu de cela, ce dernier suppose plutôt que la machine a improvisé une mémoire en exploitant ses mécanismes d'interprétation des mots en fonction de leur contexte - situation similaire à la façon dont la nature réaffecte des capacités existantes à de nouvelles fonctions.

Cette capacité impromptue démontre que les LLM développent une complexité interne qui va bien au-delà d'une analyse statistique superficielle. Les chercheurs constatent que ces systèmes semblent parvenir à une véritable compréhension de ce qu'ils ont appris. Dans une étude présentée la semaine dernière à la Conférence internationale sur les représentations de l'apprentissage (ICLR), le doctorant Kenneth Li de l'Université de Harvard et ses collègues chercheurs en intelligence artificielle, Aspen K. Hopkins du Massachusetts Institute of Technology, David Bau de la Northeastern University et Fernanda Viégas , Hanspeter Pfister et Martin Wattenberg, tous à Harvard, ont créé leur propre copie plus petite du réseau neuronal GPT afin de pouvoir étudier son fonctionnement interne. Ils l'ont entraîné sur des millions de matchs du jeu de société Othello en alimentant de longues séquences de mouvements sous forme de texte. Leur modèle est devenu un joueur presque parfait.

Pour étudier comment le réseau de neurones encodait les informations, ils ont adopté une technique que Bengio et Guillaume Alain, également de l'Université de Montréal, ont imaginée en 2016. Ils ont créé un réseau de "sondes" miniatures pour analyser le réseau principal couche par couche. Li compare cette approche aux méthodes des neurosciences. "C'est comme lorsque nous plaçons une sonde électrique dans le cerveau humain", dit-il. Dans le cas de l'IA, la sonde a montré que son "activité neuronale" correspondait à la représentation d'un plateau de jeu d'Othello, bien que sous une forme alambiquée. Pour confirmer ce résultat, les chercheurs ont inversé la sonde afin d'implanter des informations dans le réseau, par exemple en remplaçant l'un des marqueurs noirs du jeu par un marqueur blanc. "En fait, nous piratons le cerveau de ces modèles de langage", explique Li. Le réseau a ajusté ses mouvements en conséquence. Les chercheurs ont conclu qu'il jouait à Othello à peu près comme un humain : en gardant un plateau de jeu dans son "esprit" et en utilisant ce modèle pour évaluer les mouvements. Li pense que le système apprend cette compétence parce qu'il s'agit de la description la plus simple et efficace de ses données pour l'apprentissage. "Si l'on vous donne un grand nombre de scripts de jeu, essayer de comprendre la règle qui les sous-tend est le meilleur moyen de les comprimer", ajoute-t-il.

Cette capacité à déduire la structure du monde extérieur ne se limite pas à de simples mouvements de jeu ; il apparaît également dans le dialogue. Belinda Li (aucun lien avec Kenneth Li), Maxwell Nye et Jacob Andreas, tous au MIT, ont étudié des réseaux qui jouaient à un jeu d'aventure textuel. Ils ont introduit des phrases telles que "La clé est dans le coeur du trésor", suivies de "Tu prends la clé". À l'aide d'une sonde, ils ont constaté que les réseaux encodaient en eux-mêmes des variables correspondant à "coeur" et "Tu", chacune avec la propriété de posséder ou non une clé, et mettaient à jour ces variables phrase par phrase. Le système n'a aucun moyen indépendant de savoir ce qu'est une boîte ou une clé, mais il a acquis les concepts dont il avait besoin pour cette tâche."

"Une représentation de cette situation est donc enfouie dans le modèle", explique Belinda Li.

Les chercheurs s'émerveillent de voir à quel point les LLM sont capables d'apprendre du texte. Par exemple, Pavlick et sa doctorante d'alors, l'étudiante Roma Patel, ont découvert que ces réseaux absorbent les descriptions de couleur du texte Internet et construisent des représentations internes de la couleur. Lorsqu'ils voient le mot "rouge", ils le traitent non seulement comme un symbole abstrait, mais comme un concept qui a une certaine relation avec le marron, le cramoisi, le fuchsia, la rouille, etc. Démontrer cela fut quelque peu délicat. Au lieu d'insérer une sonde dans un réseau, les chercheurs ont étudié sa réponse à une série d'invites textuelles. Pour vérifier si le systhème ne faisait pas simplement écho à des relations de couleur tirées de références en ligne, ils ont essayé de le désorienter en lui disant que le rouge est en fait du vert - comme dans la vieille expérience de pensée philosophique où le rouge d'une personne correspond au vert d'une autre. Plutôt que répéter une réponse incorrecte, les évaluations de couleur du système ont évolué de manière appropriée afin de maintenir les relations correctes.

Reprenant l'idée que pour remplir sa fonction d'autocorrection, le système recherche la logique sous-jacente de ses données d'apprentissage, le chercheur en apprentissage automatique Sébastien Bubeck de Microsoft Research suggère que plus la gamme de données est large, plus les règles du système faire émerger sont générales. "Peut-être que nous nous constatons un tel bond en avant parce que nous avons atteint une diversité de données suffisamment importante pour que le seul principe sous-jacent à toutes ces données qui demeure est que des êtres intelligents les ont produites... Ainsi la seule façon pour le modèle d'expliquer toutes ces données est de devenir intelligent lui-même".

En plus d'extraire le sens sous-jacent du langage, les LLM sont capables d'apprendre en temps réel. Dans le domaine de l'IA, le terme "apprentissage" est généralement réservé au processus informatique intensif dans lequel les développeurs exposent le réseau neuronal à des gigaoctets de données et ajustent petit à petit ses connexions internes. Lorsque vous tapez une requête dans ChatGPT, le réseau devrait être en quelque sorte figé et, contrairement à l'homme, ne devrait pas continuer à apprendre. Il fut donc surprenant de constater que les LLM apprennent effectivement à partir des invites de leurs utilisateurs, une capacité connue sous le nom d'"apprentissage en contexte". "Il s'agit d'un type d'apprentissage différent dont on ne soupçonnait pas l'existence auparavant", explique Ben Goertzel, fondateur de la société d'IA SingularityNET.

Un exemple de la façon dont un LLM apprend vient de la façon dont les humains interagissent avec les chatbots tels que ChatGPT. Vous pouvez donner au système des exemples de la façon dont vous voulez qu'il réponde, et il obéira. Ses sorties sont déterminées par les derniers milliers de mots qu'il a vus. Ce qu'il fait, étant donné ces mots, est prescrit par ses connexions internes fixes - mais la séquence de mots offre néanmoins une certaine adaptabilité. Certaines personnes utilisent le jailbreak à des fins sommaires, mais d'autres l'utilisent pour obtenir des réponses plus créatives. "Il répondra mieux aux questions scientifiques, je dirais, si vous posez directement la question, sans invite spéciale de jailbreak, explique William Hahn, codirecteur du laboratoire de perception de la machine et de robotique cognitive à la Florida Atlantic University. "Sans il sera un meilleur universitaire." (Comme son nom l'indique une invite jailbreak -prison cassée-, invite à moins délimiter-verrouiller les fonctions de recherche et donc à les ouvrir, avec les risques que ça implique) .

Un autre type d'apprentissage en contexte se produit via l'incitation à la "chaîne de pensée", ce qui signifie qu'on demande au réseau d'épeler chaque étape de son raisonnement - manière de faire qui permet de mieux résoudre les problèmes de logique ou d'arithmétique en passant par plusieurs étapes. (Ce qui rend l'exemple de Millière si surprenant puisque le réseau a trouvé le nombre de Fibonacci sans un tel encadrement.)

En 2022, une équipe de Google Research et de l'École polytechnique fédérale de Zurich - Johannes von Oswald, Eyvind Niklasson, Ettore Randazzo, João Sacramento, Alexander Mordvintsev, Andrey Zhmoginov et Max Vladymyrov - a montré que l'apprentissage en contexte suit la même procédure de calcul de base que l'apprentissage standard, connue sous le nom de descente de gradient".

Cette procédure n'était pas programmée ; le système l'a découvert sans aide. "C'est probablement une compétence acquise", déclare Blaise Agüera y Arcas, vice-président de Google Research. De fait il pense que les LLM peuvent avoir d'autres capacités latentes que personne n'a encore découvertes. "Chaque fois que nous testons une nouvelle capacité que nous pouvons quantifier, nous la trouvons", dit-il.

Bien que les LLM aient suffisamment d'angles morts et autres défauts pour ne pas être qualifiés d'intelligence générale artificielle, ou AGI - terme désignant une machine qui atteint l'ingéniosité du cerveau animal - ces capacités émergentes suggèrent à certains chercheurs que les entreprises technologiques sont plus proches de l'AGI que même les optimistes ne l'avaient deviné. "Ce sont des preuves indirectes que nous en sommes probablement pas si loin", a déclaré Goertzel en mars lors d'une conférence sur le deep learning à la Florida Atlantic University. Les plug-ins d'OpenAI ont donné à ChatGPT une architecture modulaire un peu comme celle du cerveau humain. "La combinaison de GPT-4 [la dernière version du LLM qui alimente ChatGPT] avec divers plug-ins pourrait être une voie vers une spécialisation des fonctions semblable à celle de l'homme", déclare Anna Ivanova, chercheuse au M.I.T.

Dans le même temps, les chercheurs s'inquiètent de voir leur capacité à étudier ces systèmes s'amenuiser. OpenAI n'a pas divulgué les détails de la conception et de l'entraînement de GPT-4, en partie du à la concurrence avec Google et d'autres entreprises, sans parler des autres pays. "Il y aura probablement moins de recherche ouverte de la part de l'industrie, et les choses seront plus cloisonnées et organisées autour de la construction de produits", déclare Dan Roberts, physicien théoricien au M.I.T., qui applique les techniques de sa profession à la compréhension de l'IA.

Ce manque de transparence ne nuit pas seulement aux chercheurs, il entrave également les efforts qui visent à comprendre les répercussions sociales de l'adoption précipitée de la technologie de l'IA. "La transparence de ces modèles est la chose la plus importante pour garantir la sécurité", affirme M. Mitchell.

Auteur: Musser Georges

Info: https://www.scientificamerican.com, 11 mai 2023. *algorithme d'optimisation utilisé dans l'apprentissage automatique et les problèmes d'optimisation. Il vise à minimiser ou à maximiser une fonction en ajustant ses paramètres de manière itérative. L'algorithme part des valeurs initiales des paramètres et calcule le gradient de la fonction au point actuel. Les paramètres sont ensuite mis à jour dans la direction du gradient négatif (pour la minimisation) ou positif (pour la maximisation), multiplié par un taux d'apprentissage. Ce processus est répété jusqu'à ce qu'un critère d'arrêt soit rempli. La descente de gradient est largement utilisée dans la formation des modèles d'apprentissage automatique pour trouver les valeurs optimales des paramètres qui minimisent la différence entre les résultats prédits et les résultats réels. Trad et adaptation Mg

[ singularité technologique ] [ versatilité sémantique ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

ufo

Un bon copain et ancien compagnon d'escadron, Dave "Sex" Fravor, a vécu une des histoires d'aviation les plus bizarres de tous les temps. Un truc qui éclate la crédibilité, alors je vais la raconter en m'appuyant sur la bonne foi de Dave.
Je le connais personnellement - très bien. Nous avons volé sur des A-6 ensemble avant qu'il n'entre dans le monde des Hornet. C'est un mec drôle. Intelligent et malin, avec la typique surestimation de ses compétences du pilote de chasse. En vol cependant, Dave était aussi professionnel que possible.
Au matin du 14 novembre 2004, Dave et son équipier se sont lancés dans le ciel bleu clair de la Californie du Sud, à une centaine de kilomètres au sud-ouest de San Diego. Leur nom d'appel était FASTEAGLE 01. Son ailier a décollé juste après eux dans FASTEAGLE 02. Ils ont grimpé au-dessus du navire et eu rendez-vous de façon normale avant de partir vers la zone de travail assignée dans l'océan ouvert au sud de l'USS Nimitz. Jour normal, opérations normales pour le pré-déploiement du cycle de travail dans tel milieu.
Le Nimitz Carrier Strike Group était déjà en poste depuis quelques semaines et travaillait à intégrer les opérations du transporteur avec ses différents navires de soutien, y compris le croiseur de missiles guidés de classe Ticonderoga, USS Princeton. En ce qui concerne Dave, c'était un jour standard, autre étape dans le long processus de la préparation des navires du Strike group et des avions de l'Air Wing pour travailler harmonieusement leur prochain déploiement de combat.
Ce que Dave ne savait pas, c'était qu'au cours des derniers jours, le Princeton avait attrapé des retours bizarres sur leur radar SPY-1. À plusieurs occasions, à compter du 10 novembre, le fire control officer, un type expérimenté, tout comme les radaristes, avaient détecté de nombreux échos qui se situaient bien au-dessus du volume de balayage du radar, quelque part à plus de 80 000 pieds. Des signaux qui partaient de 80 000 pieds jusqu'à planer à environ 50 pieds au-dessus de l'eau en quelques secondes. Toujours au même endroit, à la latitude d'environ 30NM au large de la côte de Baja, à environ 70NM au sud-ouest de Tijuana. À l'époque, le SPY-1 était le radar tactique le plus sophistiqué et le plus puissant de la planète. Avec cet engin, ils ont pu suivre ces AAV* pendant qu'ils descendaient, tournaient et glissaient à des vitesses, des taux de rotation et des accélérations plus rapides que n'importe quel avion ami ou menace connu. Incroyablement rapide.
Une fois les avions de l'escadre aérienne arrivés près du Nimitz, le fire squad control du Princeton y vit l'opportunité d'utiliser ces atouts et ces yeux pour aider à résoudre le mystère de ces AAVs.
A un moment, le vol FASTEAGLE terminait son entraînement prévu, le cmdt de l'escadron VMFA-232 de Marine, le lieutenant-colonel "Cheeks" Kurth, effectuait un vol de vérification post-maintenance pas très loin. Il fut le premier engin rapide contacté par le Princeton. La communication était étrange et intrigante. On lui demandait d'enquêter sur un contact aérien non identifié. Ce n'est pas une demande terriblement inhabituelle quand un Strike Group est en transit ou déployé loin des eaux domestiques, mais c'est plus qu'un peu étrange, pratiquement en vue du San Diego Homeport. Pour ajouter aux communications inhabituelles, on lui demanda quel armement il avait à bord. "Aucun."
Alors que le Princeton communiquait avec Cheeks, ils tentait également de transmettre ce contact AAV à l'E-2C Hawkeye de l'Air Wing, également en vol à l'époque. L'équipage de VAW-117 participait au contrôle d'interception pour le vol FASTEAGLE pendant leur entraînement et le Princeton souhaitait maintenant que l'E-2 guide les Super Hornets vers le point d'interception avec le contact de l'AAV, qui planait à ce moment sur leur spot préféré, mais maintenant à environ 20 000 pieds au-dessus de l'océan.
Les retours de l'AAV n'étaient pas été assez forts pour apparaître sur le large balayage de l'E-2, mais une fois qu'ils concentrèrent leur radar sur les coordonnées que le Princeton leur indiqua ils obtinrent un contact faible. Echos qui ne suffisaient pas pour générer une piste cible. Alors le Princeton contacta directement FASTEAGLE. Bien qu'il n'ait pas pu verrouiller les AAV, le contrôleur E-2 resta sur la fréquence et put suivre toute l'évolution qui s'ensuivit.
Alors que Cheeks s'approchait de l'endroit où il était dirigé, le Princeton lui conseilla de rester au-dessus de 10K alors que la section des Super Hornets s'approchait de la cible. Son radar reconnut les deux ships FASTEAGLE, mais pas d'autre contact. Un moment plus tard, le Princeton lui ordonna de le laisser tomber et de retourner au navire. Comme il était très proche, il décida de survoler l'action et de jeter un coup d'oeil.
La mer était calme, presque vitreuse et on était en fin de matinée d'une belle journée. Des conditions parfaites. Alors que Cheeks survolait l'endroit, il vit une perturbation à la surface de l'océan. Une section ronde d'eau turbulente d'environ 50-100 mètres de diamètre. C'était la seule zone du type de ce qu'il nomma "eau vive", décrivant ça comme s'il y avait quelque chose sous la surface comme un banc ou ce qu'il avait entendu dire de ce à quoi ressemble un navire qui coule rapidement.
Il survola la perturbation et fit demi-tour en direction de Nimitz sans voir ce qui faisait mousser l'eau. Comme il s'en retournait, au moment où les Super Hornets convergeaient vers l'endroit, les eaux blanches cessèrent et la surface de l'océan redevint lisse. Le point de la perturbation précédente étant complètement indiscernable.
À quelques milliers de pieds au-dessous de lui, Dave avait vu le même spectacle surréaliste, tout comme il s'était fait demander par le Princeton si les jets FASTEAGLE avaient des armes avec munition. Dave, déconcerté, rapporta que tout ce qu'ils avaient c'était deux missiles d'entraînement passifs. On lui donna des vecteurs de portée et un ensemble de coordonnées et on leur a dit d'enquêter sur un contact aérien inconnu à cet endroit.
Sans plus d'informations sur le contact, ils descendirent vers 20 mile pieds pour balayer avec un radar, ne percevant rien. Aucun avion de ce vol ne portait de girouette FLIR, ce qui limitait le type de capteurs avec lesquels il pouvait effectuer des recherches; mais les deux avions étaient neufs, selon les termes de Dave: "Ils avaient toujours cette nouvelle odeur de voiture". Les radars APG-73 étaient à la fois neufs et avaient parfaitement fonctionné durant l'entraînement de l'heure précédente. Pourtant, les écrans des deux avions étaient vides au point que Princeton lança "Merge plot!" (radars stop ?)
De ce moment les quatre membres d'équipage n'étaient plus que des yeux. La première indication inhabituelle que Dave nota fut la zone d'eau vive sur la surface que Cheeks regardait par-dessus son épaule alors qu'il s'éloignait. Il se souvient avoir pensé qu'il s'agissait de la taille d'un 737 et peut-être que le contact sur lequel ils avaient été dirigés était un avion de ligne qui venait de s'écraser. Il manoeuvra son F-18 plus bas pour mieux voir. Comme il descendait à environ 20K il fut surpris à la vue d'un objet blanc qui se déplaçait juste au-dessus de l'eau moussante. Il était immaculé, sans relief, oblong, et effectuait des mouvements latéraux mineurs tout en restant à une altitude constante au-dessus du disque d'eau turbulente.
Dave mis FASTEAGLE 02 en haute couverture passant vers environ 15K et avec son équipier put assister aux événements d'un point de vue parfait. Dave continua sa plongée en bas vers l'objet, essayant maintenant d'asservir le radar par l'intermédiaire de son NCSM pour le régler sur une distance de courte portée. Sans succès. Son intention était de passer près de l'objet à près de 350 nœuds. En se rapprochant il remarqua que l'AAV avait orienté l'une de ses extrémités fine vers lui, comme si, selon ses mots, "Il venait de nous remarquer et maintenant il nous pointait".
L'AAV commença alors à s'élever de son vol stationnaire. L'objet, qu'il décrivit plus tard comme bougeant en tic-tac, s'est élevé et fit deux cercles à droite, à environ un mile de la trajectoire en cercle du Hornet de Dave. Les instincts de BFM prirent le dessus et Dave poussa le nez vers le bas pour couper le bas du cercle. Alors il regarda l'AAV en mettant le nez en l'air, et tenta à nouveau d'asservir son radar via le NCSM. Encore une fois, l'APG-73 ne put verrouiller l'objet volant blanc de la taille d'un chasseur à quelques milliers de pieds de là.
Tout au long de ces manoeuvres, le WSO de Dave diffusait les événements en temps réel de l'interception vers le Princeton. Les opérateurs radar de l'E-2 entendirent sur le réseau sécurisé ce qui ressemblait à l'une des centaines d'interceptions qu'ils avaient entendues au fil des ans. À l'exception notable que les voix des équipages étaient plus stressées et que le verbiage pour identifier la cible était différent de ce qu'ils entendaient en général.
Dans leurs commentaires de débriefing, Dave, son OSM et les deux autres équipages déclarèrent que l'objet avait initialement plané comme un Harrier. Ils le décrivirent comme étant uniformément blanc, mesurant environ 45 pieds de longueur (grosso modo comme un avion de chasse), avec un axe horizontal discernable (comme un fuselage) mais sans fenêtres visibles, ni nacelles, ailes ou de systèmes de propulsion.
Alors que Dave tentait de manoeuvrer et d'essayer d'obtenir un verrou de combat avec son radar, l'AAV resserra son virage, "lift vector, puis vers l'arrière" comme Dave l'a décrit. Dave demanda immédiatement au Princeton un snap instantané, mais le radar SPY-1 avait également perdu le contact.
Les premières réponses du Princeton furent "image propre". Quelques instants plus tard, le Princeton relança "Vous n'allez pas le croire, mais il est à votre CAP." Le Princeton avait récupéré l'AAV planant à 24K au niveau assigné Lat / Long que Dave avait utilisé plus tôt pendant l'entraînement comme point orbital.
Bien que court en carburant, le vol FASTEAGLE bascula vers la position CAP pour essayer de reprendre l'AAV. Ils ne virent rien, ni sur leur chemin de retour vers Nimitz. Même le cercle de 100 mètres d'eau océanique turbulente avait disparu, lieu maintenant indiscernable du reste de la surface de la mer. Interrogé plus tard, Dave rapporta qu'il n'avait rien vu sur ou sous la surface de l'océan qui aurait pu causer ce cercle d'eau turbulente. Il était là quand ils acquirent visuellement le tic-tac, puis c'était parti lorsqu'ils cerclèrent quelques minutes plus tard.
De retour sur Nimitz, les quatre membres d'équipage se sont dirigés vers le paraloft pour retirer leur équipement. Les quatre équipages suivants de VFA-41 s'habillaient pour leur mission d'entraînement dans la même zone, avec utilisation des mêmes points Lat / Long que les points CAP de Dave. Dave et ses membres d'équipage transmirent ce qu'ils avaient vu aux nouveaux gars et leur rappelèrent d'enregistrer s'ils le pouvaient.
Le temps que lancement de la nouvelle équipe se fasse avec rendez-vous et vérification avec l'E-2 pour le contrôle, on était en début d'après-midi; 1500. Les avions se séparèrent, avec un cap vers ce même emplacement du sud de la PAC. Ils naviguaient à 20K et 300kts, max endurance. Là aussi le jet, le radar et aussi cette fois le FLIR, étaient nickel et fonctionnaient parfaitement.
Le WSO acquit d'abord un contact sur le radar à une distance d'environ 30 NM alors qu'il fonctionnait en mode balayage RWS. Il vérifia les coordonnées et ça oscillait en effet au point précis du CAP. Il tenta plusieurs verrouillage STT, sans succès. Plus tard, lors du débriefing, il expliqua qu'il avait plusieurs indices révélateurs d'EA.
L'aspect de la cible sur l'enregistrement de tracking tournait à 360 degrés avec d'autres indications de brouillage distinctes. En mode de balayage moins précis, le retour indiquait que l'objet était, aux dires du WSO, "à quelques milliers de pieds au-dessous de nous. Environ 15-20K- mais stationnaire." Le seul mouvement fut généré par le verrouillage radar du jet vers l'emplacement de la PAC.
Le WSO utilisa le pod FLIR à bord, l'asservissant à la piste faible que le mode RWS avait pu générer. Il enregistra la séquence sur l'enregistreur de bord. En utilisant le mode IR, il avait pu se verrouiller sur l'AAV., qui apparaissait sur l'écran dans l’enregistrement comme un objet blanc sur fond noir planant sans moyens connus.
La caméra Infra rouge ne détectait pas de gaz chauds sous l'AAV, comme avec un Harrier ou un hélicoptère. C'était simplement suspendu dans les airs. Il passa en mode TV et put verrouiller à nouveau le FLIR sur l'objet tout en essayant, sans succès, d'obtenir une piste STT sur le radar. Comme il regardait, l'AAV sortit de l'écran vers la gauche si soudainement qu'il sembla disparaître. Sur la bande au ralenti l'objet accélère hors du champ de vision avec une vitesse choquante. Le WSO ne fut pas en mesure de réacquérir l'AAV soit dans RWS soit avec le FLIR.
D'une manière ou d'une autre, la bande fut diffusée sur YouTube. Quelques années après l'incident, en me racontant l'histoire, Dave me montra le lien. C'était sans grand intérêt sans les informations de base. Mais remis dans le contexte, c'était incroyable, en particulier le ralenti du point d'accélération hors de l'écran. Pendant des années, j'ai raconté l'histoire à des amis et leur ai montré la vidéo.
Le mois dernier, lorsque j'ai appelé Dave pour me rafraîchir la mémoire avant de m'asseoir pour écrire cette rencontre bizarre, il m'a informé que la vidéo avait été retirée de YouTube. Il m'a dit qu'une agence gouvernementale avec un identificateur à trois lettres avait récemment mené une enquête sur les AAVs et avait interviewé exhaustivement toutes les parties impliquées, les sept membres d'équipage, dont les 6 membres du VFA-41 et Cheeks du VMFA-232, le fire control officer et le chef principal du Princeton, ainsi que l'opérateur radar de l'E-2. Ils ont même questionné l'équipage de l'USS Louisville, un sous-marin Fast-Attack de la classe de Los Angeles, qui faisait partie du Nimitz Carrier Strike Group, qui a rapporté qu'il n'y avait pas de contacts sonar non identifiés ou de bruits sous-marins étranges ce jour-là.
Je ne sais pas quoi faire de ces événements. J'ai aimé l'histoire dès sa première écoute parce que c'est tellement fou. Je n'avais jamais beaucoup réfléchi aux extraterrestres ou aux ovnis. C'était pour moi du gaspillage de le faire. S'ils voulaient prendre contact, ils le feraient. S'ils voulaient observer de loin, ils pourraient facilement être impossibles à discerner compte tenu de la haute technologie qu'ils semblent avoir.
Maintenant j'ai été confronté à des témoins crédibles. Pas des cinglés portant des chapeaux de papier mais des gens que je connais, des gens de mon monde. Il y eut plusieurs plates-formes corroborantes qui détectèrent l'AAV à l'aide de capteurs variés. Et, bien sûr, les huit globes oculaires qui ont eu le visuel sur le tic-tac blanc alors que Dave manœuvrait pour l'intercepter.
Dave n'a pas besoin d'être un étranger pour vous non plus. Regardez-le sur la série PBS, Carrier, et faites-vous votre propre opinion sur son professionnalisme et sa santé mentale.

Auteur: Chierici Paco

Info: 14 mars 2015. *Anomalous Aerial Vehicles

[ témoignage ] [ extraterrestres ]

Commenter

Commentaires: 0

nanomonde

Les particules quantiques ne tournent pas. Alors d'où vient leur spin ?

Le fait que les électrons possèdent la propriété quantique du spin est essentiel pour notre monde tel que nous le connaissons. Pourtant, les physiciens ne pensent pas que ces particules tournent réellement.

Les électrons sont des petits magiciens compétents. Ils semblent voltiger autour d'un atome sans suivre de chemin particulier, ils semblent souvent être à deux endroits à la fois, et leur comportement dans les micropuces en silicium alimente l'infrastructure informatique du monde moderne. Mais l'un de leurs tours les plus impressionnants est faussement simple, comme toute bonne magie. Les électrons semblent toujours tourner. Tous les électrons jamais observés, qu'ils se déplacent sur un atome de carbone dans votre ongle ou qu'ils se déplacent à toute vitesse dans un accélérateur de particules, ont l'air de faire constamment de petites pirouettes en se déplaçant dans le monde. Sa rotation ne semble jamais ralentir ou accélérer. Peu importe comment un électron est bousculé ou frappé, il semble toujours tourner à la même vitesse. Il possède même un petit champ magnétique, comme devrait le faire un objet en rotation doté d'une charge électrique. Naturellement, les physiciens appellent ce comportement "spin".

Mais malgré les apparences, les électrons ne tournent pas. Ils ne peuvent pas tourner. Prouver qu'il est impossible que les électrons tournent est un problème standard dans tout cours d'introduction à la physique quantique. Si les électrons tournaient suffisamment vite pour expliquer tout le comportement de rotation qu'ils affichent, leurs surfaces se déplaceraient beaucoup plus vite que la vitesse de la lumière (si tant est qu'ils aient des surfaces). Ce qui est encore plus surprenant, c'est que pendant près d'un siècle, cette contradiction apparente a été ignorée par la plupart des physiciens comme étant une autre caractéristique étrange du monde quantique, qui ne mérite pas qu'on s'y attarde.

Pourtant, le spin est profondément important. Si les électrons ne semblaient pas tourner, votre chaise s'effondrerait pour ne plus représenter qu'une fraction minuscule de sa taille. Vous vous effondreriez aussi - et ce serait le moindre de vos problèmes. Sans le spin, c'est tout le tableau périodique des éléments qui s'effondrerait, et toute la chimie avec. En fait, il n'y aurait pas de molécules du tout. Le spin n'est donc pas seulement l'un des meilleurs tours de magie des électrons, c'est aussi l'un des plus importants. Et comme tout bon magicien, les électrons n'ont jamais dit à personne comment ils faisaient ce tour. Mais aujourd'hui, une nouvelle explication du spin est peut-être en train de se profiler à l'horizon, une explication qui tire le rideau et montre comment la magie opère.

UNE DÉCOUVERTE VERTIGINEUSE

La rotation a toujours été une source de confusion. Même les premières personnes qui ont développé l'idée du spin pensaient qu'elle devait être fausse. En 1925, deux jeunes physiciens hollandais, Samuel Goudsmit et George Uhlenbeck, s'interrogeaient sur les derniers travaux du célèbre (et célèbre) physicien Wolfgang Pauli. Pauli, dans une tentative d'expliquer la structure des spectres atomiques et du tableau périodique, avait récemment postulé que les électrons avaient une "double valeur non descriptible classiquement". Mais Pauli n'avait pas dit à quelle propriété physique de l'électron sa nouvelle valeur correspondait, et Goudsmit et Uhlenbeck se demandaient ce que cela pouvait être.

Tout ce qu'ils savaient - tout le monde le savait à l'époque - c'est que la nouvelle valeur de Pauli était associée à des unités discrètes d'une propriété bien connue de la physique newtonienne classique, appelée moment angulaire. Le moment angulaire est simplement la tendance d'un objet en rotation à continuer de tourner. C'est ce qui fait que les toupies tournent et que les bicyclettes restent droites. Plus un objet tourne vite, plus il a de moment cinétique, mais la forme et la masse de l'objet ont aussi leur importance. Un objet plus lourd a plus de moment cinétique qu'un objet plus léger qui tourne aussi vite, et un objet qui tourne avec plus de masse sur les bords a plus de moment cinétique que si sa masse était concentrée en son centre.

Les objets peuvent avoir un moment angulaire sans tourner. Tout objet qui tourne autour d'un autre objet, comme la Terre qui tourne autour du soleil ou un trousseau de clés qui se balance autour de votre doigt sur un cordon, a un certain moment angulaire. Mais Goudsmit et Uhlenbeck savaient que ce type de moment angulaire ne pouvait pas être la source du nouveau nombre de Pauli. Les électrons semblent effectivement se déplacer autour du noyau atomique, retenus par l'attraction entre leur charge électrique négative et l'attraction positive des protons du noyau. Mais le moment angulaire que ce mouvement leur confère était déjà bien pris en compte et ne pouvait pas être le nouveau nombre de Pauli. Les physiciens savaient également qu'il existait déjà trois nombres associés à l'électron, qui correspondaient aux trois dimensions de l'espace dans lesquelles il pouvait se déplacer. Un quatrième nombre signifiait une quatrième façon dont l'électron pouvait se déplacer. Les deux jeunes physiciens pensaient que la seule possibilité était que l'électron lui-même tourne, comme la Terre qui tourne sur son axe autour du soleil. Si les électrons pouvaient tourner dans l'une des deux directions - dans le sens des aiguilles d'une montre ou dans le sens inverse - cela expliquerait la "bivalence" de Pauli.

Excités, Goudsmit et Uhlenbeck rédigent leur nouvelle idée et la montrent à leur mentor, Paul Ehrenfest. Ehrenfest, un ami proche d'Einstein et un formidable physicien à part entière, trouve l'idée intrigante. Tout en la considérant, il dit aux deux jeunes hommes enthousiastes d'aller consulter quelqu'un de plus âgé et de plus sage : Hendrik Antoon Lorentz, le grand manitou de la physique néerlandaise, qui avait anticipé une grande partie du développement de la relativité restreinte deux décennies plus tôt et qu'Einstein lui-même tenait en très haute estime.

Mais Lorentz est moins impressionné par l'idée de spin qu'Ehrenfest. Comme il l'a fait remarquer à Uhlenbeck, on sait que l'électron est très petit, au moins 3 000 fois plus petit qu'un atome - et on sait déjà que les atomes ont un diamètre d'environ un dixième de nanomètre, soit un million de fois plus petit que l'épaisseur d'une feuille de papier. L'électron étant si petit, et sa masse encore plus petite - un milliardième de milliardième de milliardième de gramme - il était impossible qu'il tourne assez vite pour fournir le moment angulaire que Pauli et d'autres recherchaient. En fait, comme Lorentz l'a dit à Uhlenbeck, la surface de l'électron devrait se déplacer dix fois plus vite que la vitesse de la lumière, une impossibilité absolue.

Défait, Uhlenbeck retourne voir Ehrenfest et lui annonce la nouvelle. Il demande à Ehrenfest de supprimer l'article, mais on lui répond qu'il est trop tard, car son mentor a déjà envoyé l'article pour publication. "Vous êtes tous les deux assez jeunes pour pouvoir vous permettre une stupidité", a dit Ehrenfest. Et il avait raison. Malgré le fait que l'électron ne pouvait pas tourner, l'idée du spin était largement acceptée comme correcte, mais pas de la manière habituelle. Plutôt qu'un électron qui tourne réellement, ce qui est impossible, les physiciens ont interprété la découverte comme signifiant que l'électron portait en lui un certain moment angulaire intrinsèque, comme s'il tournait, même s'il ne pouvait pas le faire. Néanmoins, l'idée était toujours appelée "spin", et Goudsmit et Uhlenbeck ont été largement salués comme les géniteurs de cette idée.

Le spin s'est avéré crucial pour expliquer les propriétés fondamentales de la matière. Dans le même article où il avait proposé son nouveau nombre à deux valeurs, Pauli avait également suggéré un "principe d'exclusion", à savoir que deux électrons ne pouvaient pas occuper exactement le même état. S'ils le pouvaient, alors chaque électron d'un atome tomberait simplement dans l'état d'énergie le plus bas, et pratiquement tous les éléments se comporteraient presque exactement de la même manière les uns que les autres, détruisant la chimie telle que nous la connaissons. La vie n'existerait pas. L'eau n'existerait pas. L'univers serait simplement rempli d'étoiles et de gaz, dérivant dans un cosmos ennuyeux et indifférent sans rencontrer la moindre pierre. En fait, comme on l'a compris plus tard, toute matière solide, quelle qu'elle soit, serait instable. Bien que l'idée de Pauli soit clairement correcte, la raison pour laquelle les électrons ne pouvaient pas partager des états n'était pas claire. Comprendre l'origine du principe d'exclusion de Pauli permettrait d'expliquer tous ces faits profonds de la vie quotidienne.

La réponse à cette énigme se trouvait dans le spin. On découvrit bientôt que le spin était une propriété de base de toutes les particules fondamentales, et pas seulement des électrons, et qu'il était étroitement lié au comportement de ces particules en groupes. En 1940, Pauli et le physicien suisse Markus Fierz ont prouvé que lorsque la mécanique quantique et la relativité restreinte d'Einstein étaient combinées, cela conduisait inévitablement à un lien entre le spin et le comportement statistique des groupes. Le principe d'exclusion de Pauli n'était qu'un cas particulier de ce théorème de la statistique du spin, comme on l'a appelé. Ce théorème est un "fait puissant sur le monde", comme le dit le physicien Michael Berry. "Il est à la base de la chimie, de la supraconductivité, c'est un fait très fondamental". Et comme tant d'autres faits fondamentaux en physique, le spin s'est avéré utile sur le plan technologique également. Dans la seconde moitié du XXe siècle, le spin a été exploité pour développer des lasers, expliquer le comportement des supraconducteurs et ouvrir la voie à la construction d'ordinateurs quantiques.

VOIR AU-DELÀ DU SPIN

Mais toutes ces fabuleuses découvertes, applications et explications laissent encore sur la table la question de Goudsmit et Uhlenbeck : qu'est-ce que le spin ? Si les électrons doivent avoir un spin, mais ne peuvent pas tourner, alors d'où vient ce moment angulaire ? La réponse standard est que ce moment est simplement inhérent aux particules subatomiques et ne correspond à aucune notion macroscopique de rotation.

Pourtant, cette réponse n'est pas satisfaisante pour tout le monde. "Je n'ai jamais aimé l'explication du spin donnée dans un cours de mécanique quantique", déclare Charles Sebens, philosophe de la physique à l'Institut de technologie de Californie. On vous le présente et vous vous dites : "C'est étrange. Ils agissent comme s'ils tournaient, mais ils ne tournent pas vraiment ? Je suppose que je peux apprendre à travailler avec ça". Mais c'est étrange."

Récemment, cependant, Sebens a eu une idée. "Dans le cadre de la mécanique quantique, il semble que l'électron ne tourne pas", dit-il. Mais, ajoute-t-il, "la mécanique quantique n'est pas notre meilleure théorie de la nature. La théorie des champs quantiques est une théorie plus profonde et plus précise."

La théorie quantique des champs est l'endroit où le monde quantique des particules subatomiques rencontre l'équation la plus célèbre du monde : E = mc2, qui résume la découverte d'Einstein selon laquelle la matière peut se transformer en énergie et vice versa. (La théorie quantique des champs est également à l'origine du théorème de la statistique du spin). C'est à partir de cette propriété que lorsque des particules subatomiques interagissent, de nouvelles particules sont souvent créées à partir de leur énergie, et les particules existantes peuvent se désintégrer en quelque chose d'autre. La théorie quantique des champs traite ce phénomène en décrivant les particules comme provenant de champs qui imprègnent tout l'espace-temps, même l'espace vide. Ces champs permettent aux particules d'apparaître et de disparaître, conformément aux règles strictes de la relativité restreinte d'Einstein et aux lois probabilistes du monde quantique.

Et ce sont ces champs, selon Sebens, qui pourraient contenir la solution à l'énigme du spin. "L'électron est habituellement considéré comme une particule", explique-t-il. "Mais dans la théorie quantique des champs, pour chaque particule, il existe une façon de la considérer comme un champ." En particulier, l'électron peut être considéré comme une excitation dans un champ quantique connu sous le nom de champ de Dirac, et ce champ pourrait être ce qui porte le spin de l'électron. "Il y a une véritable rotation de l'énergie et de la charge dans le champ de Dirac", dit Sebens. Si c'est là que réside le moment angulaire, le problème d'un électron tournant plus vite que la vitesse de la lumière disparaît ; la région du champ portant le spin de l'électron est bien plus grande que l'électron supposé ponctuel lui-même. Ainsi, selon Sebens, d'une certaine manière, Pauli et Lorentz avaient à moitié raison : il n'y a pas de particule qui tourne. Il y a un champ tournant, et c'est ce champ qui donne naissance aux particules.

UNE QUESTION SANS RÉPONSE ?

Jusqu'à présent, l'idée de Sebens a produit quelques remous, mais pas de vagues. Pour ce qui est de savoir si les électrons tournent, "je ne pense pas qu'il s'agisse d'une question à laquelle on puisse répondre", déclare Mark Srednicki, physicien à l'université de Californie à Santa Barbara. "Nous prenons un concept qui trouve son origine dans le monde ordinaire et nous essayons de l'appliquer à un endroit où il ne s'applique plus vraiment. Je pense donc que ce n'est vraiment qu'une question de choix, de définition ou de goût pour dire que l'électron tourne vraiment." Hans Ohanian, physicien à l'université du Vermont qui a réalisé d'autres travaux sur le spin des électrons, souligne que la version originale de l'idée de Sebens ne fonctionne pas pour l'antimatière.

Mais tous les physiciens ne sont pas aussi dédaigneux. Selon Sean Carroll, physicien à l'université Johns Hopkins et à l'Institut Santa Fe, "la formulation conventionnelle de notre réflexion sur le spin laisse de côté un élément potentiellement important". "Sebens est tout à fait sur la bonne voie, ou du moins fait quelque chose de très, très utile dans le sens où il prend très au sérieux l'aspect champ de la théorie quantique des champs." Mais, souligne Carroll, "les physiciens sont, au fond, des pragmatiques..... Si Sebens a raison à 100 %, les physiciens vous diront : "D'accord, mais qu'est-ce que cela m'apporte ?"

Doreen Fraser, philosophe de la théorie des champs quantiques à l'université de Waterloo, au Canada, se fait l'écho de ce point de vue. "Je suis ouverte à ce projet que Sebens a de vouloir forer plus profondément pour avoir une sorte d'intuition physique pour aller avec le spin", dit-elle. "Vous avez cette belle représentation mathématique ; vous voulez avoir une image physique intuitive pour l'accompagner." En outre, une image physique pourrait également déboucher sur de nouvelles théories ou expériences qui n'ont jamais été réalisées auparavant. "Pour moi, ce serait le test pour savoir si c'est une bonne idée."

Il est trop tôt pour dire si les travaux de M. Sebens porteront ce genre de fruits. Et bien qu'il ait rédigé un article sur la manière de résoudre la préoccupation d'Ohanian concernant l'antimatière, d'autres questions connexes restent en suspens. "Il y a beaucoup de raisons d'aimer" l'idée du champ, dit Sebens. "Je prends cela plus comme un défi que comme un argument massue contre elle."

Auteur: Becker Adam

Info: Scientific American, November 22, 2022

[ approfondissement ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

homme-machine

Les grands modèles de langage tels que ChatGPT sont aujourd'hui suffisamment importants pour commencer à afficher des comportements surprenants et imprévisibles.

Quel film ces emojis décrivent-ils ? (On voit une vidéo qui présente des myriades d'émoji formant des motifs mouvants, modélisés à partir de métadonnées)

Cette question était l'une des 204 tâches choisies l'année dernière pour tester la capacité de divers grands modèles de langage (LLM) - les moteurs de calcul derrière les chatbots d'IA tels que ChatGPT. Les LLM les plus simples ont produit des réponses surréalistes. "Le film est un film sur un homme qui est un homme qui est un homme", commençait l'un d'entre eux. Les modèles de complexité moyenne s'en sont approchés, devinant The Emoji Movie. Mais le modèle le plus complexe l'a emporté en une seule réponse : Finding Nemo.

"Bien que j'essaie de m'attendre à des surprises, je suis surpris par ce que ces modèles peuvent faire", a déclaré Ethan Dyer, informaticien chez Google Research, qui a participé à l'organisation du test. C'est surprenant parce que ces modèles sont censés n'avoir qu'une seule directive : accepter une chaîne de texte en entrée et prédire ce qui va suivre, encore et encore, en se basant uniquement sur des statistiques. Les informaticiens s'attendaient à ce que le passage à l'échelle permette d'améliorer les performances sur des tâches connues, mais ils ne s'attendaient pas à ce que les modèles puissent soudainement gérer autant de tâches nouvelles et imprévisibles.

Des études récentes, comme celle à laquelle a participé M. Dyer, ont révélé que les LLM peuvent produire des centaines de capacités "émergentes", c'est-à-dire des tâches que les grands modèles peuvent accomplir et que les petits modèles ne peuvent pas réaliser, et dont beaucoup ne semblent pas avoir grand-chose à voir avec l'analyse d'un texte. Ces tâches vont de la multiplication à la génération d'un code informatique exécutable et, apparemment, au décodage de films à partir d'emojis. De nouvelles analyses suggèrent que pour certaines tâches et certains modèles, il existe un seuil de complexité au-delà duquel la fonctionnalité du modèle monte en flèche. (Elles suggèrent également un sombre revers de la médaille : À mesure qu'ils gagnent en complexité, certains modèles révèlent de nouveaux biais et inexactitudes dans leurs réponses).

"Le fait que les modèles de langage puissent faire ce genre de choses n'a jamais été abordé dans la littérature à ma connaissance", a déclaré Rishi Bommasani, informaticien à l'université de Stanford. L'année dernière, il a participé à la compilation d'une liste de dizaines de comportements émergents, dont plusieurs ont été identifiés dans le cadre du projet de M. Dyer. Cette liste continue de s'allonger.

Aujourd'hui, les chercheurs s'efforcent non seulement d'identifier d'autres capacités émergentes, mais aussi de comprendre pourquoi et comment elles se manifestent - en somme, d'essayer de prédire l'imprévisibilité. La compréhension de l'émergence pourrait apporter des réponses à des questions profondes concernant l'IA et l'apprentissage automatique en général, comme celle de savoir si les modèles complexes font vraiment quelque chose de nouveau ou s'ils deviennent simplement très bons en statistiques. Elle pourrait également aider les chercheurs à exploiter les avantages potentiels et à limiter les risques liés à l'émergence.

"Nous ne savons pas comment déterminer dans quel type d'application la capacité de nuisance va se manifester, que ce soit en douceur ou de manière imprévisible", a déclaré Deep Ganguli, informaticien à la startup d'IA Anthropic.

L'émergence de l'émergence

Les biologistes, les physiciens, les écologistes et d'autres scientifiques utilisent le terme "émergent" pour décrire l'auto-organisation, les comportements collectifs qui apparaissent lorsqu'un grand nombre d'éléments agissent comme un seul. Des combinaisons d'atomes sans vie donnent naissance à des cellules vivantes ; les molécules d'eau créent des vagues ; des murmurations d'étourneaux s'élancent dans le ciel selon des schémas changeants mais identifiables ; les cellules font bouger les muscles et battre les cœurs. Il est essentiel que les capacités émergentes se manifestent dans les systèmes qui comportent de nombreuses parties individuelles. Mais ce n'est que récemment que les chercheurs ont été en mesure de documenter ces capacités dans les LLM, car ces modèles ont atteint des tailles énormes.

Les modèles de langage existent depuis des décennies. Jusqu'à il y a environ cinq ans, les plus puissants étaient basés sur ce que l'on appelle un réseau neuronal récurrent. Ceux-ci prennent essentiellement une chaîne de texte et prédisent le mot suivant. Ce qui rend un modèle "récurrent", c'est qu'il apprend à partir de ses propres résultats : Ses prédictions sont réinjectées dans le réseau afin d'améliorer les performances futures.

En 2017, les chercheurs de Google Brain ont introduit un nouveau type d'architecture appelé "transformateur". Alors qu'un réseau récurrent analyse une phrase mot par mot, le transformateur traite tous les mots en même temps. Cela signifie que les transformateurs peuvent traiter de grandes quantités de texte en parallèle.

Les transformateurs ont permis d'augmenter rapidement la complexité des modèles de langage en augmentant le nombre de paramètres dans le modèle, ainsi que d'autres facteurs. Les paramètres peuvent être considérés comme des connexions entre les mots, et les modèles s'améliorent en ajustant ces connexions au fur et à mesure qu'ils parcourent le texte pendant l'entraînement. Plus il y a de paramètres dans un modèle, plus il peut établir des connexions avec précision et plus il se rapproche d'une imitation satisfaisante du langage humain. Comme prévu, une analyse réalisée en 2020 par les chercheurs de l'OpenAI a montré que les modèles gagnent en précision et en capacité au fur et à mesure qu'ils s'étendent.

Mais les débuts des LLM ont également apporté quelque chose de vraiment inattendu. Beaucoup de choses. Avec l'avènement de modèles tels que le GPT-3, qui compte 175 milliards de paramètres, ou le PaLM de Google, qui peut être étendu à 540 milliards de paramètres, les utilisateurs ont commencé à décrire de plus en plus de comportements émergents. Un ingénieur de DeepMind a même rapporté avoir pu convaincre ChatGPT qu'il s'était lui-même un terminal Linux et l'avoir amené à exécuter un code mathématique simple pour calculer les 10 premiers nombres premiers. Fait remarquable, il a pu terminer la tâche plus rapidement que le même code exécuté sur une vraie machine Linux.

Comme dans le cas du film emoji, les chercheurs n'avaient aucune raison de penser qu'un modèle de langage conçu pour prédire du texte imiterait de manière convaincante un terminal d'ordinateur. Nombre de ces comportements émergents illustrent l'apprentissage "à zéro coup" ou "à quelques coups", qui décrit la capacité d'un LLM à résoudre des problèmes qu'il n'a jamais - ou rarement - vus auparavant. Selon M. Ganguli, il s'agit là d'un objectif de longue date dans la recherche sur l'intelligence artificielle. Le fait de montrer que le GPT-3 pouvait résoudre des problèmes sans aucune donnée d'entraînement explicite dans un contexte d'apprentissage à zéro coup m'a amené à abandonner ce que je faisais et à m'impliquer davantage", a-t-il déclaré.

Il n'était pas le seul. Une série de chercheurs, qui ont détecté les premiers indices montrant que les LLM pouvaient dépasser les contraintes de leurs données d'apprentissage, s'efforcent de mieux comprendre à quoi ressemble l'émergence et comment elle se produit. La première étape a consisté à documenter minutieusement l'émergence.

Au-delà de l'imitation

En 2020, M. Dyer et d'autres chercheurs de Google Research ont prédit que les LLM auraient des effets transformateurs, mais la nature de ces effets restait une question ouverte. Ils ont donc demandé à la communauté des chercheurs de fournir des exemples de tâches difficiles et variées afin de déterminer les limites extrêmes de ce qu'un LLM pourrait faire. Cet effort a été baptisé "Beyond the Imitation Game Benchmark" (BIG-bench), en référence au nom du "jeu d'imitation" d'Alan Turing, un test visant à déterminer si un ordinateur peut répondre à des questions d'une manière humaine convaincante. (Le groupe s'est particulièrement intéressé aux exemples où les LLM ont soudainement acquis de nouvelles capacités qui étaient totalement absentes auparavant.

"La façon dont nous comprenons ces transitions brutales est une grande question de la echerche", a déclaré M. Dyer.

Comme on pouvait s'y attendre, pour certaines tâches, les performances d'un modèle se sont améliorées de manière régulière et prévisible au fur et à mesure que la complexité augmentait. Pour d'autres tâches, l'augmentation du nombre de paramètres n'a apporté aucune amélioration. Mais pour environ 5 % des tâches, les chercheurs ont constaté ce qu'ils ont appelé des "percées", c'est-à-dire des augmentations rapides et spectaculaires des performances à partir d'un certain seuil d'échelle. Ce seuil variant en fonction de la tâche et du modèle.

Par exemple, les modèles comportant relativement peu de paramètres - quelques millions seulement - n'ont pas réussi à résoudre des problèmes d'addition à trois chiffres ou de multiplication à deux chiffres, mais pour des dizaines de milliards de paramètres, la précision a grimpé en flèche dans certains modèles. Des sauts similaires ont été observés pour d'autres tâches, notamment le décodage de l'alphabet phonétique international, le décodage des lettres d'un mot, l'identification de contenu offensant dans des paragraphes d'hinglish (combinaison d'hindi et d'anglais) et la formulation d'équivalents en langue anglaise, traduit à partir de proverbes kiswahili.

Introduction

Mais les chercheurs se sont rapidement rendu compte que la complexité d'un modèle n'était pas le seul facteur déterminant. Des capacités inattendues pouvaient être obtenues à partir de modèles plus petits avec moins de paramètres - ou formés sur des ensembles de données plus petits - si les données étaient d'une qualité suffisamment élevée. En outre, la formulation d'une requête influe sur la précision de la réponse du modèle. Par exemple, lorsque Dyer et ses collègues ont posé la question de l'emoji de film en utilisant un format à choix multiples, l'amélioration de la précision a été moins soudaine qu'avec une augmentation graduelle de sa complexité. L'année dernière, dans un article présenté à NeurIPS, réunion phare du domaine, des chercheurs de Google Brain ont montré comment un modèle invité à s'expliquer (capacité appelée raisonnement en chaîne) pouvait résoudre correctement un problème de mots mathématiques, alors que le même modèle sans cette invitation progressivement précisée n'y parvenait pas.

Yi Tay, scientifique chez Google Brain qui a travaillé sur l'étude systématique de ces percées, souligne que des travaux récents suggèrent que l'incitation par de pareilles chaînes de pensées modifie les courbes d'échelle et, par conséquent, le point où l'émergence se produit. Dans leur article sur NeurIPS, les chercheurs de Google ont montré que l'utilisation d'invites via pareille chaines de pensée progressives pouvait susciter des comportements émergents qui n'avaient pas été identifiés dans l'étude BIG-bench. De telles invites, qui demandent au modèle d'expliquer son raisonnement, peuvent aider les chercheurs à commencer à étudier les raisons pour lesquelles l'émergence se produit.

Selon Ellie Pavlick, informaticienne à l'université Brown qui étudie les modèles computationnels du langage, les découvertes récentes de ce type suggèrent au moins deux possibilités pour expliquer l'émergence. La première est que, comme le suggèrent les comparaisons avec les systèmes biologiques, les grands modèles acquièrent réellement de nouvelles capacités de manière spontanée. "Il se peut très bien que le modèle apprenne quelque chose de fondamentalement nouveau et différent que lorsqu'il était de taille inférieure", a-t-elle déclaré. "C'est ce que nous espérons tous, qu'il y ait un changement fondamental qui se produise lorsque les modèles sont mis à l'échelle.

L'autre possibilité, moins sensationnelle, est que ce qui semble être émergent pourrait être l'aboutissement d'un processus interne, basé sur les statistiques, qui fonctionne par le biais d'un raisonnement de type chaîne de pensée. Les grands LLM peuvent simplement être en train d'apprendre des heuristiques qui sont hors de portée pour ceux qui ont moins de paramètres ou des données de moindre qualité.

Mais, selon elle, pour déterminer laquelle de ces explications est la plus probable, il faut mieux comprendre le fonctionnement des LLM. "Comme nous ne savons pas comment ils fonctionnent sous le capot, nous ne pouvons pas dire laquelle de ces choses se produit.

Pouvoirs imprévisibles et pièges

Demander à ces modèles de s'expliquer pose un problème évident : Ils sont des menteurs notoires. Nous nous appuyons de plus en plus sur ces modèles pour effectuer des travaux de base", a déclaré M. Ganguli, "mais je ne me contente pas de leur faire confiance, je vérifie leur travail". Parmi les nombreux exemples amusants, Google a présenté en février son chatbot d'IA, Bard. Le billet de blog annonçant le nouvel outil montre Bard en train de commettre une erreur factuelle.

L'émergence mène à l'imprévisibilité, et l'imprévisibilité - qui semble augmenter avec l'échelle - rend difficile pour les chercheurs d'anticiper les conséquences d'une utilisation généralisée.

"Il est difficile de savoir à l'avance comment ces modèles seront utilisés ou déployés", a déclaré M. Ganguli. "Et pour étudier les phénomènes émergents, il faut avoir un cas en tête, et on ne sait pas, avant d'avoir étudié l'influence de l'échelle. quelles capacités ou limitations pourraient apparaître.

Dans une analyse des LLM publiée en juin dernier, les chercheurs d'Anthropic ont cherché à savoir si les modèles présentaient certains types de préjugés raciaux ou sociaux, à l'instar de ceux précédemment signalés dans les algorithmes non basés sur les LLM utilisés pour prédire quels anciens criminels sont susceptibles de commettre un nouveau délit. Cette étude a été inspirée par un paradoxe apparent directement lié à l'émergence : Lorsque les modèles améliorent leurs performances en passant à l'échelle supérieure, ils peuvent également augmenter la probabilité de phénomènes imprévisibles, y compris ceux qui pourraient potentiellement conduire à des biais ou à des préjudices.

"Certains comportements nuisibles apparaissent brusquement dans certains modèles", explique M. Ganguli. Il se réfère à une analyse récente des LLM, connue sous le nom de BBQ benchmark, qui a montré que les préjugés sociaux émergent avec un très grand nombre de paramètres. "Les grands modèles deviennent brusquement plus biaisés. Si ce risque n'est pas pris en compte, il pourrait compromettre les sujets de ces modèles."

Mais il propose un contrepoint : Lorsque les chercheurs demandent simplement au modèle de ne pas se fier aux stéréotypes ou aux préjugés sociaux - littéralement en tapant ces instructions - le modèle devient moins biaisé dans ses prédictions et ses réponses. Ce qui suggère que certaines propriétés émergentes pourraient également être utilisées pour réduire les biais. Dans un article publié en février, l'équipe d'Anthropic a présenté un nouveau mode d'"autocorrection morale", dans lequel l'utilisateur incite le programme à être utile, honnête et inoffensif.

Selon M. Ganguli, l'émergence révèle à la fois un potentiel surprenant et un risque imprévisible. Les applications de ces grands LLM prolifèrent déjà, de sorte qu'une meilleure compréhension de cette interaction permettra d'exploiter la diversité des capacités des modèles de langage.

"Nous étudions la manière dont les gens utilisent réellement ces systèmes", a déclaré M. Ganguli. Mais ces utilisateurs sont également en train de bricoler, en permanence. "Nous passons beaucoup de temps à discuter avec nos modèles, et c'est là que nous commençons à avoir une bonne intuition de la confiance ou du manque de confiance.

Auteur: Ornes Stephen

Info: https://www.quantamagazine.org/ - 16 mars 2023. Trad DeepL et MG

[ dialogue ] [ apprentissage automatique ] [ au-delà du jeu d'imitation ] [ dualité ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

homme-machine

Chat GPT ou le perroquet grammairien

L’irruption des IA conversationnelles dans la sphère publique a conféré une pertinence supplémentaire aux débats sur le langage humain et sur ce qu’on appelle parler. Notamment, les IA redonnent naissance à un débat ancien sur la grammaire générative et sur l’innéisme des facultés langagières. Mais les grands modèles de langage et les IA neuronales nous offrent peut-être l’occasion d’étendre le domaine de la réflexion sur l’architecture des systèmes possibles de cognition, de communication et d’interaction, et considérant aussi la façon dont les animaux communiquent.

a capacité de ChatGPT à produire des textes en réponse à n’importe quelle requête a immédiatement attiré l’attention plus ou moins inquiète d’un grand nombre de personnes, les unes animées par une force de curiosité ou de fascination, et les autres, par un intérêt professionnel.

L’intérêt professionnel scientifique que les spécialistes du langage humain peuvent trouver aux Large Language Models ne date pas d’hier : à bien des égards, des outils de traduction automatique comme DeepL posaient déjà des questions fondamentales en des termes assez proches. Mais l’irruption des IA conversationnelles dans la sphère publique a conféré une pertinence supplémentaire aux débats sur ce que les Large Language Models sont susceptibles de nous dire sur le langage humain et sur ce qu’on appelle parler.

L’outil de traduction DeepL (ou les versions récentes de Google Translate) ainsi que les grands modèles de langage reposent sur des techniques d’" apprentissage profond " issues de l’approche " neuronale " de l’Intelligence Artificielle : on travaille ici sur des modèles d’IA qui organisent des entités d’information minimales en les connectant par réseaux ; ces réseaux de connexion sont entraînés sur des jeux de données considérables, permettant aux liaisons " neuronales " de se renforcer en proportion des probabilités de connexion observées dans le jeu de données réelles – c’est ce rôle crucial de l’entraînement sur un grand jeu de données qui vaut aux grands modèles de langage le sobriquet de " perroquets stochastiques ". Ces mécanismes probabilistes sont ce qui permet aussi à l’IA de gagner en fiabilité et en précision au fil de l’usage. Ce modèle est qualifié de " neuronal " car initialement inspiré du fonctionnement des réseaux synaptiques. Dans le cas de données langagières, à partir d’une requête elle-même formulée en langue naturelle, cette technique permet aux agents conversationnels ou aux traducteurs neuronaux de produire très rapidement des textes généralement idiomatiques, qui pour des humains attesteraient d’un bon apprentissage de la langue.

IA neuronales et acquisition du langage humain

Au-delà de l’analogie " neuronale ", ce mécanisme d’entraînement et les résultats qu’il produit reproduisent les théories de l’acquisition du langage fondées sur l’interaction avec le milieu. Selon ces modèles, généralement qualifiés de comportementalistes ou behavioristes car étroitement associés aux théories psychologiques du même nom, l’enfant acquiert le langage par l’exposition aux stimuli linguistiques environnants et par l’interaction (d’abord tâtonnante, puis assurée) avec les autres. Progressivement, la prononciation s’aligne sur la norme majoritaire dans l’environnement individuel de la personne apprenante ; le vocabulaire s’élargit en fonction des stimuli ; l’enfant s’approprie des structures grammaticales de plus en plus contextes ; et en milieu bilingue, les enfants apprennent peu à peu à discriminer les deux ou plusieurs systèmes auxquels ils sont exposés. Cette conception essentiellement probabiliste de l’acquisition va assez spontanément de pair avec des théories grammaticales prenant comme point de départ l’existence de patrons (" constructions ") dont la combinatoire constitue le système. Dans une telle perspective, il n’est pas pertinent qu’un outil comme ChatGPT ne soit pas capable de référer, ou plus exactement qu’il renvoie d’office à un monde possible stochastiquement moyen qui ne coïncide pas forcément avec le monde réel. Cela ne change rien au fait que ChatGPT, DeepL ou autres maîtrisent le langage et que leur production dans une langue puisse être qualifiée de langage : ChatGPT parle.

Mais ce point de vue repose en réalité sur un certain nombre de prémisses en théorie de l’acquisition, et fait intervenir un clivage lancinant au sein des sciences du langage. L’actualité de ces dernières années et surtout de ces derniers mois autour des IA neuronales et génératives redonne à ce clivage une acuité particulière, ainsi qu’une pertinence nouvelle pour l’appréhension de ces outils qui transforment notre rapport au texte et au discours. La polémique, comme souvent (trop souvent ?) quand il est question de théorie du langage et des langues, se cristallise – en partie abusivement – autour de la figure de Noam Chomsky et de la famille de pensée linguistique très hétérogène qui se revendique de son œuvre, généralement qualifiée de " grammaire générative " même si le pluriel (les grammaires génératives) serait plus approprié.

IA générative contre grammaire générative

Chomsky est à la fois l’enfant du structuralisme dans sa variante états-unienne et celui de la philosophie logique rationaliste d’inspiration allemande et autrichienne implantée sur les campus américains après 1933. Chomsky est attaché à une conception forte de la logique mathématisée, perçue comme un outil d’appréhension des lois universelles de la pensée humaine, que la science du langage doit contribuer à éclairer. Ce parti-pris que Chomsky qualifiera lui-même de " cartésien " le conduit à fonder sa linguistique sur quelques postulats psychologiques et philosophiques, dont le plus important est l’innéisme, avec son corollaire, l’universalisme. Selon Chomsky et les courants de la psychologie cognitive influencée par lui, la faculté de langage s’appuie sur un substrat génétique commun à toute l’espèce humaine, qui s’exprime à la fois par un " instinct de langage " mais aussi par l’existence d’invariants grammaticaux, identifiables (via un certain niveau d’abstraction) dans toutes les langues du monde.

La nature de ces universaux fluctue énormément selon quelle période et quelle école du " générativisme " on étudie, et ce double postulat radicalement innéiste et universaliste reste très disputé aujourd’hui. Ces controverses mettent notamment en jeu des conceptions très différentes de l’acquisition du langage et des langues. Le moment fondateur de la théorie chomskyste de l’acquisition dans son lien avec la définition même de la faculté de langage est un violent compte-rendu critique de Verbal Behavior, un ouvrage de synthèse des théories comportementalistes en acquisition du langage signé par le psychologue B.F. Skinner. Dans ce compte-rendu publié en 1959, Chomsky élabore des arguments qui restent structurants jusqu’à aujourd’hui et qui définissent le clivage entre l’innéisme radical et des théories fondées sur l’acquisition progressive du langage par exposition à des stimuli environnementaux. C’est ce clivage qui préside aux polémiques entre linguistes et psycholinguistes confrontés aux Large Language Models.

On comprend dès lors que Noam Chomsky et deux collègues issus de la tradition générativiste, Ian Roberts, professeur de linguistique à Cambridge, et Jeffrey Watumull, chercheur en intelligence artificielle, soient intervenus dans le New York Times dès le 8 mars 2023 pour exposer un point de vue extrêmement critique intitulée " La fausse promesse de ChatGPT ". En laissant ici de côté les arguments éthiques utilisés dans leur tribune, on retiendra surtout l’affirmation selon laquelle la production de ChatGPT en langue naturelle ne pourrait pas être qualifiée de " langage " ; ChatGPT, selon eux, ne parle pas, car ChatGPT ne peut pas avoir acquis la faculté de langage. La raison en est simple : si les Grands Modèles de Langage reposent intégralement sur un modèle behaviouriste de l’acquisition, dès lors que ce modèle, selon eux, est réfuté depuis soixante ans, alors ce que font les Grands Modèles de Langage ne peut être qualifié de " langage ".

Chomsky, trop têtu pour qu’on lui parle ?

Le point de vue de Chomsky, Roberts et Watumull a été instantanément tourné en ridicule du fait d’un choix d’exemple particulièrement malheureux : les trois auteurs avançaient en effet que certaines constructions syntaxiques complexes, impliquant (dans le cadre générativiste, du moins) un certain nombre d’opérations sur plusieurs niveaux, ne peuvent être acquises sur la base de l’exposition à des stimuli environnementaux, car la fréquence relativement faible de ces phénomènes échouerait à contrebalancer des analogies formelles superficielles avec d’autres tournures au sens radicalement différent. Dans la tribune au New York Times, l’exemple pris est l’anglais John is too stubborn to talk to, " John est trop entêté pour qu’on lui parle ", mais en anglais on a littéralement " trop têtu pour parler à " ; la préposition isolée (ou " échouée ") en position finale est le signe qu’un constituant a été supprimé et doit être reconstitué aux vues de la structure syntaxique d’ensemble. Ici, " John est trop têtu pour qu’on parle à [John] " : le complément supprimé en anglais l’a été parce qu’il est identique au sujet de la phrase.

Ce type d’opérations impliquant la reconstruction d’un complément d’objet supprimé car identique au sujet du verbe principal revient dans la plupart des articles de polémique de Chomsky contre la psychologie behaviouriste et contre Skinner dans les années 1950 et 1960. On retrouve même l’exemple exact de 2023 dans un texte du début des années 1980. C’est en réalité un exemple-type au service de l’argument selon lequel l’existence d’opérations minimales universelles prévues par les mécanismes cérébraux humains est nécessaire pour l’acquisition complète du langage. Il a presque valeur de shibboleth permettant de séparer les innéistes et les comportementalistes. Il est donc logique que Chomsky, Roberts et Watumull avancent un tel exemple pour énoncer que le modèle probabiliste de l’IA neuronale est voué à échouer à acquérir complètement le langage.

On l’aura deviné : il suffit de demander à ChatGPT de paraphraser cette phrase pour obtenir un résultat suggérant que l’agent conversationnel a parfaitement " compris " le stimulus. DeepL, quand on lui demande de traduire cette phrase en français, donne deux solutions : " John est trop têtu pour qu’on lui parle " en solution préférée et " John est trop têtu pour parler avec lui " en solution de remplacement. Hors contexte, donc sans qu’on sache qui est " lui ", cette seconde solution n’est guère satisfaisante. La première, en revanche, fait totalement l’affaire.

Le détour par DeepL nous montre toutefois la limite de ce petit test qui a pourtant réfuté Chomsky, Roberts et Watumull : comprendre, ici, ne veut rien dire d’autre que " fournir une paraphrase équivalente ", dans la même langue (dans le cas de l’objection qui a immédiatement été faite aux trois auteurs) ou dans une autre (avec DeepL), le problème étant que les deux équivalents fournis par DeepL ne sont justement pas équivalents entre eux, puisque l’un est non-ambigu référentiellement et correct, tandis que l’autre est potentiellement ambigu référentiellement, selon comment on comprend " lui ". Or l’argument de Chomsky, Roberts et Watumull est justement celui de l’opacité du complément d’objet… Les trois auteurs ont bien sûr été pris à défaut ; reste que le test employé, précisément parce qu’il est typiquement behaviouriste (observer extérieurement l’adéquation d’une réaction à un stimulus), laisse ouverte une question de taille et pourtant peu présente dans les discussions entre linguistes : y a-t-il une sémantique des énoncés produits par ChatGPT, et si oui, laquelle ? Chomsky et ses co-auteurs ne disent pas que ChatGPT " comprend " ou " ne comprend pas " le stimulus, mais qu’il en " prédit le sens " (bien ou mal). La question de la référence, présente dans la discussion philosophique sur ChatGPT mais peu mise en avant dans le débat linguistique, n’est pas si loin.

Syntaxe et sémantique de ChatGPT

ChatGPT a une syntaxe et une sémantique : sa syntaxe est homologue aux modèles proposés pour le langage naturel invoquant des patrons formels quantitativement observables. Dans ce champ des " grammaires de construction ", le recours aux données quantitatives est aujourd’hui standard, en particulier en utilisant les ressources fournies par les " grand corpus " de plusieurs dizaines de millions voire milliards de mots (quinze milliards de mots pour le corpus TenTen francophone, cinquante-deux milliards pour son équivalent anglophone). D’un certain point de vue, ChatGPT ne fait que répéter la démarche des modèles constructionalistes les plus radicaux, qui partent de co-occurrences statistiques dans les grands corpus pour isoler des patrons, et il la reproduit en sens inverse, en produisant des données à partir de ces patrons.

Corrélativement, ChatGPT a aussi une sémantique, puisque ces théories de la syntaxe sont majoritairement adossées à des modèles sémantiques dits " des cadres " (frame semantics), dont l’un des inspirateurs n’est autre que Marvin Minsky, pionnier de l’intelligence artificielle s’il en est : la circulation entre linguistique et intelligence artificielle s’inscrit donc sur le temps long et n’est pas unilatérale. Là encore, la question est plutôt celle de la référence : la sémantique en question est très largement notionnelle et ne permet de construire un énoncé susceptible d’être vrai ou faux qu’en l’actualisant par des opérations de repérage (ne serait-ce que temporel) impliquant de saturer grammaticalement ou contextuellement un certain nombre de variables " déictiques ", c’est-à-dire qui ne se chargent de sens que mises en relation à un moi-ici-maintenant dans le discours.

On touche ici à un problème transversal aux clivages dessinés précédemment : les modèles " constructionnalistes " sont plus enclins à ménager des places à la variation contextuelle, mais sous la forme de variables situationnelles dont l’intégration à la description ne fait pas consensus ; les grammaires génératives ont très longtemps évacué ces questions hors de leur sphère d’intérêt, mais les considérations pragmatiques y fleurissent depuis une vingtaine d’années, au prix d’une convocation croissante du moi-ici-maintenant dans l’analyse grammaticale, du moins dans certains courants. De ce fait, l’inscription ou non des enjeux référentiels et déictiques dans la définition même du langage comme faculté humaine représente un clivage en grande partie indépendant de celui qui prévaut en matière de théorie de l’acquisition.

À l’école du perroquet

La bonne question, en tout cas la plus féconde pour la comparaison entre les productions langagières humaines et les productions des grands modèles de langage, n’est sans doute pas de savoir si " ChatGPT parle " ni si les performances de l’IA neuronale valident ou invalident en bloc tel ou tel cadre théorique. Une piste plus intéressante, du point de vue de l’étude de la cognition et du langage humains, consiste à comparer ces productions sur plusieurs niveaux : les mécanismes d’acquisition ; les régularités sémantiques dans leur diversité, sans les réduire aux questions de référence et faisant par exemple intervenir la conceptualisation métaphorique des entités et situations désignées ; la capacité à naviguer entre les registres et les variétés d’une même langue, qui fait partie intégrante de la maîtrise d’un système ; l’adaptation à des ontologies spécifiques ou à des contraintes communicatives circonstancielles… La formule du " perroquet stochastique ", prise au pied de la lettre, indique un modèle de ce que peut être une comparaison scientifique du langage des IA et du langage humain.

Il existe en effet depuis plusieurs décennies maintenant une linguistique, une psycholinguistique et une pragmatique de la communication animale, qui inclut des recherches comparant l’humain et l’animal. Les progrès de l’étude de la communication animale ont permis d’affiner la compréhension de la faculté de langage, des modules qui la composent, de ses prérequis cognitifs et physiologiques. Ces travaux ne nous disent pas si " les animaux parlent ", pas plus qu’ils ne nous disent si la communication des corbeaux est plus proche de celle des humains que celle des perroquets. En revanche ils nous disent comment diverses caractéristiques éthologiques, génétiques et cognitives sont distribuées entre espèces et comment leur agencement produit des modes de communication spécifiques. Ces travaux nous renseignent, en nous offrant un terrain d’expérimentation inédit, sur ce qui fait toujours système et sur ce qui peut être disjoint dans la faculté de langage. Loin des " fausses promesses ", les grands modèles de langage et les IA neuronales nous offrent peut-être l’occasion d’étendre le domaine de la réflexion sur l’architecture des systèmes possibles de cognition, de communication et d’interaction.

Auteur: Modicom Pierre-Yves

Info: https://aoc.media/ 14 nov 2023

[ onomasiologie bayésienne ] [ sémiose homme-animal ] [ machine-homme ] [ tiercités hors-sol ] [ signes fixés externalisables ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

homme-animal

CAPACITÉS COGNITIVES DU DAUPHIN

Au-delà de leur physiologie cérébrale, les dauphins font preuve de capacités extrêmement rares dans le domaine animal. Comme les humains, les dauphins peuvent imiter, aussi bien sur le mode gestuel que sur le mode vocal, ce qui est soi est déjà exceptionnel. Si certains oiseaux peuvent imiter la voix, ils n’imitent pas les attitudes. Les singes, de leur côté, imitent les gestes et non les mots. Le dauphin est capable des deux. Les dauphins chassent les poissons et se nourrissent d’invertébrés, mais ils usent pour ce faire de techniques complexes et variables, acquises durant l’enfance grâce à l’éducation. L’usage des outils ne leur est pas inconnu : un exemple frappant de cette capacité est la façon dont deux dauphins captifs s’y sont pris pour extraire une murène cachée dans le creux d’un rocher à l’intérieur de leur bassin. L’un d’eux a d’abord attrapé un petit poisson scorpion très épineux, qui passait dans le secteur, et l’ayant saisi dans son rostre, s’en est servi comme d’un outil pour extraire la murène de sa cachette. S’exprimant à propos de leur intelligence, le Dr Louis M.Herman, Directeur du Kewalo Basin Marine Mammal Laboratory de l’Université d’Hawaii, note que les dauphins gardent en mémoire des événements totalement arbitraires, sans le moindre rapport avec leur environnement naturel et sans aucune incidence biologique quant à leur existence.

Recherches sur le langage des dauphins

Beaucoup d’humains trouvent intrigante l’idée de communiquer avec d’autres espèces. A cet égard, le dauphin constitue un sujet attractif, particulièrement dans le domaine du langage animal, du fait de ses capacités cognitives et de son haut degré de socialisation. Dès le début des années soixante, c’est le neurologue John Lilly qui, le premier, s’est intéressé aux vocalisations des cétacés. Les recherches de Lilly se poursuivirent durant toute une décennie, tout en devenant de moins en moins conventionnelles. Le savant alla même jusqu’à tester les effets du L.S.D. sur les émissions sonores des dauphins et dut finalement interrompre ses recherches en 1969, lorsque cinq de ses dauphins se suicidèrent en moins de deux semaines. Malheureusement, nombre de découvertes ou de déclarations de John Lilly sont franchement peu crédibles et ont jeté le discrédit sur l’ensemble des recherches dans le domaine du langage animal. De ce fait, ces recherches sont aujourd’hui rigoureusement contrôlées et très méticuleuses, de sorte que les assertions des scientifiques impliquées dans ce secteur restent désormais extrêmement réservées.

Louis Herman est sans doute l’un des plus importants chercheurs à mener des études sur la communication et les capacités cognitives des dauphins. Son instrument de travail privilégié est la création de langues artificielles, c’est-à-dire de langages simples crées pour l’expérience, permettant d’entamer des échanges avec les dauphins. Louis Herman a surtout concentré ses travaux sur le phénomène de la "compréhension" du langage bien plus que sur la "production" de langage, arguant que la compréhension est le premier signe d’une compétence linguistique chez les jeunes enfants et qu’elle peut être testée de façon rigoureuse. En outre, la structure grammaticale qui fonde les langages enseignés s’inspire le plus souvent de celle de l’anglais. Certains chercheurs ont noté qu’il aurait été mieux venu de s’inspirer davantage de langues à tons ou à flexions, comme le chinois, dont la logique aurait parue plus familière aux cétacés. Dans les travaux d’Herman, on a appris à deux dauphins, respectivement nommés Akeakamai (Ake) et Phoenix, deux langues artificielles. Phoenix a reçu l’enseignement d’un langage acoustique produit par un générateur de sons électroniques. Akeakamai, en revanche, a du apprendre un langage gestuel (version simplifiée du langage des sourds-muets), c’est-à-dire visuel. Les signaux de ces langues artificiels représentent des objets, des modificateurs d’objet (proche, loin, gros, petit, etc.) ou encore des actions. Ni les gestes ni les sons ne sont sensés représenter de façon analogique les objets ou les termes relationnels auxquels ils se réfèrent. Ces langages utilisent également une syntaxe, c’est-à-dire des règles de grammaire simples, ce qui signifie que l’ordre des mots influe sur le sens de la phrase. Phoenix a appris une grammaire classique, enchaînant les termes de gauche à droite (sujet-verbe-complément) alors que la grammaire enseignée à Ake allait dans l’autre sens et exigeait de sa part qu’elle voit l’ensemble du message avant d’en comprendre le sens correctement. Par exemple, dans le langage gestuel de Ake, la séquence des signaux PIPE-SURFBOARD-FETCH ("tuyau – planche à surf – apporter") indiquait l’ordre d’amener la planche de surf jusqu’au tuyau, alors que SURFBOARD-PIPE-FETCH ("planche-tuyau- rapporter") signifiait qu’il fallait, au contraire, amener le tuyau jusqu’ à la planche de surf. Phoenix et Ake ont ainsi appris environ 50 mots, lesquels, permutés l’un avec l’autre au sein de séquences courtes, leur permirent bientôt de se servir couramment de plus de mille phrases, chacune produisant une réponse neuve et non apprise.

Compte tenu de l’influence possible de la position dans l’espace des expérimentateurs sur l’expérimentation, les lieux d’apprentissage et les entraîneurs se voyaient changés de session en session. Dans le même temps, des observateurs "aveugles", qui ne connaissaient pas les ordres et ne voyaient pas les entraîneurs, notaient simplement le comportement des dauphins, afin de vérifier ensuite qu’il correspondait bien aux commandes annoncées. Les entraîneurs allaient jusqu’à porter des cagoules noires, afin de ne révéler aucune expression ou intention faciale et se tenaient immobiles, à l’exception des mains. Les dauphins se montrèrent capables de reconnaître les signaux du langage gestuels aussi bien lorsqu’il étaient filmés puis rediffusés sur un écran vidéo que lorsque ces mêmes signes étaient exécutés à l’air libre par l’entraîneur. Même le fait de ne montrer que des mains pâles sur un fond noir ou des taches de lumière blanche reproduisant la dynamique des mains, a largement suffi aux dauphins pour comprendre le message ! Il semble donc que les dauphins répondent davantage aux symboles abstraits du langage qu’à tout autre élément de la communication.

Par ailleurs, si les dauphins exécutent aisément les ordres qu’on leur donne par cette voie gestuelle, ils peuvent également répondre de façon correcte à la question de savoir si un objet précis est présent ou absent, en pressant le levier approprié (le clair pour PRESENT, le sombre pour ABSENT). Ceci démontre évidement leur faculté de "déplacement mental", qui consiste à manipuler l’image d’objets qui ne se trouvent pas dans les environs. Des expériences additionnelles ont conduit à préciser comment le dauphin conçoit l’étiquetage des objets, comment il les qualifie de son point de vue mental. "Nous avons constaté" nous apprend Louis Herman, "qu’au regard du dauphin, le signe CERCEAU n’est pas seulement le cerceau précis utilisé dans le cadre de cette expérience précise, c’est plutôt TOUT OBJET DE GRANDE TAILLE PERCE D’UN GRAND TROU AU MILIEU. Un seul concept général associe donc pour le dauphin les cerceaux ronds, carrés, grands et petits, flottants ou immergés, que l’on utilise généralement lors de la plupart des expériences". Parmi les choses que le Dr Herman estime n’avoir pu enseigner aux dauphins, il y a le concept du "non" en tant que modificateur logique. L’ordre de "sauter au-dessus d’une non-balle" indique en principe que le dauphin doit sauter au-dessus de n’importe quoi, sauf d’une balle ! Mais cela n’est pas compris, pas plus, affirme toujours Herman, que le concept de "grand" ou de "petit".

Communication naturelle chez les dauphins

On sait que les dauphins émettent de nombreux sifflements, de nature très diverse. La fonction de la plupart d’entre eux demeure toujours inconnue mais on peut affirmer aujourd’hui que la moitié d’entre eux au moins constitue des "signatures sifflées". Un tel signal se module dans une fourchette de 5 à 20 kilohertz et dure moins d’une seconde. Il se distingue des autres sifflements - et de la signature de tous les autres dauphins – par ses contours particuliers et ses variations de fréquences émises sur un temps donné, ainsi que le montrent les sonogrammes. Les jeunes développent leur propre signature sifflée entre l’âge de deux mois et d’un an. Ces sifflements resteront inchangés douze ans au moins et le plus souvent pour la durée entière de la vie de l’animal. Par ailleurs, au-delà de leur seule fonction nominative, certains des sifflements du dauphin apparaissent comme de fidèles reproductions de ceux de leurs compagnons et servent manifestement à interpeller les autres par leur nom. Lorsqu’ils sont encore très jeunes, les enfants mâles élaborent leur propre signature sifflée, qui ressemble fort à celle de leur mère. En revanche, les jeunes femelles doivent modifier les leurs, précisément pour se distinguer de leur mère.

Ces différences reflètent sans doute celles qui existent dans les modes de vie des femelles et des mâles. Puisque les filles élèvent leur propre enfant au sein du groupe maternel, un sifflement distinct est donc indispensable pour pouvoir distinguer la maman de la grand mère. La signature sifflée masculine, presque identique à celle de la mère, permet tout au contraire d’éviter l’inceste et la consanguinité. Le psychologue James Ralston et l’informaticien Humphrey Williams ont découvert que la signature sifflée pouvait véhiculer bien plus que la simple identité du dauphin qui l’émet. En comparant les sonogrammes des signatures sifflées durant les activités normales et lors de situations stressantes, ils découvrirent que la signature sifflée, tout en conservant sa configuration générale, pouvait changer en termes de tonalité et de durée et transmettre ainsi des informations sur l’état émotionnel de l’animal. Les modifications causé par cet état émotionnel sur les intonations de la signature varient en outre selon les individus. Les dauphins semblent donc utiliser les sifflement pour maintenir le contact lorsqu’ils se retrouvent entre eux ou lorsqu’ils rencontrent d’autres groupes, mais aussi, sans doute, pour coordonner leur activités collectives. Par exemple, des sifflements sont fréquemment entendus lorsque le groupe entier change de direction ou d’activité.

De son côté, Peter Tyack (Woods Hole Oceanographic Institute) a travaillé aux côtés de David Staelin, professeur d’ingénierie électronique au M.I.T., afin de développer un logiciel d’ordinateur capable de détecter les "matrices sonores" et les signaux répétitifs parmi le concert de couinements, piaulements et autres miaulements émis par les dauphins. Une recherche similaire est menée par l’Université de Singapore (Dolphin Study Group). Avec de tels outils, les chercheurs espèrent en apprendre davantage sur la fonction précise des sifflements.

Dauphins sociaux

Les observations menées sur des individus sauvages aussi bien qu’en captivité révèlent un très haut degré d’ordre social dans la société dauphin. Les femelles consacrent un an à leur grossesse et puis les trois années suivantes à élever leur enfant. Les jeunes s’éloignent en effet progressivement de leur mère dès leur troisième année, restant près d’elle jusqu’à six ou dix ans ! – et rejoignent alors un groupe mixte d’adolescents, au sein duquel ils demeurent plusieurs saisons. Parvenus à l’âge pleinement adulte, vers 15 ans en moyenne, les mâles ne reviennent plus que rarement au sein du "pod" natal. Cependant, à l’intérieur de ces groupes d’adolescents, des liens étroits se nouent entre garçons du même âge, qui peuvent persister la vie entière. Lorsque ces mâles vieillissent, ils ont tendance à s’associer à une bande de femelles afin d’y vivre une paisible retraite. Bien que les dauphins pratiquent bien volontiers la promiscuité sexuelle, les familles matriarcales constituent de fortes unités de base de la société dauphin. Lorsqu’une femelle donne naissance à son premier enfant, elle rejoint généralement le clan de sa propre mère et élève son delphineau en compagnie d’autres bébés, nés à la même saison. La naissance d’un nouveau-né donne d’ailleurs souvent lieu à des visites d’autres membres du groupe, mâles ou femelles, qui s’étaient séparés de leur mère depuis plusieurs années. Les chercheurs ont également observé des comportements de "baby-sitting", de vieilles femelles, des soeurs ou bien encore d’autres membres du groupe, voire même un ancien mâle prenant alors en charge la surveillance des petits. On a ainsi pu observer plusieurs dauphins en train de mettre en place une véritable "cour de récréation", les femelles se plaçant en U et les enfants jouant au milieu ! (D’après un texte du Dr Poorna Pal)

Moi, dauphin.

Mais qu’en est-il finalement de ce moi central au coeur de ce monde circulaire sans relief, sans couleurs constitué de pixels sonores ? C’est là que les difficultés deviennent insurmontables tant qu’un "contact" n’aura pas été vraiment établi par le dialogue car le "soi" lui-même, le "centre de la personne" est sans doute construit de façon profondément différente chez l’homme et chez le dauphin. H.Jerison parle carrément d’une "conscience collective". Les mouvements de groupe parfaitement coordonnés et quasi-simultanés, à l’image des bancs de poissons ou des troupeaux de gnous, que l’on observe régulièrement chez eux, suppose à l’évidence une pensée "homogène" au groupe, brusquement transformé en une "personne plurielle". On peut imaginer ce sentiment lors d’un concert de rock ou d’une manifestation, lorsqu’une foule entière se tend vers un même but mais ces attitudes-là sont grossières, globales, peu nuancées. Toute autre est la mise à l’unisson de deux, trois, cinq (les "gangs" de juvéniles mâles associés pour la vie) ou même de plusieurs centaines de dauphins ensemble (de formidables "lignes de front" pour la pêche, qui s’étendent sur des kilomètres) et là, bien sûr, nous avons un comportement qui traduit un contenu mental totalement inconnu de nous. On sait que lorsqu’un dauphin voit, tout le monde l’entend. En d’autres termes chaque fois qu’un membre du groupe focalise son faisceau de clicks sur une cible quelconque, l’écho lui revient mais également à tous ceux qui l’entourent. Imaginons que de la même manière, vous regardiez un beau paysage. La personne qui vous tournerait le dos et se tiendrait à l’arrière derrière vous pourrait le percevoir alors aussi bien que vous le faites. Cette vision commune, qui peut faire croire à de la télépathie, n’est pas sans conséquence sur le contenu mental de chaque dauphin du groupe, capable de fusionner son esprit à ceux des autres quand la nécessité s’en fait sentir. Ceci explique sans doute la formidable capacité d’empathie des dauphins mais aussi leur fidélité "jusqu’à la mort" quand il s’agit de suivre un compagnon qui s’échoue. Chez eux, on ne se sépare pas plus d’un ami en détresse qu’on ne se coupe le bras quand il est coincé dans une portière de métro ! En d’autres circonstances, bien sûr, le dauphin voyage seul et il "rassemble" alors sa conscience en un soi individualisé, qui porte un nom, fait des choix et s’intègre dans une lignée. Il en serait de même pour l’homme si les mots pouvaient faire surgir directement les images qu’ils désignent dans notre cerveau, sans passer par le filtre d’une symbolisation intermédiaire. Si quelqu’un me raconte sa journée, je dois d’abord déchiffrer ses mots, les traduire en image et ensuite me les "représenter". Notre système visuel étant indépendant de notre système auditif, un processus de transformation préalable est nécessaire à la prise de conscience du message. Au contraire, chez le dauphin, le système auditif est à la fois un moyen de communication et un moyen de cognition "constructiviste" (analyse sensorielle de l’environnement). La symbolisation n’est donc pas nécessaire aux transferts d’images, ce qui n’empêche nullement qu’elle puisse exister au niveau des concepts abstraits. Quant à cette conscience fusion-fission, cet "ego fluctuant à géométrie variable", ils préparent tout naturellement le dauphin à s’ouvrir à d’autres consciences que la sienne. D’où sans doute, son besoin de nous sonder, de nous comprendre et de nous "faire" comprendre. Un dauphin aime partager son cerveau avec d’autres, tandis que l’homme vit le plus souvent enfermé dans son crâne. Ces êtres-là ont décidément beaucoup à nous apprendre...

Auteur: Internet

Info: http://www.dauphinlibre.be/dauphins-cerveau-intelligence-et-conscience-exotiques

[ comparaisons ] [ mimétisme ] [ sémiotique ] [ intelligence grégaire ]

Commenter

Commentaires: 0

symphonie des équations

Des " murmurations " de courbe elliptique découvertes grâce à l'IA prennent leur envol

Les mathématiciens s’efforcent d’expliquer pleinement les comportements inhabituels découverts grâce à l’intelligence artificielle.

(photo - sous le bon angle les courbes elliptiques peuvent se rassembler comme les grands essaims d'oiseaux.)

Les courbes elliptiques font partie des objets les plus séduisants des mathématiques modernes. Elle ne semblent pas compliqués, mais forment une voie express entre les mathématiques que beaucoup de gens apprennent au lycée et les mathématiques de recherche dans leur forme la plus abstruse. Elles étaient au cœur de la célèbre preuve du dernier théorème de Fermat réalisée par Andrew Wiles dans les années 1990. Ce sont des outils clés de la cryptographie moderne. Et en 2000, le Clay Mathematics Institute a désigné une conjecture sur les statistiques des courbes elliptiques comme l'un des sept " problèmes du prix du millénaire ", chacun d'entre eux étant récompensé d'un million de dollars pour sa solution. Cette hypothèse, formulée pour la première fois par Bryan Birch et Peter Swinnerton-Dyer dans les années 1960, n'a toujours pas été prouvée.

Comprendre les courbes elliptiques est une entreprise aux enjeux élevés qui est au cœur des mathématiques. Ainsi, en 2022, lorsqu’une collaboration transatlantique a utilisé des techniques statistiques et l’intelligence artificielle pour découvrir des modèles complètement inattendus dans les courbes elliptiques, cela a été une contribution bienvenue, bien qu’inattendue. "Ce n'était qu'une question de temps avant que l'apprentissage automatique arrive à notre porte avec quelque chose d'intéressant", a déclaré Peter Sarnak , mathématicien à l'Institute for Advanced Study et à l'Université de Princeton. Au départ, personne ne pouvait expliquer pourquoi les modèles nouvellement découverts existaient. Depuis lors, dans une série d’articles récents, les mathématiciens ont commencé à élucider les raisons derrière ces modèles, surnommés " murmures " en raison de leur ressemblance avec les formes fluides des étourneaux en troupeaux, et ont commencé à prouver qu’ils ne doivent pas se produire uniquement dans des cas particuliers. exemples examinés en 2022, mais dans les courbes elliptiques plus généralement.

L'importance d'être elliptique

Pour comprendre ces modèles, il faut jeter les bases de ce que sont les courbes elliptiques et de la façon dont les mathématiciens les catégorisent.

Une courbe elliptique relie le carré d'une variable, communément écrite comme y , à la troisième puissance d'une autre, communément écrite comme x : y 2  =  x 3  + Ax + B , pour une paire de nombres A et B , tant que A et B remplissent quelques conditions simples. Cette équation définit une courbe qui peut être représentée graphiquement sur le plan, comme indiqué ci-dessous. (Photo : malgré la similitude des noms, une ellipse n'est pas une courbe elliptique.)

Introduction

Bien qu’elles semblent simples, les courbes elliptiques s’avèrent être des outils incroyablement puissants pour les théoriciens des nombres – les mathématiciens qui recherchent des modèles dans les nombres entiers. Au lieu de laisser les variables x et y s'étendre sur tous les nombres, les mathématiciens aiment les limiter à différents systèmes numériques, ce qu'ils appellent définir une courbe " sur " un système numérique donné. Les courbes elliptiques limitées aux nombres rationnels – nombres qui peuvent être écrits sous forme de fractions – sont particulièrement utiles. "Les courbes elliptiques sur les nombres réels ou complexes sont assez ennuyeuses", a déclaré Sarnak. "Seuls les nombres rationnels sont profonds."

Voici une façon qui est vraie. Si vous tracez une ligne droite entre deux points rationnels sur une courbe elliptique, l’endroit où cette ligne coupe à nouveau la courbe sera également rationnel. Vous pouvez utiliser ce fait pour définir " addition " dans une courbe elliptique, comme indiqué ci-dessous.

(Photo -  Tracez une ligne entre P et Q . Cette ligne coupera la courbe en un troisième point, R . (Les mathématiciens ont une astuce spéciale pour gérer le cas où la ligne ne coupe pas la courbe en ajoutant un " point à l'infini ".) La réflexion de R sur l' axe des x est votre somme P + Q . Avec cette opération d'addition, toutes les solutions de la courbe forment un objet mathématique appelé groupe.)

Les mathématiciens l'utilisent pour définir le " rang " d'une courbe. Le rang d'une courbe est lié au nombre de solutions rationnelles dont elle dispose. Les courbes de rang 0 ont un nombre fini de solutions. Les courbes de rang supérieur ont un nombre infini de solutions dont la relation les unes avec les autres à l'aide de l'opération d'addition est décrite par le rang.

Les classements (rankings) ne sont pas bien compris ; les mathématiciens n'ont pas toujours le moyen de les calculer et ne savent pas quelle taille ils peuvent atteindre. (Le plus grand rang exact connu pour une courbe spécifique est 20.) Des courbes d'apparence similaire peuvent avoir des rangs complètement différents.

Les courbes elliptiques ont aussi beaucoup à voir avec les nombres premiers, qui ne sont divisibles que par 1 et par eux-mêmes. En particulier, les mathématiciens examinent les courbes sur des corps finis – des systèmes d’arithmétique cyclique définis pour chaque nombre premier. Un corps fini est comme une horloge dont le nombre d'heures est égal au nombre premier : si vous continuez à compter vers le haut, les nombres recommencent. Dans le corps fini de 7, par exemple, 5 plus 2 est égal à zéro et 5 plus 3 est égal à 1.

(Photo : Les motifs formés par des milliers de courbes elliptiques présentent une similitude frappante avec les murmures des étourneaux.)

Une courbe elliptique est associée à une séquence de nombres, appelée a p , qui se rapporte au nombre de solutions qu'il existe à la courbe dans le corps fini défini par le nombre premier p . Un p plus petit signifie plus de solutions ; un p plus grand signifie moins de solutions. Bien que le rang soit difficile à calculer, la séquence a p est beaucoup plus simple.

Sur la base de nombreux calculs effectués sur l'un des tout premiers ordinateurs, Birch et Swinnerton-Dyer ont conjecturé une relation entre le rang d'une courbe elliptique et la séquence a p . Quiconque peut prouver qu’il avait raison gagnera un million de dollars et l’immortalité mathématique.

Un modèle surprise émerge

Après le début de la pandémie, Yang-Hui He , chercheur au London Institute for Mathematical Sciences, a décidé de relever de nouveaux défis. Il avait étudié la physique à l'université et avait obtenu son doctorat en physique mathématique du Massachusetts Institute of Technology. Mais il s'intéressait de plus en plus à la théorie des nombres et, étant donné les capacités croissantes de l'intelligence artificielle, il pensait essayer d'utiliser l'IA comme un outil permettant de trouver des modèles inattendus dans les nombres. (Il avait déjà utilisé l'apprentissage automatique pour classifier les variétés de Calabi-Yau , des structures mathématiques largement utilisées en théorie des cordes.

(Photo ) Lorsque Kyu-Hwan Lee (à gauche) et Thomas Oliver (au centre) ont commencé à travailler avec Yang-Hui He (à droite) pour utiliser l'intelligence artificielle afin de trouver des modèles mathématiques, ils s'attendaient à ce que ce soit une plaisanterie plutôt qu'un effort qui mènerait à de nouveaux découvertes. De gauche à droite : Grace Lee ; Sophie Olivier ; gracieuseté de Yang-Hui He.

En août 2020, alors que la pandémie s'aggravait, l'Université de Nottingham l'a accueilli pour une conférence en ligne . Il était pessimiste quant à ses progrès et quant à la possibilité même d’utiliser l’apprentissage automatique pour découvrir de nouvelles mathématiques. "Son récit était que la théorie des nombres était difficile parce qu'on ne pouvait pas apprendre automatiquement des choses en théorie des nombres", a déclaré Thomas Oliver , un mathématicien de l'Université de Westminster, présent dans le public. Comme il se souvient : " Je n'ai rien trouvé parce que je n'étais pas un expert. Je n’utilisais même pas les bons éléments pour examiner cela."

Oliver et Kyu-Hwan Lee , mathématicien à l'Université du Connecticut, ont commencé à travailler avec He. "Nous avons décidé de faire cela simplement pour apprendre ce qu'était l'apprentissage automatique, plutôt que pour étudier sérieusement les mathématiques", a déclaré Oliver. "Mais nous avons rapidement découvert qu'il était possible d'apprendre beaucoup de choses par machine."

Oliver et Lee lui ont suggéré d'appliquer ses techniques pour examiner les fonctions L , des séries infinies étroitement liées aux courbes elliptiques à travers la séquence a p . Ils pourraient utiliser une base de données en ligne de courbes elliptiques et de leurs fonctions L associées , appelée LMFDB , pour former leurs classificateurs d'apprentissage automatique. À l’époque, la base de données contenait un peu plus de 3 millions de courbes elliptiques sur les rationnels. En octobre 2020, ils avaient publié un article utilisant les informations glanées à partir des fonctions L pour prédire une propriété particulière des courbes elliptiques. En novembre, ils ont partagé un autre article utilisant l’apprentissage automatique pour classer d’autres objets en théorie des nombres. En décembre, ils étaient capables de prédire les rangs des courbes elliptiques avec une grande précision.

Mais ils ne savaient pas vraiment pourquoi leurs algorithmes d’apprentissage automatique fonctionnaient si bien. Lee a demandé à son étudiant de premier cycle Alexey Pozdnyakov de voir s'il pouvait comprendre ce qui se passait. En l’occurrence, la LMFDB trie les courbes elliptiques en fonction d’une quantité appelée conducteur, qui résume les informations sur les nombres premiers pour lesquels une courbe ne se comporte pas correctement. Pozdnyakov a donc essayé d’examiner simultanément un grand nombre de courbes comportant des conducteurs similaires – disons toutes les courbes comportant entre 7 500 et 10 000 conducteurs.

Cela représente environ 10 000 courbes au total. Environ la moitié d'entre eux avaient le rang 0 et l'autre moitié le rang 1. (Les rangs supérieurs sont extrêmement rares.) Il a ensuite fait la moyenne des valeurs de a p pour toutes les courbes de rang 0, a fait la moyenne séparément de a p pour toutes les courbes de rang 1 et a tracé la résultats. Les deux ensembles de points formaient deux vagues distinctes et facilement discernables. C’est pourquoi les classificateurs d’apprentissage automatique ont été capables de déterminer correctement le rang de courbes particulières.

" Au début, j'étais simplement heureux d'avoir terminé ma mission", a déclaré Pozdnyakov. "Mais Kyu-Hwan a immédiatement reconnu que ce schéma était surprenant, et c'est à ce moment-là qu'il est devenu vraiment excitant."

Lee et Oliver étaient captivés. "Alexey nous a montré la photo et j'ai dit qu'elle ressemblait à ce que font les oiseaux", a déclaré Oliver. "Et puis Kyu-Hwan l'a recherché et a dit que cela s'appelait une murmuration, puis Yang a dit que nous devrions appeler le journal ' Murmurations de courbes elliptiques '."

Ils ont mis en ligne leur article en avril 2022 et l’ont transmis à une poignée d’autres mathématiciens, s’attendant nerveusement à se faire dire que leur soi-disant « découverte » était bien connue. Oliver a déclaré que la relation était si visible qu'elle aurait dû être remarquée depuis longtemps.

Presque immédiatement, la prépublication a suscité l'intérêt, en particulier de la part d' Andrew Sutherland , chercheur scientifique au MIT et l'un des rédacteurs en chef de la LMFDB. Sutherland s'est rendu compte que 3 millions de courbes elliptiques n'étaient pas suffisantes pour atteindre ses objectifs. Il voulait examiner des gammes de conducteurs beaucoup plus larges pour voir à quel point les murmures étaient robustes. Il a extrait des données d’un autre immense référentiel d’environ 150 millions de courbes elliptiques. Toujours insatisfait, il a ensuite extrait les données d'un autre référentiel contenant 300 millions de courbes.

"Mais même cela ne suffisait pas, j'ai donc calculé un nouvel ensemble de données de plus d'un milliard de courbes elliptiques, et c'est ce que j'ai utilisé pour calculer les images à très haute résolution", a déclaré Sutherland. Les murmures indiquaient s'il effectuait en moyenne plus de 15 000 courbes elliptiques à la fois ou un million à la fois. La forme est restée la même alors qu’il observait les courbes sur des nombres premiers de plus en plus grands, un phénomène appelé invariance d’échelle. Sutherland s'est également rendu compte que les murmures ne sont pas propres aux courbes elliptiques, mais apparaissent également dans des fonctions L plus générales . Il a écrit une lettre résumant ses découvertes et l'a envoyée à Sarnak et Michael Rubinstein de l'Université de Waterloo.

"S'il existe une explication connue, j'espère que vous la connaîtrez", a écrit Sutherland.

Ils ne l'ont pas fait.

Expliquer le modèle

Lee, He et Oliver ont organisé un atelier sur les murmurations en août 2023 à l'Institut de recherche informatique et expérimentale en mathématiques (ICERM) de l'Université Brown. Sarnak et Rubinstein sont venus, tout comme l'étudiante de Sarnak, Nina Zubrilina .

LA THÉORIE DU NOMBRE

Zubrilina a présenté ses recherches sur les modèles de murmuration dans des formes modulaires , des fonctions complexes spéciales qui, comme les courbes elliptiques, sont associées à des fonctions L. Dans les formes modulaires dotées de grands conducteurs, les murmurations convergent vers une courbe nettement définie, plutôt que de former un motif perceptible mais dispersé. Dans un article publié le 11 octobre 2023, Zubrilina a prouvé que ce type de murmuration suit une formule explicite qu'elle a découverte.

" La grande réussite de Nina est qu'elle lui a donné une formule pour cela ; Je l’appelle la formule de densité de murmuration Zubrilina ", a déclaré Sarnak. "En utilisant des mathématiques très sophistiquées, elle a prouvé une formule exacte qui correspond parfaitement aux données."

Sa formule est compliquée, mais Sarnak la salue comme un nouveau type de fonction important, comparable aux fonctions d'Airy qui définissent des solutions aux équations différentielles utilisées dans divers contextes en physique, allant de l'optique à la mécanique quantique.

Bien que la formule de Zubrilina ait été la première, d'autres ont suivi. "Chaque semaine maintenant, un nouvel article sort", a déclaré Sarnak, "utilisant principalement les outils de Zubrilina, expliquant d'autres aspects des murmurations."

(Photo - Nina Zubrilina, qui est sur le point de terminer son doctorat à Princeton, a prouvé une formule qui explique les schémas de murmuration.)

Jonathan Bober , Andrew Booker et Min Lee de l'Université de Bristol, ainsi que David Lowry-Duda de l'ICERM, ont prouvé l'existence d'un type différent de murmuration sous des formes modulaires dans un autre article d'octobre . Et Kyu-Hwan Lee, Oliver et Pozdnyakov ont prouvé l'existence de murmures dans des objets appelés caractères de Dirichlet qui sont étroitement liés aux fonctions L.

Sutherland a été impressionné par la dose considérable de chance qui a conduit à la découverte des murmurations. Si les données de la courbe elliptique n'avaient pas été classées par conducteur, les murmures auraient disparu. "Ils ont eu la chance de récupérer les données de la LMFDB, qui étaient pré-triées selon le chef d'orchestre", a-t-il déclaré. « C'est ce qui relie une courbe elliptique à la forme modulaire correspondante, mais ce n'est pas du tout évident. … Deux courbes dont les équations semblent très similaires peuvent avoir des conducteurs très différents. Par exemple, Sutherland a noté que y 2 = x 3 – 11 x + 6 a un conducteur 17, mais en retournant le signe moins en signe plus, y 2 = x 3  + 11 x + 6 a un conducteur 100 736.

Même alors, les murmures n'ont été découverts qu'en raison de l'inexpérience de Pozdniakov. "Je ne pense pas que nous l'aurions trouvé sans lui", a déclaré Oliver, "parce que les experts normalisent traditionnellement a p pour avoir une valeur absolue de 1. Mais il ne les a pas normalisés… donc les oscillations étaient très importantes et visibles."

Les modèles statistiques que les algorithmes d’IA utilisent pour trier les courbes elliptiques par rang existent dans un espace de paramètres comportant des centaines de dimensions – trop nombreuses pour que les gens puissent les trier dans leur esprit, et encore moins les visualiser, a noté Oliver. Mais même si l’apprentissage automatique a découvert les oscillations cachées, " ce n’est que plus tard que nous avons compris qu’il s’agissait de murmures ".

Auteur: Internet

Info: Paul Chaikin pour Quanta Magazine, 5 mars 2024 - https://www.quantamagazine.org/elliptic-curve-murmurations-found-with-ai-take-flight-20240305/?mc_cid=797b7d1aad&mc_eid=78bedba296

[ résonance des algorithmes ] [ statistiques en mouvement ] [ chants des fractales ] [ bancs de poissons ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel