Citation
Catégorie
Tag – étiquette
Auteur
Info



nb max de mots
nb min de mots
trier par
Dictionnaire analogique intriqué pour extraits. Recherche mots ou phrases tous azimuts. Aussi outil de précision sémantique et de réflexion communautaire. Voir la rubrique mode d'emploi. Jetez un oeil à la colonne "chaînes". ATTENTION, faire une REINITIALISATION après  une recherche complexe. Et utilisez le nuage de corrélats !!!!..... Lire la suite >>
Résultat(s): 118
Temps de recherche: 0.0564s

univers protonique

À l’intérieur du Proton, " la chose la plus complexe qu'on puisse imaginer "

La particule chargée positivement au cœur de l’atome est un objet d’une complexité indescriptible, qui change d’apparence en fonction de la manière dont elle est sondée. Nous avons tenté de relier les nombreuses faces du proton pour former l'image la plus complète à ce jour.

(image : Des chercheurs ont récemment découvert que le proton comprend parfois un quark charmé et un antiquark charmé, particules colossales puisqeu chacune est plus lourde que le proton lui-même.)

Plus d’un siècle après qu’Ernest Rutherford ait découvert la particule chargée positivement au cœur de chaque atome, les physiciens ont encore du mal à comprendre pleinement le proton.

Les professeurs de physique des lycées les décrivent comme des boules sans relief contenant chacune une unité de charge électrique positive – des feuilles parfaites pour les électrons chargés négativement qui bourdonnent autour d’elles. Les étudiants apprennent que la boule est en réalité un ensemble de trois particules élémentaires appelées quarks. Mais des décennies de recherche ont révélé une vérité plus profonde, trop bizarre pour être pleinement saisie avec des mots ou des images.

"C'est la chose la plus compliquée que l'on puisse imaginer", a déclaré Mike Williams, physicien au Massachusetts Institute of Technology. "En fait, on ne peut même pas imaginer à quel point c'est compliqué."

Le proton est un objet de mécanique quantique qui existe sous la forme d’un brouillard de probabilités jusqu’à ce qu’une expérience l’oblige à prendre une forme concrète. Et ses formes diffèrent radicalement selon la manière dont les chercheurs mettent en place leur expérience. Relier les nombreux visages de la particule a été l’œuvre de plusieurs générations. "Nous commençons tout juste à comprendre ce système de manière complète", a déclaré Richard Milner , physicien nucléaire au MIT.

Alors que la poursuite se poursuit, les secrets du proton ne cessent de se dévoiler. Plus récemment, une analyse monumentale de données publiée en août a révélé que le proton contient des traces de particules appelées quarks charmés, plus lourdes que le proton lui-même.

Le proton " a été une leçon d’humilité pour les humains ", a déclaré Williams. " Chaque fois qu'on pense pouvoir maîtriser le sujet, il nous envoie des balles à trajectoires courbées (en référence aux Pitchers du baseball)

Récemment, Milner, en collaboration avec Rolf Ent du Jefferson Lab, les cinéastes du MIT Chris Boebel et Joe McMaster et l'animateur James LaPlante, ont entrepris de transformer un ensemble d'intrigues obscures qui compilent les résultats de centaines d'expériences en une série d'animations de la forme -changement de proton. Nous avons intégré leurs animations dans notre propre tentative de dévoiler ses secrets.

Ouvrir le proton

La preuve que le proton contient de telles multitudes est venue du Stanford Linear Accelerator Center (SLAC) en 1967. Dans des expériences antérieures, les chercheurs l'avaient bombardé d'électrons et les avaient regardés ricocher comme des boules de billard. Mais le SLAC pouvait projeter des électrons avec plus de force, et les chercheurs ont constaté qu'ils rebondissaient différemment. Les électrons frappaient le proton assez fort pour le briser – un processus appelé diffusion inélastique profonde – et rebondissaient sur des fragments ponctuels du proton appelés quarks. "Ce fut la première preuve de l'existence réelle des quarks", a déclaré Xiaochao Zheng , physicien à l'Université de Virginie.

Après la découverte du SLAC, qui remporta le prix Nobel de physique en 1990, l'examen minutieux du proton s'est intensifié. Les physiciens ont réalisé à ce jour des centaines d’expériences de diffusion. Ils déduisent divers aspects de l'intérieur de l'objet en ajustant la force avec laquelle ils le bombardent et en choisissant les particules dispersées qu'ils collectent par la suite.

En utilisant des électrons de plus haute énergie, les physiciens peuvent découvrir des caractéristiques plus fines du proton cible. De cette manière, l’énergie électronique définit le pouvoir de résolution maximal d’une expérience de diffusion profondément inélastique. Des collisionneurs de particules plus puissants offrent une vision plus nette du proton.

Les collisionneurs à plus haute énergie produisent également un plus large éventail de résultats de collision, permettant aux chercheurs de choisir différents sous-ensembles d'électrons sortants à analyser. Cette flexibilité s'est avérée essentielle pour comprendre les quarks, qui se déplacent à l'intérieur du proton avec différentes impulsions.

En mesurant l'énergie et la trajectoire de chaque électron diffusé, les chercheurs peuvent déterminer s'il a heurté un quark transportant une grande partie de l'impulsion totale du proton ou juste une infime partie. Grâce à des collisions répétées, ils peuvent effectuer quelque chose comme un recensement, déterminant si l'impulsion du proton est principalement liée à quelques quarks ou répartie sur plusieurs.

(Illustration qui montre les apparences du proton en fonction des types de collisions)

Même les collisions de division de protons du SLAC étaient douces par rapport aux normes actuelles. Lors de ces événements de diffusion, les électrons jaillissaient souvent d'une manière suggérant qu'ils s'étaient écrasés sur des quarks transportant un tiers de l'impulsion totale du proton. Cette découverte correspond à une théorie de Murray Gell-Mann et George Zweig, qui affirmaient en 1964 qu'un proton était constitué de trois quarks.

Le " modèle des quarks " de Gell-Mann et Zweig reste une façon élégante d'imaginer le proton. Il possède deux quarks " up " avec des charges électriques de +2/3 chacun et un quark " down " avec une charge de −1/3, pour une charge totale de protons de +1.

(Image mobile : Trois quarks sont présents dans cette animation basée sur les données.)

Mais le modèle avec des quarks est une simplification excessive qui présente de sérieuses lacunes.

Qui échoue, par exemple, lorsqu'il s'agit du spin d'un proton, une propriété quantique analogue au moment cinétique. Le proton possède une demi-unité de spin, tout comme chacun de ses quarks up et down. Les physiciens ont initialement supposé que — dans un calcul faisant écho à la simple arithmétique de charge — les demi-unités des deux quarks up moins celle du quark down devaient être égales à une demi-unité pour le proton dans son ensemble. Mais en 1988, la Collaboration européenne sur les muons a rapporté que la somme des spins des quarks était bien inférieure à la moitié. De même, les masses de deux quarks up et d’un quark down ne représentent qu’environ 1 % de la masse totale du proton. Ces déficits ont fait ressortir un point que les physiciens commençaient déjà à comprendre : le proton est bien plus que trois quarks.

Beaucoup plus que trois quarks

L'accélérateur annulaire de hadrons et d'électrons (HERA), qui a fonctionné à Hambourg, en Allemagne, de 1992 à 2007, a projeté des électrons sur des protons avec une force environ mille fois supérieure à celle du SLAC. Dans les expériences HERA, les physiciens ont pu sélectionner les électrons qui avaient rebondi sur des quarks à impulsion extrêmement faible, y compris ceux transportant aussi peu que 0,005 % de l'impulsion totale du proton. Et ils les ont détectés : Les électrons d'HERA ont rebondi sur un maelström de quarks à faible dynamique et de leurs contreparties d'antimatière, les antiquarks.

(Photo image animée : De nombreux quarks et antiquarks bouillonnent dans une " mer " de particules bouillonnantes."

Les résultats ont confirmé une théorie sophistiquée et farfelue qui avait alors remplacé le modèle des quarks de Gell-Mann et Zweig. Développée dans les années 1970, il s’agissait d’une théorie quantique de la " force forte " qui agit entre les quarks. La théorie décrit les quarks comme étant liés par des particules porteuses de force appelées gluons. Chaque quark et chaque gluon possède l'un des trois types de charges "colorées ", étiquetées rouge, verte et bleue ; ces particules chargées de couleur se tirent naturellement les unes sur les autres et forment un groupe – tel qu’un proton – dont les couleurs s’additionnent pour former un blanc neutre. La théorie colorée est devenue connue sous le nom de chromodynamique quantique, ou QCD.

Selon cette QCD, les gluons peuvent capter des pics d’énergie momentanés. Avec cette énergie, un gluon se divise en un quark et un antiquark – chacun portant juste un tout petit peu d’impulsion – avant que la paire ne s’annihile et ne disparaisse. C'est cette " mer " de gluons, de quarks et d'antiquarks transitoires qu'HERA, avec sa plus grande sensibilité aux particules de faible impulsion, a détecté de première main.

HERA a également recueilli des indices sur ce à quoi ressemblerait le proton dans des collisionneurs plus puissants. Alors que les physiciens ajustaient HERA pour rechercher des quarks à faible impulsion, ces quarks – qui proviennent des gluons – sont apparus en nombre de plus en plus grand. Les résultats suggèrent que dans des collisions à énergie encore plus élevée, le proton apparaîtrait comme un nuage composé presque entièrement de gluons. (Image)

Les gluons abondent sous une forme semblable à un nuage.

Ce pissenlit de gluon est exactement ce que prédit la QCD. "Les données HERA sont une preuve expérimentale directe que la QCD décrit la nature", a déclaré Milner.

Mais la victoire de la jeune théorie s'est accompagnée d'une pilule amère : alors que la QCD décrivait magnifiquement la danse des quarks et des gluons à durée de vie courte révélée par les collisions extrêmes d'HERA, la théorie est inutile pour comprendre les trois quarks à longue durée de vie observés suite à un plus léger bombardement du SLAC.

Les prédictions de QCD ne sont faciles à comprendre que lorsque la force forte est relativement faible. Et la force forte ne s'affaiblit que lorsque les quarks sont extrêmement proches les uns des autres, comme c'est le cas dans les paires quark-antiquark de courte durée. Frank Wilczek, David Gross et David Politzer ont identifié cette caractéristique déterminante de la QCD en 1973, remportant le prix Nobel 31 ans plus tard.

Mais pour des collisions plus douces comme celle du SLAC, où le proton agit comme trois quarks qui gardent mutuellement leurs distances, ces quarks s'attirent suffisamment fortement les uns les autres pour que les calculs de QCD deviennent impossibles. Ainsi, la tâche de démystifier plus loin une vision du proton à trois quarks incombe en grande partie aux expérimentateurs. (Les chercheurs qui mènent des " expériences numériques ", dans lesquelles les prédictions QCD sont simulées sur des superordinateurs, ont également apporté des contributions clés .) Et c'est dans ce genre d' images à basse résolution que les physiciens continuent de trouver des surprises.

Une charmante nouvelle approche

Récemment, une équipe dirigée par Juan Rojo de l'Institut national de physique subatomique des Pays-Bas et de l'Université VU d'Amsterdam a analysé plus de 5 000 instantanés de protons pris au cours des 50 dernières années, en utilisant l'apprentissage automatique pour déduire les mouvements des quarks et des gluons à l'intérieur du proton via une procédure qui évite les conjectures théoriques.

Ce nouvel examen a détecté un flou en arrière-plan dans les images qui avait échappé aux chercheurs antérieurs. Dans des collisions relativement douces, juste capables d'ouvrir à peine le proton, la majeure partie de l'impulsion était enfermée dans les trois quarks habituels : deux ups et un down. Mais une petite quantité d’impulsion semble provenir d’un quark " charmé " et d’un antiquark charmé – particules élémentaires colossales dont chacune dépasse de plus d’un tiers le proton entier.

(Image mobie : Le proton agit parfois comme une " molécule " de cinq quarks.)

Ces charmés de courte durée apparaissent fréquemment dans le panorama " mer des quarks " du proton (les gluons peuvent se diviser en six types de quarks différents s'ils ont suffisamment d'énergie). Mais les résultats de Rojo et de ses collègues suggèrent que les charmés ont une présence plus permanente, ce qui les rend détectables lors de collisions plus douces. Dans ces collisions, le proton apparaît comme un mélange quantique, ou superposition, d'états multiples : un électron rencontre généralement les trois quarks légers. Mais il rencontrera occasionnellement une " molécule " plus rare de cinq quarks, comme un quark up, down et charmé regroupés d'un côté et un quark up et un antiquark charmé de l'autre.

Des détails aussi subtils sur la composition du proton pourraient avoir des conséquences. Au Grand collisionneur de hadrons, les physiciens recherchent de nouvelles particules élémentaires en frappant ensemble des protons à grande vitesse et en observant ce qui en ressort ; Pour comprendre les résultats, les chercheurs doivent commencer par savoir ce que contient un proton. L’apparition occasionnelle de quarks charmés géants rendrait impossible la production de particules plus exotiques.

Et lorsque des protons appelés rayons cosmiques déferlent ici depuis l'espace et percutent les protons de l'atmosphère terrestre, des quarks charmés apparaissant au bon moment inonderaient la Terre de neutrinos extra-énergétiques, ont calculé les chercheurs en 2021. Cela pourrait dérouter les observateurs à la recherche de neutrinos à haute énergie provenant de tout le cosmos.

La collaboration de Rojo prévoit de poursuivre l'exploration du proton en recherchant un déséquilibre entre les quarks charmés et les antiquarks. Et des constituants plus lourds, comme le quark top, pourraient faire des apparitions encore plus rares et plus difficiles à détecter.

Les expériences de nouvelle génération rechercheront des fonctionnalités encore plus inconnues. Les physiciens du Laboratoire national de Brookhaven espèrent lancer le collisionneur électron-ion dans les années 2030 et reprendre là où HERA s'est arrêté, en prenant des instantanés à plus haute résolution qui permettront les premières reconstructions 3D du proton. L'EIC utilisera également des électrons en rotation pour créer des cartes détaillées des spins des quarks et des gluons internes, tout comme le SLAC et HERA ont cartographié leurs impulsions. Cela devrait aider les chercheurs à enfin déterminer l'origine du spin du proton et à répondre à d'autres questions fondamentales concernant cette particule déroutante qui constitue l'essentiel de notre monde quotidien.

 

Auteur: Internet

Info: https://www.quantamagazine.org/ - Charlie Bois, 19 octobre 2022

[ univers subatomique ]

 

Commentaires: 0

Ajouté à la BD par miguel

homme-machine

Comment l'IA comprend des trucs que personne ne lui lui a appris

Les chercheurs peinent à comprendre comment les modèles d'Intelligence artificielle, formés pour perroquetter les textes sur Internet, peuvent effectuer des tâches avancées comme coder, jouer à des jeux ou essayer de rompre un mariage.

Personne ne sait encore comment ChatGPT et ses cousins ​​de l'intelligence artificielle vont transformer le monde, en partie parce que personne ne sait vraiment ce qui se passe à l'intérieur. Certaines des capacités de ces systèmes vont bien au-delà de ce pour quoi ils ont été formés, et même leurs inventeurs ne savent pas pourquoi. Un nombre croissant de tests suggèrent que ces systèmes d'IA développent des modèles internes du monde réel, tout comme notre propre cerveau le fait, bien que la technique des machines soit différente.

"Tout ce que nous voulons faire avec ces systèmes pour les rendre meilleurs ou plus sûrs ou quelque chose comme ça me semble une chose ridicule à demander  si nous ne comprenons pas comment ils fonctionnent", déclare Ellie Pavlick de l'Université Brown,  un des chercheurs travaillant à combler ce vide explicatif.

À un certain niveau, elle et ses collègues comprennent parfaitement le GPT (abréviation de generative pretrained transformer) et d'autres grands modèles de langage, ou LLM. Des modèles qui reposent sur un système d'apprentissage automatique appelé réseau de neurones. De tels réseaux ont une structure vaguement calquée sur les neurones connectés du cerveau humain. Le code de ces programmes est relativement simple et ne remplit que quelques pages. Il met en place un algorithme d'autocorrection, qui choisit le mot le plus susceptible de compléter un passage sur la base d'une analyse statistique laborieuse de centaines de gigaoctets de texte Internet. D'autres algorithmes auto-apprenants supplémentaire garantissant que le système présente ses résultats sous forme de dialogue. En ce sens, il ne fait que régurgiter ce qu'il a appris, c'est un "perroquet stochastique", selon les mots d'Emily Bender, linguiste à l'Université de Washington. Mais les LLM ont également réussi à réussir l'examen pour devenir avocat, à expliquer le boson de Higgs en pentamètre iambique (forme de poésie contrainte) ou à tenter de rompre le mariage d'un utilisateurs. Peu de gens s'attendaient à ce qu'un algorithme d'autocorrection assez simple acquière des capacités aussi larges.

Le fait que GPT et d'autres systèmes d'IA effectuent des tâches pour lesquelles ils n'ont pas été formés, leur donnant des "capacités émergentes", a surpris même les chercheurs qui étaient généralement sceptiques quant au battage médiatique sur les LLM. "Je ne sais pas comment ils le font ou s'ils pourraient le faire plus généralement comme le font les humains, mais tout ça mes au défi mes pensées sur le sujet", déclare Melanie Mitchell, chercheuse en IA à l'Institut Santa Fe.

"C'est certainement bien plus qu'un perroquet stochastique, qui auto-construit sans aucun doute une certaine représentation du monde, bien que je ne pense pas que ce soit  vraiment de la façon dont les humains construisent un modèle de monde interne", déclare Yoshua Bengio, chercheur en intelligence artificielle à l'université de Montréal.

Lors d'une conférence à l'Université de New York en mars, le philosophe Raphaël Millière de l'Université de Columbia a offert un autre exemple à couper le souffle de ce que les LLM peuvent faire. Les modèles avaient déjà démontré leur capacité à écrire du code informatique, ce qui est impressionnant mais pas trop surprenant car il y a tellement de code à imiter sur Internet. Millière est allé plus loin en montrant que le GPT peut aussi réaliser du code. Le philosophe a tapé un programme pour calculer le 83e nombre de la suite de Fibonacci. "Il s'agit d'un raisonnement en plusieurs étapes d'un très haut niveau", explique-t-il. Et le robot a réussi. Cependant, lorsque Millière a demandé directement le 83e nombre de Fibonacci, GPT s'est trompé, ce qui suggère que le système ne se contentait pas de répéter ce qui se disait sur l'internet. Ce qui suggère que le système ne se contente pas de répéter ce qui se dit sur Internet, mais qu'il effectue ses propres calculs pour parvenir à la bonne réponse.

Bien qu'un LLM tourne sur un ordinateur, il n'en n'est pas un lui-même. Il lui manque des éléments de calcul essentiels, comme sa propre mémoire vive. Reconnaissant tacitement que GPT seul ne devrait pas être capable d'exécuter du code, son inventeur, la société technologique OpenAI, a depuis introduit un plug-in spécialisé -  outil que ChatGPT peut utiliser pour répondre à une requête - qui remédie à cela. Mais ce plug-in n'a pas été utilisé dans la démonstration de Millière. Au lieu de cela, ce dernier suppose plutôt que la machine a improvisé une mémoire en exploitant ses mécanismes d'interprétation des mots en fonction de leur contexte -  situation similaire à la façon dont la nature réaffecte des capacités existantes à de nouvelles fonctions.

Cette capacité impromptue démontre que les LLM développent une complexité interne qui va bien au-delà d'une analyse statistique superficielle. Les chercheurs constatent que ces systèmes semblent parvenir à une véritable compréhension de ce qu'ils ont appris. Dans une étude présentée la semaine dernière à la Conférence internationale sur les représentations de l'apprentissage (ICLR), le doctorant Kenneth Li de l'Université de Harvard et ses collègues chercheurs en intelligence artificielle, Aspen K. Hopkins du Massachusetts Institute of Technology, David Bau de la Northeastern University et Fernanda Viégas , Hanspeter Pfister et Martin Wattenberg, tous à Harvard, ont créé leur propre copie plus petite du réseau neuronal GPT afin de pouvoir étudier son fonctionnement interne. Ils l'ont entraîné sur des millions de matchs du jeu de société Othello en alimentant de longues séquences de mouvements sous forme de texte. Leur modèle est devenu un joueur presque parfait.

Pour étudier comment le réseau de neurones encodait les informations, ils ont adopté une technique que Bengio et Guillaume Alain, également de l'Université de Montréal, ont imaginée en 2016. Ils ont créé un réseau de "sondes" miniatures pour analyser le réseau principal couche par couche. Li compare cette approche aux méthodes des neurosciences. "C'est comme lorsque nous plaçons une sonde électrique dans le cerveau humain", dit-il. Dans le cas de l'IA, la sonde a montré que son "activité neuronale" correspondait à la représentation d'un plateau de jeu d'Othello, bien que sous une forme alambiquée. Pour confirmer ce résultat, les chercheurs ont inversé la sonde afin d'implanter des informations dans le réseau, par exemple en remplaçant l'un des marqueurs noirs du jeu par un marqueur blanc. "En fait, nous piratons le cerveau de ces modèles de langage", explique Li. Le réseau a ajusté ses mouvements en conséquence. Les chercheurs ont conclu qu'il jouait à Othello à peu près comme un humain : en gardant un plateau de jeu dans son "esprit" et en utilisant ce modèle pour évaluer les mouvements. Li pense que le système apprend cette compétence parce qu'il s'agit de la description la plus simple et efficace de ses données pour l'apprentissage. "Si l'on vous donne un grand nombre de scripts de jeu, essayer de comprendre la règle qui les sous-tend est le meilleur moyen de les comprimer", ajoute-t-il.

Cette capacité à déduire la structure du monde extérieur ne se limite pas à de simples mouvements de jeu ; il apparaît également dans le dialogue. Belinda Li (aucun lien avec Kenneth Li), Maxwell Nye et Jacob Andreas, tous au MIT, ont étudié des réseaux qui jouaient à un jeu d'aventure textuel. Ils ont introduit des phrases telles que "La clé est dans le coeur du trésor", suivies de "Tu prends la clé". À l'aide d'une sonde, ils ont constaté que les réseaux encodaient en eux-mêmes des variables correspondant à "coeur" et "Tu", chacune avec la propriété de posséder ou non une clé, et mettaient à jour ces variables phrase par phrase. Le système n'a aucun moyen indépendant de savoir ce qu'est une boîte ou une clé, mais il a acquis les concepts dont il avait besoin pour cette tâche."

"Une représentation de cette situation est donc enfouie dans le modèle", explique Belinda Li.

Les chercheurs s'émerveillent de voir à quel point les LLM sont capables d'apprendre du texte. Par exemple, Pavlick et sa doctorante d'alors, l'étudiante Roma Patel, ont découvert que ces réseaux absorbent les descriptions de couleur du texte Internet et construisent des représentations internes de la couleur. Lorsqu'ils voient le mot "rouge", ils le traitent non seulement comme un symbole abstrait, mais comme un concept qui a une certaine relation avec le marron, le cramoisi, le fuchsia, la rouille, etc. Démontrer cela fut quelque peu délicat. Au lieu d'insérer une sonde dans un réseau, les chercheurs ont étudié sa réponse à une série d'invites textuelles. Pour vérifier si le systhème ne faisait pas simplement écho à des relations de couleur tirées de références en ligne, ils ont essayé de le désorienter en lui disant que le rouge est en fait du vert - comme dans la vieille expérience de pensée philosophique où le rouge d'une personne correspond au vert d'une autre. Plutôt que répéter une réponse incorrecte, les évaluations de couleur du système ont évolué de manière appropriée afin de maintenir les relations correctes.

Reprenant l'idée que pour remplir sa fonction d'autocorrection, le système recherche la logique sous-jacente de ses données d'apprentissage, le chercheur en apprentissage automatique Sébastien Bubeck de Microsoft Research suggère que plus la gamme de données est large, plus les règles du système faire émerger sont générales. "Peut-être que nous nous constatons un tel bond en avant parce que nous avons atteint une diversité de données suffisamment importante pour que le seul principe sous-jacent à toutes ces données qui demeure est que des êtres intelligents les ont produites... Ainsi la seule façon pour le modèle d'expliquer toutes ces données est de devenir intelligent lui-même".

En plus d'extraire le sens sous-jacent du langage, les LLM sont capables d'apprendre en temps réel. Dans le domaine de l'IA, le terme "apprentissage" est généralement réservé au processus informatique intensif dans lequel les développeurs exposent le réseau neuronal à des gigaoctets de données et ajustent petit à petit ses connexions internes. Lorsque vous tapez une requête dans ChatGPT, le réseau devrait être en quelque sorte figé et, contrairement à l'homme, ne devrait pas continuer à apprendre. Il fut donc surprenant de constater que les LLM apprennent effectivement à partir des invites de leurs utilisateurs, une capacité connue sous le nom d'"apprentissage en contexte". "Il s'agit d'un type d'apprentissage différent dont on ne soupçonnait pas l'existence auparavant", explique Ben Goertzel, fondateur de la société d'IA SingularityNET.

Un exemple de la façon dont un LLM apprend vient de la façon dont les humains interagissent avec les chatbots tels que ChatGPT. Vous pouvez donner au système des exemples de la façon dont vous voulez qu'il réponde, et il obéira. Ses sorties sont déterminées par les derniers milliers de mots qu'il a vus. Ce qu'il fait, étant donné ces mots, est prescrit par ses connexions internes fixes - mais la séquence de mots offre néanmoins une certaine adaptabilité. Certaines personnes utilisent le jailbreak à des fins sommaires, mais d'autres l'utilisent pour obtenir des réponses plus créatives. "Il répondra mieux aux questions scientifiques, je dirais, si vous posez directement la question, sans invite spéciale de jailbreak, explique William Hahn, codirecteur du laboratoire de perception de la machine et de robotique cognitive à la Florida Atlantic University. "Sans il sera un meilleur universitaire." (Comme son nom l'indique une invite jailbreak -prison cassée-, invite à  moins délimiter-verrouiller les fonctions de recherche et donc à les ouvrir, avec les risques que ça implique) .

Un autre type d'apprentissage en contexte se produit via l'incitation à la "chaîne de pensée", ce qui signifie qu'on demande au réseau d'épeler chaque étape de son raisonnement - manière de faire qui permet de mieux résoudre les problèmes de logique ou d'arithmétique en passant par plusieurs étapes. (Ce qui rend l'exemple de Millière si surprenant  puisque le réseau a trouvé le nombre de Fibonacci sans un tel encadrement.)

En 2022, une équipe de Google Research et de l'École polytechnique fédérale de Zurich - Johannes von Oswald, Eyvind Niklasson, Ettore Randazzo, João Sacramento, Alexander Mordvintsev, Andrey Zhmoginov et Max Vladymyrov - a montré que l'apprentissage en contexte suit la même procédure de calcul de base que l'apprentissage standard, connue sous le nom de descente de gradient". 

Cette procédure n'était pas programmée ; le système l'a découvert sans aide. "C'est probablement une compétence acquise", déclare Blaise Agüera y Arcas, vice-président de Google Research. De fait il pense que les LLM peuvent avoir d'autres capacités latentes que personne n'a encore découvertes. "Chaque fois que nous testons une nouvelle capacité que nous pouvons quantifier, nous la trouvons", dit-il.

Bien que les LLM aient suffisamment d'angles morts et autres défauts pour ne pas être qualifiés d'intelligence générale artificielle, ou AGI - terme désignant une machine qui atteint l'ingéniosité du cerveau animal - ces capacités émergentes suggèrent à certains chercheurs que les entreprises technologiques sont plus proches de l'AGI que même les optimistes ne l'avaient deviné. "Ce sont des preuves indirectes que nous en sommes probablement pas si loin", a déclaré Goertzel en mars lors d'une conférence sur le deep learning à la Florida Atlantic University. Les plug-ins d'OpenAI ont donné à ChatGPT une architecture modulaire un peu comme celle du cerveau humain. "La combinaison de GPT-4 [la dernière version du LLM qui alimente ChatGPT] avec divers plug-ins pourrait être une voie vers une spécialisation des fonctions semblable à celle de l'homme", déclare Anna Ivanova, chercheuse au M.I.T.

Dans le même temps, les chercheurs s'inquiètent de voir leur capacité à étudier ces systèmes s'amenuiser. OpenAI n'a pas divulgué les détails de la conception et de l'entraînement de GPT-4, en partie du à la concurrence avec Google et d'autres entreprises, sans parler des autres pays. "Il y aura probablement moins de recherche ouverte de la part de l'industrie, et les choses seront plus cloisonnées et organisées autour de la construction de produits", déclare Dan Roberts, physicien théoricien au M.I.T., qui applique les techniques de sa profession à la compréhension de l'IA.

Ce manque de transparence ne nuit pas seulement aux chercheurs, il entrave également les efforts qui visent à comprendre les répercussions sociales de l'adoption précipitée de la technologie de l'IA. "La transparence de ces modèles est la chose la plus importante pour garantir la sécurité", affirme M. Mitchell.

Auteur: Musser Georges

Info: https://www.scientificamerican.com,  11 mai 2023. *algorithme d'optimisation utilisé dans l'apprentissage automatique et les problèmes d'optimisation. Il vise à minimiser ou à maximiser une fonction en ajustant ses paramètres de manière itérative. L'algorithme part des valeurs initiales des paramètres et calcule le gradient de la fonction au point actuel. Les paramètres sont ensuite mis à jour dans la direction du gradient négatif (pour la minimisation) ou positif (pour la maximisation), multiplié par un taux d'apprentissage. Ce processus est répété jusqu'à ce qu'un critère d'arrêt soit rempli. La descente de gradient est largement utilisée dans la formation des modèles d'apprentissage automatique pour trouver les valeurs optimales des paramètres qui minimisent la différence entre les résultats prédits et les résultats réels. Trad et adaptation Mg

[ singularité technologique ] [ versatilité sémantique ]

 

Commentaires: 0

Ajouté à la BD par miguel

création

Créativité: 18 choses que les gens créatifs font différemment des autres
La créativité opère de manière mystérieuse et souvent paradoxale. La pensée créative est une caractéristique stable qui définit certaines personnalités, mais elle peut aussi changer en fonction du contexte. On a souvent l'impression que l'inspiration et les idées naissent de nulle part et qu'elles disparaissent au moment où on a le plus besoin d'elles. La pensée créative nécessite une cognition complexe qui est néanmoins complètement différente du processus de réflexion.
La neuroscience nous propose une image très complexe de la créativité. Tels que les scientifiques le comprennent aujourd'hui, la créativité est bien plus complexe que la distinction entre les parties droite et gauche du cerveau nous aurait laissé penser (en théorie, le cerveau gauche serait rationnel et analytique tandis que le cerveau droit serait créatif et émotionnel). En fait, on pense que la créativité implique un certain nombre de processus cognitifs, de voies neuronales et d'émotions, et nous ne nous représentons pas encore totalement comment l'imagination fonctionne.
Psychologiquement parlant, les types de personnalités créatives sont difficiles à repérer, car elles sont en général complexes, paradoxales et qu'elles ont tendance à éviter l'habitude ou la routine. Le stéréotype de l'"artiste torturé" n'est pas infondé - les artistes peuvent vraiment être des personnes encore plus compliquées. Une étude a montré que la créativité implique qu'une multitude de traits, de comportements et d'influences sociales soient rassemblées en une seule et unique personne.
"C'est vraiment difficile pour les personnes créatives de se connaître, car le moi créatif est plus complexe que le moi non-créatif", a déclaré Scott Barry Kaufman, un psychologue de l'Université de New York qui a passé des années à faire des recherches sur la créativité, au Huffington Post. "Les choses qui ressortent le plus sont les paradoxes du moi créatif... Les personnes imaginatives ont des esprits plus désordonnés."
S'il n'existe pas de profil créatif "typique ", on trouve cependant des caractéristiques et des comportements révélateurs chez les personnes extrêmement créatives. Voici 18 choses qu'elles font différemment.
1) Ils rêvassent
Les personnes créatives le savent bien, malgré ce que leurs professeurs ont pu leur dire: rêvasser n'est pas une perte de temps.
Selon Kaufman et la psychologue Rebecca L. McMillan, co-auteurs d'un article intitulé "Ode à la rêverie positive constructive", laisser son esprit vagabonder peut faciliter le processus de "l'incubation créative". Et bien sûr, nous savons par expérience que nos meilleures idées ont souvent l'air de sortir de nulle part, quand nous avons l'esprit ailleurs.
Bien que rêvasser semble être un acte irréfléchi, une étude parue en 2012 suggérait que cela pourrait en fait nécessiter une grande activité du cerveau - rêvasser peut entraîner des connexions et des idées soudaines parce que cette activité est liée à notre capacité à retenir une information en période de distraction. Les neuroscientifiques ont aussi découvert que rêvasser implique les mêmes processus cognitifs que ceux associés à l'imagination et la créativité.
2) Ils observent tout ce qui est autour d'eux
Le monde appartient aux personnes créatives - elles voient des possibilités partout et recueillent constamment des informations qui deviennent un prétexte à l'expression créative. Comme disait Henry James, "rien n'est perdu chez un écrivain".
L'écrivain Joan Didion avait toujours un petit cahier sur elle, et elle écrivait ses observations sur les gens et les événements qui pourraient à terme lui permettre de mieux comprendre les complexités et les contradictions de son propre esprit:
"Quand nous enregistrons ce que nous voyons autour de nous, que ce soit scrupuleusement ou non, le dénominateur commun de tout ce que nous voyons est toujours, effrontément, l'implacable 'Je'", écrivait Didion dans son essai On Keeping A Notebook.
3) Ils travaillent aux heures qui les arrangent
Beaucoup de grands artistes affirment qu'ils travaillent mieux soit très tôt le matin soit tard le soir. Vladimir Nabokov commençait à écrire dès qu'il se levait, à 6 ou 7 heures du matin, et Frank Lloyd Wright avait l'habitude de se réveiller à 3 ou 4 heures du matin et de travailler pendant quelques heures avant de se recoucher. Quel que soit le moment de la journée, les individus très créatifs finissent souvent par trouver à quelle heure leur esprit se met en route, et organisent leurs journées en fonction de cela.
4) Ils prennent le temps d'être seuls
"Afin d'être ouverts à la créativité, nous devons avoir la capacité d'un usage constructif de la solitude. Nous devons dépasser la peur d'être seul", a écrit le psychologue existentiel américain Rollo May.
Les artistes et les personnes créatives sont souvent caractérisées comme des personnes solitaires, et bien que ce ne soit pas forcément le cas, la solitude peut être le secret qui leur permet de produire leurs plus belles oeuvres. Pour Kaufman, ceci est en lien avec le fait de rêvasser - nous avons besoin de moments de solitude, simplement pour permettre à nos esprits de vagabonder.
"Vous devez rester en connexion avec ce monologue intérieur afin de pouvoir l'exprimer", affirme-t-il. "Il est difficile de trouver cette voix créatrice en vous si vous ne restez pas en connexion avec vous-même et que vous ne réfléchissez pas à ce que vous êtes."
5) Ils contournent les obstacles de la vie.
Une grande partie des histoires et des chansons les plus emblématiques ont été inspirées par des douleurs poignantes et des chagrins déchirants - et le seul réconfort que l'on peut trouver dans ces épreuves, c'est qu'elles ont sans doute été à l'origine de créations artistiques majeures. Un nouveau domaine de psychologie appelé la croissance post-traumatique suggère que beaucoup de gens sont capables de transformer leurs épreuves et les traumatismes de leur enfance en un développement créatif important. Précisément, les chercheurs montrent que le traumatisme peut aider les gens à développer les domaines des relations interpersonnelles, de la spiritualité, de l'appréciation de la vie, ou encore de la force personnelle, et - ce qui importe le plus pour la créativité - leur permettre d'entrevoir de nouvelles possibilités de vie.
"Beaucoup de gens sont capables d'utiliser cela comme un moteur qui leur permet d'imaginer des perspectives différentes de la réalité", assure Kaufman. "Ce qu'il se passe, c'est que leur vision du monde comme étant un lieu sûr a été brisée à un moment de leur vie, les forçant à aller aux extrémités et voir les choses sous un nouveau jour - et cela favorise la créativité."
6) Ils sont à la recherche de nouvelles expériences
Les personnes créatives adorent s'exposer à de nouvelles expériences ou sensations et à de nouveaux états d'esprit - et cette ouverture est un indicateur important de la production créatrice.
"L'ouverture à l'expérience est toujours l'indicateur le plus fort de la réalisation créative", explique Kaufman. "Cela comprend beaucoup de facettes différentes, mais elles sont toutes reliées entre elles : la curiosité intellectuelle, la recherche du frisson, l'ouverture aux émotions, l'ouverture au fantasme. Ce qui les rassemble, c'est la quête d'une exploration cognitive et comportementale du monde, aussi bien votre monde intérieur et votre monde extérieur."
7) Ils "échouent"
La persévérance est presque une condition préalable au succès créatif, selon Kaufman. Faire un travail créatif est souvent décrit comme un processus qui consiste à échouer à maintes reprises jusqu'à ce que vous trouviez quelque chose qui convienne, et les personnes créatives - du moins celles qui réussissent - apprennent à ne pas considérer l'échec comme quelque chose de personnel. "Les personnes créatives échouent et celles qui sont vraiment douées échouent souvent", a écrit Steven Kotler, un contributeur de Forbes, dans un article sur le génie créatif d'Einstein.
8) Ils posent les bonnes questions
Les personnes créatives ont une curiosité insatiable - ils choisissent généralement de vivre la vie examinée, et même quand ils vieillissent, ils maintiennent une curiosité au sujet de la vie. Que ce soit au cours d'une conversation passionnée ou d'un moment de rêvasserie solitaire, les personnes créatives regardent le monde qui les entoure et veulent savoir pourquoi, et comment, les choses sont ainsi.
9) Ils observent les gens
Observateurs de nature et curieux d'en savoir plus sur la vie des autres, les personnes créatives aiment souvent observer les gens - et leurs meilleures idées peuvent provenir de cette activité.
"Marcel Proust a passé une grande partie de sa vie à observer les gens, et il écrivait ses observations qui ressortaient finalement dans ses livres", affirme Kaufman. "Pour beaucoup d'écrivains, observer les gens est très important ... Ils sont de très bons observateurs de la nature humaine."
10) Ils prennent des risques
Prendre des risques fait partie du travail créatif, et beaucoup de personnes créatives adorent prendre des risques dans de différents aspects de leurs vies.
"Il y a une connexion sérieuse et profonde entre la prise de risques et la créativité, qui est rarement prise en compte", a écrit Steven Kotler pour Forbes. "La créativité est l'action de produire quelque chose à partir de rien. Cela nécessite de rendre public ces paris que l'on a d'abord fait dans sa tête. Ce n'est pas un travail pour les timides. Du temps perdu, une réputation salie, de l'argent mal dépensé - tout cela découle d'une créativité qui est allée de travers."
11) Pour eux, tout devient une occasion de s'exprimer
Nietzsche estimait que la vie et le monde devraient être vus comme des oeuvres d'arts. Les personnes créatives ont peut-être plus tendance à voir le monde de cette façon, et à chercher constamment des occasions de s'exprimer dans la vie de tous les jours.
"L'expression créative est de l'expression individuelle", affirme Kaufman. "La créativité n'est rien de plus qu'une expression individuelle de vos besoins, de vos désirs et de votre singularité."
12) Ils réalisent leurs vraies passions
Les personnes créatives ont tendance à être intrinsèquement motivés - c'est-à-dire que leur motivation à agir vient d'un désir interne, plutôt que d'un désir de reconnaissance extérieure ou de récompense.
Les psychologues ont démontré que les personnes créatives trouvent leur énergie dans les activités difficiles, signe de leur motivation intrinsèque, et les chercheurs suggèrent que le fait de simplement penser à des raisons intrinsèques lorsqu'on fait une activité peut suffire à booster la créativité.
"Les créateurs éminents choisissent et deviennent passionnément impliqués dans des problèmes difficiles et risqués qui leur procure une sensation de pouvoir découlant de leur capacité à utiliser leurs talents", écrivent M.A. Collins and T.M. Amabile dans The Handbook of Creativity.
13) Ils sortent de leur propre tête
Kaufman soutient que l'autre objectif de la rêvasserie est de nous aider à sortir de nos propres perspectives limitées et d'explorer d'autres façons de penser, qui peuvent être un atout important pour le travail créatif.
"Rêvasser nous permet d'oublier le présent", explique Kaufman. "Le réseau cérébral associé à la rêvasserie est le même réseau cérébral qui est associé à la théorie de l'esprit - j'aime l'appeler 'le réseau cérébral de l'imagination' - cela vous permet d'imaginer votre futur, mais cela vous permet aussi d'imaginer ce qu'un autre est en train de penser."
Les chercheurs suggèrent aussi que provoquer la "distance psychologique" - c'est-à-dire, réfléchir à une question comme si elle était irréelle ou inconnue, ou alors sous la perspective d'une autre personne - peut stimuler la pensée créative.
14) Ils perdent la notion du temps.
Les personnes créatives se rendent compte que lorsqu'elles écrivent, dansent, peignent ou s'expriment d'une autre manière, elles entrent "dans la zone", c'est-à-dire "en transe", ce qui peut les aider à créer à un grand niveau. La transe est un état mental qui se produit quand un individu dépasse la pensée consciente pour atteindre un état plus intense de concentration facile et de sérénité. Quand une personne est dans cet état, elle ne craint quasiment aucune pression interne ou externe ni les distractions qui pourraient gêner sa performance.
Vous entrez en transe quand vous pratiquez une activité dans laquelle vous êtes bon mais qui vous met aussi au défi - comme tout projet créatif.
"[Les personnes créatives] ont trouvé la chose qu'ils aiment, mais ils ont aussi acquis la compétence qui leur permet d'entrer en transe", explique Kaufman. "L'état de transe nécessite une concordance entre votre compétence et la tâche ou l'activité dans laquelle vous vous êtes lancé."
15) Ils s'entourent de beauté.
Les personnes créatives ont tendance à avoir d'excellents goûts: ils aiment donc être entourés de beauté. Une étude récemment publiée dans le journal Psychologie de l'esthétique, créativité, et les arts montre que les musiciens - que ce soit des musiciens d'orchestre, des professeurs de musique ou des solistes - ont une haute sensibilité et une haute réceptivité à la beauté artistique.
16) Ils relient les points.
Si une chose distingue les personnes très créatives des autres, c'est bien la capacité d'entrevoir des possibilités là où les autres n'en voient pas - ou, dans d'autres termes, la vision. Beaucoup de grands artistes et d'écrivains ont déclaré que la créativité est simplement la capacité à relier des points que les autres n'auraient jamais pensé à relier.
Selon les dires de Steve Jobs:
"La créativité, c'est simplement établir des connexions entre les choses. Quand vous demandez aux personnes créatives comment elles ont réalisé telle ou telle chose, elles se sentent un peu coupables parce qu'elles ne l'ont pas vraiment réalisé, elles ont juste vu quelque chose. Cela leur a sauté aux yeux, tout simplement parce qu'elles sont capables de faire le lien entre les différences expériences qu'elles ont eu et de synthétiser les nouvelles choses.
17) Elles font bouger les choses.
La diversité des expériences, plus que n'importe quoi d'autre, est essentielle à la créativité, selon Kaufman. Les personnes créatives aiment faire bouger les choses, vivre de nouvelles choses, et surtout éviter tout ce qui rend la vie plus monotone ou ordinaire.
"Les personnes créatives ont une plus grande diversité d'expériences, et l'habitude est l'ennemi de la diversité des expériences", affirme Kaufman.
18) Ils consacrent du temps à la méditation.
Les personnes créatives saisissent la valeur d'un esprit clair et concentré - parce que leur travail en dépend. Beaucoup d'artistes, d'entrepreneurs, d'écrivains et autres créateurs, tels que David Lynch, se sont tournés vers la méditation afin d'avoir accès à leur état d'esprit le plus créatif.
Et la science soutient l'hypothèse qui affirme que la méditation peut réellement stimuler votre force intellectuelle de différentes manières. Une étude hollandaise parue en 2012 montrait que certaines techniques de méditation peuvent encourager la pensée créative. Et les pratiques de méditation ont aussi un impact sur la mémoire, la concentration et le bien-être émotionnel. Elles permettent aussi de réduire le stress et l'anxiété, et d'améliorer la clarté d'esprit - et ainsi conduire à de meilleures pensées créatives.

Auteur: Gregoire Carolyn

Info: The Huffington Post mars 2014

[ égoïsme ]

 

Commentaires: 0

bio-évolution

La "tectonique" des chromosomes révèle les secrets de l'évolution des premiers animaux

De grands blocs de gènes conservés au cours de centaines de millions d'années d'évolution permettent de comprendre comment les premiers chromosomes animaux sont apparus.

De nouvelles recherches ont montré que des blocs de gènes liés peuvent conserver leur intégrité et être suivis au cours de l'évolution. Cette découverte est à la base de ce que l'on appelle la tectonique des génomes (photo).

Les chromosomes, ces faisceaux d'ADN qui se mettent en scène dans le ballet mitotique de la division cellulaire, jouent un rôle de premier plan dans la vie complexe. Mais la question de savoir comment les chromosomes sont apparus et ont évolué a longtemps été d'une difficulté décourageante. C'est dû en partie au manque d'informations génomiques au niveau des chromosomes et en partie au fait que l'on soupçonne que des siècles de changements évolutifs ont fait disparaître tout indice sur cette histoire ancienne.

Dans un article paru dans Science Advances, une équipe internationale de chercheurs dirigée par Daniel Rokhsar, professeur de sciences biologiques à l'université de Californie à Berkeley, a suivi les changements survenus dans les chromosomes il y a 800 millions d'années.  Ils ont identifié 29 grands blocs de gènes qui sont restés identifiables lors de leur passage dans trois des plus anciennes subdivisions de la vie animale multicellulaire. En utilisant ces blocs comme marqueurs, les scientifiques ont pu déterminer comment les chromosomes se sont fusionnés et recombinés au fur et à mesure que ces premiers groupes d'animaux devenaient distincts.

Les chercheurs appellent cette approche "tectonique du génome". De la même manière que les géologues utilisent leur compréhension de la tectonique des plaques pour comprendre l'apparition et le mouvement des continents, ces biologistes reconstituent comment diverses duplications, fusions et translocations génomiques ont créé les chromosomes que nous voyons aujourd'hui.

Ces travaux annoncent une nouvelle ère de la génomique comparative : Auparavant, les chercheurs étudiaient des collections de gènes de différentes lignées et décrivaient les changements une paire de bases à la fois. Aujourd'hui, grâce à la multiplication des assemblages de chromosomes, les chercheurs peuvent retracer l'évolution de chromosomes entiers jusqu'à leur origine. Ils peuvent ensuite utiliser ces informations pour faire des prédictions statistiques et tester rigoureusement des hypothèses sur la façon dont les groupes d'organismes sont liés.

Il y a deux ans, à l'aide de méthodes novatrices similaires, M. Rokhsar et ses collègues ont résolu un mystère de longue date concernant la chronologie des duplications du génome qui ont accompagné l'apparition des vertébrés à mâchoires. Mais l'importance de cette approche n'est pas purement rétrospective. En faisant ces découvertes, les chercheurs apprennent les règles algébriques simples qui régissent ce qui se passe lorsque les chromosomes échangent des parties d'eux-mêmes. Ces informations peuvent orienter les futures études génomiques et aider les biologistes à prédire ce qu'ils trouveront dans les génomes des espèces qui n'ont pas encore été séquencées.

"Nous commençons à avoir une vision plus large de l'évolution des chromosomes dans l'arbre de la vie", a déclaré Paulyn Cartwright, professeur d'écologie et de biologie évolutive à l'université du Kansas. Selon elle, les scientifiques peuvent désormais tirer des conclusions sur le contenu des chromosomes des tout premiers animaux. Ils peuvent également examiner comment les différents contenus des chromosomes ont changé ou sont restés les mêmes - et pourquoi - à mesure que les animaux se sont diversifiés. "Nous ne pouvions vraiment pas faire cela avant de disposer de ces génomes de haute qualité". 

Ce que partagent les anciens génomes

Dans l'étude publiée aujourd'hui, Rokhsar et une grande équipe internationale de collaborateurs ont produit le premier assemblage de haute qualité, au niveau des chromosomes, du génome de l'hydre, qu'ils décrivent comme un modèle de "vénérable cnidaire". En le comparant à d'autres génomes animaux disponibles, ils ont découvert des groupes de gènes liés hautement conservés. Bien que l'ordre des gènes au sein d'un bloc soit souvent modifié, les blocs eux-mêmes sont restés stables sur de longues périodes d'évolution.

Lorsque les scientifiques ont commencé à séquencer les génomes animaux il y a une vingtaine d'années, beaucoup d'entre eux n'étaient pas convaincus que des groupes de gènes liés entre eux sur les chromosomes pouvaient rester stables et reconnaissables au cours des éons, et encore moins qu'il serait possible de suivre le passage de ces blocs de gènes à travers pratiquement toutes les lignées animales.

Les animaux ont divergé de leurs parents unicellulaires il y a 600 ou 700 millions d'années, et "être capable de reconnaître les morceaux de chromosomes qui sont encore conservés après cette période de temps est étonnant", a déclaré Jordi Paps, un biologiste de l'évolution à l'Université de Bristol au Royaume-Uni.

"Avant de disposer de ces données sur les chromosomes entiers, nous examinions de petits fragments de chromosomes et nous observions de nombreux réarrangements", a déclaré M. Cartwright. "Nous supposions donc qu'il n'y avait pas de conservation, car les gènes eux-mêmes dans une région du chromosome changent de position assez fréquemment."

Pourtant, bien que l'ordre des gènes soit fréquemment remanié le long des chromosomes, Rokhsar a eu l'intuition, grâce à ses études antérieures sur les génomes animaux, qu'il y avait une relative stabilité dans les gènes apparaissant ensemble. "Si vous comparez une anémone de mer ou une éponge à un être humain, le fait que les gènes se trouvent sur le même morceau d'ADN semble être conservé", explique Rokhsar. "Et le modèle suggérait que des chromosomes entiers étaient également conservés". Mais cette notion n'a pu être testée que récemment, lorsque suffisamment d'informations génomiques à l'échelle du chromosome sur divers groupes d'animaux sont devenues disponibles.

Inertie génomique

Mais pourquoi des blocs de gènes restent-ils liés entre eux ? Selon Harris Lewin, professeur d'évolution et d'écologie à l'université de Californie à Davis, qui étudie l'évolution des génomes de mammifères, une des explications de ce phénomène, appelé synténie, est liée à la fonction des gènes. Il peut être plus efficace pour les gènes qui fonctionnent ensemble d'être physiquement situés ensemble ; ainsi, lorsqu'une cellule a besoin de transcrire des gènes, elle n'a pas à coordonner la transcription à partir de plusieurs endroits sur différents chromosomes. 

Ceci explique probablement la conservation de certains ensembles de gènes dont l'agencement est crucial : les gènes Hox qui établissent les plans corporels des animaux, par exemple, doivent être placés dans un ordre spécifique pour établir correctement le schéma corporel. Mais ces gènes étroitement liés se trouvent dans un morceau d'ADN relativement court. M. Rokhsar dit qu'il ne connaît aucune corrélation fonctionnelle s'étendant sur un chromosome entier qui pourrait expliquer leurs résultats.

(Ici une image décrit les différents types de fusion de chromosomes et l'effet de chacun sur l'ordre des gènes qu'ils contiennent.)

C'est pourquoi Rokhsar est sceptique quant à une explication fonctionnelle. Elle est séduisante ("Ce serait le résultat le plus cool, d'une certaine manière", dit-il) mais peut-être aussi inutile car, à moins qu'un réarrangement chromosomique ne présente un avantage fonctionnel important, il est intrinsèquement difficile pour ce réarrangement de se propager. Et les réarrangements ne sont généralement pas avantageux : Au cours de la méiose et de la formation des gamètes, tous les chromosomes doivent s'apparier avec un partenaire correspondant. Sans partenaire, un chromosome de taille inhabituelle ne pourra pas faire partie d'un gamète viable, et il a donc peu de chances de se retrouver dans la génération suivante. De petites mutations qui remanient l'ordre des gènes à l'intérieur des chromosomes peuvent encore se produire ("Il y a probablement une petite marge d'erreur en termes de réarrangements mineurs, de sorte qu'ils peuvent encore se reconnaître", a déclaré Cartwright). Mais les chromosomes brisés ou fusionnés ont tendance à être des impasses.

Peut-être que dans des groupes comme les mammifères, qui ont des populations de petite taille, un réarrangement pourrait se propager de façon aléatoire par ce qu'on appelle la dérive génétique, suggère Rokhsar. Mais dans les grandes populations qui se mélangent librement, comme celles des invertébrés marins qui pondent des centaines ou des milliers d'œufs, "il est vraiment difficile pour l'un des nouveaux réarrangements de s'imposer", a-t-il déclaré. "Ce n'est pas qu'ils ne sont pas tentés. C'est juste qu'ils ne parviennent jamais à s'imposer dans l'évolution."

Par conséquent, les gènes ont tendance à rester bloqués sur un seul chromosome. "Les processus par lesquels ils se déplacent sont tout simplement lents, sur une échelle de 500 millions d'années", déclare Rokhsar. "Même s'il s'est écoulé énormément de temps, ce n'est toujours pas assez long pour qu'ils puissent se développer".

( une image avec affichage de données montre comment des blocs de gènes ont eu tendance à rester ensemble même lorsqu'ils se déplaçaient vers différents chromosomes dans l'évolution de cinq premières espèces animales.)

L'équipe de Rokhsar a toutefois constaté que lorsque ces rares fusions de chromosomes se produisaient, elles laissaient une signature claire : Après une fusion, les gènes des deux blocs s'entremêlent et sont réorganisés car des "mutations d'inversion" s'y sont accumulées au fil du temps. En conséquence, les gènes des deux blocs se sont mélangés comme du lait versé dans une tasse de thé, pour ne plus jamais être séparés. "Il y a un mouvement entropique vers le mélange qui ne peut être annulé", affirme Rokhsar.

Et parce que les processus de fusion, de mélange et de duplication de blocs génétiques sont si rares, irréversibles et spécifiques, ils sont traçables : Il est très improbable qu'un chromosome se fracture deux fois au même endroit, puis fusionne et se mélange avec un autre bloc génétique de la même manière.

Les signatures de ces événements dans les chromosomes représentent donc un nouvel ensemble de caractéristiques dérivées que les biologistes peuvent utiliser pour tester des hypothèses sur la façon dont les espèces sont liées. Si deux lignées partagent un mélange de deux blocs de gènes, le mélange s'est très probablement produit chez leur ancêtre commun. Si des lignées ont deux ensembles de mêmes blocs de gènes, une duplication du génome a probablement eu lieu chez leur ancêtre commun. Cela fait des syntéries un "outil très, très puissant", a déclaré Oleg Simakov, génomiste à l'université de Vienne et premier auteur des articles. 

Empreintes digitales d'événements évolutifs

"L'un des aspects que je préfère dans notre étude est que nous faisons des prédictions sur ce à quoi il faut s'attendre au sein des génomes qui n'ont pas encore été séquencés", a écrit Rokhsar dans un courriel adressé à Quanta. Par exemple, son équipe a découvert que divers invertébrés classés comme spiraliens partagent tous quatre schémas spécifiques de fusion avec mélange, ce qui implique que les événements de fusion se sont produits chez leur ancêtre commun. "Il s'ensuit que tous les spiraliens devraient présenter ces schémas de fusion avec mélange de modèles", écrit Rokhsar. "Si l'on trouve ne serait-ce qu'un seul spiralien dépourvu de ces motifs, alors l'hypothèse peut être rejetée !".

Et d'ajouter : "On n'a pas souvent l'occasion de faire ce genre de grandes déclarations sur l'histoire de l'évolution."

Dans leur nouvel article Science Advances, Simakov, Rokhsar et leurs collègues ont utilisé l'approche tectonique pour en savoir plus sur l'émergence de certains des premiers groupes d'animaux il y a environ 800 millions d'années. En examinant le large éventail de vie animale représenté par les éponges, les cnidaires (tels que les hydres, les méduses et les coraux) et les bilatériens (animaux à symétrie bilatérale), les chercheurs ont trouvé 27 blocs de gènes hautement conservés parmi leurs chromosomes.

Ensuite, en utilisant les règles de fusion chromosomique et génétique qu'ils avaient identifiées, les chercheurs ont reconstitué les événements de mélange au niveau des chromosomes qui ont accompagné l'évolution de ces trois lignées à partir d'un ancêtre commun. Ils ont montré que les chromosomes des éponges, des cnidaires et des bilatériens représentent tous des manières distinctes de combiner des éléments du génome ancestral.

(Pour expliquer les 2 paragraphes précédents une image avec 3 schémas montre la fusion des chromosomes au début de l'évolution pou arriver au 27 blocs de gènes)

Une découverte stimulante qui a été faite est que certains des blocs de gènes liés semblent également présents dans les génomes de certaines créatures unicellulaires comme les choanoflagellés, les plus proches parents des animaux multicellulaires. Chez les animaux multicellulaires, l'un de ces blocs contient un ensemble diversifié de gènes homéobox qui guident le développement de la structure générale de leur corps. Cela suggère que l'un des tout premiers événements de l'émergence des animaux multicellulaires a été l'expansion et la diversification de ces gènes importants. "Ces anciennes unités de liaison fournissent un cadre pour comprendre l'évolution des gènes et des génomes chez les animaux", notent les scientifiques dans leur article.

Leur approche permet de distinguer de subtiles et importantes différences au niveau des événements chromosomiques. Par exemple, dans leur article de 2020, les chercheurs ont déduit que le génome des vertébrés avait subi une duplication au cours de la période cambrienne, avant que l'évolution ne sépare les poissons sans mâchoire des poissons avec mâchoire. Ils ont ensuite trouvé des preuves que deux poissons à mâchoires se sont hybridés plus tard et ont subi une deuxième duplication de leur génome ; cet hybride est devenu l'ancêtre de tous les poissons osseux.

John Postlethwait, génomicien à l'université de l'Oregon, souligne l'importance de la méthode d'analyse de l'équipe. "Ils ont adopté une approche statistique, et ne se sont pas contentés de dire : "Eh bien, il me semble que telle et telle chose s'est produite", a-t-il déclaré. "C'est une partie vraiment importante de leur méthodologie, non seulement parce qu'ils avaient accès à des génomes de meilleure qualité, mais aussi parce qu'ils ont adopté cette approche quantitative et qu'ils ont réellement testé ces hypothèses."

Ces études ne marquent que le début de ce que la tectonique des génomes et  ce que les syntagmes génétiques peuvent nous apprendre. Dans des prépublications récentes partagées sur biorxiv.org, l'équipe de Rokhsar a reconstitué l'évolution des chromosomes de grenouilles, et une équipe européenne s'est penchée sur l'évolution des chromosomes des poissons téléostéens. Une étude parue dans Current Biology a révélé une "inversion massive du génome" à l'origine de la coexistence de formes divergentes chez la caille commune, ce qui laisse entrevoir certaines des conséquences fonctionnelles du réarrangement des chromosomes.

L'hypothèse selon laquelle le mélange de ces groupes de liaisons génétiques pourrait être lié à la diversification des lignées et à l'innovation évolutive au cours des 500 derniers millions d'années est alléchante. Les réarrangements chromosomiques peuvent conduire à des incompatibilités d'accouplement qui pourraient provoquer la scission en deux d'une lignée. Il est également possible qu'un gène atterrissant dans un nouveau voisinage ait conduit à des innovations dans la régulation des gènes. "Peut-être que ce fut l'une des forces motrices de la diversification des animaux", a déclaré Simakov.

"C'est la grande question", a déclaré Lewin. "Il s'agit de véritables bouleversements tectoniques dans le génome, et il est peu probable qu'ils soient sans conséquence".

Auteur: Internet

Info: https://www.quantamagazine.org/secrets-of-early-animal-evolution-revealed-by-chromosome-tectonics-20220202.Viviane Callier 2 février 2022

[ méta-moteurs ] [ néo-phylogénie ]

 

Commentaires: 0

Ajouté à la BD par miguel

homme-machine

Chat GPT ou le perroquet grammairien

L’irruption des IA conversationnelles dans la sphère publique a conféré une pertinence supplémentaire aux débats sur le langage humain et sur ce qu’on appelle parler. Notamment, les IA redonnent naissance à un débat ancien sur la grammaire générative et sur l’innéisme des facultés langagières. Mais les grands modèles de langage et les IA neuronales nous offrent peut-être l’occasion d’étendre le domaine de la réflexion sur l’architecture des systèmes possibles de cognition, de communication et d’interaction, et considérant aussi la façon dont les animaux communiquent.

a capacité de ChatGPT à produire des textes en réponse à n’importe quelle requête a immédiatement attiré l’attention plus ou moins inquiète d’un grand nombre de personnes, les unes animées par une force de curiosité ou de fascination, et les autres, par un intérêt professionnel.

L’intérêt professionnel scientifique que les spécialistes du langage humain peuvent trouver aux Large Language Models ne date pas d’hier : à bien des égards, des outils de traduction automatique comme DeepL posaient déjà des questions fondamentales en des termes assez proches. Mais l’irruption des IA conversationnelles dans la sphère publique a conféré une pertinence supplémentaire aux débats sur ce que les Large Language Models sont susceptibles de nous dire sur le langage humain et sur ce qu’on appelle parler.

L’outil de traduction DeepL (ou les versions récentes de Google Translate) ainsi que les grands modèles de langage reposent sur des techniques d’" apprentissage profond " issues de l’approche " neuronale " de l’Intelligence Artificielle : on travaille ici sur des modèles d’IA qui organisent des entités d’information minimales en les connectant par réseaux ; ces réseaux de connexion sont entraînés sur des jeux de données considérables, permettant aux liaisons " neuronales " de se renforcer en proportion des probabilités de connexion observées dans le jeu de données réelles – c’est ce rôle crucial de l’entraînement sur un grand jeu de données qui vaut aux grands modèles de langage le sobriquet de " perroquets stochastiques ". Ces mécanismes probabilistes sont ce qui permet aussi à l’IA de gagner en fiabilité et en précision au fil de l’usage. Ce modèle est qualifié de " neuronal " car initialement inspiré du fonctionnement des réseaux synaptiques. Dans le cas de données langagières, à partir d’une requête elle-même formulée en langue naturelle, cette technique permet aux agents conversationnels ou aux traducteurs neuronaux de produire très rapidement des textes généralement idiomatiques, qui pour des humains attesteraient d’un bon apprentissage de la langue.

IA neuronales et acquisition du langage humain

Au-delà de l’analogie " neuronale ", ce mécanisme d’entraînement et les résultats qu’il produit reproduisent les théories de l’acquisition du langage fondées sur l’interaction avec le milieu. Selon ces modèles, généralement qualifiés de comportementalistes ou behavioristes car étroitement associés aux théories psychologiques du même nom, l’enfant acquiert le langage par l’exposition aux stimuli linguistiques environnants et par l’interaction (d’abord tâtonnante, puis assurée) avec les autres. Progressivement, la prononciation s’aligne sur la norme majoritaire dans l’environnement individuel de la personne apprenante ; le vocabulaire s’élargit en fonction des stimuli ; l’enfant s’approprie des structures grammaticales de plus en plus contextes ; et en milieu bilingue, les enfants apprennent peu à peu à discriminer les deux ou plusieurs systèmes auxquels ils sont exposés. Cette conception essentiellement probabiliste de l’acquisition va assez spontanément de pair avec des théories grammaticales prenant comme point de départ l’existence de patrons (" constructions ") dont la combinatoire constitue le système. Dans une telle perspective, il n’est pas pertinent qu’un outil comme ChatGPT ne soit pas capable de référer, ou plus exactement qu’il renvoie d’office à un monde possible stochastiquement moyen qui ne coïncide pas forcément avec le monde réel. Cela ne change rien au fait que ChatGPT, DeepL ou autres maîtrisent le langage et que leur production dans une langue puisse être qualifiée de langage : ChatGPT parle.

Mais ce point de vue repose en réalité sur un certain nombre de prémisses en théorie de l’acquisition, et fait intervenir un clivage lancinant au sein des sciences du langage. L’actualité de ces dernières années et surtout de ces derniers mois autour des IA neuronales et génératives redonne à ce clivage une acuité particulière, ainsi qu’une pertinence nouvelle pour l’appréhension de ces outils qui transforment notre rapport au texte et au discours. La polémique, comme souvent (trop souvent ?) quand il est question de théorie du langage et des langues, se cristallise – en partie abusivement – autour de la figure de Noam Chomsky et de la famille de pensée linguistique très hétérogène qui se revendique de son œuvre, généralement qualifiée de " grammaire générative " même si le pluriel (les grammaires génératives) serait plus approprié.

IA générative contre grammaire générative

Chomsky est à la fois l’enfant du structuralisme dans sa variante états-unienne et celui de la philosophie logique rationaliste d’inspiration allemande et autrichienne implantée sur les campus américains après 1933. Chomsky est attaché à une conception forte de la logique mathématisée, perçue comme un outil d’appréhension des lois universelles de la pensée humaine, que la science du langage doit contribuer à éclairer. Ce parti-pris que Chomsky qualifiera lui-même de " cartésien " le conduit à fonder sa linguistique sur quelques postulats psychologiques et philosophiques, dont le plus important est l’innéisme, avec son corollaire, l’universalisme. Selon Chomsky et les courants de la psychologie cognitive influencée par lui, la faculté de langage s’appuie sur un substrat génétique commun à toute l’espèce humaine, qui s’exprime à la fois par un " instinct de langage " mais aussi par l’existence d’invariants grammaticaux, identifiables (via un certain niveau d’abstraction) dans toutes les langues du monde.

La nature de ces universaux fluctue énormément selon quelle période et quelle école du " générativisme " on étudie, et ce double postulat radicalement innéiste et universaliste reste très disputé aujourd’hui. Ces controverses mettent notamment en jeu des conceptions très différentes de l’acquisition du langage et des langues. Le moment fondateur de la théorie chomskyste de l’acquisition dans son lien avec la définition même de la faculté de langage est un violent compte-rendu critique de Verbal Behavior, un ouvrage de synthèse des théories comportementalistes en acquisition du langage signé par le psychologue B.F. Skinner. Dans ce compte-rendu publié en 1959, Chomsky élabore des arguments qui restent structurants jusqu’à aujourd’hui et qui définissent le clivage entre l’innéisme radical et des théories fondées sur l’acquisition progressive du langage par exposition à des stimuli environnementaux. C’est ce clivage qui préside aux polémiques entre linguistes et psycholinguistes confrontés aux Large Language Models.

On comprend dès lors que Noam Chomsky et deux collègues issus de la tradition générativiste, Ian Roberts, professeur de linguistique à Cambridge, et Jeffrey Watumull, chercheur en intelligence artificielle, soient intervenus dans le New York Times dès le 8 mars 2023 pour exposer un point de vue extrêmement critique intitulée " La fausse promesse de ChatGPT ". En laissant ici de côté les arguments éthiques utilisés dans leur tribune, on retiendra surtout l’affirmation selon laquelle la production de ChatGPT en langue naturelle ne pourrait pas être qualifiée de " langage " ; ChatGPT, selon eux, ne parle pas, car ChatGPT ne peut pas avoir acquis la faculté de langage. La raison en est simple : si les Grands Modèles de Langage reposent intégralement sur un modèle behaviouriste de l’acquisition, dès lors que ce modèle, selon eux, est réfuté depuis soixante ans, alors ce que font les Grands Modèles de Langage ne peut être qualifié de " langage ".

Chomsky, trop têtu pour qu’on lui parle ?

Le point de vue de Chomsky, Roberts et Watumull a été instantanément tourné en ridicule du fait d’un choix d’exemple particulièrement malheureux : les trois auteurs avançaient en effet que certaines constructions syntaxiques complexes, impliquant (dans le cadre générativiste, du moins) un certain nombre d’opérations sur plusieurs niveaux, ne peuvent être acquises sur la base de l’exposition à des stimuli environnementaux, car la fréquence relativement faible de ces phénomènes échouerait à contrebalancer des analogies formelles superficielles avec d’autres tournures au sens radicalement différent. Dans la tribune au New York Times, l’exemple pris est l’anglais John is too stubborn to talk to, " John est trop entêté pour qu’on lui parle ", mais en anglais on a littéralement " trop têtu pour parler à " ; la préposition isolée (ou " échouée ") en position finale est le signe qu’un constituant a été supprimé et doit être reconstitué aux vues de la structure syntaxique d’ensemble. Ici, " John est trop têtu pour qu’on parle à [John] " : le complément supprimé en anglais l’a été parce qu’il est identique au sujet de la phrase.

Ce type d’opérations impliquant la reconstruction d’un complément d’objet supprimé car identique au sujet du verbe principal revient dans la plupart des articles de polémique de Chomsky contre la psychologie behaviouriste et contre Skinner dans les années 1950 et 1960. On retrouve même l’exemple exact de 2023 dans un texte du début des années 1980. C’est en réalité un exemple-type au service de l’argument selon lequel l’existence d’opérations minimales universelles prévues par les mécanismes cérébraux humains est nécessaire pour l’acquisition complète du langage. Il a presque valeur de shibboleth permettant de séparer les innéistes et les comportementalistes. Il est donc logique que Chomsky, Roberts et Watumull avancent un tel exemple pour énoncer que le modèle probabiliste de l’IA neuronale est voué à échouer à acquérir complètement le langage.

On l’aura deviné : il suffit de demander à ChatGPT de paraphraser cette phrase pour obtenir un résultat suggérant que l’agent conversationnel a parfaitement " compris " le stimulus. DeepL, quand on lui demande de traduire cette phrase en français, donne deux solutions : " John est trop têtu pour qu’on lui parle " en solution préférée et " John est trop têtu pour parler avec lui " en solution de remplacement. Hors contexte, donc sans qu’on sache qui est " lui ", cette seconde solution n’est guère satisfaisante. La première, en revanche, fait totalement l’affaire.

Le détour par DeepL nous montre toutefois la limite de ce petit test qui a pourtant réfuté Chomsky, Roberts et Watumull : comprendre, ici, ne veut rien dire d’autre que " fournir une paraphrase équivalente ", dans la même langue (dans le cas de l’objection qui a immédiatement été faite aux trois auteurs) ou dans une autre (avec DeepL), le problème étant que les deux équivalents fournis par DeepL ne sont justement pas équivalents entre eux, puisque l’un est non-ambigu référentiellement et correct, tandis que l’autre est potentiellement ambigu référentiellement, selon comment on comprend " lui ". Or l’argument de Chomsky, Roberts et Watumull est justement celui de l’opacité du complément d’objet… Les trois auteurs ont bien sûr été pris à défaut ; reste que le test employé, précisément parce qu’il est typiquement behaviouriste (observer extérieurement l’adéquation d’une réaction à un stimulus), laisse ouverte une question de taille et pourtant peu présente dans les discussions entre linguistes : y a-t-il une sémantique des énoncés produits par ChatGPT, et si oui, laquelle ? Chomsky et ses co-auteurs ne disent pas que ChatGPT " comprend " ou " ne comprend pas " le stimulus, mais qu’il en " prédit le sens " (bien ou mal). La question de la référence, présente dans la discussion philosophique sur ChatGPT mais peu mise en avant dans le débat linguistique, n’est pas si loin.

Syntaxe et sémantique de ChatGPT

ChatGPT a une syntaxe et une sémantique : sa syntaxe est homologue aux modèles proposés pour le langage naturel invoquant des patrons formels quantitativement observables. Dans ce champ des " grammaires de construction ", le recours aux données quantitatives est aujourd’hui standard, en particulier en utilisant les ressources fournies par les " grand corpus " de plusieurs dizaines de millions voire milliards de mots (quinze milliards de mots pour le corpus TenTen francophone, cinquante-deux milliards pour son équivalent anglophone). D’un certain point de vue, ChatGPT ne fait que répéter la démarche des modèles constructionalistes les plus radicaux, qui partent de co-occurrences statistiques dans les grands corpus pour isoler des patrons, et il la reproduit en sens inverse, en produisant des données à partir de ces patrons.

Corrélativement, ChatGPT a aussi une sémantique, puisque ces théories de la syntaxe sont majoritairement adossées à des modèles sémantiques dits " des cadres " (frame semantics), dont l’un des inspirateurs n’est autre que Marvin Minsky, pionnier de l’intelligence artificielle s’il en est : la circulation entre linguistique et intelligence artificielle s’inscrit donc sur le temps long et n’est pas unilatérale. Là encore, la question est plutôt celle de la référence : la sémantique en question est très largement notionnelle et ne permet de construire un énoncé susceptible d’être vrai ou faux qu’en l’actualisant par des opérations de repérage (ne serait-ce que temporel) impliquant de saturer grammaticalement ou contextuellement un certain nombre de variables " déictiques ", c’est-à-dire qui ne se chargent de sens que mises en relation à un moi-ici-maintenant dans le discours.

On touche ici à un problème transversal aux clivages dessinés précédemment : les modèles " constructionnalistes " sont plus enclins à ménager des places à la variation contextuelle, mais sous la forme de variables situationnelles dont l’intégration à la description ne fait pas consensus ; les grammaires génératives ont très longtemps évacué ces questions hors de leur sphère d’intérêt, mais les considérations pragmatiques y fleurissent depuis une vingtaine d’années, au prix d’une convocation croissante du moi-ici-maintenant dans l’analyse grammaticale, du moins dans certains courants. De ce fait, l’inscription ou non des enjeux référentiels et déictiques dans la définition même du langage comme faculté humaine représente un clivage en grande partie indépendant de celui qui prévaut en matière de théorie de l’acquisition.

À l’école du perroquet

La bonne question, en tout cas la plus féconde pour la comparaison entre les productions langagières humaines et les productions des grands modèles de langage, n’est sans doute pas de savoir si " ChatGPT parle " ni si les performances de l’IA neuronale valident ou invalident en bloc tel ou tel cadre théorique. Une piste plus intéressante, du point de vue de l’étude de la cognition et du langage humains, consiste à comparer ces productions sur plusieurs niveaux : les mécanismes d’acquisition ; les régularités sémantiques dans leur diversité, sans les réduire aux questions de référence et faisant par exemple intervenir la conceptualisation métaphorique des entités et situations désignées ; la capacité à naviguer entre les registres et les variétés d’une même langue, qui fait partie intégrante de la maîtrise d’un système ; l’adaptation à des ontologies spécifiques ou à des contraintes communicatives circonstancielles… La formule du " perroquet stochastique ", prise au pied de la lettre, indique un modèle de ce que peut être une comparaison scientifique du langage des IA et du langage humain.

Il existe en effet depuis plusieurs décennies maintenant une linguistique, une psycholinguistique et une pragmatique de la communication animale, qui inclut des recherches comparant l’humain et l’animal. Les progrès de l’étude de la communication animale ont permis d’affiner la compréhension de la faculté de langage, des modules qui la composent, de ses prérequis cognitifs et physiologiques. Ces travaux ne nous disent pas si " les animaux parlent ", pas plus qu’ils ne nous disent si la communication des corbeaux est plus proche de celle des humains que celle des perroquets. En revanche ils nous disent comment diverses caractéristiques éthologiques, génétiques et cognitives sont distribuées entre espèces et comment leur agencement produit des modes de communication spécifiques. Ces travaux nous renseignent, en nous offrant un terrain d’expérimentation inédit, sur ce qui fait toujours système et sur ce qui peut être disjoint dans la faculté de langage. Loin des " fausses promesses ", les grands modèles de langage et les IA neuronales nous offrent peut-être l’occasion d’étendre le domaine de la réflexion sur l’architecture des systèmes possibles de cognition, de communication et d’interaction. 



 

Auteur: Modicom Pierre-Yves

Info: https://aoc.media/ 14 nov 2023

[ onomasiologie bayésienne ] [ sémiose homme-animal ] [ machine-homme ] [ tiercités hors-sol ] [ signes fixés externalisables ]

 

Commentaires: 0

Ajouté à la BD par miguel

symphonie des équations

Des " murmurations " de courbe elliptique découvertes grâce à l'IA prennent leur envol

Les mathématiciens s’efforcent d’expliquer pleinement les comportements inhabituels découverts grâce à l’intelligence artificielle.

(photo - sous le bon angle les courbes elliptiques peuvent se rassembler comme les grands essaims d'oiseaux.)

Les courbes elliptiques font partie des objets les plus séduisants des mathématiques modernes. Elle ne semblent pas compliqués, mais  forment une voie express entre les mathématiques que beaucoup de gens apprennent au lycée et les mathématiques de recherche dans leur forme la plus abstruse. Elles étaient au cœur de la célèbre preuve du dernier théorème de Fermat réalisée par Andrew Wiles dans les années 1990. Ce sont des outils clés de la cryptographie moderne. Et en 2000, le Clay Mathematics Institute a désigné une conjecture sur les statistiques des courbes elliptiques comme l'un des sept " problèmes du prix du millénaire ", chacun d'entre eux étant récompensé d'un million de dollars pour sa solution. Cette hypothèse, formulée pour la première fois par Bryan Birch et Peter Swinnerton-Dyer dans les années 1960, n'a toujours pas été prouvée.

Comprendre les courbes elliptiques est une entreprise aux enjeux élevés qui est au cœur des mathématiques. Ainsi, en 2022, lorsqu’une collaboration transatlantique a utilisé des techniques statistiques et l’intelligence artificielle pour découvrir des modèles complètement inattendus dans les courbes elliptiques, cela a été une contribution bienvenue, bien qu’inattendue. "Ce n'était qu'une question de temps avant que l'apprentissage automatique arrive à notre porte avec quelque chose d'intéressant", a déclaré Peter Sarnak , mathématicien à l'Institute for Advanced Study et à l'Université de Princeton. Au départ, personne ne pouvait expliquer pourquoi les modèles nouvellement découverts existaient. Depuis lors, dans une série d’articles récents, les mathématiciens ont commencé à élucider les raisons derrière ces modèles, surnommés " murmures " en raison de leur ressemblance avec les formes fluides des étourneaux en troupeaux, et ont commencé à prouver qu’ils ne doivent pas se produire uniquement dans des cas particuliers. exemples examinés en 2022, mais dans les courbes elliptiques plus généralement.

L'importance d'être elliptique

Pour comprendre ces modèles, il faut jeter les bases de ce que sont les courbes elliptiques et de la façon dont les mathématiciens les catégorisent.

Une courbe elliptique relie le carré d'une variable, communément écrite comme y , à la troisième puissance d'une autre, communément écrite comme x : 2  =  3  + Ax + B , pour une paire de nombres A et B , tant que A et B remplissent quelques conditions simples. Cette équation définit une courbe qui peut être représentée graphiquement sur le plan, comme indiqué ci-dessous. (Photo : malgré la similitude des noms, une ellipse n'est pas une courbe elliptique.)

Introduction

Bien qu’elles semblent simples, les courbes elliptiques s’avèrent être des outils incroyablement puissants pour les théoriciens des nombres – les mathématiciens qui recherchent des modèles dans les nombres entiers. Au lieu de laisser les variables x et y s'étendre sur tous les nombres, les mathématiciens aiment les limiter à différents systèmes numériques, ce qu'ils appellent définir une courbe " sur " un système numérique donné. Les courbes elliptiques limitées aux nombres rationnels – nombres qui peuvent être écrits sous forme de fractions – sont particulièrement utiles. "Les courbes elliptiques sur les nombres réels ou complexes sont assez ennuyeuses", a déclaré Sarnak. "Seuls les nombres rationnels sont profonds."

Voici une façon qui est vraie. Si vous tracez une ligne droite entre deux points rationnels sur une courbe elliptique, l’endroit où cette ligne coupe à nouveau la courbe sera également rationnel. Vous pouvez utiliser ce fait pour définir " addition " dans une courbe elliptique, comme indiqué ci-dessous. 

(Photo -  Tracez une ligne entre P et Q . Cette ligne coupera la courbe en un troisième point, R . (Les mathématiciens ont une astuce spéciale pour gérer le cas où la ligne ne coupe pas la courbe en ajoutant un " point à l'infini ".) La réflexion de R sur l' axe des x est votre somme P + Q . Avec cette opération d'addition, toutes les solutions de la courbe forment un objet mathématique appelé groupe.)

Les mathématiciens l'utilisent pour définir le " rang " d'une courbe. Le rang d'une courbe est lié au nombre de solutions rationnelles dont elle dispose. Les courbes de rang 0 ont un nombre fini de solutions. Les courbes de rang supérieur ont un nombre infini de solutions dont la relation les unes avec les autres à l'aide de l'opération d'addition est décrite par le rang.

Les classements (rankings) ne sont pas bien compris ; les mathématiciens n'ont pas toujours le moyen de les calculer et ne savent pas quelle taille ils peuvent atteindre. (Le plus grand rang exact connu pour une courbe spécifique est 20.) Des courbes d'apparence similaire peuvent avoir des rangs complètement différents.

Les courbes elliptiques ont aussi beaucoup à voir avec les nombres premiers, qui ne sont divisibles que par 1 et par eux-mêmes. En particulier, les mathématiciens examinent les courbes sur des corps finis – des systèmes d’arithmétique cyclique définis pour chaque nombre premier. Un corps fini est comme une horloge dont le nombre d'heures est égal au nombre premier : si vous continuez à compter vers le haut, les nombres recommencent. Dans le corps fini de 7, par exemple, 5 plus 2 est égal à zéro et 5 plus 3 est égal à 1.

(Photo : Les motifs formés par des milliers de courbes elliptiques présentent une similitude frappante avec les murmures des étourneaux.)

Une courbe elliptique est associée à une séquence de nombres, appelée a p , qui se rapporte au nombre de solutions qu'il existe à la courbe dans le corps fini défini par le nombre premier p . Un p plus petit signifie plus de solutions ; un p plus grand signifie moins de solutions. Bien que le rang soit difficile à calculer, la séquence a p est beaucoup plus simple.

Sur la base de nombreux calculs effectués sur l'un des tout premiers ordinateurs, Birch et Swinnerton-Dyer ont conjecturé une relation entre le rang d'une courbe elliptique et la séquence a p . Quiconque peut prouver qu’il avait raison gagnera un million de dollars et l’immortalité mathématique.

Un modèle surprise émerge

Après le début de la pandémie, Yang-Hui He , chercheur au London Institute for Mathematical Sciences, a décidé de relever de nouveaux défis. Il avait étudié la physique à l'université et avait obtenu son doctorat en physique mathématique du Massachusetts Institute of Technology. Mais il s'intéressait de plus en plus à la théorie des nombres et, étant donné les capacités croissantes de l'intelligence artificielle, il pensait essayer d'utiliser l'IA comme un outil permettant de trouver des modèles inattendus dans les nombres. (Il avait déjà utilisé l'apprentissage automatique pour classifier les variétés de Calabi-Yau , des structures mathématiques largement utilisées en théorie des cordes.

(Photo ) Lorsque Kyu-Hwan Lee (à gauche) et Thomas Oliver (au centre) ont commencé à travailler avec Yang-Hui He (à droite) pour utiliser l'intelligence artificielle afin de trouver des modèles mathématiques, ils s'attendaient à ce que ce soit une plaisanterie plutôt qu'un effort qui mènerait à de nouveaux découvertes. De gauche à droite : Grace Lee ; Sophie Olivier ; gracieuseté de Yang-Hui He.

En août 2020, alors que la pandémie s'aggravait, l'Université de Nottingham l'a accueilli pour une conférence en ligne . Il était pessimiste quant à ses progrès et quant à la possibilité même d’utiliser l’apprentissage automatique pour découvrir de nouvelles mathématiques. "Son récit était que la théorie des nombres était difficile parce qu'on ne pouvait pas apprendre automatiquement des choses en théorie des nombres", a déclaré Thomas Oliver , un mathématicien de l'Université de Westminster, présent dans le public. Comme il se souvient : " Je n'ai rien trouvé parce que je n'étais pas un expert. Je n’utilisais même pas les bons éléments pour examiner cela."

Oliver et Kyu-Hwan Lee , mathématicien à l'Université du Connecticut, ont commencé à travailler avec He. "Nous avons décidé de faire cela simplement pour apprendre ce qu'était l'apprentissage automatique, plutôt que pour étudier sérieusement les mathématiques", a déclaré Oliver. "Mais nous avons rapidement découvert qu'il était possible d'apprendre beaucoup de choses par machine."

Oliver et Lee lui ont suggéré d'appliquer ses techniques pour examiner les fonctions L , des séries infinies étroitement liées aux courbes elliptiques à travers la séquence a p . Ils pourraient utiliser une base de données en ligne de courbes elliptiques et de leurs fonctions L associées , appelée LMFDB , pour former leurs classificateurs d'apprentissage automatique. À l’époque, la base de données contenait un peu plus de 3 millions de courbes elliptiques sur les rationnels. En octobre 2020, ils avaient publié un article utilisant les informations glanées à partir des fonctions L pour prédire une propriété particulière des courbes elliptiques. En novembre, ils ont partagé un autre article utilisant l’apprentissage automatique pour classer d’autres objets en théorie des nombres. En décembre, ils étaient capables de prédire les rangs des courbes elliptiques avec une grande précision.

Mais ils ne savaient pas vraiment pourquoi leurs algorithmes d’apprentissage automatique fonctionnaient si bien. Lee a demandé à son étudiant de premier cycle Alexey Pozdnyakov de voir s'il pouvait comprendre ce qui se passait. En l’occurrence, la LMFDB trie les courbes elliptiques en fonction d’une quantité appelée conducteur, qui résume les informations sur les nombres premiers pour lesquels une courbe ne se comporte pas correctement. Pozdnyakov a donc essayé d’examiner simultanément un grand nombre de courbes comportant des conducteurs similaires – disons toutes les courbes comportant entre 7 500 et 10 000 conducteurs.

Cela représente environ 10 000 courbes au total. Environ la moitié d'entre eux avaient le rang 0 et l'autre moitié le rang 1. (Les rangs supérieurs sont extrêmement rares.) Il a ensuite fait la moyenne des valeurs de a p pour toutes les courbes de rang 0, a fait la moyenne séparément de a p pour toutes les courbes de rang 1 et a tracé la résultats. Les deux ensembles de points formaient deux vagues distinctes et facilement discernables. C’est pourquoi les classificateurs d’apprentissage automatique ont été capables de déterminer correctement le rang de courbes particulières.

" Au début, j'étais simplement heureux d'avoir terminé ma mission", a déclaré Pozdnyakov. "Mais Kyu-Hwan a immédiatement reconnu que ce schéma était surprenant, et c'est à ce moment-là qu'il est devenu vraiment excitant."

Lee et Oliver étaient captivés. "Alexey nous a montré la photo et j'ai dit qu'elle ressemblait à ce que font les oiseaux", a déclaré Oliver. "Et puis Kyu-Hwan l'a recherché et a dit que cela s'appelait une murmuration, puis Yang a dit que nous devrions appeler le journal ' Murmurations de courbes elliptiques '."

Ils ont mis en ligne leur article en avril 2022 et l’ont transmis à une poignée d’autres mathématiciens, s’attendant nerveusement à se faire dire que leur soi-disant « découverte » était bien connue. Oliver a déclaré que la relation était si visible qu'elle aurait dû être remarquée depuis longtemps.

Presque immédiatement, la prépublication a suscité l'intérêt, en particulier de la part d' Andrew Sutherland , chercheur scientifique au MIT et l'un des rédacteurs en chef de la LMFDB. Sutherland s'est rendu compte que 3 millions de courbes elliptiques n'étaient pas suffisantes pour atteindre ses objectifs. Il voulait examiner des gammes de conducteurs beaucoup plus larges pour voir à quel point les murmures étaient robustes. Il a extrait des données d’un autre immense référentiel d’environ 150 millions de courbes elliptiques. Toujours insatisfait, il a ensuite extrait les données d'un autre référentiel contenant 300 millions de courbes.

"Mais même cela ne suffisait pas, j'ai donc calculé un nouvel ensemble de données de plus d'un milliard de courbes elliptiques, et c'est ce que j'ai utilisé pour calculer les images à très haute résolution", a déclaré Sutherland. Les murmures indiquaient s'il effectuait en moyenne plus de 15 000 courbes elliptiques à la fois ou un million à la fois. La forme est restée la même alors qu’il observait les courbes sur des nombres premiers de plus en plus grands, un phénomène appelé invariance d’échelle. Sutherland s'est également rendu compte que les murmures ne sont pas propres aux courbes elliptiques, mais apparaissent également dans des fonctions L plus générales . Il a écrit une lettre résumant ses découvertes et l'a envoyée à Sarnak et Michael Rubinstein de l'Université de Waterloo.

"S'il existe une explication connue, j'espère que vous la connaîtrez", a écrit Sutherland.

Ils ne l'ont pas fait.

Expliquer le modèle

Lee, He et Oliver ont organisé un atelier sur les murmurations en août 2023 à l'Institut de recherche informatique et expérimentale en mathématiques (ICERM) de l'Université Brown. Sarnak et Rubinstein sont venus, tout comme l'étudiante de Sarnak, Nina Zubrilina .

LA THÉORIE DU NOMBRE

Zubrilina a présenté ses recherches sur les modèles de murmuration dans des formes modulaires , des fonctions complexes spéciales qui, comme les courbes elliptiques, sont associées à des fonctions L. Dans les formes modulaires dotées de grands conducteurs, les murmurations convergent vers une courbe nettement définie, plutôt que de former un motif perceptible mais dispersé. Dans un article publié le 11 octobre 2023, Zubrilina a prouvé que ce type de murmuration suit une formule explicite qu'elle a découverte.

" La grande réussite de Nina est qu'elle lui a donné une formule pour cela ; Je l’appelle la formule de densité de murmuration Zubrilina ", a déclaré Sarnak. "En utilisant des mathématiques très sophistiquées, elle a prouvé une formule exacte qui correspond parfaitement aux données."

Sa formule est compliquée, mais Sarnak la salue comme un nouveau type de fonction important, comparable aux fonctions d'Airy qui définissent des solutions aux équations différentielles utilisées dans divers contextes en physique, allant de l'optique à la mécanique quantique.

Bien que la formule de Zubrilina ait été la première, d'autres ont suivi. "Chaque semaine maintenant, un nouvel article sort", a déclaré Sarnak, "utilisant principalement les outils de Zubrilina, expliquant d'autres aspects des murmurations."

(Photo - Nina Zubrilina, qui est sur le point de terminer son doctorat à Princeton, a prouvé une formule qui explique les schémas de murmuration.)

Jonathan Bober , Andrew Booker et Min Lee de l'Université de Bristol, ainsi que David Lowry-Duda de l'ICERM, ont prouvé l'existence d'un type différent de murmuration sous des formes modulaires dans un autre article d'octobre . Et Kyu-Hwan Lee, Oliver et Pozdnyakov ont prouvé l'existence de murmures dans des objets appelés caractères de Dirichlet qui sont étroitement liés aux fonctions L.

Sutherland a été impressionné par la dose considérable de chance qui a conduit à la découverte des murmurations. Si les données de la courbe elliptique n'avaient pas été classées par conducteur, les murmures auraient disparu. "Ils ont eu la chance de récupérer les données de la LMFDB, qui étaient pré-triées selon le chef d'orchestre", a-t-il déclaré. « C'est ce qui relie une courbe elliptique à la forme modulaire correspondante, mais ce n'est pas du tout évident. … Deux courbes dont les équations semblent très similaires peuvent avoir des conducteurs très différents. Par exemple, Sutherland a noté que 2 = 3 – 11 x + 6 a un conducteur 17, mais en retournant le signe moins en signe plus, 2 = 3  + 11 x + 6 a un conducteur 100 736.

Même alors, les murmures n'ont été découverts qu'en raison de l'inexpérience de Pozdniakov. "Je ne pense pas que nous l'aurions trouvé sans lui", a déclaré Oliver, "parce que les experts normalisent traditionnellement a p pour avoir une valeur absolue de 1. Mais il ne les a pas normalisés… donc les oscillations étaient très importantes et visibles."

Les modèles statistiques que les algorithmes d’IA utilisent pour trier les courbes elliptiques par rang existent dans un espace de paramètres comportant des centaines de dimensions – trop nombreuses pour que les gens puissent les trier dans leur esprit, et encore moins les visualiser, a noté Oliver. Mais même si l’apprentissage automatique a découvert les oscillations cachées, " ce n’est que plus tard que nous avons compris qu’il s’agissait de murmures ".



 

Auteur: Internet

Info: Paul Chaikin pour Quanta Magazine, 5 mars 2024 - https://www.quantamagazine.org/elliptic-curve-murmurations-found-with-ai-take-flight-20240305/?mc_cid=797b7d1aad&mc_eid=78bedba296

[ résonance des algorithmes ] [ statistiques en mouvement ] [ chants des fractales ] [ bancs de poissons ]

 

Commentaires: 0

Ajouté à la BD par miguel

intelligence artificielle

Apprendre l'anglais n'est pas une tâche facile, comme le savent d'innombrables étudiants. Mais lorsque l'étudiant est un ordinateur, une approche fonctionne étonnamment bien : Il suffit d'alimenter un modèle mathématique géant, appelé réseau neuronal, avec des montagnes de textes provenant d'Internet. C'est le principe de fonctionnement des modèles linguistiques génératifs tels que ChatGPT d'OpenAI, dont la capacité à tenir une conversation cohérente (à défaut d'être toujours sincère) sur un large éventail de sujets a surpris les chercheurs et le public au cours de l'année écoulée.

Mais cette approche présente des inconvénients. D'une part, la procédure de "formation" nécessaire pour transformer de vastes archives textuelles en modèles linguistiques de pointe est coûteuse et prend beaucoup de temps. D'autre part, même les personnes qui forment les grands modèles linguistiques ont du mal à comprendre leur fonctionnement interne, ce qui, à son tour, rend difficile la prévision des nombreuses façons dont ils peuvent échouer.

Face à ces difficultés, certains chercheurs ont choisi d'entraîner des modèles plus petits sur des ensembles de données plus restreints, puis d'étudier leur comportement. "C'est comme le séquençage du génome de la drosophile par rapport au séquençage du génome humain", explique Ellie Pavlick, chercheuse sur les modèles de langage à l'université de Brown.

Dans un article récemment publié sur le serveur scientifique arxiv.org, deux chercheurs de Microsoft ont présenté une nouvelle méthode pour former de minuscules modèles de langage : Les élever avec un régime strict d'histoires pour enfants.

RÉSEAUX NEURONAUX

Des chercheurs acquièrent une nouvelle compréhension à partir d'une simple IA  

Les chercheurs en apprentissage automatique ont compris cette leçon. GPT-3.5, le grand modèle linguistique qui alimente l'interface ChatGPT, compte près de 200 milliards de paramètres et a été entraîné sur un ensemble de données comprenant des centaines de milliards de mots (OpenAI n'a pas publié les chiffres correspondants pour son successeur, GPT-4).  L'entraînement de modèles aussi vastes nécessite généralement au moins 1 000 processeurs spécialisés, appelés GPU, fonctionnant en parallèle pendant des semaines. Seules quelques entreprises peuvent réunir les ressources nécessaires, sans parler de l'entraînement et de la comparaison de différents modèles.

Les deux chercheurs ont montré que des modèles linguistiques des milliers de fois plus petits que les systèmes de pointe actuels apprenaient rapidement à raconter des histoires cohérentes et grammaticalement justes lorsqu'ils étaient formés de cette manière. Leurs résultats indiquent de nouvelles pistes de recherche qui pourraient être utiles pour former des modèles plus importants et comprendre leur comportement.

"J'ai trouvé tout  ça très instructif", a déclaré Chandra Bhagavatula, chercheur sur les modèles de langage à l'Allen Institute for Artificial Intelligence de Seattle. "Le concept lui-même est très intéressant.

Il était une fois

Les réseaux neuronaux au cœur des modèles de langage sont des structures mathématiques vaguement inspirées du cerveau humain. Chacun d'entre eux contient de nombreux neurones artificiels disposés en couches, avec des connexions entre les neurones des couches adjacentes. Le comportement du réseau neuronal est régi par la force de ces connexions, appelées paramètres. Dans un modèle linguistique, les paramètres contrôlent les mots que le modèle peut produire ensuite, compte tenu d'une invite initiale et des mots qu'il a déjà générés.

Un modèle ne prend véritablement vie qu'au cours de la formation, lorsqu'il compare de manière répétée ses propres résultats au texte de son ensemble de données de formation et qu'il ajuste ses paramètres afin d'accroître la ressemblance. Un réseau non entraîné avec des paramètres aléatoires est trivialement facile à assembler à partir de quelques lignes de code, mais il ne produira que du charabia. Après l'entraînement, il peut souvent poursuivre de manière plausible un texte peu familier. Les modèles de plus grande taille sont souvent soumis à des réglages plus fins qui leur apprennent à répondre à des questions et à suivre des instructions, mais l'essentiel de la formation consiste à maîtriser la prédiction des mots.

Pour réussir à prédire des mots, un modèle linguistique doit maîtriser de nombreuses compétences différentes. Par exemple, les règles de la grammaire anglaise suggèrent que le mot suivant le mot "going" sera probablement "to", quel que soit le sujet du texte. En outre, un système a besoin de connaissances factuelles pour compléter "la capitale de la France est", et compléter un passage contenant le mot "not" nécessite une connaissance rudimentaire de la logique.

"Le langage brut est très compliqué", explique Timothy Nguyen, chercheur en apprentissage automatique chez DeepMind. "Pour que des capacités linguistiques intéressantes apparaissent, les gens ont eu recours à l'idée que plus il y a de données, mieux c'est".

(photo) Ronen Eldan s'est rendu compte qu'il pouvait utiliser les histoires d'enfants générées par de grands modèles linguistiques pour en entraîner rapidement de plus petits.

Introduction

Ronen Eldan, mathématicien qui a rejoint Microsoft Research en 2022 pour étudier les modèles de langage génératifs, souhaitait développer un moyen moins coûteux et plus rapide d'explorer leurs capacités. Le moyen naturel d'y parvenir était d'utiliser un petit ensemble de données, ce qui signifiait qu'il devait entraîner les modèles à se spécialiser dans une tâche spécifique, afin qu'ils ne s'éparpillent pas. Au départ, il voulait entraîner les modèles à résoudre une certaine catégorie de problèmes mathématiques, mais un après-midi, après avoir passé du temps avec sa fille de 5 ans, il s'est rendu compte que les histoires pour enfants convenaient parfaitement. "L'idée m'est venue littéralement après lui avoir lu une histoire", a-t-il déclaré.

Pour générer des histoires cohérentes pour les enfants, un modèle de langage devrait apprendre des faits sur le monde, suivre les personnages et les événements, et observer les règles de grammaire - des versions plus simples des défis auxquels sont confrontés les grands modèles. Mais les grands modèles formés sur des ensembles de données massives apprennent d'innombrables détails non pertinents en même temps que les règles qui comptent vraiment. Eldan espérait que la brièveté et le vocabulaire limité des histoires pour enfants rendraient l'apprentissage plus gérable pour les petits modèles, ce qui les rendrait à la fois plus faciles à former et plus faciles à comprendre.

Dans le monde des modèles de langage, cependant, le terme "petit" est relatif : Un ensemble de données mille fois plus petit que celui utilisé pour former GPT-3.5 devrait encore contenir des millions d'histoires. "Je ne sais pas combien d'argent vous voulez dépenser, mais je suppose que vous n'allez pas engager des professionnels pour écrire quelques millions de nouvelles", a déclaré M. Nguyen.

Il faudrait un auteur extraordinairement prolifique pour satisfaire des lecteurs aussi voraces, mais Eldan avait quelques candidats en tête. Qui peut mieux écrire pour un public de petits modèles linguistiques que pour de grands modèles ?

Toys stories

Eldan a immédiatement entrepris de créer une bibliothèque d'histoires synthétiques pour enfants générées par de grands modèles linguistiques. Mais il a rapidement découvert que même les modèles de pointe ne sont pas naturellement très créatifs. Si l'on demande à GPT-4 d'écrire des histoires adaptées à des enfants de 4 ans, explique Eldan, "environ un cinquième des histoires concernera des enfants qui vont au parc et qui ont peur des toboggans". C'est apparemment la quintessence des histoires pour enfants d'âge préscolaire, selon l'Internet.

La solution a consisté à ajouter un peu d'aléatoire dans le message. Tout d'abord, Eldan a utilisé le GPT-4 pour générer une liste de 1 500 noms, verbes et adjectifs qu'un enfant de 4 ans pourrait connaître - suffisamment courte pour qu'il puisse facilement la vérifier lui-même. Il a ensuite écrit un programme informatique simple qui demanderait à plusieurs reprises à GPT-3.5 ou à GPT-4 de générer une histoire adaptée à l'âge de l'enfant, comprenant trois mots aléatoires de la liste, ainsi qu'un détail supplémentaire choisi au hasard, comme une fin heureuse ou un rebondissement de l'intrigue. Les histoires obtenues, heureusement, étaient moins axées sur des diapositives effrayantes.

Eldan disposait désormais d'une procédure pour produire des données de formation à la demande, mais il n'avait aucune idée du nombre d'histoires dont il aurait besoin pour former un modèle fonctionnel, ni de la taille de ce modèle. C'est alors qu'il s'est associé à Yuanzhi Li, chercheur en apprentissage automatique chez Microsoft et à l'université Carnegie Mellon, pour essayer différentes possibilités, en tirant parti du fait que les petits modèles peuvent être formés très rapidement. La première étape consistait à décider comment évaluer leurs modèles.

Introduction

Dans la recherche sur les modèles de langage - comme dans toute salle de classe - la notation est un sujet délicat. Il n'existe pas de rubrique parfaite qui englobe tout ce que les chercheurs veulent savoir, et les modèles qui excellent dans certaines tâches échouent souvent de manière spectaculaire dans d'autres. Au fil du temps, les chercheurs ont mis au point divers critères de référence standard basés sur des questions dont les réponses ne sont pas ambiguës, ce qui est une bonne approche si vous essayez d'évaluer des compétences spécifiques. Mais Eldan et Li se sont intéressés à quelque chose de plus nébuleux : quelle doit être la taille réelle des modèles linguistiques si l'on simplifie le langage autant que possible ?

"Pour vérifier directement si le modèle parle anglais, je pense que la seule chose à faire est de laisser le modèle générer de l'anglais de manière ouverte", a déclaré M. Eldan.

Il n'y a que deux façons de mesurer les performances d'un modèle sur des questions aussi qualitatives : S'appuyer sur des évaluateurs humains ou se tourner à nouveau vers le GPT-4. Les deux chercheurs ont opté pour cette dernière solution, laissant les grands modèles à la fois rédiger les manuels et noter les dissertations.

Bhagavatula a déclaré qu'il aurait aimé voir comment les évaluations de GPT-4 se comparaient à celles des correcteurs humains - GPT-4 peut être biaisé en faveur des modèles qu'il a aidé à former, et l'opacité des modèles de langage rend difficile la quantification de tels biais. Mais il ne pense pas que de telles subtilités affecteraient les comparaisons entre différents modèles formés sur des ensembles similaires d'histoires synthétiques - l'objectif principal du travail d'Eldan et Li.

Eldan et Li ont utilisé une procédure en deux étapes pour évaluer chacun de leurs petits modèles après la formation. Tout d'abord, ils ont présenté au petit modèle la première moitié d'une histoire distincte de celles de l'ensemble des données d'apprentissage, de manière à ce qu'il génère une nouvelle fin, en répétant ce processus avec 50 histoires de test différentes. Ensuite, ils ont demandé à GPT-4 d'évaluer chacune des fins du petit modèle en fonction de trois catégories : créativité, grammaire et cohérence avec le début de l'histoire. Ils ont ensuite fait la moyenne des notes obtenues dans chaque catégorie, obtenant ainsi trois notes finales par modèle.

Avec cette procédure en main, Eldan et Li étaient enfin prêts à comparer les différents modèles et à découvrir quels étaient les étudiants les plus brillants.

Résultats des tests

Après quelques explorations préliminaires, les deux chercheurs ont opté pour un ensemble de données de formation contenant environ 2 millions d'histoires. Ils ont ensuite utilisé cet ensemble de données, baptisé TinyStories, pour entraîner des modèles dont la taille varie de 1 million à 30 millions de paramètres, avec un nombre variable de couches. Le travail a été rapide : En utilisant seulement quatre GPU, l'entraînement du plus grand de ces modèles n'a pas pris plus d'une journée.

Les plus petits modèles ont eu du mal. Par exemple, l'une des histoires testées commence par un homme à l'air méchant qui dit à une fille qu'il va lui prendre son chat. Un modèle à un million de paramètres s'est retrouvé bloqué dans une boucle où la fille répète sans cesse à l'homme qu'elle veut être son amie. Mais les modèles plus grands, qui sont encore des milliers de fois plus petits que GPT-3.5, ont obtenu des résultats surprenants. La version à 28 millions de paramètres racontait une histoire cohérente, même si la fin était sinistre : "Katie s'est mise à pleurer, mais l'homme s'en fichait. Il a emporté le chat et Katie n'a plus jamais revu son chat. Fin de l'histoire".

En plus de tester leurs propres modèles, Eldan et Li ont soumis le même défi au GPT-2 d'OpenAI, un modèle de 1,5 milliard de paramètres publié en 2019. Le résultat a été bien pire - avant la fin abrupte de l'histoire, l'homme menace d'emmener la jeune fille au tribunal, en prison, à l'hôpital, à la morgue et enfin au crématorium.

Introduction

Selon M. Nguyen, il est passionnant que des modèles aussi petits soient aussi fluides, mais il n'est peut-être pas surprenant que GPT-2 ait eu du mal à accomplir la tâche : il s'agit d'un modèle plus grand, mais loin de l'état de l'art, et il a été formé sur un ensemble de données très différent. "Un enfant en bas âge qui ne s'entraînerait qu'à des tâches d'enfant en bas âge, comme jouer avec des jouets, obtiendrait de meilleurs résultats que vous ou moi", a-t-il fait remarquer. "Nous ne nous sommes pas spécialisés dans cette chose simple.

Les comparaisons entre les différents modèles de TinyStories ne souffrent pas des mêmes facteurs de confusion. Eldan et Li ont observé que les réseaux comportant moins de couches mais plus de neurones par couche étaient plus performants pour répondre aux questions nécessitant des connaissances factuelles ; inversement, les réseaux comportant plus de couches et moins de neurones par couche étaient plus performants pour garder en mémoire les personnages et les points de l'intrigue situés plus tôt dans l'histoire. Bhagavatula a trouvé ce résultat particulièrement intriguant. S'il peut être reproduit dans des modèles plus vastes, "ce serait un résultat vraiment intéressant qui pourrait découler de ce travail", a-t-il déclaré.

Eldan et Li ont également étudié comment les capacités de leurs petits modèles dépendaient de la durée de la période de formation. Dans tous les cas, les modèles maîtrisaient d'abord la grammaire, puis la cohérence. Pour Eldan, ce schéma illustre comment les différences dans les structures de récompense entraînent des différences dans les schémas d'acquisition du langage entre les réseaux neuronaux et les enfants. Pour les modèles de langage, qui apprennent en prédisant des mots, "l'incitation pour les mots "je veux avoir" est aussi importante que pour les mots "crème glacée"", a-t-il déclaré. Les enfants, en revanche, "ne se soucient pas de savoir s'ils disent 'j'aimerais avoir de la glace' ou simplement 'glace, glace, glace'".

Qualité contre quantité

Eldan et Li espèrent que cette étude incitera d'autres chercheurs à entraîner différents modèles sur l'ensemble des données de TinyStories et à comparer leurs capacités. Mais il est souvent difficile de prédire quelles caractéristiques des petits modèles apparaîtront également dans les plus grands.

"Peut-être que les modèles de vision chez la souris sont de très bons substituts de la vision humaine, mais les modèles de dépression chez la souris sont-ils de bons modèles de la dépression chez l'homme ? a déclaré M. Pavlick. "Pour chaque cas, c'est un peu différent.

Le succès des modèles TinyStories suggère également une leçon plus large. L'approche standard pour compiler des ensembles de données de formation consiste à aspirer des textes sur l'internet, puis à filtrer les déchets. Le texte synthétique généré par des modèles de grande taille pourrait constituer une autre façon d'assembler des ensembles de données de haute qualité qui n'auraient pas besoin d'être aussi volumineux.

"Nous avons de plus en plus de preuves que cette méthode est très efficace, non seulement pour les modèles de la taille de TinyStories, mais aussi pour les modèles plus importants", a déclaré M. Eldan. Ces preuves proviennent d'une paire d'articles de suivi sur les modèles à un milliard de paramètres, rédigés par Eldan, Li et d'autres chercheurs de Microsoft. Dans le premier article, ils ont entraîné un modèle à apprendre le langage de programmation Python en utilisant des extraits de code générés par GPT-3.5 ainsi que du code soigneusement sélectionné sur l'internet. Dans le second, ils ont complété l'ensemble de données d'entraînement par des "manuels" synthétiques couvrant un large éventail de sujets, afin d'entraîner un modèle linguistique à usage général. Lors de leurs tests, les deux modèles ont été comparés favorablement à des modèles plus importants formés sur des ensembles de données plus vastes. Mais l'évaluation des modèles linguistiques est toujours délicate, et l'approche des données d'entraînement synthétiques n'en est qu'à ses balbutiements - d'autres tests indépendants sont nécessaires.

Alors que les modèles linguistiques de pointe deviennent de plus en plus volumineux, les résultats surprenants de leurs petits cousins nous rappellent qu'il y a encore beaucoup de choses que nous ne comprenons pas, même pour les modèles les plus simples. M. Nguyen s'attend à ce que de nombreux autres articles explorent l'approche inaugurée par TinyStories.

"La question est de savoir où et pourquoi la taille a de l'importance", a-t-il déclaré. "Il devrait y avoir une science à ce sujet, et cet article est, je l'espère, le début d'une riche histoire.



 



 

Auteur: Internet

Info: https://www.quantamagazine.org/ Ben Brubaker, 5 octobre 2023

[ synthèse ]

 

Commentaires: 0

Ajouté à la BD par miguel

Afrique-Occident

Robert Farris Thompson: les canons du Cool
Une bouteille de Cinzano, une boîte de fixatif, un chandelier à sept branches, une machette et un juke-box cassé sont des objets de dévotion ornant l'autel d'un temple vodun ("vaudou") en périphérie de Port-au-Prince. Le temple est situé dans l'enceinte d'André Pierre, prêtre vodun et peintre, en bordure d'un fossé sur la route du Cap-Haïtien. Il y a des voitures accidentées dans la cour, des chiens, des chèvres et un petit taureau attaché. En arrivant de l'aéroport international François Duvalier, l'esprit prédisposé aux présages, je ne peux m'empêcher de remarquer un grand panneau de signalisation à proximité. On y lit "LA ROUTE TUE ET BLESSE."

Robert Farris Thompson et moi sommes descendus de New York vers Haïti pour passer le week-end avec André Pierre et Madame Nerva, une prêtresse vaudou. Thompson est historien de l'art, professeur titulaire à Yale et maître au Timothy Dwight College. Je suis un de ses anciens élèves, venu voir Bob faire ce qu'il nomme "un petit sondage". André Pierre est le Fra Angelico haïtien, un clerc vodun dont les toiles sont accrochées au musée national de Haïti; des copies de son travail remplissent les porte-cartes de l'aéroport. La femme, les enfants et les enfants des cousins ​​d'André Pierre légument dans l'ombre alors que Thompson fait pénétrer sa voiture de location verte dans l'enceinte, criant: "Bam nouvelle" et "Comment ouyé?"

Nous retrouvons André Pierre, petit, noir, visage marqué, dans la chaleur de son atelier. Les murs sont couverts de brillants motifs vodun - diptyques et triptyques d'Ogûn, dieu du fer; Agoué, seigneur de la mer; Erzuli, déesse de l'amour; et Damballah, dieu serpent de la créativité, de la fécondité et de la pluie. À côté du chevalet, il y a un uniforme militaire à glands pour le Baron Samedi, seigneur des cimetières, soigneusement protégé dans son sac de nettoyage à sec.

Avec la révérence et l'attitude d'un abbé pilotant ses visiteurs dans un vénérable monastère du sud de la France, André Pierre nous fait visiter ce temple d'étain ondulé. Il nous montre des salles-autels contenant des tambours, des bassins, des faux, des cartes à jouer, de l'alcool, des fouets et des lits (dans lesquels André Pierre dort quand il passe la nuit avec une divinité particulière). Il s'exprime via une sorte de flux créole théoloco-vodun tout en marchant et en pointant des choses. Soudain, André Pierre se met à chanter pour illustrer une idée particulière; elle correspond à un tableau et il l'explique, de la même façon qu'un requiem correspond à une crucifixion. Thompson attrape un tambour et commence à tambouriner et à chanter. Lorsqu'ils ont fini, en geste de célébration, ils versent chacun une cuillerée de liqueur de racine sur le sol. Thompson m'avertit à part en anglais de faire attention près des bassins en pierre dans la pièce sombre, car c'est un de ceux dédiés à Damballah, le dieu serpent, et ils contiennent parfois des serpents.

À la tombée de la nuit, Thompson, polo humide de transpiration, a empli un carnet et demi de croquis et de notes, commencé une monographie sur l'iconographie de 10 peintures vodun, tambouriné, bu des coups et pris rendez-vous pour revenir tôt le lendemain. Alors que nous partons à la recherche de notre hôtel, Thompson, excité, m'explique les subtilités morales de tout ce que nous avons vu. Il me parle de notre emploi du temps: nous devons aller demain soir à Jacmel, de l'autre côté des montagnes, voir Madame Nerva célébrer les rites de la déesse de l'amour, Erzuli. Je suis épuisé, ayant trouvé que le voyage de Manhattan au temple d'André Pierre en un après-midi c'est déjà beaucoup. Thompson ne semble ressentir aucune tension suite à cette journée; il entre en Haïti tout en fluidité. En fait il semble juste revenir chez lui.

Blanc de peau, blanc de cheveux et blanc d'origine, d'éducation et de par sa société, Robert Farris Thompson est tombé amoureux de la musique noire, de l'art noir et de la négritude il y a 30 ans et a basé toute sa carrière sur cette passion particulière. Suivant cet instinct, suscité par un mambo entendu en 1950, Thompson a appris couramment le ki-kongo, le yoruba, le français, l'espagnol et le portugais et s'est familiarisé avec une vingtaine de langues créoles et tribales; il a parcouru la forêt de l'Ituri au Zaïre avec des pygmées; est grand connaisseur du vaudou; a écrit quatre livres sur la religion, la philosophie et l'art ouest-africains; a organisé deux grandes expositions à la National Gallery de Washington. Il est également devenu, dansant dans un costume indigo brodé de coquillages pris sur les gésiers de crocodiles morts, "universitaire junioir membre de la Basinjon Society", agence tribale camerounaise qui contrôle la foudre et autres forces naturelles.

Incorporant l'anthropologie, la sociologie, l'ethnomusicologie et ce que Thompson nomme une "bourse scolaire pour guérilla" (il dit : "laissons les crétins se débrouiller avec ça"), la carrière de Thompson tend vers une seule fin: un savant plaidoyer de la civilisation atlantique noire. Il passe sa vie à poursuivre ce frisson cérébral qui est de rendre cohérent et significatif tout ce qui est mal compris, ou vu comme aléatoire, superficiel ou obscur à son sujet. Comme un historien de l'art extrairait des plans détaillés de la basilique une compréhension de l'esprit médiéval ou de la statuaire romaine tardive une compréhension du déclin de l'empire, Thompson travaille sur l'iconographie de la salsa, les pas de danse, les vêtements, la sculpture, le geste et l'argot pour une définition de la négritude. Il aime montrer à quel point le "primitif" est sophistiqué. Comme archéologue, il donne vie à des artefacts; comme critique, il les déchiffre; et comme vrai croyant, il promeut leur valeur artistique et spirituelle.

Le dernier livre de Thompson, Flash of the Spirit, explique les racines de l'influence africaine dans le Nouveau Monde. Il est une sorte de Baedeker du funk. Un critique a écrit: "Ce livre fait pour l'histoire de l'art ce que le dunk shot a fait pour le basket-ball."

Sous la manche droite de sa chemise Brooks Brothers, Bob Thompson porte le bracelet d'initiation en maille de fer de la divinité chasseuse de rivière Yoruba. Avec ses deux enfants, son récent divorce, ses études à Yale et Andover et ses 55 ans, il ressemble à un avocat d'entreprise en pleine forme ou à un brillant dirigeant pétrolier américain qui aurait mené une carrière polyglotte à l'étranger. Il vit à New Haven, dans le manoir géorgien du maître du collège, où l'on peut entendre le son des percussions résonner dans la cour.

En parallèle à Yale, ses élèves, des bonnes bouffes et de ses conférences, au travers de rencontres au coin de la rue et de conversations précieuses, Thompson fait du prosélytisme. Il enseigne à 100 ou 150 étudiants chaque trimestre et possède l'enthousiasme amusé d'un élève de premier cycle. Le reste de l'université connaît Thompson sous le nom de "Mambo". Pour clarifier ils diront même "noir comme Bob". Ce qui compte, c'est que le président de Yale, Bart Giamatti, brillant franc-tireur lui-même, admire suffisamment la singularité intrépide de Thompson pour l'avoir reconduit dans ses fonctions durant cinq ans.

Sur le campus, les affiches du Chubb Fellowship expriment un peu mieux le statut de Thompson et sa particularité majeure. La bourse Chubb est un programme destiné à amener des visiteurs politiques sur le campus, elle est aussi étoffée que les bourses bien dotées peuvent l'être. Pendant le mandat de Thompson, des personnages habituels - Walter Mondale, Alexander Haig, John Kenneth Galbraith - furent parmi les conférenciers invités. Des affiches commémorant leurs visites tapissent les murs de la maison du maître comme des trophées sportifs de conférences. Une affiche, plus grande et plus audacieuse que les autres, est suspendue dans le bureau de Thompson. Elle annonce que la Chubb Fellowship parraine, pour un colloque et une réception au Timothy Dwight College, une visite de Son Altesse le Granman de la Djuka, du Surinam, "roi afro-américain véritable".

Bob Thompson donne des cours à sa classe comme un prédicateur fondamentaliste réveille sa congrégation, genoux pliés, microphone branché, le fil traînant derrière lui. Il marche parmi les 200 étudiants qui débordent de l'auditorium de Street Hall dans le couloir. Le cours d'automne de Thompson, HoA 379a, est intitulé "La structure du New York Mambo: le microcosme de la créativité noire". Sur scène, un magnétophone émet un jog pygmée; du pupitre vacant pend une carte des dominions tribales ouest-africaines; et sur l'écran : des diapositives flash de Harlem, des pygmées, des tissus de motifs syncopés et des sculptures funéraires influencées par le Kongo des cimetières de Caroline du Nord. "Pourquoi" demande Thompson, "les Noirs sont-ils si impertinents ?"

La réponse commence par l'étymologie de l'expression "descendre - get down". Il passe aux concepts yoruba de cool (itutu) et de commandement (àshe); il parle durant une marche latérale et aussi sagittale (d'avant en arrière ou inversément); de l'esthétique de la batterie; de l'importance du phrasé décalé (off-beat/à contre-temps) ; des appels et réponses; et enfin de Muhammad Ali. Puis la voix de Thompson redevient celle du prof sérieux standard et il énumère une litanie d'influences africaines:

"Une grande partie de notre argot fut créée par des gens qui pensent en yoruba et en ki-kongo, tout en parlant en anglais. Les sons de base de l'accord et du désaccord, uh-huh et unh-unh, sont purement ouest-africains. Funky est du Ki-Kongo lu-fuki, "sueur positive". Boogie vient de Ki-Kongo mbugi, qui signifie "diablement bon". Le jazz et le jism dérivent probablement de la même racine Ki-Kongo dinza, qui signifie "éjaculer". Mojo vient du terme Ki-Kongo pour "âme"; juke, comme dans jukebox, de Mande-kan qui veut dire 'mauvais'; et Babalu-Aye - comme pourle disc-jockey Babalu - est du Yoruba pur et simple qui signifie "Père et maître de l'univers".

"La plupart de nos danses de salon sont africanisées" poursuit-il, "la rhumba, le tango, même les claquettes et le Lindy. Le poulet frit est africain. Et le short patchwork J. Press est lié à un tissu d'Afrique. Même le cheerleading incorpore certains gestes Kongo apparents: main gauche sur la hanche, main droite levée faisant tournoyer un bâton. Il s'est développé au travers des groupes Vodun Rara de la Nouvelle-Orléans jusqu'au spectacle de la mi-temps des Cowboys de Dallas."

"Laisse-moi te raconter comment tout ceci s'est mis en marche", explique Thompson, assis dans un restaurant du campus. "J'ai grandi au Texas; J'étais fou de boogie. Je n'étais pas footballeur ou quoi que ce soit, et je me rends compte maintenant que tous les éléments d'attractivité que j'avais pour les filles étaient à la fois musicaux et influencés par les noirs. Durant ma dernière année à l'école préparatoire, je suis allé en voyage à Mexico. Il y avait ce mambo - Mexico était inondé de mambo - j'ai entendu des serveurs le fredonner, je l'ai entendu sur les lèvres des préposés de station-service, je l'ai entendu en arrière-plan lorsque je parlait au téléphone de l'exploitant de l'hôtel. Ce fut mon premier bain complet de musique africaine: polyphonie noire totale, multimétrie mambo. Une femme magnifique s'est arrêtée devant moi dans un café; elle a écouté cette musique et je l'ai entendue dire à son compagnon: "Mais chéri, c'est un rythme si différent."

Un mambo, titré La Camisa de Papel - de Justi Barretto, est l'icône principale de la carrière de Thompson. Une partie brisée du disque mexicain 78 tours, chanté par Perez Prado, est encadré dans son étude. "Plus précisément, il s'agit d'un noir qui porte une chemise littéralement composée de mots effrayants - d'assemblage de titres de journaux. La chanson ne craignait pas d'aborder un sujet fort - celui du début de la guerre de Corée et de la peur de la guerre thermonucléaire. Une phrase dit: "Hé, homme noir, t'as les nouvelles?" J'ai été irradié par cette musique, désespérément accro au mambo."

En 1954, Thompson passa les vacances de Thanksgiving de sa dernière année à Yale enfermé à l'hôtel Carlton House à New York, essayant de commencer un livre. Il l'avait titré : Notes vers une définition de Mambo. "Mon père était chirurgien, et avec ma mère ils étaient un peu déboussolés par ce que je faisais: 'Mon fils le mambologue!!??' Alors que j'essayais de leur expliquer cette passion..."

"La musique questionnait", dit Thompson, "et l'histoire de l'art fut la réponse." Il décida de devenir étudiant à Yale. "Plus j'étudiais, plus je voyais comment le monde avait dissimulé la source de tout cela. Ce n'était pas de la musique latine - c'était de la musique Kongo-Cubano-Brésilienne. Vous pouvez entendre les rythmes Kongo dans "The Newspaper Shirt". Et mambu en Ki-Kongo signifie "questions, questions importantes, texte". Un mambo est un séminaire sur l'entrecroisement des courants africains.

"Ce sont quelques-uns des fils du tissu: la salsa et le reggae partagent l'impulsion du mambo, et la composante mambo est à son tour sortie de Cuba en fin des années 1930. Le yoruba y est encore parlé. Si vous étiez Yoruba et pris en esclavage au XIXe siècle, vous risquiez de vous retrouver à Cuba ou dans le nord-est du Brésil. La culture afro-cubaine a survécu à l'esclavage. Ces rythmes afro-cubains sont chauds, âcres et cahotants. J'ai passé ma vie de critique littéraire", dit-il, "à essayer de rassembler tous les textes pertinents pour décoder "The Newspaper Shirt Mambo".

La prochaine étape importante dans le développement de Thompson fut une bourse de la Fondation Ford pour aller au Yoruba-land (Nigéria) pour un travail sur le terrain; il a fait 14 allers-retours entre Yale et l'Afrique. Thompson habite les deux mondes. Il raconte par exemple comment un grand prêtre de la religion Yoruba à New York est venu le voir à New Haven. La voiture du prêtre yoruba est tombée en panne. Thompson raconte que le prêtre a ouvert le capot, puis a emprunté du rhum à Thompson pour faire une brume de rhum qu'il a soufflé de sa bouche sur le moteur surchauffé (c'est un geste yoruba pour refroidir les choses). Ensuite, le prêtre a sorti sa carte de l'American Automobile Association et a appelé Triple-A.

Dans ce processus pour accéder à Yale, Thompson a publié Black Gods and Kings, The Four Moments of the Sun et African Art in Motion, à propos de l'esthétique entrelacée de la sculpture, du tissu et de la danse ouest-africains. "Flash of the Spirit" atteint maintenant des lecteurs qui ne sont pas des spécialistes, des iconographes ou des universitaires. Son prochain livre, enfin, dans 30 ans, sera le "livre mambo".

"Chaque vague d'immigration successive - dominicaine, porto-ricaine, haïtienne, jamaïcaine - améliore la musique. On peut parler de "conjugaison" d'un battement. C'est explosif. La salsa fut le tournant majeur - en 1968, New York est devenue pratiquement la capitale musicale du monde latin. Et tout cela est en pollinisation croisée avec du jazz et de la pure musique yoruba comme King Sunny Ade, et puis, via des réverbérations secondaires, vers des groupes blancs, comme les Talking Heads.

"La musique est un domaine où l'influence noire est omniprésente. Leurs rythmes secouent ce siècle. Quoi qu'on ait pu refuser aux Noirs, les ondes sont à eux. À l'heure actuelle, d'importantes collisions culturelles ont lieu à New York. La ville est devenue un organe coloré des cultures. Si vous avez manqué le Ballet Russe et le Rite de Stravinsky à Paris au début du siècle, ne vous inquiétez pas. Il y a maintenant des événements de cet ordre stravinskien dans le quartier."

"New York en tant que ville africaine secrète" voilà ce que Thompson appelle son cours de premier cycle à Yale. "Quasi voyage scolaire" que nous entreprenons tous les deux un jour et qui commence à 89th Street et sur Amsterdam Avenue dans un botanica, ou boutique d'articles religieux, où les autels fumants des divinités ouest-africaines partagent l'espace avec Pac-Man et Donkey Kong. Juste au coin de la rue se trouve la Claremont Riding Academy, où les élèves de sixième année des écoles privées prennent des cours, et deux pâtés de maisons plus à l'est se trouvent les coopératives de logements dans lesquelles ils vivent sur Central Park. Cet après-midi, nous traversons le sombre bidonville dominicain sous Columbia University, Harlem, Queens et les bandes jamaïcaines et haïtiennes de Brooklyn. Près de la coupole néoclassique du Musée de Brooklyn se trouve La Boutanique St. Jacques Mejur, qui vend des figurines en cire, des bougies conditionnelles "Du Me", un aérosol "Love", "Success" et "Commanding Do My Will". L'une des bougies est une bougie de vengeance, qui promet de transmettre le mal, le déshonneur, les conflits, l'infidélité, la pauvreté, le danger et les puissants ennemis au nom de celui qui est inscrit sur son côté.

"Ce truc est une combine touristique", dit Thompson. "Le vodun est un système moral de croyance comme les autres, mélange de croyances dahoméennes, kongo et chrétiennes. Nous vivons dans le péché intellectuel avec la culture Kongo et Yoruba. Le Kongo est une culture légale-thérapeutique-visionnaire aussi riche et dense que le christianisme ou le judaïsme; elle me rappelle le judaïsme.

"Mais les Occidentaux restent toujours dans les même zones tempérées lorsqu'ils recherchent la philosophie. Les juifs deviennent bouddhistes, les méthodistes deviennent bahaïs; ils ne vont jamais au sud. Mais maintenant, les religions Kongo et Yoruba prospèrent à New York. Traversez simplement la rue et vous êtes en Afrique. "

Pour Thompson, les trois étapes progressives de la culture atlantique noire sont comme trois versions d'un texte inscrit sur une sorte de pierre de Rosette noire Atlantique. Elle se déplace à New York, intellectuellement péripatéticienne, dans les deux sens via les traces des trois étapes de son sujet. Primo, les tribus dont les esclaves furent pris au Nigeria, au Mali, au Cameroun et au Zaïre. Deuxièmement, les cultures afro-antillaises qui en résultent, y compris les célébrités vodun d'Haïti et les adeptes de Capoera du Brésil. Enfin, les salles de danse, les clubs, la culture ghetto pop de New York.

Au club brésilien SOB's, sur Varick Street, amis, collègues, diffuseurs de livres et éditeurs se rassemblent, un peu sous le charme, alors que cinq batteurs cubo-yoruba tiennent un rythme féroce sur scène. C'est la fête de Random House bool pour le lancement de "Flash of the Spirit" de Thompson. Une démonstration de Capoera suit - mélange brésilien de ballet et d'art martial - produite par deux athlètes torse nu, devant le bar. Thompson danse doucement dans sa combinaison J. Press, tête haute, dos et bras relâchés. C'est intrinsèque à son alternance constante entre participer et observer, de même qu'on peut le voir à la fois donner des conférences et danser durant ces dernières.

"Les religions africaines entremêlent une critique morale élevée doublée d'un délicieux backbeat boogie", dit Thompson. "Elles nous attirent vers une perspicacité morale qui active le corps tout en exigeant une conscience sociale. Les mambos d'Eddie Palmieri peuvent recouper les phrasés musicaux yoruba religieux avec le populaire New York noir."

Alors qu'il danse, Thompson note mentalement le sens et le contenu culturel de ce que tout le monde dans la salle pense n'être qu'une danse. "Derrière toute la viscosité et le groove se cache une philosophie qui dit que dans l'horreur de ces temps qu'il y a un antidote. C'est de ces petits villages ternes de stalles en béton et de générateurs portables que vient cette musique, elle porte un message qui dit que tu peux "rejouer" le désastre - que tu peux le transformer, prendre la mort et l'horreur et les transformer en roue et en carrousel."

Un autre soir, au Château Royal, une salle de danse haïtienne dans le Queens, Thompson est à peu près le seul visage blanc parmi un millier d'élégants Haïtiens. Criant en créole au-dessus du merengue, il est en conversation profonde avec le chef d'orchestre; le groupe a été invité à Yale. Sur la piste de danse, Thompson semble transporté - regard d'un homme dans un bain chaud.

"Il s'agit de libérer les impératifs moraux dans le divertissement", explique Thompson. "La musique est à la fois morale et sournoise; elle porte autant de dandysme et de ruse urbaine que tout ce qui fut écrit à Paris à l'époque de Ravel. L'Occident peut en extraire les parties les plus ambrosiales et se laisser emporter par le rythme vers des sublimités morales."

Bien que Thompson vive et se déplace au sein d'un milieu hip, lui-même n'a rien de particulièrement branché. Il agit de la manière inconsciente et directe du soldat professionnel - marche ordonnée, jamais de pagaille, léger balancement des bras lors de la foulée - qui donne l'impression qu'il est toujours sur le point de faire quelque chose. Sa position et ses perspectives n'ont rien de la morosité typique de l'universitaire. Mais son attention est hautement idiosyncrasique; ses actions semblent dictées par un programme connu de lui seul.

Lorsqu'il est plongé dans une ambiance tout à fait blanche, comme une conférence au Metropolitan Museum of Art de New York ou assis dans cet endroit incongru que sont les salons de la maison du maître de Yale, Thompson perd parfois le rythme. Il s'éloigne, comme privé de l'objet de ses affections. Ensuite, quelque chose de banal - une remarque, le phrasé d'une remarque ou peut-être une scène d'un film diffusé au Showcase Cinema à Orange - lui offre une petite étincelle de négritude, et il est à nouveau attentif. Il donne parfois l'impression d'être en tournée d'inspection, cherchant dans le monde blanc des signes salutaires de culture noire. On sent qu'il suit sans cesse, avec ce qu'il appelle ses "yeux noirs", les contours de l'objet d'un désir spirituel.

Thompson tient à faire la distinction entre pratique de la religion ouest-africaine et l'enseignement de la culture dont elle fait partie. Récemment, quelqu'un qu'il connaissait à peine lui a demandé des conseils spirituels et Thompson en fut consterné. Il se considère comme un médium, mais un médium du genre le plus ordinaire. Il pense que ce qu'il doit enseigner n'est que ce qu'il choisit et filtre de toutes ses "informations" du monde. Dans les livres de Thompson, les sections de notes biographiques contiennent des centaines et des centaines de minuscules petits noms sonores, qui, s'ils sont lus à haute voix, ressemblent aux listes des annuaires téléphoniques de Lagos, Rio, Ouagadougou et New Haven combinés. Telles sont les sources du "flash de l'esprit" sans lequel, Thompson, n'est "que Joe, l'universitaire aux cheveux gris".

S'il y a une partie des croyances africaines auxquelles Thompson adhère, c'est ce qu'il perçoit comme leur génie social. L'épiphanie de Thompson, s'il y en a une dans sa sphère très privée, se distingue par les accents pleine de sens qu' utilise lorsqu'il parle des incendies dans les forêts pygmées, des prêtresses de la rivière au Cameroun, de l'escalade des arbres zaïrois pour le miel et de la dernière veille de Nouvel An sur la plage de Copacabana à Rio, où Thompson a vu des milliers de femmes de chambre, gardiennes, journalières et leurs enfants, creuser des trous dans le sable à minuit pour y mettre des bougies, applaudissant lorsque les lumières furent emportée hors du rivage par la marée.

Ceux qui minimisent l'importance de ces rituels folkloriques noirs et du travail de la vie de Thompson le rendent furieux. "Comment les gens osent-ils fréquenter l'Afrique?" il demande. "Ces gens sont des géants qui nous apprennent à vivre. Il y a une voix morale ancrée dans l'esthétique afro-atlantique que l'Occident est infichu de saisir. Les occidentaux ne voient pas les monuments, juste la philosophie pieds nus venant des anciens du village. Alors que le monument est une grande forme d'art qui réconcilie, qui tente de reconstruire moralement une personne sans l'humilier. "Parfois, lorsque Thompson commence à s'échauffer, sa voix prend des cadences du discours noir."

"Ce sont les canons du cool: il n'y a pas de crise qui ne puisse être pesée et résolue; rien ne peut être réalisé par l'hystérie ou la lâcheté; vous devez porter et montrer votre capacité à réaliser la réconciliation sociale. Sortez du cauchemar. C'est un appel au dialogue, au con-gress et à l'auto con-fiance. "Ce tea-shirt avec ces phrases issue de titres de journaux" ne fait que poser le problème sur ta poitrine. Les formes d'art afro-atlantique sont à la fois juridiques, médicales et esthétiques. C'est une manière intransigeante d'utiliser l'art."

À Jacmel, à 8 h 30 du matin, Thompson et moi déjeunons avec des croissants à bord de la piscine de l'hôtel, discutant au son des tambours qui résonnent sur la plage. La veille au soir, dans son temple en carton ondulé, la charmante prêtresse Madame Nerva, qui aime beaucoup plaisanter, a donné son bâton constellé de bonbons à un homme, avec pour consigne d'appeler les batteurs et la congrégation pour le lendemain matin. Il y a 50 voduistes à l'intérieur du temple vibrant quand nous arrivons, y compris le flic local. Cinq batteurs, dirigés par un homme du nom de "Gasoline", suivent un rythme sauvage et déferlant. Dix-neuf femmes noires vêtues de robes blanches et de turbans blancs sortent en dansant d'une porte de l'autel pour se mettre en en cercle autour de Madame Nerva, qui, vêtue d'une robe dorée, secoue un hochet et une cloche sacrés pour donner le tempo. À tour de rôle, chacune des femmes prend la main de Madame Nerva et tombe dans un geste à la fois révérencieux et prostré, lui tenant la main tout en descendant pour embrasser le sol à ses pieds.

Tandis que deux femmes tenant des drapeaux dansent autour de lui, un jeune homme dessine lentement dans la poudre blanche sur le sol un cœur ou une vulve, avec en superposé des épées et un serpent. Au moment où il termine l'image, la cérémonie double d'intensité et les femmes tournent avec des bougies, puis s'agenouillent. Soudain, l'icône est effacée et Madame Nerva se précipite dans la pièce en tenant une poupée américaine en plastique blanche d'un mètre (elle est faite de rangées de maïs et d'une main droite d'enfant qui fait le salut Kongo). Un à la fois, nous sommes embrassés par la poupée sur nos joues gauches. Une femme, tourbillonnant avec un turban sur la tête, devient possédée et commence à se trémousser et à tanguer. Les autres danseurs la frappent doucement pour la calmer et faire partir l'esprit. Elle s'évanouit et ils la retiennent. La ligne des danseurs s'est rompue; les tambours s'arrêtent.

"Un peu sauvage pour un simple sondage", me dit Thompson alors que nous faisons nos adieux. "Cette femme n'était pas censée être possédée. As-tu entendu comment Mme Nerva a décrit la possession - tel "un dialogue avec l'Afrique"? "

Nous retournons par les montagnes vers Port-au-Prince, pour un retour dans l'après-midi à New York. À 15 heures, après le déjeuner et un saut dans la piscine de l'hôtel, nous sommes en train de prendre un verre dans l'avion, Thompson est en train de remplir ses carnets de croquis et de notes.

"Il y a tout un langage dans la possession", dit-il, "une expression et une position différentes pour chaque dieu. L'Occident a oublié les états de ravissement sacré, mais l'art chrétien s'est construit sur l'extase. Le gothique était extatique - les cathédrales ne peuvent pas être comprises sans référence à lui." Il montre une photo sur la couverture de son cahier qui présente une femme aux yeux retournés. "C'est l'histoire de l'art vivant. Et il faut comprendre les états extatiques pour comprendre l'art extatique."

Thompson se tord sur son siège pour montrer les gestes de possession. Il lève les bras, les plie au coude, puis les lève les paumes vers le haut, doigts écartés. Il projette sa tête en arrière, yeux fermés; puis avance rapidement; puis fait des grimaces, trois façons différentes. Il baisse les bras, prend un verre et dit: "Ce n'est pas si hérétique d'examiner l’extase. Après tout". Ici il dessine dans son cahier une figure d'homme, tête renversée en arrière avec une ligne de visée qui va vers le haut - "la rosace de Chartres ne peut être vue que sous un angle extatique."

Auteur: Iseman Fred

Info: https://www.rollingstone.com 22 novembre 1984. Trad Mg (à peaufiner)

[ transe ] [ portrait ] [ perméabilités ethniques ] [ osmose ] [ nord-sud ]

 

Commentaires: 0

Ajouté à la BD par miguel