Citation
Catégorie
Tag – étiquette
Auteur
Info



nb max de mots
nb min de mots
trier par
Dictionnaire analogique intriqué pour extraits. Recherche mots ou phrases tous azimuts. Aussi outil de précision sémantique et de réflexion communautaire. Voir la rubrique mode d'emploi. Jetez un oeil à la colonne "chaînes". ATTENTION, faire une REINITIALISATION après  une recherche complexe. Et utilisez le nuage de corrélats !!!!..... Lire la suite >>
Résultat(s): 126
Temps de recherche: 0.064s

théorie du tout

De l'observateur à l'acteur

Les découvertes de la physique quantique ont initié une réflexion importante sur la place de l'observateur et son lien avec la conscience. Jusqu'alors, ce que nous savions de la physique n'avait jamais conduit à ce questionnement. En effet, à notre échelle, les objets classiques se comportent de manière régulière et prédictive, nous donnant par exemple le droit de penser que si nous quittons une pièce, les objets qu'elle contient seront toujours là à notre retour. C'est comme si les choses continuaient, que nous les observions ou non. L'influence de l'observation est donc susceptible du nous échapper.

Par contre, au niveau quantique, on ne peut rien dire de tel. Quand on n'observe pas, il y a méconnaissance ; alors, plusieurs réalités sont possibles. C'est ce qu'on appelle la superposition quantique. À partir du moment où l'on observe, la superposition s'effondre, ne laissant qu'une seule réalité.

Quel est le point commun entre les deux échelles ? La conscience.

L'observateur, au sens métaphysique du terme - le seul qui soit ici valide puisque la conscience est première - a une influence sur l'avancement de la complexité et de la conscience dans l'univers. En retour, l'univers a une influence sur lui.  Dès que la conscience de l'observateur change, il n'observe plus son environnement de la même manière, ce qui influence la conscience avec laquelle il perçoit. Ainsi, son interprétation est directement liée à sa conscience au moment où il observe.

Chaque observateur étant ainsi complètement impliqué dans la construction de la réalité, il serait sans doute plus juste de parler d'acteurs. Les joueurs sont finalement la condition même d'existence de l'aire de jeu, grâce à leur conscience.

Le joueur et ce qui se passe dans l'univers ne font qu'un

Selon la théorie des champs unifiés, la conscience est une rétroaction entre notre monde intérieur et notre monde extérieur.

C'est à partir de la structure du double tore que j'ai commencé à comprendre pourquoi et comment la conscience émerge par rétroaction.

"Pour être conscient de soi, il faut savoir que l'on existe. Cela nécessite une rétroaction. La structure du double tore permet cette rétroaction entre ce qui vient de l'extérieur et ce qui retourne à l'intérieur, informant le vide, puis retournant à l'extérieur. Et lorsqu'il retourne à l'extérieur, le vide nous informe du résultat de l'information qui y est présente. Il s'agit d'un échange entre notre compréhension interne et l'expérience de l'univers, et la relation entre toutes les compréhensions rassemblées dans le vide affecte la nôtre. Nous ne créons donc pas notre réalité, nous la co-créons avec tous les autres." 

L'univers utilise une boucle de rétroaction pour s'observer à toutes les échelles. Il s'observe en fait à travers tous les êtres conscients qui évoluent en son sein. Plus précisément, c'est le niveau fondamental de ce que nous sommes qui rayonne et s'effondre perpétuellement sur lui-même, dans une boucle de rétroaction infinie.

Ainsi, nos observations ne sont pas les nôtres, car nous n'observons pas l'univers d'un point de vue extérieur. Nous faisons partie de son propre processus de prise de conscience. Et nous pouvons utiliser ce processus consciemment pour diriger la création et tracer le chemin que nous souhaitons emprunter, en co-création avec d'autres.

Pour cela, nous utilisons l'énergie.

L'énergie suit la conscience.

" Nous baignons dans une énergie fondamentale qui est à la source de la création du monde physique. Cette énergie est le vide, c'est-à-dire l'espace qui nous entoure. Cet espace n'est cependant pas vide au sens habituel du terme mais plein d'énergie, une énergie qui relie absolument tout. " [10]

Je présente ici la relation entre le vide, l'espace et l'énergie. Du point de vue de la physique, le vide n'existe pas.

Du point de vue de la métaphysique, seules la conscience et l'énergie existent. Ce que l'on appelle " espace " est simplement de l'énergie et des potentiels inexplorés (bien que du point de vue mental, l'espace existe et est perçu comme vide).

L'espace n'est rien d'autre que de l'énergie

Je m'intéresse au vide et surtout à l'énergie qu'il contient car c'est pour moi la source de la matière. Et je découvre que le vide a une structure géométrique, celle de la fleur de vie en 3D.

Cette structure est infinie et couvre ce que l'on appelle communément "l'espace". L'espace relie toutes les échelles, du niveau quantique - où les équations prédisent qu'il y a une énergie infinie en tout point - au niveau cosmologique. Toute l'énergie est déjà là, même si nous n'en sommes pas conscients.

La physique standard laisse volontairement de côté la grande majorité de cette énergie en utilisant un processus de renormalisation, qui attribue une valeur finie à l'énergie du vide quantique.

"(...) Des infinités absurdes à première vue apparaissent dans les autres théories partielles, mais dans tous les cas ces infinités peuvent être annulées par un processus appelé " renormalisation ". Bien que cette technique soit relativement douteuse sur le plan mathématique, elle semble fonctionner dans la pratique et a été appliquée à ces théories pour faire des prédictions qui correspondent aux observations avec un degré de précision extraordinaire. La renormalisation présente toutefois un sérieux inconvénient du point de vue de la recherche d'une théorie complète, car elle signifie que les valeurs réelles des masses et des intensités des forces ne peuvent pas être prédites par la théorie, mais doivent être choisies pour s'adapter aux observations. ""

Stephen Hawking énonce ici ce qui m'a permis de trouver une théorie complète, prenant en compte l'infini sans avoir recours à la renormalisation. J'ai ainsi réussi à prédire la valeur réelle de la masse du proton et des trous noirs en général...

L'énergie est partout équivalente

" Les objets physiques ne sont pas dans l'espace, mais ces objets sont une extension de l'espace. De ce point de vue, le concept d'espace perd toute signification.**

L'espace - ou l'énergie - est une fluctuation à la source de notre réalité. Ainsi, au lieu de nous voir comme un corps, par exemple, nous pouvons nous voir comme étant constitués de billions de cellules. Chacune de ces cellules est composée de milliards d'atomes. À l'intérieur de chacun de ces atomes, des protons circulent les uns autour des autres à la vitesse de la lumière. Ils sont chacun constitués de 1055 minuscules paquets d'énergie, appelés unités sphériques de Planck (PSU) ou voxels par moi-même. Ces voxels constituent l'unité fondamentale de la fabrique de l'espace-temps, assemblés géométriquement selon la structure infinie de la fleur de vie en 3D.

Il n'y a pas d'espace entre les particules, il n'y a que de l'énergie. D'ailleurs si l'on prend en compte l'énergie contenue dans le proton, on peut enfin expliquer la différence de densité d'énergie entre le niveau quantique et le niveau cosmologique. En bref l'énergie est égale, équivalente partout.

Mais si on considère que l'espace n'existe pas, que deviennent les concepts de temps et de dimension ?

Sans espace, qu'est-ce que le temps ?

Depuis la théorie de la relativité restreinte (Einstein, 1905), le concept d'espace est étroitement associé à celui de temps. Ces notions sont devenues inséparables et s'influencent réciproquement. Cependant le temps est simplement un concept humain. Il vaut mieux parler d'espace-mémoire. Ici c'est la mémoire qui est encodée sur le cadre de l'espace, nous donnant la notion du temps qui passe.

Mais qu'il s'agisse de mémoire ou de temps, sans espace, il n'y a pas d'espace, pourrait-on dire à juste titre.  Alors que la mémoire est simplement comme des paquets d'énergie et de conscience qui deviennent disponibles de notre point de vue humain.

Cela correspond à la perspective métaphysique selon laquelle toute manifestation d'énergie est un événement, sans corrélation avec le temps et l'espace, mais en aucun cas sans corrélation avec la conscience. Le temps, comme l'espace, n'existe nulle part ailleurs que dans le mental. Celui-ci peut en percevoir la linéarité et la séparation, là où tout n'est que résonance dans l'instant présent.

Sans espace, qu'est-ce qu'une dimension ?

Une dimension est relative à une mesure. Cependant je considère qu'une dimension se réfère à l'échelle ou à la taille d'une structure plutôt qu'à une orientation dans l'espace. Ainsi il existe un nombre infini de dimensions scalaires, la plus petite et la plus pertinente pour définir notre relation à l'univers étant le voxel (sphère de Planck). 1055 voxels - la masse de l'univers - tiennent dans un seul proton. Comment est-ce possible ? Parce qu'il s'agit de la masse holographique, fondée sur l'information. L'univers est fractal. La nature holo-fractographique de l'univers signifie que tous les protons communiquent entre eux.

Ainsi l'énergie est communication, uniquement.

En pratique l'échelle à laquelle nous observons les objets en physique détermine réellement le niveau d'énergie qu'on peut observer

Ainsi si nous étirons une PSU (voxel) à l'échelle d'un proton, le proton lui-même s'étirera jusqu'à atteindre la taille d'une sphère dont le diamètre correspondrait à la distance entre notre soleil et Alpha du Centaure.

Ou encore :  depuis la Station spatiale internationale, on peut observer l'océan et voir une surface bleue et lisse. Mais si on s'approche suffisamment, on verra des vagues de 15 mètres d'une énergie folle. C'est ce qui se passe avec les fluctuations électromagnétiques à l'échelle quantique. Mais nous ne pouvons pas le voir

Auteur: Haramein Nassim

Info: *Hawking Stephen, A Brief History of Time, Ed.Flammarion, 2018, p.191, free translation **EINSTEIN Albert, The Connected Universe [vidéo], 2015

[ science spéculative ] [ mondes consensuels ] [ solipsismes grégaires ] [ vacuité apparente ] [ programme de langlands ]

 

Commentaires: 0

Ajouté à la BD par miguel

tour d'horizon de l'IA

Intelligence artificielle symbolique et machine learning, l’essor des technologies disruptives

Définie par le parlement Européen comme la " reproduction des comportements liés aux humains, tels que le raisonnement, la planification et la créativité ", l’intelligence artificielle s’initie de façon spectaculaire dans nos vies. Théorisée au milieu des années 50, plusieurs approches technologiques coexistent telles que l’approche machine learning dite statistique basée sur l’apprentissage automatique, ou l’approche symbolique basée sur l’interprétation et la manipulation des symboles. Mais comment se différencient ces approches ? Et pour quels usages ?

L’intelligence artificielle, une histoire ancienne

Entre les années 1948 et 1966, l’Intelligence Artificielle a connu un essor rapide, stimulé par des financements importants du gouvernement américain pour des projets de recherche sur l’IA, notamment en linguistique. Des progrès significatifs ont été réalisés dans la résolution de problèmes de logique symbolique, mais la capacité de l’IA à traiter des données complexes et imprécises était encore limitée.

A la fin des années 70, plus précisément lors du deuxième “été de l’IA” entre 1978 et 1987,  l’IA connaît un regain d’intérêt. Les chercheurs ont commencé à explorer de nouvelles approches, notamment l’utilisation de réseaux neuronaux et de systèmes experts. Les réseaux neuronaux sont des modèles de traitement de l’information inspirés par le fonctionnement du cerveau humain, tandis que les systèmes experts sont des programmes informatiques qui simulent l’expertise humaine dans un domaine spécifique.

Il faudra attendre la fin des années 90 pour voir un renouveau de ces domaines scientifiques, stimulé par des avancées majeures dans le traitement des données et les progrès de l’apprentissage automatique. C’est d’ailleurs dans cette période qu’une IA, Deepblue, gagne contre le champion mondial Garry Kasparov aux échecs.$

Au cours des dernières années, cette technologie a connu une croissance exponentielle, stimulée par des progrès majeurs dans le deep learning, la robotique ou la compréhension du langage naturel (NLU). L’IA est maintenant utilisée dans un large éventail de domaines, notamment la médecine, l’agriculture, l’industrie et les services. C’est aujourd’hui un moteur clé de l’innovation et de la transformation de notre monde, accentué par l’essor des generative AIs. 

Parmi ces innovations, deux grandes approches en intelligence artificielle sont aujourd’hui utilisées : 

1 - Le Machine Learning : qui est un système d’apprentissage automatique basé sur l’exploitation de données, imitant un réseau neuronal

2 - L’IA Symbolique : qui se base sur un système d’exploitation de " symboles ”, ce qui inspire des technologies comme le “système expert” basé sur une suite de règles par exemple.

Mais comment fonctionnent ces deux approches et quels sont leurs avantages et leurs inconvénients ? Quels sont leurs champs d’application ? Peuvent-ils être complémentaires ?

Le machine learning

Le Machine Learning est le courant le plus populaire ces dernières années, il est notamment à l’origine de ChatGPT ou bien MidJourney, qui font beaucoup parler d’eux ces derniers temps. Le Machine Learning (ML) est une famille de méthodes d’apprentissage automatique qui permet aux ordinateurs d’apprendre à partir de données, sans être explicitement programmés. En utilisant des algorithmes, le ML permet aux ordinateurs de comprendre les structures et les relations dans les données et de les utiliser pour prendre des décisions.

Le ML consiste à entraîner des modèles informatiques sur de vastes ensembles de données. Ces modèles sont des algorithmes auto apprenant se basant sur des échantillons de données, tout en déterminant des schémas et des relations/corrélations entre elles. Le processus d’entraînement consiste à fournir à l’algorithme des données étiquetées, c’est-à-dire des données qui ont déjà été classifiées ou étiquetées pour leur attribuer une signification. L’algorithme apprend ensuite à associer les caractéristiques des données étiquetées aux catégories définies en amont. Il existe cependant une approche non-supervisée qui consiste à découvrir ce que sont les étiquettes elles-mêmes (ex: tâche de clustering).

Traditionnellement, le machine learning se divise en 4 sous-catégories : 

Apprentissage supervisé : 

Les ensembles de données sont étiquetés, ce qui permet à l’algorithme de trouver des corrélations et des relations entre les caractéristiques des données et les étiquettes correspondantes. 

Apprentissage non supervisé : 

Les ensembles de données ne sont pas étiquetés et l’algorithme doit découvrir les étiquettes par lui-même. 

Apprentissage semi-supervisé : 

L’algorithme utilise un mélange de données étiquetées et non étiquetées pour l’entraînement.

Apprentissage par renforcement : 

L’algorithme apprend à prendre des décisions en interagissant avec son environnement. Il reçoit des récompenses ou des pénalités pour chaque action, ce qui lui permet d’ajuster sa stratégie pour maximiser sa récompense globale.

Un exemple d’application du Machine Learning est la reconnaissance d’images. Des modèles d’apprentissages profonds sont entraînés sur des millions d’images pour apprendre à reconnaître des objets, des personnes, des animaux, etc. Un autre exemple est la prédiction de la demande dans le commerce de détail, où des modèles sont entraînés sur des données de ventes passées pour prédire les ventes futures.

Quels sont les avantages ? 

Étant entraîné sur un vaste corpus de données, le ML permet de prédire des tendances en fonction de données.  

- Le machine learning offre la capacité de détecter des tendances and des modèles dans les données qui peuvent échapper à l’observation humaine.

- Une fois configuré, le machine learning peut fonctionner de manière autonome, sans l’intervention humaine. Par exemple, dans le domaine de la cybersécurité, il peut surveiller en permanence le trafic réseau pour identifier les anomalies.

- Les résultats obtenus par le machine learning peuvent s’affiner et s’améliorer avec le temps, car l’algorithme peut apprendre de nouvelles informations et ajuster ses prédictions en conséquence.

- Le machine learning est capable de traiter des volumes massifs et variés de données, même dans des environnements dynamiques et complexes.

L’intelligence artificielle symbolique

L’IA symbolique est une autre approche de l’intelligence artificielle. Elle utilise des symboles and des règles de traitement de l’information pour effectuer des tâches. Les symboles peuvent être des concepts, des objets, des relations, etc. Les règles peuvent être des règles de déduction, des règles de production, des règles d’inférence…etc.

Un exemple d’application de l’IA symbolique est le système expert. Un système expert est un programme informatique qui utilise des règles de déduction pour résoudre des problèmes dans un domaine spécifique, comme le diagnostic médical ou l’aide à la décision en entreprise. Un autre exemple est la traduction automatique basée sur des règles, les règles de grammaire et de syntaxe sont utilisées pour traduire un texte d’une langue à une autre.

Quelques exemples d’usages de l’IA symbolique :

La traduction

L’IA symbolique a été utilisée pour développer des systèmes de traduction automatique basés sur des règles. Ces systèmes utilisent des règles de grammaire et de syntaxe pour convertir un texte d’une langue à une autre. Par exemple, le système SYSTRAN, développé dans les années 1960, est un des premiers systèmes de traduction automatique basé sur des règles. Ce type de système se distingue des approches basées sur le Machine Learning, comme Google Translate, qui utilisent des modèles statistiques pour apprendre à traduire des textes à partir de corpus bilingues.

Le raisonnement logique

L’IA symbolique est également utilisée pour développer des systèmes capables de raisonnement logique, en exploitant des règles et des connaissances déclaratives pour résoudre des problèmes complexes. Par exemple, les systèmes d’aide à la décision basés sur des règles peuvent être utilisés dans des domaines tels que la finance, l’assurance ou la logistique, pour aider les entreprises à prendre des décisions éclairées. Un exemple concret est le système MYCIN, développé dans les années 1970 pour aider les médecins à diagnostiquer des infections bactériennes et à prescrire des antibiotiques adaptés.

L’analyse de textes

L’IA symbolique peut être utilisée pour l’analyse de textes, en exploitant des règles et des connaissances linguistiques pour extraire des informations pertinentes à partir de documents. Par exemple, les systèmes d’extraction d’information basés sur des règles peuvent être utilisés pour identifier des entités nommées (noms de personnes, d’organisations, de lieux, etc.) et des relations entre ces entités dans des textes. Un exemple d’application est l’analyse et la catégorisation des messages entrants pour les entreprises, cœur de métier de Golem.ai avec la solution InboxCare.

Les avantages de l’IA symbolique 

L’IA symbolique est une approche qui utilise des symboles, et parfois des " règles” basées sur des connaissances, qui comporte plusieurs avantages :

- Explicablilité : Les décisions prises par les systèmes d’IA symbolique sont explicites et peuvent être expliquées en fonction des règles logiques et des connaissances déclaratives utilisées par le système. Cette transparence peut être essentielle dans des applications critiques, comme la médecine ou la défense.

- Frugalité : Contrairement au Machine Learning, l’IA symbolique ne nécessite pas d’entraînement, ce qui la rend moins gourmande en énergie à la fois lors de la conception et de l’utilisation.

- Adaptabilité : Les systèmes d’IA symbolique peuvent être facilement adaptés à de nouveaux domaines en ajoutant de nouvelles règles logiques et connaissances déclaratives à leurs bases de connaissances existantes, leurs permettant de s’adapter rapidement à de nouvelles situations.

L’intelligence artificielle hybride ou le neuro-symbolique 

Les systèmes hybrides combinent les avantages de l’IA symbolique et du Machine Learning en utilisant une approche mixte. Dans ce type de système, l’IA symbolique est utilisée pour représenter les connaissances et les règles logiques dans un domaine spécifique. Les techniques de Machine Learning sont ensuite utilisées pour améliorer les performances de l’IA symbolique en utilisant des ensembles de données pour apprendre des modèles de décision plus précis et plus flexibles. Mais nous pouvons également voir d’autres articulations comme la taxonomie de Kautz par exemple.

L’IA symbolique est souvent utilisée dans des domaines où il est important de comprendre et de contrôler la façon dont les décisions sont prises, comme la médecine, la finance ou la sécurité. En revanche, le Machine Learning est souvent utilisé pour des tâches de classification ou de prédiction à grande échelle, telles que la reconnaissance de voix ou d’image, ou pour détecter des modèles dans des données massives.

En combinant les deux approches, les systèmes hybrides peuvent bénéficier de la compréhensibilité et de la fiabilité de l’IA symbolique, tout en utilisant la flexibilité et la capacité de traitement massif de données du Machine Learning pour améliorer la performance des décisions. Ces systèmes hybrides peuvent également offrir une plus grande précision et un temps de réponse plus rapide que l’une ou l’autre approche utilisée seule.

Que retenir de ces deux approches ?

L’Intelligence Artificielle est en constante évolution et transforme de nombreux secteurs d’activité. Les deux approches principales de l’IA ont leurs avantages et inconvénients et peuvent être complémentaires. Il est donc crucial pour les entreprises de comprendre ces technologies pour rester compétitives. 

Cependant, les implications éthiques et sociales de l’IA doivent également être prises en compte. Les décisions des algorithmes peuvent avoir un impact sur la vie des personnes, leur travail, leurs droits et leurs libertés. Il est donc essentiel de mettre en place des normes éthiques et des réglementations pour garantir que l’IA soit au service de l’humanité. Les entreprises et les gouvernements doivent travailler ensemble pour développer des IA responsables, transparentes et équitables qui servent les intérêts de tous. En travaillant ensemble, nous pouvons assurer que l’IA soit une force positive pour l’humanité dans les années à venir. 



 

Auteur: Merindol Hector

Info: https://golem.ai/en/blog/technologie/ia-symbolique-machinelearning-nlp - 4 avril 2023

[ dualité ]

 

Commentaires: 0

Ajouté à la BD par Le sous-projectionniste

nanomonde verrouillé

Comment un tour de passe-passe mathématique a sauvé la physique des particules

La renormalisation est peut-être l'avancée la plus importante de la physique théorique depuis 50 ans. 

Dans les années 1940, certains physiciens avant-gardistes tombèrent sur une nouvelle couche de la réalité. Les particules n'existaient plus et les champs - entités expansives et ondulantes qui remplissent l'espace comme un océan - étaient dedans. Une ondulation dans un champ était un électron, une autre un photon, et leurs interactions semblaient expliquer tous les événements électromagnétiques.

Il n'y avait qu'un seul problème : la théorie était constituée d'espoirs et de prières. Ce n'est qu'en utilisant une technique appelée "renormalisation", qui consiste à occulter soigneusement des quantités infinies, que les chercheurs purent éviter les prédictions erronées. Le processus fonctionnait, mais même ceux qui développaient la théorie soupçonnaient qu'il s'agissait d'un château de cartes reposant sur un tour de passe-passe mathématique tortueux.

"C'est ce que j'appellerais un processus divertissant", écrira plus tard Richard Feynman. "Le fait de devoir recourir à de tels tours de passe-passe nous a empêchés de prouver que la théorie de l'électrodynamique quantique est mathématiquement cohérente.

La justification vint des décennies plus tard, d'une branche de la physique apparemment sans rapport. Les chercheurs qui étudiaient la magnétisation découvrirent que la renormalisation ne concernait aucunement les infinis. Elle évoquait plutôt la séparation de l'univers en domaines de tailles distinctes, point de vue qui guide aujourd'hui de nombreux domaines de la physique.

La renormalisation, écrit David Tong, théoricien à l'université de Cambridge, est "sans doute l'avancée la plus importante de ces 50 dernières années dans le domaine de la physique théorique".

L'histoire de deux charges

Selon certains critères, les théories des champs sont les théories les plus fructueuses de toute la science. La théorie de l'électrodynamique quantique (QED), qui constitue l'un des piliers du modèle standard de la physique des particules, a permis de faire des prédictions théoriques qui correspondent aux résultats expérimentaux avec une précision d'un sur un milliard.

Mais dans les années 1930 et 1940, l'avenir de la théorie était loin d'être assuré. L'approximation du comportement complexe des champs donnait souvent des réponses absurdes et infinies, ce qui amena certains théoriciens à penser que les théories des champs étaient peut-être une impasse.

Feynman et d'autres cherchèrent de toutes nouvelles perspectives - éventuellement même susceptibles de ramener les particules sur le devant de la scène - mais ils finirent par trouver un moyen de contourner l'obstacle. Ils constatèrent que les équations QED  permettaient d'obtenir des prédictions respectables, à condition qu'elles soient corrigées par la procédure impénétrable de renormalisation.

L'exercice est le suivant. Lorsqu'un calcul QED conduit à une somme infinie, il faut l'abréger. Mettez la partie qui tend vers l'infini dans un coefficient - un nombre fixe - placé devant la somme. Remplacez ce coefficient par une mesure finie provenant du laboratoire. Enfin, laissez la somme nouvellement apprivoisée retourner à l'infini.

Pour certains, cette méthode s'apparente à un jeu de dupes. "Ce ne sont tout simplement pas des mathématiques raisonnables", écrivit Paul Dirac, théoricien quantique novateur.

Le cœur du problème - germe de sa solution éventuelle - se trouve dans la manière dont les physiciens ont traité la charge de l'électron.

Dans ce schéma la charge électrique provient du coefficient - la valeur qui engloutit l'infini au cours du brassage mathématique. Pour les théoriciens qui s'interrogeaient sur la signification physique de la renormalisation, la théorie QED laissait entendre que l'électron avait deux charges : une charge théorique, qui était infinie, et la charge mesurée, qui ne l'était pas. Peut-être que le noyau de l'électron contenait une charge infinie. Mais dans la pratique, les effets de champ quantique (qu'on peut visualiser comme un nuage virtuel de particules positives) masquaient l'électron, de sorte que les expérimentateurs ne mesuraient qu'une charge nette modeste.

Deux physiciens, Murray Gell-Mann et Francis Low, concrétisèrent cette idée en 1954. Ils ont relié les deux charges des électrons à une charge "effective" qui varie en fonction de la distance. Plus on se rapproche (et plus on pénètre le manteau positif de l'électron), plus la charge est importante.

Leurs travaux furent les premiers à lier la renormalisation à l'idée d'échelle. Ils laissaient entendre que les physiciens quantiques avaient trouvé la bonne réponse à la mauvaise question. Plutôt que de se préoccuper des infinis, ils auraient dû s'attacher à relier le minuscule à l'énorme.

La renormalisation est "la version mathématique d'un microscope", a déclaré Astrid Eichhorn, physicienne à l'université du Danemark du Sud, qui utilise la renormalisation pour ses recherches en théorie de la gravité quantique. "Et inversement, vous pouvez commencer par le système microscopique et faire un zoom arrière. C'est une combinaison de microscope et de télescope".

La renormalisation capture la tendance de la nature à se subdiviser en mondes essentiellement indépendants.

Les aimants sauvent la mise

Un deuxième indice apparut dans le monde de la matière condensée, ici les physiciens s'interrogeaient sur la manière dont un modèle magnétique grossier parvenait à saisir les détails de certaines transformations. Le modèle d'Ising n'était guère plus qu'une grille de flèches atomiques qui ne pouvaient pointer que vers le haut ou vers le bas, mais il prédisait les comportements d'aimants réels avec une perfection improbable.

À basse température, la plupart des atomes s'alignent, ce qui magnétise le matériau. À haute température, ils deviennent désordonnés et le réseau se démagnétise. Mais à un point de transition critique, des îlots d'atomes alignés de toutes tailles coexistent. Il est essentiel de noter que la manière dont certaines quantités varient autour de ce "point critique" semble identique dans le modèle d'Ising, dans les aimants réels de différents matériaux et même dans des systèmes sans rapport, tels que la transition à haute pression où l'eau devient indiscernable de la vapeur d'eau. La découverte de ce phénomène, que les théoriciens ont appelé universalité, était aussi bizarre que de découvrir que les éléphants et les aigrettes se déplacent exactement à la même vitesse de pointe.

Les physiciens n'ont pas pour habitude de s'occuper d'objets de tailles différentes en même temps. Mais ce comportement universel autour des points critiques les obligea à tenir compte de toutes les échelles de longueur à la fois.

Leo Kadanoff, chercheur dans le domaine de la matière condensée, a compris comment procéder en 1966. Il a mis au point une technique de "spin par blocs", en décomposant une grille d'Ising trop complexe pour être abordée de front, en blocs modestes comportant quelques flèches par côté. Il calcula l'orientation moyenne d'un groupe de flèches et  remplaça tout le bloc par cette valeur. En répétant le processus, il lissa les détails fins du réseau, faisant un zoom arrière pour comprendre le comportement global du système.

Enfin, Ken Wilson -  ancien étudiant de Gell-Mann qui avait les pieds tant dans le monde de la physique des particules et de la matière condensée -  réunit les idées de Gell-Mann et de Low avec celles de Kadanoff. Son "groupe de renormalisation", qu'il décrivit pour la première fois en 1971, justifiait les calculs tortueux de la QED et a fourni une échelle permettant de gravir les échelons des systèmes universels. Ce travail a valu à Wilson un prix Nobel et a changé la physique pour toujours.

Selon Paul Fendley, théoricien de la matière condensée à l'université d'Oxford, la meilleure façon de conceptualiser le groupe de renormalisation de Wilson est de le considérer comme une "théorie des théories" reliant le microscopique au macroscopique.

Considérons la grille magnétique. Au niveau microscopique, il est facile d'écrire une équation reliant deux flèches voisines. Mais extrapoler cette simple formule à des trillions de particules est en fait impossible. Vous raisonnez à la mauvaise échelle.

Le groupe de renormalisation de Wilson décrit la transformation d'une théorie des éléments constitutifs en une théorie des structures. On commence avec une théorie de petits éléments, par exemple les atomes d'une boule de billard. On tourne la manivelle mathématique de Wilson et on obtient une théorie connexe décrivant des groupes de éléments, par exemple les molécules d'une boule de billard. En continuant de tourner la manivelle, on obtient des groupes de plus en plus grands - grappes de molécules de boules de billard, secteurs de boules de billard, et ainsi de suite. Finalement, vous voilà en mesure de calculer quelque chose d'intéressant, comme la trajectoire d'une boule de billard entière.

Telle est la magie du groupe de renormalisation : Il permet d'identifier les quantités à grande échelle qu'il est utile de mesurer et les détails microscopiques alambiqués qui peuvent être ignorés. Un surfeur s'intéresse à la hauteur des vagues, et non à la bousculade des molécules d'eau. De même, en physique subatomique, la renormalisation indique aux physiciens quand ils peuvent s'occuper d'un proton relativement simple plutôt que de son enchevêtrement de quarks intérieurs.

Le groupe de renormalisation de Wilson suggère également que les malheurs de Feynman et de ses contemporains venaient du fait qu'ils essayaient de comprendre l'électron d'infiniment près. "Nous ne nous attendons pas à ce que  ces théories soient valables jusqu'à des échelles [de distance] arbitrairement petites", a déclaré James Fraser, philosophe de la physique à l'université de Durham, au Royaume-Uni. Ajoutant : "La coupure absorbe notre ignorance de ce qui se passe aux niveaux inférieurs".

En d'autres termes, la QED et le modèle standard ne peuvent tout simplement pas dire quelle est la charge nue de l'électron à une distance de zéro nanomètre. Il s'agit de ce que les physiciens appellent des théories "effectives". Elles fonctionnent mieux sur des distances bien définies. L'un des principaux objectifs de la physique des hautes énergies étant de découvrir ce qui se passe exactement lorsque les particules deviennent encore plus proches.

Du grand au petit

Aujourd'hui, le "dippy process" de Feynman est devenu aussi omniprésent en physique que le calcul, et ses mécanismes révèlent les raisons de certains des plus grands succès de la discipline et de ses défis actuels. Avec la renormalisation, les câpres submicroscopiques compliqués ont tendance à disparaître. Ils sont peut-être réels, mais ils n'ont pas d'incidence sur le tableau d'ensemble. "La simplicité est une vertu", a déclaré M. Fendley. "Il y a un dieu là-dedans.

Ce fait mathématique illustre la tendance de la nature à se diviser en mondes essentiellement indépendants. Lorsque les ingénieurs conçoivent un gratte-ciel, ils ignorent les molécules individuelles de l'acier. Les chimistes analysent les liaisons moléculaires mais ignorent superbement les quarks et les gluons. La séparation des phénomènes par longueur, quantifiée par le groupe de renormalisation, a permis aux scientifiques de passer progressivement du grand au petit au cours des siècles, plutôt que briser toutes les échelles en même temps.

En même temps, l'hostilité de la renormalisation à l'égard des détails microscopiques va à l'encontre des efforts des physiciens modernes, avides de signes du domaine immédiatement inférieur. La séparation des échelles suggère qu'ils devront creuser en profondeur pour surmonter le penchant de la nature à dissimuler ses points les plus fins à des géants curieux comme nous.

"La renormalisation nous aide à simplifier le problème", explique Nathan Seiberg, physicien théoricien à l'Institute for Advanced Study de Princeton, dans le New Jersey. Mais "elle cache aussi ce qui se passe à très courte distance. On ne peut pas avoir le beurre et l'argent du beurre".


Auteur: Internet

Info: https://www.quantamagazine.org/. Charlie Wood, september 17, 2020

 

Commentaires: 0

Ajouté à la BD par miguel

legos protéiques

De nouveaux outils d’IA prédisent comment les blocs de construction de la vie s’assemblent

AlphaFold3 de Google DeepMind et d'autres algorithmes d'apprentissage profond peuvent désormais prédire la forme des complexes en interaction de protéines, d'ADN, d'ARN et d'autres molécules, capturant ainsi mieux les paysages biologiques des cellules.

Les protéines sont les machines moléculaires qui soutiennent chaque cellule et chaque organisme, et savoir à quoi elles ressemblent sera essentiel pour comprendre comment elles fonctionnent normalement et fonctionnent mal en cas de maladie. Aujourd’hui, les chercheurs ont fait un grand pas en avant vers cet objectif grâce au développement de nouveaux algorithmes d’apprentissage automatique capables de prédire les formes rdéployées et repliées non seulement des protéines mais aussi d’autres biomolécules avec une précision sans précédent.

Dans un article publié aujourd'hui dans Nature , Google DeepMind et sa société dérivée Isomorphic Labs ont annoncé la dernière itération de leur programme AlphaFold, AlphaFold3, capable de prédire les structures des protéines, de l'ADN, de l'ARN, des ligands et d'autres biomolécules, seuls ou liés ensemble dans différentes configurations. Les résultats font suite à une mise à jour similaire d'un autre algorithme de prédiction de structure d'apprentissage profond, appelé RoseTTAFold All-Atom, publié en mars dans Science .

Même si les versions précédentes de ces algorithmes pouvaient prédire la structure des protéines – une réussite remarquable en soi – elles ne sont pas allées assez loin pour dissiper les mystères des processus biologiques, car les protéines agissent rarement seules. "Chaque fois que je donnais une conférence AlphaFold2, je pouvais presque deviner quelles seraient les questions", a déclaré John Jumper, qui dirige l'équipe AlphaFold chez Google DeepMind. "Quelqu'un allait lever la main et dire : 'Oui, mais ma protéine interagit avec l'ADN.' Pouvez-vous me dire comment ?' " Jumper devrait bien admettre qu'AlphaFold2 ne connaissait pas la réponse.

Mais AlphaFold3 pourrait le faire. Avec d’autres algorithmes d’apprentissage profond émergents, il va au-delà des protéines et s’étend sur un paysage biologique plus complexe et plus pertinent qui comprend une bien plus grande diversité de molécules interagissant dans les cellules.

" On découvre désormais toutes les interactions complexes qui comptent en biologie ", a déclaré Brenda Rubenstein , professeure agrégée de chimie et de physique à l'Université Brown, qui n'a participé à aucune des deux études. " On commence à avoir une vision plus large."

Comprendre ces interactions est " fondamental pour la fonction biologique ", a déclaré Paul Adams , biophysicien moléculaire au Lawrence Berkeley National Laboratory qui n’a également participé à aucune des deux études. " Les deux groupes ont fait des progrès significatifs pour résoudre ce problème. "

Les deux algorithmes ont leurs limites, mais ils ont le potentiel d’évoluer vers des outils de prédiction encore plus puissants. Dans les mois à venir, les scientifiques commenceront à les tester et, ce faisant, ils révéleront à quel point ces algorithmes pourraient être utiles.

Progrès de l’IA en biologie

L’apprentissage profond est une variante de l’apprentissage automatique vaguement inspirée du cerveau humain. Ces algorithmes informatiques sont construits à l’aide de réseaux complexes de nœuds d’information (appelés neurones) qui forment des connexions en couches les unes avec les autres. Les chercheurs fournissent au réseau d’apprentissage profond des données d’entraînement, que l’algorithme utilise pour ajuster les forces relatives des connexions entre les neurones afin de produire des résultats toujours plus proches des exemples d’entraînement. Dans le cas des systèmes d'intelligence artificielle protéique, ce processus amène le réseau à produire de meilleures prédictions des formes des protéines sur la base de leurs données de séquence d'acides aminés.

AlphaFold2, sorti en 2021, a constitué une avancée majeure dans l’apprentissage profond en biologie. Il a ouvert la voie à un monde immense de structures protéiques jusque-là inconnues et est déjà devenu un outil utile pour les chercheurs qui cherchent à tout comprendre, depuis les structures cellulaires jusqu'à la tuberculose. Cela a également inspiré le développement d’outils supplémentaires d’apprentissage biologique profond. Plus particulièrement, le biochimiste David Baker et son équipe de l’Université de Washington ont développé en 2021 un algorithme concurrent appelé RoseTTAFold , qui, comme AlphaFold2, prédit les structures protéiques à partir de séquences de données.

Depuis, les deux algorithmes ont été mis à jour avec de nouvelles fonctionnalités. RoseTTAFold Diffusion pourrait être utilisé pour concevoir de nouvelles protéines qui n’existent pas dans la nature. AlphaFold Multimer pourrait étudier l’interaction de plusieurs protéines. " Mais ce que nous avons laissé sans réponse ", a déclaré Jumper, " était : comment les protéines communiquent-elles avec le reste de la cellule ? "

Le succès des premières itérations d'algorithmes d'apprentissage profond de prédiction des protéines reposait sur la disponibilité de bonnes données d'entraînement : environ 140 000 structures protéiques validées qui avaient été déposées pendant 50 ans dans la banque de données sur les protéines. De plus en plus, les biologistes ont également déposé les structures de petites molécules, d'ADN, d'ARN et leurs combinaisons. Dans cette expansion de l'algorithme d'AlphaFold pour inclure davantage de biomolécules, " la plus grande inconnue ", a déclaré Jumper, "est de savoir s'il y aurait suffisamment de données pour permettre à l'algorithme de prédire avec précision les complexes de protéines avec ces autres molécules."

Apparemment oui. Fin 2023, Baker puis Jumper ont publié les versions préliminaires de leurs nouveaux outils d’IA, et depuis, ils soumettent leurs algorithmes à un examen par les pairs.

Les deux systèmes d'IA répondent à la même question, mais les architectures sous-jacentes de leurs méthodes d'apprentissage profond diffèrent, a déclaré Mohammed AlQuraishi , biologiste des systèmes à l'Université de Columbia qui n'est impliqué dans aucun des deux systèmes. L'équipe de Jumper a utilisé un processus appelé diffusion – technologie qui alimente la plupart des systèmes d'IA génératifs non basés sur du texte, tels que Midjourney et DALL·E, qui génèrent des œuvres d'art basées sur des invites textuelles, a expliqué AlQuraishi. Au lieu de prédire directement la structure moléculaire puis de l’améliorer, ce type de modèle produit d’abord une image floue et l’affine de manière itérative.

D'un point de vue technique, il n'y a pas de grand saut entre RoseTTAFold et RoseTTAFold All-Atom, a déclaré AlQuraishi. Baker n'a pas modifié massivement l'architecture sous-jacente de RoseTTAFold, mais l'a mise à jour pour inclure les règles connues des interactions biochimiques. L'algorithme n'utilise pas la diffusion pour prédire les structures biomoléculaires. Cependant, l'IA de Baker pour la conception de protéines le fait. La dernière itération de ce programme, connue sous le nom de RoseTTAFold Diffusion All-Atom, permet de concevoir de nouvelles biomolécules en plus des protéines.

" Le type de dividendes qui pourraient découler de la possibilité d'appliquer les technologies d'IA générative aux biomolécules n'est que partiellement réalisé grâce à la conception de protéines", a déclaré AlQuraishi. "Si nous pouvions faire aussi bien avec de petites molécules, ce serait incroyable." 

Évaluer la concurrence

Côte à côte, AlphaFold3 semble être plus précis que RoseTTAFold All-Atom. Par exemple, dans leur analyse dans Nature , l'équipe de Google a constaté que leur outil est précis à environ 76 % pour prédire les structures des protéines interagissant avec de petites molécules appelées ligands, contre une précision d'environ 42 % pour RoseTTAFold All-Atom et 52 % pour le meilleur. outils alternatifs disponibles.

Les performances de prédiction de structure d'AlphaFold3 sont " très impressionnantes ", a déclaré Baker, " et meilleures que celles de RoseTTAFold All-Atom ".

Toutefois, ces chiffres sont basés sur un ensemble de données limité qui n'est pas très performant, a expliqué AlQuraishi. Il ne s’attend pas à ce que toutes les prédictions concernant les complexes protéiques obtiennent un score aussi élevé. Et il est certain que les nouveaux outils d’IA ne sont pas encore assez puissants pour soutenir à eux seuls un programme robuste de découverte de médicaments, car cela nécessite que les chercheurs comprennent des interactions biomoléculaires complexes. Pourtant, " c'est vraiment prometteur ", a-t-il déclaré, et nettement meilleur que ce qui existait auparavant.

Adams est d'accord. "Si quelqu'un prétend pouvoir utiliser cela demain pour développer des médicaments avec précision, je n'y crois pas", a-t-il déclaré. " Les deux méthodes sont encore limitées dans leur précision, [mais] les deux constituent des améliorations spectaculaires par rapport à ce qui était possible. "

(Image gif, tournante, en 3D : AlphaFold3 peut prédire la forme de complexes biomoléculaires, comme cette protéine de pointe provenant d'un virus du rhume. Les structures prédites de deux protéines sont visualisées en bleu et vert, tandis que les petites molécules (ligands) liées aux protéines sont représentées en jaune. La structure expérimentale connue de la protéine est encadrée en gris.)

Ils seront particulièrement utiles pour créer des prédictions approximatives qui pourront ensuite être testées informatiquement ou expérimentalement. Le biochimiste Frank Uhlmann a eu l'occasion de pré-tester AlphaFold3 après avoir croisé un employé de Google dans un couloir du Francis Crick Institute de Londres, où il travaille. Il a décidé de rechercher une interaction protéine-ADN qui était " vraiment déroutante pour nous ", a-t-il déclaré. AlphaFold3 a craché une prédiction qu'ils testent actuellement expérimentalement en laboratoire. "Nous avons déjà de nouvelles idées qui pourraient vraiment fonctionner", a déclaré Uhlmann. " C'est un formidable outil de découverte. "

Il reste néanmoins beaucoup à améliorer. Lorsque RoseTTAFold All-Atom prédit les structures de complexes de protéines et de petites molécules, il place parfois les molécules dans la bonne poche d'une protéine mais pas dans la bonne orientation. AlphaFold3 prédit parfois de manière incorrecte la chiralité d'une molécule – l'orientation géométrique distincte " gauche " ou " droite " de sa structure. Parfois, il hallucine ou crée des structures inexactes.

Et les deux algorithmes produisent toujours des images statiques des protéines et de leurs complexes. Dans une cellule, les protéines sont dynamiques et peuvent changer en fonction de leur environnement : elles se déplacent, tournent et passent par différentes conformations. Il sera difficile de résoudre ce problème, a déclaré Adams, principalement en raison du manque de données de formation. " Ce serait formidable de déployer des efforts concertés pour collecter des données expérimentales conçues pour éclairer ces défis ", a-t-il déclaré.

Un changement majeur dans le nouveau produit de Google est qu'il ne sera pas open source. Lorsque l’équipe a publié AlphaFold2, elle a publié le code sous-jacent, qui a permis aux biologistes de reproduire et de jouer avec l’algorithme dans leurs propres laboratoires. Mais le code d'AlphaFold3 ne sera pas accessible au public.

 " Ils semblent décrire la méthode en détail. Mais pour le moment, au moins, personne ne peut l’exécuter et l’utiliser comme il l’a fait avec [AlphaFold2] ", a déclaré AlQuraishi. C’est " un grand pas en arrière. Nous essaierons bien sûr de le reproduire."

Google a cependant annoncé qu'il prenait des mesures pour rendre le produit accessible en proposant un nouveau serveur AlphaFold aux biologistes exécutant AlphaFold3. Prédire les structures biomoléculaires nécessite une tonne de puissance de calcul : même dans un laboratoire comme Francis Crick, qui héberge des clusters informatiques hautes performances, il faut environ une semaine pour produire un résultat, a déclaré Uhlmann. En comparaison, les serveurs plus puissants de Google peuvent faire une prédiction en 10 minutes, a-t-il déclaré, et les scientifiques du monde entier pourront les utiliser. "Cela va démocratiser complètement la recherche sur la prédiction des protéines", a déclaré Uhlmann.

Le véritable impact de ces outils ne sera pas connu avant des mois ou des années, alors que les biologistes commenceront à les tester et à les utiliser dans la recherche. Et ils continueront à évoluer. La prochaine étape de l'apprentissage profond en biologie moléculaire consiste à " gravir l'échelle de la complexité biologique ", a déclaré Baker, au-delà même des complexes biomoléculaires prédits par AlphaFold3 et RoseTTAFold All-Atom. Mais si l’histoire de l’IA en matière de structure protéique peut prédire l’avenir, alors ces modèles d’apprentissage profond de nouvelle génération continueront d’aider les scientifiques à révéler les interactions complexes qui font que la vie se réalise.

" Il y a tellement plus à comprendre ", a déclaré Jumper. "C'est juste le début."

Auteur: Internet

Info: https://www.quantamagazine.org/new-ai-tools-predict-how-lifes-building-blocks-assemble-20240508/ - Yasemin Saplakoglu, 8 mai 2024

[ briques du vivant ] [ texte-image ] [ modélisation mobiles ] [ nano mécanismes du vivant ]

 

Commentaires: 0

Ajouté à la BD par miguel

homme-machine

Un pas de géant pour une machine à jouer aux échecs

Le succès stupéfiant d’AlphaZero, un algorithme d’apprentissage profond, annonce une nouvelle ère de la compréhension – une ère qui, en ce qui concerne les humains, qui pourrait ne pas durer longtemps. Début décembre, des chercheurs de DeepMind, la société d’intelligence artificielle appartenant à la société mère de Google, Alphabet Inc. ont diffusé une dépêche depuis les zones avancées du monde des échecs.

Un an plus tôt, le 5 décembre 2017, l’équipe avait stupéfié ce monde des échecs en annonçant AlphaZero, un algorithme d’apprentissage machine qui maîtrisait non seulement les échecs mais aussi le shogi, ou échecs japonais, et le Go. L’algorithme a commencé sans aucune connaissance des jeux hormis leurs règles de base. Il a ensuite joué contre lui-même des millions de fois et a appris par essais et erreurs. Il a suffi de quelques heures pour que l’algorithme devienne le meilleur joueur, humain ou ordinateur, que le monde ait jamais vu.

Les détails des capacités d’AlphaZero et de son fonctionnement interne ont maintenant été officiellement examinés par des pairs et publiés dans la revue Science ce mois-ci. Le nouvel article aborde plusieurs critiques graves à l’égard de l’allégation initiale (entre autres choses, il était difficile de dire si AlphaZero jouait l’adversaire qu’il s’était choisi, une entité computationnelle nommée Stockfish, en toute équité). Considérez que ces soucis sont maintenant dissipés. AlphaZero ne s’est pas amélioré davantage au cours des douze derniers mois, mais la preuve de sa supériorité s’est bien renforcée. Il fait clairement montre d’un type d’intellect que les humains n’ont jamais vue auparavant, et que nous allons avoir à méditer encore longtemps.

Les échecs par ordinateur ont fait beaucoup de chemin au cours des vingt dernières années. En 1997, le programme de jeu d’échecs d’I.B.M., Deep Blue, a réussi à battre le champion du monde humain en titre, Garry Kasparov, dans un match en six parties. Rétrospectivement, il y avait peu de mystère dans cette réalisation. Deep Blue pouvait évaluer 200 millions de positions par seconde. Il ne s’est jamais senti fatigué, n’a jamais fait d’erreur de calcul et n’a jamais oublié ce qu’il pensait un instant auparavant.

Pour le meilleur et pour le pire, il a joué comme une machine, brutalement et matériellement. Il pouvait dépasser M. Kasparov par le calcul, mais il ne pouvait pas le dépasser sur le plan de la pensée elle-même. Dans la première partie de leur match, Deep Blue a accepté avec avidité le sacrifice d’une tour par M. Kasparov pour un fou, mais a perdu la partie 16 coups plus tard. La génération actuelle des programmes d’échecs les plus forts du monde, tels que Stockfish et Komodo, joue toujours dans ce style inhumain. Ils aiment à capturer les pièces de l’adversaire. Ils ont une défense d’acier. Mais bien qu’ils soient beaucoup plus forts que n’importe quel joueur humain, ces "moteurs" d’échecs n’ont aucune réelle compréhension du jeu. Ils doivent être instruits explicitement pour ce qui touche aux principes de base des échecs. Ces principes, qui ont été raffinés au fil de décennies d’expérience de grands maîtres humains, sont programmés dans les moteurs comme des fonctions d’év

aluation complexes qui indiquent ce qu’il faut rechercher dans une position et ce qu’il faut éviter : comment évaluer le degré de sécurité du roi, l’activité des pièces, la structure dessinée par les pions, le contrôle du centre de l’échiquier, et plus encore, comment trouver le meilleur compromis entre tous ces facteurs. Les moteurs d’échecs d’aujourd’hui, inconscients de façon innée de ces principes, apparaissent comme des brutes : extrêmement rapides et forts, mais sans aucune perspicacité.

Tout cela a changé avec l’essor du machine-learning. En jouant contre lui-même et en mettant à jour son réseau neuronal au fil de son apprentissage, AlphaZero a découvert les principes des échecs par lui-même et est rapidement devenu le meilleur joueur connu. Non seulement il aurait pu facilement vaincre tous les maîtres humains les plus forts – il n’a même pas pris la peine d’essayer – mais il a écrasé Stockfish, le champion du monde d’échecs en titre par ordinateur. Dans un match de cent parties contre un moteur véritablement impressionnant, AlphaZero a remporté vingt-huit victoires et fait soixante-douze matchs nuls. Il n’a pas perdu une seule partie.

Le plus troublant, c’est qu’AlphaZero semblait être perspicace. Il a joué comme aucun ordinateur ne l’a jamais fait, intuitivement et magnifiquement, avec un style romantique et offensif. Il acceptait de sacrifier des pions et prenait des risques. Dans certaines parties, cela paralysait Stockfish et il s’est joué de lui. Lors de son attaque dans la partie n°10, AlphaZero a replacé sa reine dans le coin du plateau de jeu de son propre côté, loin du roi de Stockfish, pas là où une reine à l’offensive devrait normalement être placée.

Et cependant, cette retraite inattendue s’avéra venimeuse : peu importe comment Stockfish y répondait, ses tentatives étaient vouées à l’échec. C’était presque comme si AlphaZero attendait que Stockfish se rende compte, après des milliards de calculs intensifs bruts, à quel point sa position était vraiment désespérée, pour que la bête abandonne toute résistance et expire paisiblement, comme un taureau vaincu devant un matador. Les grands maîtres n’avaient jamais rien vu de tel. AlphaZero avait la finesse d’un virtuose et la puissance d’une machine. Il s’agissait du premier regard posé par l’humanité sur un nouveau type prodigieux d’intelligence.

Lorsque AlphaZero fut dévoilé pour la première fois, certains observateurs se sont plaints que Stockfish avait été lobotomisé en ne lui donnant pas accès à son livre des ouvertures mémorisées. Cette fois-ci, même avec son livre, il a encore été écrasé. Et quand AlphaZero s’est handicapé en donnant dix fois plus de temps à Stockfish qu’à lui pour réfléchir, il a quand même démoli la bête.

Ce qui est révélateur, c’est qu’AlphaZero a gagné en pensant plus intelligemment, pas plus vite ; il n’a examiné que 60 000 positions par seconde, contre 60 millions pour Stockfish. Il était plus avisé, sachant ce à quoi on devait penser et ce qu’on pouvait ignorer. En découvrant les principes des échecs par lui-même, AlphaZero a développé un style de jeu qui "reflète la vérité profonde" du jeu plutôt que "les priorités et les préjugés des programmeurs", a expliqué M. Kasparov dans un commentaire qui accompagne et introduit l’article dans Science.

La question est maintenant de savoir si l’apprentissage automatique peut aider les humains à découvrir des vérités similaires sur les choses qui nous tiennent vraiment à coeur : les grands problèmes non résolus de la science et de la médecine, comme le cancer et la conscience ; les énigmes du système immunitaire, les mystères du génome.

Les premiers signes sont encourageants. En août dernier, deux articles parus dans Nature Medicine ont exploré comment l’apprentissage automatique pouvait être appliqué au diagnostic médical. Dans l’un d’entre eux, des chercheurs de DeepMind se sont associés à des cliniciens du Moorfields Eye Hospital de Londres pour mettre au point un algorithme d’apprentissage profond qui pourrait classer un large éventail de pathologies de la rétine aussi précisément que le font les experts humains (l’ophtalmologie souffre en effet d’une grave pénurie d’experts à même d’interpréter les millions de scans ophtalmologiques effectués chaque année en vue d’un diagnostic ; des assistants numériques intelligents pourraient apporter une aide énorme).

L’autre article concernait un algorithme d’apprentissage machine qui décide si un tomodensitogramme (CT scan) d’un patient admis en urgence montre des signes d’un accident vasculaire cérébral (AVC), ou d’une hémorragie intracrânienne ou encore d’un autre événement neurologique critique. Pour les victimes d’AVC, chaque minute compte ; plus le traitement tarde, plus le résultat clinique se dégrade. (Les neurologistes ont ce sombre dicton: "time is brain"). Le nouvel algorithme a étiqueté ces diagnostics et d’autres diagnostics critiques avec une précision comparable à celle des experts humains – mais il l’a fait 150 fois plus rapidement. Un diagnostic plus rapide pourrait permettre aux cas les plus urgents d’être aiguillés plus tôt, avec une vérification par un radiologiste humain.

Ce qui est frustrant à propos de l’apprentissage machine, cependant, c’est que les algorithmes ne peuvent pas exprimer ce qu’ils pensent. Nous ne savons pas pourquoi ils marchent, donc nous ne savons pas si on peut leur faire confiance. AlphaZero donne l’impression d’avoir découvert quelques principes importants sur les échecs, mais il ne peut pas partager cette compréhension avec nous. Pas encore, en tout cas. En tant qu’êtres humains, nous voulons plus que des réponses. Nous voulons de la perspicacité. Voilà qui va créer à partir de maintenant une source de tension dans nos interactions avec ces ordinateurs.

De fait, en mathématiques, c’est une chose qui s’est déjà produite depuis des années. Considérez le problème mathématique du "théorème des quatre couleurs", qui défie de longue date les cerveaux des mathématiciens. Il énonce que, sous certaines contraintes raisonnables, toute carte de pays contigus puisse toujours être coloriée avec seulement quatre couleurs, en n’ayant jamais deux fois la même couleur pour des pays adjacents.

Bien que le théorème des quatre couleurs ait été prouvé en 1977 avec l’aide d’un ordinateur, aucun humain ne pouvait vérifier toutes les étapes de la démonstration. Depuis lors, la preuve a été validée et simplifiée, mais il y a encore des parties qui impliquent un calcul de force brute, du genre de celui employé par les ancêtres informatiques d’AlphaZero qui jouent aux échecs. Ce développement a gêné de nombreux mathématiciens. Ils n’avaient pas besoin d’être rassurés que le théorème des quatre couleurs était vrai ; ils le croyaient déjà. Ils voulaient comprendre pourquoi c’était vrai, et cette démonstration ne les y a pas aidés.

Mais imaginez un jour, peut-être dans un avenir pas si lointain, où AlphaZero aura évolué vers un algorithme de résolution de problèmes plus général ; appelez-le AlphaInfinity. Comme son ancêtre, il aurait une perspicacité suprême : il pourrait trouver de belles démonstrations, aussi élégantes que les parties d’échecs qu’AlphaZero jouait contre Stockfish. Et chaque démonstration révélerait pourquoi un théorème était vrai ; l’AlphaInfinity ne vous l’enfoncerait pas juste dans la tête avec une démonstration moche et ardue.

Pour les mathématiciens et les scientifiques humains, ce jour marquerait l’aube d’une nouvelle ère de perspicacité. Mais ça ne durera peut-être pas. Alors que les machines deviennent de plus en plus rapides et que les humains restent en place avec leurs neurones fonctionnant à des échelles de temps de quelques millisecondes, un autre jour viendra où nous ne pourrons plus suivre. L’aube de la perspicacité humaine peut rapidement se transformer en crépuscule.

Supposons qu’il existe des régularités ou des modèles plus profonds à découvrir – dans la façon dont les gènes sont régulés ou dont le cancer progresse ; dans l’orchestration du système immunitaire ; dans la danse des particules subatomiques. Et supposons que ces schémas puissent être prédits, mais seulement par une intelligence bien supérieure à la nôtre. Si AlphaInfinity pouvait les identifier et les comprendre, cela nous semblerait être un oracle.

Nous nous assiérions à ses pieds et écouterions attentivement. Nous ne comprendrions pas pourquoi l’oracle a toujours raison, mais nous pourrions vérifier ses calculs et ses prédictions par rapport aux expériences et aux observations, et confirmer ses révélations. La science, cette entreprise de l’homme qui le caractérise par-dessus tout, aurait réduit notre rôle à celui de spectateurs, bouches bées dans l’émerveillement et la confusion.

Peut-être qu’un jour, notre manque de perspicacité ne nous dérangerait plus. Après tout, AlphaInfinity pourrait guérir toutes nos maladies, résoudre tous nos problèmes scientifiques et faire arriver tous nos autres trains intellectuels à l’heure avec succès. Nous nous sommes assez bien débrouillés sans trop de perspicacité pendant les quelque 300.000 premières années de notre existence en tant qu’Homo sapiens. Et nous ne manquerons pas de mémoire : nous nous souviendrons avec fierté de l’âge d’or de la perspicacité humaine, cet intermède glorieux, long de quelques milliers d’années, entre un passé où nous ne pouvions rien appréhender et un avenir où nous ne pourrons rien comprendre.

Auteur: Strogatz Steven

Info: Infinite Powers : How Calculus Reveals the Secrets of the Universe, dont cet essai est adapté sur le blog de Jorion

[ singularité ]

 
Mis dans la chaine

Commentaires: 0

Ajouté à la BD par miguel

multi-milliardaires

DE LA SURVIE DES PLUS RICHES
Quand des patrons de fonds d'investissement new-yorkais font appel à un spécialiste de la société de l'information, afin d'améliorer leurs chances de survie après l'Évènement qui détruira le monde tel que nous le connaissons.

AVERTISSEMENT, CECI N'EST PAS UNE FICTION
L’année dernière, j’ai été invité à donner une conférence dans un complexe hôtelier d’hyper-luxe face à ce que je pensais être un groupe d’une centaine de banquiers spécialisés dans l’investissement. On ne m’avait jamais proposé une somme aussi importante pour une intervention - presque la moitié de mon salaire annuel de professeur - et délivrer mes visions sur "l’avenir de la technologie".

Je n’ai jamais aimé parler du futur. Ce genre de séance d’échange se termine fatalement par un interrogatoire, à l’occasion duquel on me demande de me prononcer sur les dernières "tendances" technologiques, comme s’il s’agissait d’indicateurs boursiers pour les investisseurs : blockchain, impression 3D, CRISPR. L’audience s’y préoccupe généralement moins des technologies en elles-mêmes et de leurs implications, que de savoir si elles méritent ou non que l’on parie sur elles, en mode binaire. Mais l’argent ayant le dernier mot, j’ai accepté le boulot.

À mon arrivée, on m’a accompagné dans ce que j’ai cru n’être qu’une vulgaire salle technique. Mais alors que je m’attendais à ce que l’on me branche un microphone ou à ce que l’on m’amène sur scène, on m’a simplement invité à m’asseoir à une grande table de réunion, pendant que mon public faisait son entrée : cinq gars ultra-riches - oui, uniquement des hommes - tous issus des plus hautes sphères de la finance internationale. Dès nos premiers échanges, j’ai réalisé qu’ils n’étaient pas là pour le topo que je leur avais préparé sur le futur de la technologie. Ils étaient venus avec leurs propres questions.

Ça a d’abord commencé de manière anodine. Ethereum ou Bitcoin ? L’informatique quantique est-elle une réalité ? Lentement mais sûrement, ils m’ont amené vers le véritable sujet de leurs préoccupations.

Quelle sera la région du monde la plus épargnée par la prochaine crise climatique : la nouvelle Zélande ou l’Alaska ? Est-ce que Google construit réellement un nouveau foyer pour le cerveau de Ray Kurzweil ? Est-ce que sa conscience survivra à cette transition ou bien mourra-t-elle pour renaître ensuite ? Enfin, le PDG d’une société de courtage s’est inquiété, après avoir mentionné le bunker sous-terrain dont il achevait la construction : "Comment puis-je conserver le contrôle de mes forces de sécurité, après l’Événement ?"

L’Évènement. Un euphémisme qu’ils employaient pour évoquer l’effondrement environnemental, les troubles sociaux, l’explosion nucléaire, le nouveau virus impossible à endiguer ou encore l’attaque informatique d’un Mr Robot qui ferait à lui seul planter tout le système.

Cette question allait nous occuper durant toute l’heure restante. Ils avaient conscience que des gardes armés seraient nécessaires pour protéger leurs murs des foules en colère. Mais comment payer ces gardes, le jour où l’argent n’aurait plus de valeur ? Et comment les empêcher de se choisir un nouveau leader ? Ces milliardaires envisageaient d’enfermer leurs stocks de nourriture derrière des portes blindées aux serrures cryptées, dont eux seuls détiendraient les codes. D’équiper chaque garde d’un collier disciplinaire, comme garantie de leur survie. Ou encore, si la technologie le permettait à temps, de construire des robots qui serviraient à la fois de gardes et de force de travail.

C’est là que ça m’a frappé. Pour ces messieurs, notre discussion portait bien sur le futur de la technologie. Inspirés par le projet de colonisation de la planète Mars d’Elon Musk, les tentatives d’inversion du processus du vieillissement de Peter Thiel, ou encore les expériences de Sam Altman et Ray de Kurzweil qui ambitionnent de télécharger leurs esprits dans de super-ordinateurs, ils se préparaient à un avenir numérique qui avait moins à voir avec l’idée de construire un monde meilleur que de transcender la condition humaine et de se préserver de dangers aussi réels qu’immédiats, comme le changement climatique, la montée des océans, les migrations de masse, les pandémies planétaires, les paniques identitaires et l’épuisement des ressources. Pour eux, le futur de la technologie se résumait à une seule finalité : fuir.

Il n’y a rien de mal aux visions les plus follement optimistes sur la manière dont la technologie pourrait bénéficier à l’ensemble de la société humaine. Mais l’actuel engouement pour les utopies post-humaines est d’un tout autre ordre. Il s’agit moins d’une vision de la migration de l’ensemble de notre espèce vers une nouvelle condition humaine, que d’une quête pour transcender tout ce qui nous constitue : nos corps, notre interdépendance, la compassion, la vulnérabilité et la complexité. Comme l’indiquent maintenant depuis plusieurs années les philosophes de la technologie, le prisme transhumaniste réduit trop facilement la réalité à un conglomérat de données, en concluant que "les humains ne sont rien d’autre que des centres de traitement de l’information".

L’évolution humaine s’apparente alors à une sorte de jeu vidéo labyrinthique, dont les heureux gagnants balisent le chemin de la sortie pour leurs partenaires les plus privilégiés. S’agit-il de Musk, Bezos, Thiel… Zuckerberg ? Ces quelques milliardaires sont les gagnants présupposés d’une économie numérique régie par une loi de la jungle qui sévit dans le monde des affaires et de la spéculation dont ils sont eux-mêmes issus.

Bien sûr, il n’en n’a pas toujours été ainsi. Il y a eu une période courte, au début des années 1990, où l’avenir numérique apparaissait fertile, enthousiasmant, ouvert à la création. La technologie y devenait le terrain de jeu de la contre-culture, qui vit là l’opportunité de créer un futur plus inclusif, mieux réparti et pro-humain. Mais les intérêts commerciaux n’y ont vu pour leur part que de nouveaux potentiels pour leurs vieux réflexes. Et trop de technologues se sont laissés séduire par des IPO (introduction en bourse) chimériques. Les futurs numériques s’en retrouvèrent envisagés sous le même prisme que le cours de la bourse ou du coton, dans ce même jeu dangereux de paris et de prédictions. Ainsi, la moindre étude documentaire, le moindre article ou livre blanc publié sur ce thème n’étaient plus interprété que comme un nouvel indice boursier. Le futur s’est transformé en une sorte de scénario prédestiné, sur lequel on parie à grands renforts de capital-risque, mais qu’on laisse se produire de manière passive, plus que comme quelque chose que l’on crée au travers de nos choix présents et de nos espoirs pour l’espèce humaine.

Ce qui a libéré chacun d’entre nous des implications morales de son activité. Le développement technologique est devenu moins une affaire d’épanouissement collectif que de survie individuelle. Pire, comme j’ai pu l’apprendre à mes dépens, le simple fait de pointer cette dérive suffisait à vous désigner d’emblée comme un ennemi rétrograde du marché, un ringard technophobe.

Et plutôt que de questionner la dimension éthique de pratiques qui exploitent et appauvrissent les masses au profit d’une minorité, la majorité des universitaires, des journalistes et des écrivains de science fiction ont préféré se focaliser sur des implications plus abstraites et périphériques : "Est-il juste qu’un trader utilise des drogues nootropiques ? Doit-on greffer des implants aux enfants pour leur permettre de parler des langues étrangères? Les véhicules intelligents doivent-ils privilégier la sécurité des piétons ou celle de leurs usagers? Est-ce que les premières colonies martiennes se doivent d’adopter un modèle démocratique? Modifier son ADN, est-ce modifier son identité ? Est-ce que les robots doivent avoir des droits ?".

Sans nier le côté divertissant de ces questions sur un plan philosophique, force est d’admettre qu’elles ne pèsent pas lourd face aux vrais enjeux moraux posés par le développement technologique débridé, au nom du capitalisme pratiqué par les multinationales. Les plateformes numériques ont modifié un marché déjà fondé sur l’exploitation (Walmart) pour donner naissance à un successeur encore plus déshumanisant (Amazon). La plupart d’entre-nous sommes conscients de ces dérives, rendues visibles par la recrudescence des emplois automatisés, par l’explosion de l’économie à la tâche et la disparition du commerce local de détails.

Mais c’est encore vis-à-vis de l’environnement et des populations les plus pauvres que ce capitalisme numérique désinhibé produit ses effets les plus dévastateurs. La fabrication de certains de nos ordinateurs et de nos smartphones reste assujettie au travail forcé et à l’esclavage. Une dépendance si consubstantielle que Fairphone, l’entreprise qui ambitionnait de fabriquer et de commercialiser des téléphones éthiques, s’est vue obligée de reconnaître que c’était en réalité impossible. Son fondateur se réfère aujourd’hui tristement à ses produits comme étant "plus" éthiques.

Pendant ce temps, l’extraction de métaux et de terres rares, conjuguée au stockage de nos déchets technologiques, ravage des habitats humains transformés en véritables décharges toxiques, dans lesquels es enfants et des familles de paysans viennent glaner de maigres restes utilisables, dans l’espoir de les revendre plus tard aux fabricants.

Nous aurons beau nous réfugier dans une réalité alternative, en cachant nos regards derrière des lunettes de réalité virtuelle, cette sous-traitance de la misère et de la toxicité n’en disparaîtra pas pour autant. De fait, plus nous en ignorerons les répercussions sociales, économiques et environnementales, plus elles s’aggraveront. En motivant toujours plus de déresponsabilisation, d’isolement et de fantasmes apocalyptiques, dont on cherchera à se prémunir avec toujours plus de technologies et de business plans. Le cycle se nourrit de lui-même.

Plus nous adhérerons à cette vision du monde, plus les humains apparaitront comme la source du problème et la technologie comme la solution. L’essence même de ce qui caractérise l’humain est moins traité comme une fonctionnalité que comme une perturbation. Quels que furent les biais idéologiques qui ont mené à leur émergence, les technologies bénéficient d’une aura de neutralité. Et si elles induisent parfois des dérives comportementales, celles-ci ne seraient que le reflet de nos natures corrompues. Comme si nos difficultés ne résultaient que de notre sauvagerie constitutive. À l’instar de l’inefficacité d’un système de taxis locaux pouvant être "résolue" par une application qui ruine les chauffeurs humains, les inconsistances contrariantes de notre psyché pouvait être corrigée par une mise à jour digitale ou génétique.

Selon l’orthodoxie techno-solutionniste, le point culminant de l’évolution humaine consisterait enfin à transférer notre conscience dans un ordinateur, ou encore mieux, à accepter la technologie comme notre successeur dans l’évolution des espèces. Comme les adeptes d’un culte gnostique, nous souhaitons atteindre la prochaine phase transcendante de notre évolution, en nous délestant de nos corps et en les abandonnant, avec nos péchés et nos problèmes.

Nos films et nos productions télévisuelles continuent d’alimenter ces fantasmes. Les séries sur les zombies dépeignent ainsi une post-apocalypse où les gens ne valent pas mieux que les morts vivants - et semblent en être conscients. Pire, ces projections fictives invitent les spectateurs à envisager l’avenir comme une bataille à somme nulle entre les survivants, où la survie d’un groupe dépend mécaniquement de la disparition d’un autre. Jusqu’à la série Westworld, basée sur un roman de science-fiction dans lequel les robots deviennent fous et qui clôt sa seconde saison sur une ultime révélation : les êtres humains sont plus simples et plus prévisibles que les intelligences artificielles qu’ils ont créées. Les robots y apprennent que nous nous réduisons, tous autant que nous sommes, à quelques lignes de code et que notre libre arbitre n’est qu’une illusion. Zut ! Dans cette série, les robots eux-mêmes veulent échapper aux limites de leurs corps et passer le reste de leurs vies dans une simulation informatique.

Seul un profond dégoût pour l’humanité autorise une telle gymnastique mentale, en inversant ainsi les rôles de l’homme et de la machine. Modifions-les ou fuyons-les, pour toujours.

Ainsi, nous nous retrouvons face à des techno-milliardaires qui expédient leurs voiture électriques dans l’espace, comme si ça symbolisait autre chose que la capacité d’un milliardaire à assurer la promotion de sa propre compagnie. Et quand bien même quelques élus parviendraient à rallier la planète Mars pour y subsister dans une sorte de bulle artificielle - malgré notre incapacité à maintenir des telles bulles sur Terre, malgré les milliards de dollars engloutis dans les projets Biosphère - le résultat s’apparenterait plus à une espèce de chaloupe luxueuse réservée une élite qu’à la perpétuation de la diaspora humaine.

Quand ces responsables de fonds d’investissement m’ont interrogé sur la meilleure manière de maintenir leur autorité sur leurs forces de sécurité "après l’Évènement", je leur ai suggéré de traiter leurs employés du mieux possible, dès maintenant. De se comporter avec eux comme s’il s’agissait des membres de leur propre famille. Et que plus ils insuffleraient cette éthique inclusive à leur pratiques commerciales, à la gestion de leurs chaînes d’approvisionnement, au développement durable et à la répartition des richesses, moins il y aurait de chances que "l’Événement" se produise. Qu’ils auraient tout intérêt à employer cette magie technologique au service d’enjeux, certes moins romantiques, mais plus collectifs, dès aujourd’hui.

Mon optimisme les a fait sourire, mais pas au point de les convaincre. Éviter la catastrophe ne les intéressait finalement pas, persuadés qu’ils sont que nous sommes déjà trop engagés dans cette direction. Malgré le pouvoir que leur confèrent leurs immenses fortunes, ils ne veulent pas croire en leur propre capacité d’infléchir sur le cours des événements. Ils achètent les scénarios les plus sombres et misent sur leur argent et la technologie pour s’en prémunir - surtout s’ils peuvent disposer d’un siège dans la prochaine fusée pour Mars.

Heureusement, ceux d’entre nous qui n’ont pas de quoi financer le reniement de leur propre humanité disposent de meilleures options. Rien nous force à utiliser la technologie de manière aussi antisociale et destructive. Nous pouvons nous transformer en individus consommateurs, aux profils formatés par notre arsenal de plateformes et d’appareils connectés, ou nous pouvons nous souvenir qu’un être humain véritablement évolué ne fonctionne pas seul.

Être humain ne se définit pas dans notre capacité à fuir ou à survivre individuellement. C’est un sport d’équipe. Quel que soit notre futur, il se produira ensemble.

Auteur: Rushkoff Douglas

Info: Quand les riches conspirent pour nous laisser derrière. Avec l’accord de l’auteur, traduction de Céleste Bruandet, avec la participation de Laurent Courau

[ prospective ] [ super-riches ] [ oligarques ]

 

Commentaires: 0

univers protonique

À l’intérieur du Proton, " la chose la plus complexe qu'on puisse imaginer "

La particule chargée positivement au cœur de l’atome est un objet d’une complexité indescriptible, qui change d’apparence en fonction de la manière dont elle est sondée. Nous avons tenté de relier les nombreuses faces du proton pour former l'image la plus complète à ce jour.

(image : Des chercheurs ont récemment découvert que le proton comprend parfois un quark charmé et un antiquark charmé, particules colossales puisqeu chacune est plus lourde que le proton lui-même.)

Plus d’un siècle après qu’Ernest Rutherford ait découvert la particule chargée positivement au cœur de chaque atome, les physiciens ont encore du mal à comprendre pleinement le proton.

Les professeurs de physique des lycées les décrivent comme des boules sans relief contenant chacune une unité de charge électrique positive – des feuilles parfaites pour les électrons chargés négativement qui bourdonnent autour d’elles. Les étudiants apprennent que la boule est en réalité un ensemble de trois particules élémentaires appelées quarks. Mais des décennies de recherche ont révélé une vérité plus profonde, trop bizarre pour être pleinement saisie avec des mots ou des images.

"C'est la chose la plus compliquée que l'on puisse imaginer", a déclaré Mike Williams, physicien au Massachusetts Institute of Technology. "En fait, on ne peut même pas imaginer à quel point c'est compliqué."

Le proton est un objet de mécanique quantique qui existe sous la forme d’un brouillard de probabilités jusqu’à ce qu’une expérience l’oblige à prendre une forme concrète. Et ses formes diffèrent radicalement selon la manière dont les chercheurs mettent en place leur expérience. Relier les nombreux visages de la particule a été l’œuvre de plusieurs générations. "Nous commençons tout juste à comprendre ce système de manière complète", a déclaré Richard Milner , physicien nucléaire au MIT.

Alors que la poursuite se poursuit, les secrets du proton ne cessent de se dévoiler. Plus récemment, une analyse monumentale de données publiée en août a révélé que le proton contient des traces de particules appelées quarks charmés, plus lourdes que le proton lui-même.

Le proton " a été une leçon d’humilité pour les humains ", a déclaré Williams. " Chaque fois qu'on pense pouvoir maîtriser le sujet, il nous envoie des balles à trajectoires courbées (en référence aux Pitchers du baseball)

Récemment, Milner, en collaboration avec Rolf Ent du Jefferson Lab, les cinéastes du MIT Chris Boebel et Joe McMaster et l'animateur James LaPlante, ont entrepris de transformer un ensemble d'intrigues obscures qui compilent les résultats de centaines d'expériences en une série d'animations de la forme -changement de proton. Nous avons intégré leurs animations dans notre propre tentative de dévoiler ses secrets.

Ouvrir le proton

La preuve que le proton contient de telles multitudes est venue du Stanford Linear Accelerator Center (SLAC) en 1967. Dans des expériences antérieures, les chercheurs l'avaient bombardé d'électrons et les avaient regardés ricocher comme des boules de billard. Mais le SLAC pouvait projeter des électrons avec plus de force, et les chercheurs ont constaté qu'ils rebondissaient différemment. Les électrons frappaient le proton assez fort pour le briser – un processus appelé diffusion inélastique profonde – et rebondissaient sur des fragments ponctuels du proton appelés quarks. "Ce fut la première preuve de l'existence réelle des quarks", a déclaré Xiaochao Zheng , physicien à l'Université de Virginie.

Après la découverte du SLAC, qui remporta le prix Nobel de physique en 1990, l'examen minutieux du proton s'est intensifié. Les physiciens ont réalisé à ce jour des centaines d’expériences de diffusion. Ils déduisent divers aspects de l'intérieur de l'objet en ajustant la force avec laquelle ils le bombardent et en choisissant les particules dispersées qu'ils collectent par la suite.

En utilisant des électrons de plus haute énergie, les physiciens peuvent découvrir des caractéristiques plus fines du proton cible. De cette manière, l’énergie électronique définit le pouvoir de résolution maximal d’une expérience de diffusion profondément inélastique. Des collisionneurs de particules plus puissants offrent une vision plus nette du proton.

Les collisionneurs à plus haute énergie produisent également un plus large éventail de résultats de collision, permettant aux chercheurs de choisir différents sous-ensembles d'électrons sortants à analyser. Cette flexibilité s'est avérée essentielle pour comprendre les quarks, qui se déplacent à l'intérieur du proton avec différentes impulsions.

En mesurant l'énergie et la trajectoire de chaque électron diffusé, les chercheurs peuvent déterminer s'il a heurté un quark transportant une grande partie de l'impulsion totale du proton ou juste une infime partie. Grâce à des collisions répétées, ils peuvent effectuer quelque chose comme un recensement, déterminant si l'impulsion du proton est principalement liée à quelques quarks ou répartie sur plusieurs.

(Illustration qui montre les apparences du proton en fonction des types de collisions)

Même les collisions de division de protons du SLAC étaient douces par rapport aux normes actuelles. Lors de ces événements de diffusion, les électrons jaillissaient souvent d'une manière suggérant qu'ils s'étaient écrasés sur des quarks transportant un tiers de l'impulsion totale du proton. Cette découverte correspond à une théorie de Murray Gell-Mann et George Zweig, qui affirmaient en 1964 qu'un proton était constitué de trois quarks.

Le " modèle des quarks " de Gell-Mann et Zweig reste une façon élégante d'imaginer le proton. Il possède deux quarks " up " avec des charges électriques de +2/3 chacun et un quark " down " avec une charge de −1/3, pour une charge totale de protons de +1.

(Image mobile : Trois quarks sont présents dans cette animation basée sur les données.)

Mais le modèle avec des quarks est une simplification excessive qui présente de sérieuses lacunes.

Qui échoue, par exemple, lorsqu'il s'agit du spin d'un proton, une propriété quantique analogue au moment cinétique. Le proton possède une demi-unité de spin, tout comme chacun de ses quarks up et down. Les physiciens ont initialement supposé que — dans un calcul faisant écho à la simple arithmétique de charge — les demi-unités des deux quarks up moins celle du quark down devaient être égales à une demi-unité pour le proton dans son ensemble. Mais en 1988, la Collaboration européenne sur les muons a rapporté que la somme des spins des quarks était bien inférieure à la moitié. De même, les masses de deux quarks up et d’un quark down ne représentent qu’environ 1 % de la masse totale du proton. Ces déficits ont fait ressortir un point que les physiciens commençaient déjà à comprendre : le proton est bien plus que trois quarks.

Beaucoup plus que trois quarks

L'accélérateur annulaire de hadrons et d'électrons (HERA), qui a fonctionné à Hambourg, en Allemagne, de 1992 à 2007, a projeté des électrons sur des protons avec une force environ mille fois supérieure à celle du SLAC. Dans les expériences HERA, les physiciens ont pu sélectionner les électrons qui avaient rebondi sur des quarks à impulsion extrêmement faible, y compris ceux transportant aussi peu que 0,005 % de l'impulsion totale du proton. Et ils les ont détectés : Les électrons d'HERA ont rebondi sur un maelström de quarks à faible dynamique et de leurs contreparties d'antimatière, les antiquarks.

(Photo image animée : De nombreux quarks et antiquarks bouillonnent dans une " mer " de particules bouillonnantes."

Les résultats ont confirmé une théorie sophistiquée et farfelue qui avait alors remplacé le modèle des quarks de Gell-Mann et Zweig. Développée dans les années 1970, il s’agissait d’une théorie quantique de la " force forte " qui agit entre les quarks. La théorie décrit les quarks comme étant liés par des particules porteuses de force appelées gluons. Chaque quark et chaque gluon possède l'un des trois types de charges "colorées ", étiquetées rouge, verte et bleue ; ces particules chargées de couleur se tirent naturellement les unes sur les autres et forment un groupe – tel qu’un proton – dont les couleurs s’additionnent pour former un blanc neutre. La théorie colorée est devenue connue sous le nom de chromodynamique quantique, ou QCD.

Selon cette QCD, les gluons peuvent capter des pics d’énergie momentanés. Avec cette énergie, un gluon se divise en un quark et un antiquark – chacun portant juste un tout petit peu d’impulsion – avant que la paire ne s’annihile et ne disparaisse. C'est cette " mer " de gluons, de quarks et d'antiquarks transitoires qu'HERA, avec sa plus grande sensibilité aux particules de faible impulsion, a détecté de première main.

HERA a également recueilli des indices sur ce à quoi ressemblerait le proton dans des collisionneurs plus puissants. Alors que les physiciens ajustaient HERA pour rechercher des quarks à faible impulsion, ces quarks – qui proviennent des gluons – sont apparus en nombre de plus en plus grand. Les résultats suggèrent que dans des collisions à énergie encore plus élevée, le proton apparaîtrait comme un nuage composé presque entièrement de gluons. (Image)

Les gluons abondent sous une forme semblable à un nuage.

Ce pissenlit de gluon est exactement ce que prédit la QCD. "Les données HERA sont une preuve expérimentale directe que la QCD décrit la nature", a déclaré Milner.

Mais la victoire de la jeune théorie s'est accompagnée d'une pilule amère : alors que la QCD décrivait magnifiquement la danse des quarks et des gluons à durée de vie courte révélée par les collisions extrêmes d'HERA, la théorie est inutile pour comprendre les trois quarks à longue durée de vie observés suite à un plus léger bombardement du SLAC.

Les prédictions de QCD ne sont faciles à comprendre que lorsque la force forte est relativement faible. Et la force forte ne s'affaiblit que lorsque les quarks sont extrêmement proches les uns des autres, comme c'est le cas dans les paires quark-antiquark de courte durée. Frank Wilczek, David Gross et David Politzer ont identifié cette caractéristique déterminante de la QCD en 1973, remportant le prix Nobel 31 ans plus tard.

Mais pour des collisions plus douces comme celle du SLAC, où le proton agit comme trois quarks qui gardent mutuellement leurs distances, ces quarks s'attirent suffisamment fortement les uns les autres pour que les calculs de QCD deviennent impossibles. Ainsi, la tâche de démystifier plus loin une vision du proton à trois quarks incombe en grande partie aux expérimentateurs. (Les chercheurs qui mènent des " expériences numériques ", dans lesquelles les prédictions QCD sont simulées sur des superordinateurs, ont également apporté des contributions clés .) Et c'est dans ce genre d' images à basse résolution que les physiciens continuent de trouver des surprises.

Une charmante nouvelle approche

Récemment, une équipe dirigée par Juan Rojo de l'Institut national de physique subatomique des Pays-Bas et de l'Université VU d'Amsterdam a analysé plus de 5 000 instantanés de protons pris au cours des 50 dernières années, en utilisant l'apprentissage automatique pour déduire les mouvements des quarks et des gluons à l'intérieur du proton via une procédure qui évite les conjectures théoriques.

Ce nouvel examen a détecté un flou en arrière-plan dans les images qui avait échappé aux chercheurs antérieurs. Dans des collisions relativement douces, juste capables d'ouvrir à peine le proton, la majeure partie de l'impulsion était enfermée dans les trois quarks habituels : deux ups et un down. Mais une petite quantité d’impulsion semble provenir d’un quark " charmé " et d’un antiquark charmé – particules élémentaires colossales dont chacune dépasse de plus d’un tiers le proton entier.

(Image mobie : Le proton agit parfois comme une " molécule " de cinq quarks.)

Ces charmés de courte durée apparaissent fréquemment dans le panorama " mer des quarks " du proton (les gluons peuvent se diviser en six types de quarks différents s'ils ont suffisamment d'énergie). Mais les résultats de Rojo et de ses collègues suggèrent que les charmés ont une présence plus permanente, ce qui les rend détectables lors de collisions plus douces. Dans ces collisions, le proton apparaît comme un mélange quantique, ou superposition, d'états multiples : un électron rencontre généralement les trois quarks légers. Mais il rencontrera occasionnellement une " molécule " plus rare de cinq quarks, comme un quark up, down et charmé regroupés d'un côté et un quark up et un antiquark charmé de l'autre.

Des détails aussi subtils sur la composition du proton pourraient avoir des conséquences. Au Grand collisionneur de hadrons, les physiciens recherchent de nouvelles particules élémentaires en frappant ensemble des protons à grande vitesse et en observant ce qui en ressort ; Pour comprendre les résultats, les chercheurs doivent commencer par savoir ce que contient un proton. L’apparition occasionnelle de quarks charmés géants rendrait impossible la production de particules plus exotiques.

Et lorsque des protons appelés rayons cosmiques déferlent ici depuis l'espace et percutent les protons de l'atmosphère terrestre, des quarks charmés apparaissant au bon moment inonderaient la Terre de neutrinos extra-énergétiques, ont calculé les chercheurs en 2021. Cela pourrait dérouter les observateurs à la recherche de neutrinos à haute énergie provenant de tout le cosmos.

La collaboration de Rojo prévoit de poursuivre l'exploration du proton en recherchant un déséquilibre entre les quarks charmés et les antiquarks. Et des constituants plus lourds, comme le quark top, pourraient faire des apparitions encore plus rares et plus difficiles à détecter.

Les expériences de nouvelle génération rechercheront des fonctionnalités encore plus inconnues. Les physiciens du Laboratoire national de Brookhaven espèrent lancer le collisionneur électron-ion dans les années 2030 et reprendre là où HERA s'est arrêté, en prenant des instantanés à plus haute résolution qui permettront les premières reconstructions 3D du proton. L'EIC utilisera également des électrons en rotation pour créer des cartes détaillées des spins des quarks et des gluons internes, tout comme le SLAC et HERA ont cartographié leurs impulsions. Cela devrait aider les chercheurs à enfin déterminer l'origine du spin du proton et à répondre à d'autres questions fondamentales concernant cette particule déroutante qui constitue l'essentiel de notre monde quotidien.

 

Auteur: Internet

Info: https://www.quantamagazine.org/ - Charlie Bois, 19 octobre 2022

[ univers subatomique ]

 

Commentaires: 0

Ajouté à la BD par miguel

bio-évolution

La "tectonique" des chromosomes révèle les secrets de l'évolution des premiers animaux

De grands blocs de gènes conservés au cours de centaines de millions d'années d'évolution permettent de comprendre comment les premiers chromosomes animaux sont apparus.

De nouvelles recherches ont montré que des blocs de gènes liés peuvent conserver leur intégrité et être suivis au cours de l'évolution. Cette découverte est à la base de ce que l'on appelle la tectonique des génomes (photo).

Les chromosomes, ces faisceaux d'ADN qui se mettent en scène dans le ballet mitotique de la division cellulaire, jouent un rôle de premier plan dans la vie complexe. Mais la question de savoir comment les chromosomes sont apparus et ont évolué a longtemps été d'une difficulté décourageante. C'est dû en partie au manque d'informations génomiques au niveau des chromosomes et en partie au fait que l'on soupçonne que des siècles de changements évolutifs ont fait disparaître tout indice sur cette histoire ancienne.

Dans un article paru dans Science Advances, une équipe internationale de chercheurs dirigée par Daniel Rokhsar, professeur de sciences biologiques à l'université de Californie à Berkeley, a suivi les changements survenus dans les chromosomes il y a 800 millions d'années.  Ils ont identifié 29 grands blocs de gènes qui sont restés identifiables lors de leur passage dans trois des plus anciennes subdivisions de la vie animale multicellulaire. En utilisant ces blocs comme marqueurs, les scientifiques ont pu déterminer comment les chromosomes se sont fusionnés et recombinés au fur et à mesure que ces premiers groupes d'animaux devenaient distincts.

Les chercheurs appellent cette approche "tectonique du génome". De la même manière que les géologues utilisent leur compréhension de la tectonique des plaques pour comprendre l'apparition et le mouvement des continents, ces biologistes reconstituent comment diverses duplications, fusions et translocations génomiques ont créé les chromosomes que nous voyons aujourd'hui.

Ces travaux annoncent une nouvelle ère de la génomique comparative : Auparavant, les chercheurs étudiaient des collections de gènes de différentes lignées et décrivaient les changements une paire de bases à la fois. Aujourd'hui, grâce à la multiplication des assemblages de chromosomes, les chercheurs peuvent retracer l'évolution de chromosomes entiers jusqu'à leur origine. Ils peuvent ensuite utiliser ces informations pour faire des prédictions statistiques et tester rigoureusement des hypothèses sur la façon dont les groupes d'organismes sont liés.

Il y a deux ans, à l'aide de méthodes novatrices similaires, M. Rokhsar et ses collègues ont résolu un mystère de longue date concernant la chronologie des duplications du génome qui ont accompagné l'apparition des vertébrés à mâchoires. Mais l'importance de cette approche n'est pas purement rétrospective. En faisant ces découvertes, les chercheurs apprennent les règles algébriques simples qui régissent ce qui se passe lorsque les chromosomes échangent des parties d'eux-mêmes. Ces informations peuvent orienter les futures études génomiques et aider les biologistes à prédire ce qu'ils trouveront dans les génomes des espèces qui n'ont pas encore été séquencées.

"Nous commençons à avoir une vision plus large de l'évolution des chromosomes dans l'arbre de la vie", a déclaré Paulyn Cartwright, professeur d'écologie et de biologie évolutive à l'université du Kansas. Selon elle, les scientifiques peuvent désormais tirer des conclusions sur le contenu des chromosomes des tout premiers animaux. Ils peuvent également examiner comment les différents contenus des chromosomes ont changé ou sont restés les mêmes - et pourquoi - à mesure que les animaux se sont diversifiés. "Nous ne pouvions vraiment pas faire cela avant de disposer de ces génomes de haute qualité". 

Ce que partagent les anciens génomes

Dans l'étude publiée aujourd'hui, Rokhsar et une grande équipe internationale de collaborateurs ont produit le premier assemblage de haute qualité, au niveau des chromosomes, du génome de l'hydre, qu'ils décrivent comme un modèle de "vénérable cnidaire". En le comparant à d'autres génomes animaux disponibles, ils ont découvert des groupes de gènes liés hautement conservés. Bien que l'ordre des gènes au sein d'un bloc soit souvent modifié, les blocs eux-mêmes sont restés stables sur de longues périodes d'évolution.

Lorsque les scientifiques ont commencé à séquencer les génomes animaux il y a une vingtaine d'années, beaucoup d'entre eux n'étaient pas convaincus que des groupes de gènes liés entre eux sur les chromosomes pouvaient rester stables et reconnaissables au cours des éons, et encore moins qu'il serait possible de suivre le passage de ces blocs de gènes à travers pratiquement toutes les lignées animales.

Les animaux ont divergé de leurs parents unicellulaires il y a 600 ou 700 millions d'années, et "être capable de reconnaître les morceaux de chromosomes qui sont encore conservés après cette période de temps est étonnant", a déclaré Jordi Paps, un biologiste de l'évolution à l'Université de Bristol au Royaume-Uni.

"Avant de disposer de ces données sur les chromosomes entiers, nous examinions de petits fragments de chromosomes et nous observions de nombreux réarrangements", a déclaré M. Cartwright. "Nous supposions donc qu'il n'y avait pas de conservation, car les gènes eux-mêmes dans une région du chromosome changent de position assez fréquemment."

Pourtant, bien que l'ordre des gènes soit fréquemment remanié le long des chromosomes, Rokhsar a eu l'intuition, grâce à ses études antérieures sur les génomes animaux, qu'il y avait une relative stabilité dans les gènes apparaissant ensemble. "Si vous comparez une anémone de mer ou une éponge à un être humain, le fait que les gènes se trouvent sur le même morceau d'ADN semble être conservé", explique Rokhsar. "Et le modèle suggérait que des chromosomes entiers étaient également conservés". Mais cette notion n'a pu être testée que récemment, lorsque suffisamment d'informations génomiques à l'échelle du chromosome sur divers groupes d'animaux sont devenues disponibles.

Inertie génomique

Mais pourquoi des blocs de gènes restent-ils liés entre eux ? Selon Harris Lewin, professeur d'évolution et d'écologie à l'université de Californie à Davis, qui étudie l'évolution des génomes de mammifères, une des explications de ce phénomène, appelé synténie, est liée à la fonction des gènes. Il peut être plus efficace pour les gènes qui fonctionnent ensemble d'être physiquement situés ensemble ; ainsi, lorsqu'une cellule a besoin de transcrire des gènes, elle n'a pas à coordonner la transcription à partir de plusieurs endroits sur différents chromosomes. 

Ceci explique probablement la conservation de certains ensembles de gènes dont l'agencement est crucial : les gènes Hox qui établissent les plans corporels des animaux, par exemple, doivent être placés dans un ordre spécifique pour établir correctement le schéma corporel. Mais ces gènes étroitement liés se trouvent dans un morceau d'ADN relativement court. M. Rokhsar dit qu'il ne connaît aucune corrélation fonctionnelle s'étendant sur un chromosome entier qui pourrait expliquer leurs résultats.

(Ici une image décrit les différents types de fusion de chromosomes et l'effet de chacun sur l'ordre des gènes qu'ils contiennent.)

C'est pourquoi Rokhsar est sceptique quant à une explication fonctionnelle. Elle est séduisante ("Ce serait le résultat le plus cool, d'une certaine manière", dit-il) mais peut-être aussi inutile car, à moins qu'un réarrangement chromosomique ne présente un avantage fonctionnel important, il est intrinsèquement difficile pour ce réarrangement de se propager. Et les réarrangements ne sont généralement pas avantageux : Au cours de la méiose et de la formation des gamètes, tous les chromosomes doivent s'apparier avec un partenaire correspondant. Sans partenaire, un chromosome de taille inhabituelle ne pourra pas faire partie d'un gamète viable, et il a donc peu de chances de se retrouver dans la génération suivante. De petites mutations qui remanient l'ordre des gènes à l'intérieur des chromosomes peuvent encore se produire ("Il y a probablement une petite marge d'erreur en termes de réarrangements mineurs, de sorte qu'ils peuvent encore se reconnaître", a déclaré Cartwright). Mais les chromosomes brisés ou fusionnés ont tendance à être des impasses.

Peut-être que dans des groupes comme les mammifères, qui ont des populations de petite taille, un réarrangement pourrait se propager de façon aléatoire par ce qu'on appelle la dérive génétique, suggère Rokhsar. Mais dans les grandes populations qui se mélangent librement, comme celles des invertébrés marins qui pondent des centaines ou des milliers d'œufs, "il est vraiment difficile pour l'un des nouveaux réarrangements de s'imposer", a-t-il déclaré. "Ce n'est pas qu'ils ne sont pas tentés. C'est juste qu'ils ne parviennent jamais à s'imposer dans l'évolution."

Par conséquent, les gènes ont tendance à rester bloqués sur un seul chromosome. "Les processus par lesquels ils se déplacent sont tout simplement lents, sur une échelle de 500 millions d'années", déclare Rokhsar. "Même s'il s'est écoulé énormément de temps, ce n'est toujours pas assez long pour qu'ils puissent se développer".

( une image avec affichage de données montre comment des blocs de gènes ont eu tendance à rester ensemble même lorsqu'ils se déplaçaient vers différents chromosomes dans l'évolution de cinq premières espèces animales.)

L'équipe de Rokhsar a toutefois constaté que lorsque ces rares fusions de chromosomes se produisaient, elles laissaient une signature claire : Après une fusion, les gènes des deux blocs s'entremêlent et sont réorganisés car des "mutations d'inversion" s'y sont accumulées au fil du temps. En conséquence, les gènes des deux blocs se sont mélangés comme du lait versé dans une tasse de thé, pour ne plus jamais être séparés. "Il y a un mouvement entropique vers le mélange qui ne peut être annulé", affirme Rokhsar.

Et parce que les processus de fusion, de mélange et de duplication de blocs génétiques sont si rares, irréversibles et spécifiques, ils sont traçables : Il est très improbable qu'un chromosome se fracture deux fois au même endroit, puis fusionne et se mélange avec un autre bloc génétique de la même manière.

Les signatures de ces événements dans les chromosomes représentent donc un nouvel ensemble de caractéristiques dérivées que les biologistes peuvent utiliser pour tester des hypothèses sur la façon dont les espèces sont liées. Si deux lignées partagent un mélange de deux blocs de gènes, le mélange s'est très probablement produit chez leur ancêtre commun. Si des lignées ont deux ensembles de mêmes blocs de gènes, une duplication du génome a probablement eu lieu chez leur ancêtre commun. Cela fait des syntéries un "outil très, très puissant", a déclaré Oleg Simakov, génomiste à l'université de Vienne et premier auteur des articles. 

Empreintes digitales d'événements évolutifs

"L'un des aspects que je préfère dans notre étude est que nous faisons des prédictions sur ce à quoi il faut s'attendre au sein des génomes qui n'ont pas encore été séquencés", a écrit Rokhsar dans un courriel adressé à Quanta. Par exemple, son équipe a découvert que divers invertébrés classés comme spiraliens partagent tous quatre schémas spécifiques de fusion avec mélange, ce qui implique que les événements de fusion se sont produits chez leur ancêtre commun. "Il s'ensuit que tous les spiraliens devraient présenter ces schémas de fusion avec mélange de modèles", écrit Rokhsar. "Si l'on trouve ne serait-ce qu'un seul spiralien dépourvu de ces motifs, alors l'hypothèse peut être rejetée !".

Et d'ajouter : "On n'a pas souvent l'occasion de faire ce genre de grandes déclarations sur l'histoire de l'évolution."

Dans leur nouvel article Science Advances, Simakov, Rokhsar et leurs collègues ont utilisé l'approche tectonique pour en savoir plus sur l'émergence de certains des premiers groupes d'animaux il y a environ 800 millions d'années. En examinant le large éventail de vie animale représenté par les éponges, les cnidaires (tels que les hydres, les méduses et les coraux) et les bilatériens (animaux à symétrie bilatérale), les chercheurs ont trouvé 27 blocs de gènes hautement conservés parmi leurs chromosomes.

Ensuite, en utilisant les règles de fusion chromosomique et génétique qu'ils avaient identifiées, les chercheurs ont reconstitué les événements de mélange au niveau des chromosomes qui ont accompagné l'évolution de ces trois lignées à partir d'un ancêtre commun. Ils ont montré que les chromosomes des éponges, des cnidaires et des bilatériens représentent tous des manières distinctes de combiner des éléments du génome ancestral.

(Pour expliquer les 2 paragraphes précédents une image avec 3 schémas montre la fusion des chromosomes au début de l'évolution pou arriver au 27 blocs de gènes)

Une découverte stimulante qui a été faite est que certains des blocs de gènes liés semblent également présents dans les génomes de certaines créatures unicellulaires comme les choanoflagellés, les plus proches parents des animaux multicellulaires. Chez les animaux multicellulaires, l'un de ces blocs contient un ensemble diversifié de gènes homéobox qui guident le développement de la structure générale de leur corps. Cela suggère que l'un des tout premiers événements de l'émergence des animaux multicellulaires a été l'expansion et la diversification de ces gènes importants. "Ces anciennes unités de liaison fournissent un cadre pour comprendre l'évolution des gènes et des génomes chez les animaux", notent les scientifiques dans leur article.

Leur approche permet de distinguer de subtiles et importantes différences au niveau des événements chromosomiques. Par exemple, dans leur article de 2020, les chercheurs ont déduit que le génome des vertébrés avait subi une duplication au cours de la période cambrienne, avant que l'évolution ne sépare les poissons sans mâchoire des poissons avec mâchoire. Ils ont ensuite trouvé des preuves que deux poissons à mâchoires se sont hybridés plus tard et ont subi une deuxième duplication de leur génome ; cet hybride est devenu l'ancêtre de tous les poissons osseux.

John Postlethwait, génomicien à l'université de l'Oregon, souligne l'importance de la méthode d'analyse de l'équipe. "Ils ont adopté une approche statistique, et ne se sont pas contentés de dire : "Eh bien, il me semble que telle et telle chose s'est produite", a-t-il déclaré. "C'est une partie vraiment importante de leur méthodologie, non seulement parce qu'ils avaient accès à des génomes de meilleure qualité, mais aussi parce qu'ils ont adopté cette approche quantitative et qu'ils ont réellement testé ces hypothèses."

Ces études ne marquent que le début de ce que la tectonique des génomes et  ce que les syntagmes génétiques peuvent nous apprendre. Dans des prépublications récentes partagées sur biorxiv.org, l'équipe de Rokhsar a reconstitué l'évolution des chromosomes de grenouilles, et une équipe européenne s'est penchée sur l'évolution des chromosomes des poissons téléostéens. Une étude parue dans Current Biology a révélé une "inversion massive du génome" à l'origine de la coexistence de formes divergentes chez la caille commune, ce qui laisse entrevoir certaines des conséquences fonctionnelles du réarrangement des chromosomes.

L'hypothèse selon laquelle le mélange de ces groupes de liaisons génétiques pourrait être lié à la diversification des lignées et à l'innovation évolutive au cours des 500 derniers millions d'années est alléchante. Les réarrangements chromosomiques peuvent conduire à des incompatibilités d'accouplement qui pourraient provoquer la scission en deux d'une lignée. Il est également possible qu'un gène atterrissant dans un nouveau voisinage ait conduit à des innovations dans la régulation des gènes. "Peut-être que ce fut l'une des forces motrices de la diversification des animaux", a déclaré Simakov.

"C'est la grande question", a déclaré Lewin. "Il s'agit de véritables bouleversements tectoniques dans le génome, et il est peu probable qu'ils soient sans conséquence".

Auteur: Internet

Info: https://www.quantamagazine.org/secrets-of-early-animal-evolution-revealed-by-chromosome-tectonics-20220202.Viviane Callier 2 février 2022

[ méta-moteurs ] [ néo-phylogénie ]

 

Commentaires: 0

Ajouté à la BD par miguel

homme-machine

Les grands modèles de langage tels que ChatGPT sont aujourd'hui suffisamment importants pour commencer à afficher des comportements surprenants et imprévisibles.

Quel film ces emojis décrivent-ils ? (On voit une vidéo qui présente des myriades d'émoji formant des motifs mouvants, modélisés à partir de métadonnées)

Cette question était l'une des 204 tâches choisies l'année dernière pour tester la capacité de divers grands modèles de langage (LLM) - les moteurs de calcul derrière les chatbots d'IA tels que ChatGPT. Les LLM les plus simples ont produit des réponses surréalistes. "Le film est un film sur un homme qui est un homme qui est un homme", commençait l'un d'entre eux. Les modèles de complexité moyenne s'en sont approchés, devinant The Emoji Movie. Mais le modèle le plus complexe l'a emporté en une seule réponse : Finding Nemo.

"Bien que j'essaie de m'attendre à des surprises, je suis surpris par ce que ces modèles peuvent faire", a déclaré Ethan Dyer, informaticien chez Google Research, qui a participé à l'organisation du test. C'est surprenant parce que ces modèles sont censés n'avoir qu'une seule directive : accepter une chaîne de texte en entrée et prédire ce qui va suivre, encore et encore, en se basant uniquement sur des statistiques. Les informaticiens s'attendaient à ce que le passage à l'échelle permette d'améliorer les performances sur des tâches connues, mais ils ne s'attendaient pas à ce que les modèles puissent soudainement gérer autant de tâches nouvelles et imprévisibles.

Des études récentes, comme celle à laquelle a participé M. Dyer, ont révélé que les LLM peuvent produire des centaines de capacités "émergentes", c'est-à-dire des tâches que les grands modèles peuvent accomplir et que les petits modèles ne peuvent pas réaliser, et dont beaucoup ne semblent pas avoir grand-chose à voir avec l'analyse d'un texte. Ces tâches vont de la multiplication à la génération d'un code informatique exécutable et, apparemment, au décodage de films à partir d'emojis. De nouvelles analyses suggèrent que pour certaines tâches et certains modèles, il existe un seuil de complexité au-delà duquel la fonctionnalité du modèle monte en flèche. (Elles suggèrent également un sombre revers de la médaille : À mesure qu'ils gagnent en complexité, certains modèles révèlent de nouveaux biais et inexactitudes dans leurs réponses).

"Le fait que les modèles de langage puissent faire ce genre de choses n'a jamais été abordé dans la littérature à ma connaissance", a déclaré Rishi Bommasani, informaticien à l'université de Stanford. L'année dernière, il a participé à la compilation d'une liste de dizaines de comportements émergents, dont plusieurs ont été identifiés dans le cadre du projet de M. Dyer. Cette liste continue de s'allonger.

Aujourd'hui, les chercheurs s'efforcent non seulement d'identifier d'autres capacités émergentes, mais aussi de comprendre pourquoi et comment elles se manifestent - en somme, d'essayer de prédire l'imprévisibilité. La compréhension de l'émergence pourrait apporter des réponses à des questions profondes concernant l'IA et l'apprentissage automatique en général, comme celle de savoir si les modèles complexes font vraiment quelque chose de nouveau ou s'ils deviennent simplement très bons en statistiques. Elle pourrait également aider les chercheurs à exploiter les avantages potentiels et à limiter les risques liés à l'émergence.

"Nous ne savons pas comment déterminer dans quel type d'application la capacité de nuisance va se manifester, que ce soit en douceur ou de manière imprévisible", a déclaré Deep Ganguli, informaticien à la startup d'IA Anthropic.

L'émergence de l'émergence

Les biologistes, les physiciens, les écologistes et d'autres scientifiques utilisent le terme "émergent" pour décrire l'auto-organisation, les comportements collectifs qui apparaissent lorsqu'un grand nombre d'éléments agissent comme un seul. Des combinaisons d'atomes sans vie donnent naissance à des cellules vivantes ; les molécules d'eau créent des vagues ; des murmurations d'étourneaux s'élancent dans le ciel selon des schémas changeants mais identifiables ; les cellules font bouger les muscles et battre les cœurs. Il est essentiel que les capacités émergentes se manifestent dans les systèmes qui comportent de nombreuses parties individuelles. Mais ce n'est que récemment que les chercheurs ont été en mesure de documenter ces capacités dans les LLM, car ces modèles ont atteint des tailles énormes.

Les modèles de langage existent depuis des décennies. Jusqu'à il y a environ cinq ans, les plus puissants étaient basés sur ce que l'on appelle un réseau neuronal récurrent. Ceux-ci prennent essentiellement une chaîne de texte et prédisent le mot suivant. Ce qui rend un modèle "récurrent", c'est qu'il apprend à partir de ses propres résultats : Ses prédictions sont réinjectées dans le réseau afin d'améliorer les performances futures.

En 2017, les chercheurs de Google Brain ont introduit un nouveau type d'architecture appelé "transformateur". Alors qu'un réseau récurrent analyse une phrase mot par mot, le transformateur traite tous les mots en même temps. Cela signifie que les transformateurs peuvent traiter de grandes quantités de texte en parallèle. 

Les transformateurs ont permis d'augmenter rapidement la complexité des modèles de langage en augmentant le nombre de paramètres dans le modèle, ainsi que d'autres facteurs. Les paramètres peuvent être considérés comme des connexions entre les mots, et les modèles s'améliorent en ajustant ces connexions au fur et à mesure qu'ils parcourent le texte pendant l'entraînement. Plus il y a de paramètres dans un modèle, plus il peut établir des connexions avec précision et plus il se rapproche d'une imitation satisfaisante du langage humain. Comme prévu, une analyse réalisée en 2020 par les chercheurs de l'OpenAI a montré que les modèles gagnent en précision et en capacité au fur et à mesure qu'ils s'étendent.

Mais les débuts des LLM ont également apporté quelque chose de vraiment inattendu. Beaucoup de choses. Avec l'avènement de modèles tels que le GPT-3, qui compte 175 milliards de paramètres, ou le PaLM de Google, qui peut être étendu à 540 milliards de paramètres, les utilisateurs ont commencé à décrire de plus en plus de comportements émergents. Un ingénieur de DeepMind a même rapporté avoir pu convaincre ChatGPT qu'il s'était lui-même un terminal Linux et l'avoir amené à exécuter un code mathématique simple pour calculer les 10 premiers nombres premiers. Fait remarquable, il a pu terminer la tâche plus rapidement que le même code exécuté sur une vraie machine Linux.

Comme dans le cas du film emoji, les chercheurs n'avaient aucune raison de penser qu'un modèle de langage conçu pour prédire du texte imiterait de manière convaincante un terminal d'ordinateur. Nombre de ces comportements émergents illustrent l'apprentissage "à zéro coup" ou "à quelques coups", qui décrit la capacité d'un LLM à résoudre des problèmes qu'il n'a jamais - ou rarement - vus auparavant. Selon M. Ganguli, il s'agit là d'un objectif de longue date dans la recherche sur l'intelligence artificielle. Le fait de montrer que le GPT-3 pouvait résoudre des problèmes sans aucune donnée d'entraînement explicite dans un contexte d'apprentissage à zéro coup m'a amené à abandonner ce que je faisais et à m'impliquer davantage", a-t-il déclaré.

Il n'était pas le seul. Une série de chercheurs, qui ont détecté les premiers indices montrant que les LLM pouvaient dépasser les contraintes de leurs données d'apprentissage, s'efforcent de mieux comprendre à quoi ressemble l'émergence et comment elle se produit. La première étape a consisté à documenter minutieusement l'émergence.

Au-delà de l'imitation

En 2020, M. Dyer et d'autres chercheurs de Google Research ont prédit que les LLM auraient des effets transformateurs, mais la nature de ces effets restait une question ouverte. Ils ont donc demandé à la communauté des chercheurs de fournir des exemples de tâches difficiles et variées afin de déterminer les limites extrêmes de ce qu'un LLM pourrait faire. Cet effort a été baptisé "Beyond the Imitation Game Benchmark" (BIG-bench), en référence au nom du "jeu d'imitation" d'Alan Turing, un test visant à déterminer si un ordinateur peut répondre à des questions d'une manière humaine convaincante. (Le groupe s'est particulièrement intéressé aux exemples où les LLM ont soudainement acquis de nouvelles capacités qui étaient totalement absentes auparavant.

"La façon dont nous comprenons ces transitions brutales est une grande question de la echerche", a déclaré M. Dyer.

Comme on pouvait s'y attendre, pour certaines tâches, les performances d'un modèle se sont améliorées de manière régulière et prévisible au fur et à mesure que la complexité augmentait. Pour d'autres tâches, l'augmentation du nombre de paramètres n'a apporté aucune amélioration. Mais pour environ 5 % des tâches, les chercheurs ont constaté ce qu'ils ont appelé des "percées", c'est-à-dire des augmentations rapides et spectaculaires des performances à partir d'un certain seuil d'échelle. Ce seuil variant en fonction de la tâche et du modèle.

Par exemple, les modèles comportant relativement peu de paramètres - quelques millions seulement - n'ont pas réussi à résoudre des problèmes d'addition à trois chiffres ou de multiplication à deux chiffres, mais pour des dizaines de milliards de paramètres, la précision a grimpé en flèche dans certains modèles. Des sauts similaires ont été observés pour d'autres tâches, notamment le décodage de l'alphabet phonétique international, le décodage des lettres d'un mot, l'identification de contenu offensant dans des paragraphes d'hinglish (combinaison d'hindi et d'anglais) et la formulation d'équivalents en langue anglaise, traduit à partir de proverbes kiswahili.

Introduction

Mais les chercheurs se sont rapidement rendu compte que la complexité d'un modèle n'était pas le seul facteur déterminant. Des capacités inattendues pouvaient être obtenues à partir de modèles plus petits avec moins de paramètres - ou formés sur des ensembles de données plus petits - si les données étaient d'une qualité suffisamment élevée. En outre, la formulation d'une requête influe sur la précision de la réponse du modèle. Par exemple, lorsque Dyer et ses collègues ont posé la question de l'emoji de film en utilisant un format à choix multiples, l'amélioration de la précision a été moins soudaine qu'avec une augmentation graduelle de sa complexité. L'année dernière, dans un article présenté à NeurIPS, réunion phare du domaine, des chercheurs de Google Brain ont montré comment un modèle invité à s'expliquer (capacité appelée raisonnement en chaîne) pouvait résoudre correctement un problème de mots mathématiques, alors que le même modèle sans cette invitation progressivement précisée n'y parvenait pas.

 Yi Tay, scientifique chez Google Brain qui a travaillé sur l'étude systématique de ces percées, souligne que des travaux récents suggèrent que l'incitation par de pareilles chaînes de pensées modifie les courbes d'échelle et, par conséquent, le point où l'émergence se produit. Dans leur article sur NeurIPS, les chercheurs de Google ont montré que l'utilisation d'invites via pareille chaines de pensée progressives pouvait susciter des comportements émergents qui n'avaient pas été identifiés dans l'étude BIG-bench. De telles invites, qui demandent au modèle d'expliquer son raisonnement, peuvent aider les chercheurs à commencer à étudier les raisons pour lesquelles l'émergence se produit.

Selon Ellie Pavlick, informaticienne à l'université Brown qui étudie les modèles computationnels du langage, les découvertes récentes de ce type suggèrent au moins deux possibilités pour expliquer l'émergence. La première est que, comme le suggèrent les comparaisons avec les systèmes biologiques, les grands modèles acquièrent réellement de nouvelles capacités de manière spontanée. "Il se peut très bien que le modèle apprenne quelque chose de fondamentalement nouveau et différent que lorsqu'il était de taille inférieure", a-t-elle déclaré. "C'est ce que nous espérons tous, qu'il y ait un changement fondamental qui se produise lorsque les modèles sont mis à l'échelle.

L'autre possibilité, moins sensationnelle, est que ce qui semble être émergent pourrait être l'aboutissement d'un processus interne, basé sur les statistiques, qui fonctionne par le biais d'un raisonnement de type chaîne de pensée. Les grands LLM peuvent simplement être en train d'apprendre des heuristiques qui sont hors de portée pour ceux qui ont moins de paramètres ou des données de moindre qualité.

Mais, selon elle, pour déterminer laquelle de ces explications est la plus probable, il faut mieux comprendre le fonctionnement des LLM. "Comme nous ne savons pas comment ils fonctionnent sous le capot, nous ne pouvons pas dire laquelle de ces choses se produit.

Pouvoirs imprévisibles et pièges

Demander à ces modèles de s'expliquer pose un problème évident : Ils sont des menteurs notoires. Nous nous appuyons de plus en plus sur ces modèles pour effectuer des travaux de base", a déclaré M. Ganguli, "mais je ne me contente pas de leur faire confiance, je vérifie leur travail". Parmi les nombreux exemples amusants, Google a présenté en février son chatbot d'IA, Bard. Le billet de blog annonçant le nouvel outil montre Bard en train de commettre une erreur factuelle.

L'émergence mène à l'imprévisibilité, et l'imprévisibilité - qui semble augmenter avec l'échelle - rend difficile pour les chercheurs d'anticiper les conséquences d'une utilisation généralisée.

"Il est difficile de savoir à l'avance comment ces modèles seront utilisés ou déployés", a déclaré M. Ganguli. "Et pour étudier les phénomènes émergents, il faut avoir un cas en tête, et on ne sait pas, avant d'avoir étudié l'influence de l'échelle. quelles capacités ou limitations pourraient apparaître.

Dans une analyse des LLM publiée en juin dernier, les chercheurs d'Anthropic ont cherché à savoir si les modèles présentaient certains types de préjugés raciaux ou sociaux, à l'instar de ceux précédemment signalés dans les algorithmes non basés sur les LLM utilisés pour prédire quels anciens criminels sont susceptibles de commettre un nouveau délit. Cette étude a été inspirée par un paradoxe apparent directement lié à l'émergence : Lorsque les modèles améliorent leurs performances en passant à l'échelle supérieure, ils peuvent également augmenter la probabilité de phénomènes imprévisibles, y compris ceux qui pourraient potentiellement conduire à des biais ou à des préjudices.

"Certains comportements nuisibles apparaissent brusquement dans certains modèles", explique M. Ganguli. Il se réfère à une analyse récente des LLM, connue sous le nom de BBQ benchmark, qui a montré que les préjugés sociaux émergent avec un très grand nombre de paramètres. "Les grands modèles deviennent brusquement plus biaisés. Si ce risque n'est pas pris en compte, il pourrait compromettre les sujets de ces modèles."

Mais il propose un contrepoint : Lorsque les chercheurs demandent simplement au modèle de ne pas se fier aux stéréotypes ou aux préjugés sociaux - littéralement en tapant ces instructions - le modèle devient moins biaisé dans ses prédictions et ses réponses. Ce qui suggère que certaines propriétés émergentes pourraient également être utilisées pour réduire les biais. Dans un article publié en février, l'équipe d'Anthropic a présenté un nouveau mode d'"autocorrection morale", dans lequel l'utilisateur incite le programme à être utile, honnête et inoffensif.

Selon M. Ganguli, l'émergence révèle à la fois un potentiel surprenant et un risque imprévisible. Les applications de ces grands LLM prolifèrent déjà, de sorte qu'une meilleure compréhension de cette interaction permettra d'exploiter la diversité des capacités des modèles de langage.

"Nous étudions la manière dont les gens utilisent réellement ces systèmes", a déclaré M. Ganguli. Mais ces utilisateurs sont également en train de bricoler, en permanence. "Nous passons beaucoup de temps à discuter avec nos modèles, et c'est là que nous commençons à avoir une bonne intuition de la confiance ou du manque de confiance.

Auteur: Ornes Stephen

Info: https://www.quantamagazine.org/ - 16 mars 2023. Trad DeepL et MG

[ dialogue ] [ apprentissage automatique ] [ au-delà du jeu d'imitation ] [ dualité ]

 

Commentaires: 0

Ajouté à la BD par miguel

intelligence artificielle

Apprendre l'anglais n'est pas une tâche facile, comme le savent d'innombrables étudiants. Mais lorsque l'étudiant est un ordinateur, une approche fonctionne étonnamment bien : Il suffit d'alimenter un modèle mathématique géant, appelé réseau neuronal, avec des montagnes de textes provenant d'Internet. C'est le principe de fonctionnement des modèles linguistiques génératifs tels que ChatGPT d'OpenAI, dont la capacité à tenir une conversation cohérente (à défaut d'être toujours sincère) sur un large éventail de sujets a surpris les chercheurs et le public au cours de l'année écoulée.

Mais cette approche présente des inconvénients. D'une part, la procédure de "formation" nécessaire pour transformer de vastes archives textuelles en modèles linguistiques de pointe est coûteuse et prend beaucoup de temps. D'autre part, même les personnes qui forment les grands modèles linguistiques ont du mal à comprendre leur fonctionnement interne, ce qui, à son tour, rend difficile la prévision des nombreuses façons dont ils peuvent échouer.

Face à ces difficultés, certains chercheurs ont choisi d'entraîner des modèles plus petits sur des ensembles de données plus restreints, puis d'étudier leur comportement. "C'est comme le séquençage du génome de la drosophile par rapport au séquençage du génome humain", explique Ellie Pavlick, chercheuse sur les modèles de langage à l'université de Brown.

Dans un article récemment publié sur le serveur scientifique arxiv.org, deux chercheurs de Microsoft ont présenté une nouvelle méthode pour former de minuscules modèles de langage : Les élever avec un régime strict d'histoires pour enfants.

RÉSEAUX NEURONAUX

Des chercheurs acquièrent une nouvelle compréhension à partir d'une simple IA  

Les chercheurs en apprentissage automatique ont compris cette leçon. GPT-3.5, le grand modèle linguistique qui alimente l'interface ChatGPT, compte près de 200 milliards de paramètres et a été entraîné sur un ensemble de données comprenant des centaines de milliards de mots (OpenAI n'a pas publié les chiffres correspondants pour son successeur, GPT-4).  L'entraînement de modèles aussi vastes nécessite généralement au moins 1 000 processeurs spécialisés, appelés GPU, fonctionnant en parallèle pendant des semaines. Seules quelques entreprises peuvent réunir les ressources nécessaires, sans parler de l'entraînement et de la comparaison de différents modèles.

Les deux chercheurs ont montré que des modèles linguistiques des milliers de fois plus petits que les systèmes de pointe actuels apprenaient rapidement à raconter des histoires cohérentes et grammaticalement justes lorsqu'ils étaient formés de cette manière. Leurs résultats indiquent de nouvelles pistes de recherche qui pourraient être utiles pour former des modèles plus importants et comprendre leur comportement.

"J'ai trouvé tout  ça très instructif", a déclaré Chandra Bhagavatula, chercheur sur les modèles de langage à l'Allen Institute for Artificial Intelligence de Seattle. "Le concept lui-même est très intéressant.

Il était une fois

Les réseaux neuronaux au cœur des modèles de langage sont des structures mathématiques vaguement inspirées du cerveau humain. Chacun d'entre eux contient de nombreux neurones artificiels disposés en couches, avec des connexions entre les neurones des couches adjacentes. Le comportement du réseau neuronal est régi par la force de ces connexions, appelées paramètres. Dans un modèle linguistique, les paramètres contrôlent les mots que le modèle peut produire ensuite, compte tenu d'une invite initiale et des mots qu'il a déjà générés.

Un modèle ne prend véritablement vie qu'au cours de la formation, lorsqu'il compare de manière répétée ses propres résultats au texte de son ensemble de données de formation et qu'il ajuste ses paramètres afin d'accroître la ressemblance. Un réseau non entraîné avec des paramètres aléatoires est trivialement facile à assembler à partir de quelques lignes de code, mais il ne produira que du charabia. Après l'entraînement, il peut souvent poursuivre de manière plausible un texte peu familier. Les modèles de plus grande taille sont souvent soumis à des réglages plus fins qui leur apprennent à répondre à des questions et à suivre des instructions, mais l'essentiel de la formation consiste à maîtriser la prédiction des mots.

Pour réussir à prédire des mots, un modèle linguistique doit maîtriser de nombreuses compétences différentes. Par exemple, les règles de la grammaire anglaise suggèrent que le mot suivant le mot "going" sera probablement "to", quel que soit le sujet du texte. En outre, un système a besoin de connaissances factuelles pour compléter "la capitale de la France est", et compléter un passage contenant le mot "not" nécessite une connaissance rudimentaire de la logique.

"Le langage brut est très compliqué", explique Timothy Nguyen, chercheur en apprentissage automatique chez DeepMind. "Pour que des capacités linguistiques intéressantes apparaissent, les gens ont eu recours à l'idée que plus il y a de données, mieux c'est".

(photo) Ronen Eldan s'est rendu compte qu'il pouvait utiliser les histoires d'enfants générées par de grands modèles linguistiques pour en entraîner rapidement de plus petits.

Introduction

Ronen Eldan, mathématicien qui a rejoint Microsoft Research en 2022 pour étudier les modèles de langage génératifs, souhaitait développer un moyen moins coûteux et plus rapide d'explorer leurs capacités. Le moyen naturel d'y parvenir était d'utiliser un petit ensemble de données, ce qui signifiait qu'il devait entraîner les modèles à se spécialiser dans une tâche spécifique, afin qu'ils ne s'éparpillent pas. Au départ, il voulait entraîner les modèles à résoudre une certaine catégorie de problèmes mathématiques, mais un après-midi, après avoir passé du temps avec sa fille de 5 ans, il s'est rendu compte que les histoires pour enfants convenaient parfaitement. "L'idée m'est venue littéralement après lui avoir lu une histoire", a-t-il déclaré.

Pour générer des histoires cohérentes pour les enfants, un modèle de langage devrait apprendre des faits sur le monde, suivre les personnages et les événements, et observer les règles de grammaire - des versions plus simples des défis auxquels sont confrontés les grands modèles. Mais les grands modèles formés sur des ensembles de données massives apprennent d'innombrables détails non pertinents en même temps que les règles qui comptent vraiment. Eldan espérait que la brièveté et le vocabulaire limité des histoires pour enfants rendraient l'apprentissage plus gérable pour les petits modèles, ce qui les rendrait à la fois plus faciles à former et plus faciles à comprendre.

Dans le monde des modèles de langage, cependant, le terme "petit" est relatif : Un ensemble de données mille fois plus petit que celui utilisé pour former GPT-3.5 devrait encore contenir des millions d'histoires. "Je ne sais pas combien d'argent vous voulez dépenser, mais je suppose que vous n'allez pas engager des professionnels pour écrire quelques millions de nouvelles", a déclaré M. Nguyen.

Il faudrait un auteur extraordinairement prolifique pour satisfaire des lecteurs aussi voraces, mais Eldan avait quelques candidats en tête. Qui peut mieux écrire pour un public de petits modèles linguistiques que pour de grands modèles ?

Toys stories

Eldan a immédiatement entrepris de créer une bibliothèque d'histoires synthétiques pour enfants générées par de grands modèles linguistiques. Mais il a rapidement découvert que même les modèles de pointe ne sont pas naturellement très créatifs. Si l'on demande à GPT-4 d'écrire des histoires adaptées à des enfants de 4 ans, explique Eldan, "environ un cinquième des histoires concernera des enfants qui vont au parc et qui ont peur des toboggans". C'est apparemment la quintessence des histoires pour enfants d'âge préscolaire, selon l'Internet.

La solution a consisté à ajouter un peu d'aléatoire dans le message. Tout d'abord, Eldan a utilisé le GPT-4 pour générer une liste de 1 500 noms, verbes et adjectifs qu'un enfant de 4 ans pourrait connaître - suffisamment courte pour qu'il puisse facilement la vérifier lui-même. Il a ensuite écrit un programme informatique simple qui demanderait à plusieurs reprises à GPT-3.5 ou à GPT-4 de générer une histoire adaptée à l'âge de l'enfant, comprenant trois mots aléatoires de la liste, ainsi qu'un détail supplémentaire choisi au hasard, comme une fin heureuse ou un rebondissement de l'intrigue. Les histoires obtenues, heureusement, étaient moins axées sur des diapositives effrayantes.

Eldan disposait désormais d'une procédure pour produire des données de formation à la demande, mais il n'avait aucune idée du nombre d'histoires dont il aurait besoin pour former un modèle fonctionnel, ni de la taille de ce modèle. C'est alors qu'il s'est associé à Yuanzhi Li, chercheur en apprentissage automatique chez Microsoft et à l'université Carnegie Mellon, pour essayer différentes possibilités, en tirant parti du fait que les petits modèles peuvent être formés très rapidement. La première étape consistait à décider comment évaluer leurs modèles.

Introduction

Dans la recherche sur les modèles de langage - comme dans toute salle de classe - la notation est un sujet délicat. Il n'existe pas de rubrique parfaite qui englobe tout ce que les chercheurs veulent savoir, et les modèles qui excellent dans certaines tâches échouent souvent de manière spectaculaire dans d'autres. Au fil du temps, les chercheurs ont mis au point divers critères de référence standard basés sur des questions dont les réponses ne sont pas ambiguës, ce qui est une bonne approche si vous essayez d'évaluer des compétences spécifiques. Mais Eldan et Li se sont intéressés à quelque chose de plus nébuleux : quelle doit être la taille réelle des modèles linguistiques si l'on simplifie le langage autant que possible ?

"Pour vérifier directement si le modèle parle anglais, je pense que la seule chose à faire est de laisser le modèle générer de l'anglais de manière ouverte", a déclaré M. Eldan.

Il n'y a que deux façons de mesurer les performances d'un modèle sur des questions aussi qualitatives : S'appuyer sur des évaluateurs humains ou se tourner à nouveau vers le GPT-4. Les deux chercheurs ont opté pour cette dernière solution, laissant les grands modèles à la fois rédiger les manuels et noter les dissertations.

Bhagavatula a déclaré qu'il aurait aimé voir comment les évaluations de GPT-4 se comparaient à celles des correcteurs humains - GPT-4 peut être biaisé en faveur des modèles qu'il a aidé à former, et l'opacité des modèles de langage rend difficile la quantification de tels biais. Mais il ne pense pas que de telles subtilités affecteraient les comparaisons entre différents modèles formés sur des ensembles similaires d'histoires synthétiques - l'objectif principal du travail d'Eldan et Li.

Eldan et Li ont utilisé une procédure en deux étapes pour évaluer chacun de leurs petits modèles après la formation. Tout d'abord, ils ont présenté au petit modèle la première moitié d'une histoire distincte de celles de l'ensemble des données d'apprentissage, de manière à ce qu'il génère une nouvelle fin, en répétant ce processus avec 50 histoires de test différentes. Ensuite, ils ont demandé à GPT-4 d'évaluer chacune des fins du petit modèle en fonction de trois catégories : créativité, grammaire et cohérence avec le début de l'histoire. Ils ont ensuite fait la moyenne des notes obtenues dans chaque catégorie, obtenant ainsi trois notes finales par modèle.

Avec cette procédure en main, Eldan et Li étaient enfin prêts à comparer les différents modèles et à découvrir quels étaient les étudiants les plus brillants.

Résultats des tests

Après quelques explorations préliminaires, les deux chercheurs ont opté pour un ensemble de données de formation contenant environ 2 millions d'histoires. Ils ont ensuite utilisé cet ensemble de données, baptisé TinyStories, pour entraîner des modèles dont la taille varie de 1 million à 30 millions de paramètres, avec un nombre variable de couches. Le travail a été rapide : En utilisant seulement quatre GPU, l'entraînement du plus grand de ces modèles n'a pas pris plus d'une journée.

Les plus petits modèles ont eu du mal. Par exemple, l'une des histoires testées commence par un homme à l'air méchant qui dit à une fille qu'il va lui prendre son chat. Un modèle à un million de paramètres s'est retrouvé bloqué dans une boucle où la fille répète sans cesse à l'homme qu'elle veut être son amie. Mais les modèles plus grands, qui sont encore des milliers de fois plus petits que GPT-3.5, ont obtenu des résultats surprenants. La version à 28 millions de paramètres racontait une histoire cohérente, même si la fin était sinistre : "Katie s'est mise à pleurer, mais l'homme s'en fichait. Il a emporté le chat et Katie n'a plus jamais revu son chat. Fin de l'histoire".

En plus de tester leurs propres modèles, Eldan et Li ont soumis le même défi au GPT-2 d'OpenAI, un modèle de 1,5 milliard de paramètres publié en 2019. Le résultat a été bien pire - avant la fin abrupte de l'histoire, l'homme menace d'emmener la jeune fille au tribunal, en prison, à l'hôpital, à la morgue et enfin au crématorium.

Introduction

Selon M. Nguyen, il est passionnant que des modèles aussi petits soient aussi fluides, mais il n'est peut-être pas surprenant que GPT-2 ait eu du mal à accomplir la tâche : il s'agit d'un modèle plus grand, mais loin de l'état de l'art, et il a été formé sur un ensemble de données très différent. "Un enfant en bas âge qui ne s'entraînerait qu'à des tâches d'enfant en bas âge, comme jouer avec des jouets, obtiendrait de meilleurs résultats que vous ou moi", a-t-il fait remarquer. "Nous ne nous sommes pas spécialisés dans cette chose simple.

Les comparaisons entre les différents modèles de TinyStories ne souffrent pas des mêmes facteurs de confusion. Eldan et Li ont observé que les réseaux comportant moins de couches mais plus de neurones par couche étaient plus performants pour répondre aux questions nécessitant des connaissances factuelles ; inversement, les réseaux comportant plus de couches et moins de neurones par couche étaient plus performants pour garder en mémoire les personnages et les points de l'intrigue situés plus tôt dans l'histoire. Bhagavatula a trouvé ce résultat particulièrement intriguant. S'il peut être reproduit dans des modèles plus vastes, "ce serait un résultat vraiment intéressant qui pourrait découler de ce travail", a-t-il déclaré.

Eldan et Li ont également étudié comment les capacités de leurs petits modèles dépendaient de la durée de la période de formation. Dans tous les cas, les modèles maîtrisaient d'abord la grammaire, puis la cohérence. Pour Eldan, ce schéma illustre comment les différences dans les structures de récompense entraînent des différences dans les schémas d'acquisition du langage entre les réseaux neuronaux et les enfants. Pour les modèles de langage, qui apprennent en prédisant des mots, "l'incitation pour les mots "je veux avoir" est aussi importante que pour les mots "crème glacée"", a-t-il déclaré. Les enfants, en revanche, "ne se soucient pas de savoir s'ils disent 'j'aimerais avoir de la glace' ou simplement 'glace, glace, glace'".

Qualité contre quantité

Eldan et Li espèrent que cette étude incitera d'autres chercheurs à entraîner différents modèles sur l'ensemble des données de TinyStories et à comparer leurs capacités. Mais il est souvent difficile de prédire quelles caractéristiques des petits modèles apparaîtront également dans les plus grands.

"Peut-être que les modèles de vision chez la souris sont de très bons substituts de la vision humaine, mais les modèles de dépression chez la souris sont-ils de bons modèles de la dépression chez l'homme ? a déclaré M. Pavlick. "Pour chaque cas, c'est un peu différent.

Le succès des modèles TinyStories suggère également une leçon plus large. L'approche standard pour compiler des ensembles de données de formation consiste à aspirer des textes sur l'internet, puis à filtrer les déchets. Le texte synthétique généré par des modèles de grande taille pourrait constituer une autre façon d'assembler des ensembles de données de haute qualité qui n'auraient pas besoin d'être aussi volumineux.

"Nous avons de plus en plus de preuves que cette méthode est très efficace, non seulement pour les modèles de la taille de TinyStories, mais aussi pour les modèles plus importants", a déclaré M. Eldan. Ces preuves proviennent d'une paire d'articles de suivi sur les modèles à un milliard de paramètres, rédigés par Eldan, Li et d'autres chercheurs de Microsoft. Dans le premier article, ils ont entraîné un modèle à apprendre le langage de programmation Python en utilisant des extraits de code générés par GPT-3.5 ainsi que du code soigneusement sélectionné sur l'internet. Dans le second, ils ont complété l'ensemble de données d'entraînement par des "manuels" synthétiques couvrant un large éventail de sujets, afin d'entraîner un modèle linguistique à usage général. Lors de leurs tests, les deux modèles ont été comparés favorablement à des modèles plus importants formés sur des ensembles de données plus vastes. Mais l'évaluation des modèles linguistiques est toujours délicate, et l'approche des données d'entraînement synthétiques n'en est qu'à ses balbutiements - d'autres tests indépendants sont nécessaires.

Alors que les modèles linguistiques de pointe deviennent de plus en plus volumineux, les résultats surprenants de leurs petits cousins nous rappellent qu'il y a encore beaucoup de choses que nous ne comprenons pas, même pour les modèles les plus simples. M. Nguyen s'attend à ce que de nombreux autres articles explorent l'approche inaugurée par TinyStories.

"La question est de savoir où et pourquoi la taille a de l'importance", a-t-il déclaré. "Il devrait y avoir une science à ce sujet, et cet article est, je l'espère, le début d'une riche histoire.



 



 

Auteur: Internet

Info: https://www.quantamagazine.org/ Ben Brubaker, 5 octobre 2023

[ synthèse ]

 

Commentaires: 0

Ajouté à la BD par miguel