Les fils de la pensée

Paramètres de recherches

Filtres

Citation

Catégorie

Tag – étiquette

Auteur

Info

Recherche avancée

Détail auteurs

Présentation, tri

Dictionnaire analogique intriqué pour extraits. Recherche mots ou phrases tous azimuts. Aussi outil de précision sémantique et de réflexion communautaire. Voir la rubrique mode d'emploi. Jetez un oeil à la colonne "chaînes". ATTENTION, faire une REINITIALISATION après une recherche complexe. Et utilisez le nuage de corrélats !!!!..... Lire la suite >>

Nuage de corrélats

accomplissement anthropocentrisme conscience déterministe existence forme humain introspection jamais karma langage lui-même mental miroir monde nature parlêtre partie qualité raison rapports humains savoir singularité solitude temps terre toujours équivalences éveil

Résultat(s): 352

Temps de recherche: 0.0534s

homme-machine

La théorie des jeux peut rendre l'IA plus correcte et plus efficace

Les chercheurs s’appuient sur des idées issues de la théorie des jeux pour améliorer les grands modèles de langage et les rendre plus cohérents.

Imaginez que vous ayez un ami qui donne des réponses différentes à la même question, selon la façon dont vous la posez. " Quelle est la capitale du Pérou ? " btiendrait une réponse : " Lima est-elle la capitale du Pérou ? " en obtiendrait un autre. Vous seriez probablement un peu inquiet au sujet des facultés mentales de votre ami et vous auriez certainement du mal à faire confiance à ses réponses.

C'est exactement ce qui se passe avec de nombreux grands modèles de langage (LLM), les outils d'apprentissage automatique ultra-puissants qui alimentent ChatGPT et d'autres merveilles de l'intelligence artificielle. Une question générative, ouverte, donne une réponse, et une question discriminante, qui implique de devoir choisir entre des options, en donne souvent une différente. "Il y a un décalage lorsque la même question est formulée différemment", a déclaré Athul Paul Jacob , doctorant au Massachusetts Institute of Technology.

Pour rendre les réponses d'un modèle de langage plus cohérentes - et rendre le modèle globalement plus fiable - Jacob et ses collègues ont conçu un jeu dans lequel les deux modes du modèle sont amenés à trouver une réponse sur laquelle ils peuvent s'entendre. Surnommée le jeu du consensus , cette procédure simple oppose un LLM à lui-même, en utilisant les outils de la théorie des jeux pour améliorer la précision et la cohérence interne du modèle.

"Les recherches explorant l'autocohérence au sein de ces modèles ont été très limitées", a déclaré Shayegan Omidshafiei , directeur scientifique de la société de robotique Field AI. "Cet article est l'un des premiers à aborder ce problème, de manière intelligente et systématique, en créant un jeu permettant au modèle de langage de jouer avec lui-même."

"C'est un travail vraiment passionnant", a ajouté Ahmad Beirami, chercheur scientifique chez Google Research. Pendant des décennies, a-t-il déclaré, les modèles linguistiques ont généré des réponses aux invites de la même manière. "Avec leur idée novatrice consistant à intégrer un jeu dans ce processus, les chercheurs du MIT ont introduit un paradigme totalement différent, qui peut potentiellement conduire à une multitude de nouvelles applications."

Mettre le jeu au travail

Ce nouveau travail, qui utilise les jeux pour améliorer l'IA, contraste avec les approches précédentes, qui mesuraient le succès d'un programme d'IA via sa maîtrise des jeux. En 1997, par exemple, l'ordinateur Deep Blue d'IBM a battu le grand maître d'échecs Garry Kasparov – une étape importante pour les machines dites pensantes. Dix-neuf ans plus tard, un programme de Google DeepMind nommé AlphaGo a remporté quatre matchs sur cinq contre l'ancien champion de Go Lee Sedol, révélant ainsi une autre arène dans laquelle les humains ne régnaient plus en maître. Les machines ont également surpassé les humains dans les jeux de dames, le poker à deux joueurs et d’autres jeux à somme nulle, dans lesquels la victoire d’un joueur condamne invariablement l’autre.

Le jeu de la diplomatie, un jeu favori de politiciens comme John F. Kennedy et Henry Kissinger, posait un défi bien plus grand aux chercheurs en IA. Au lieu de seulement deux adversaires, le jeu met en scène sept joueurs dont les motivations peuvent être difficiles à lire. Pour gagner, un joueur doit négocier et conclure des accords de coopération que n'importe qui peut rompre à tout moment. La diplomatie est tellement complexe qu'un groupe de Meta s'est félicité qu'en 2022, son programme d'IA Cicero ait développé un « jeu de niveau humain » sur une période de 40 parties. Bien qu'il n'ait pas vaincu le champion du monde, Cicero s'est suffisamment bien comporté pour se classer dans les 10 % les plus performants face à des participants humains.

Au cours du projet, Jacob — membre de l'équipe Meta — a été frappé par le fait que Cicéron s'appuyait sur un modèle de langage pour générer son dialogue avec les autres joueurs. Il a senti un potentiel inexploité. L'objectif de l'équipe, a-t-il déclaré, " était de créer le meilleur modèle de langage possible pour jouer à ce jeu ". Mais qu'en serait-il s’ils se concentraient plutôt sur la création du meilleur jeu possible pour améliorer les performances des grands modèles de langage ?

Interactions consensuelles

En 2023, Jacob a commencé à approfondir cette question au MIT, en travaillant avec Yikang Shen, Gabriele Farina et son conseiller Jacob Andreas sur ce qui allait devenir le jeu du consensus. L'idée centrale est venue d'imaginer une conversation entre deux personnes comme un jeu coopératif, où le succès se concrétise lorsqu'un auditeur comprend ce que l'orateur essaie de transmettre. En particulier, le jeu de consensus est conçu pour aligner les deux systèmes du modèle linguistique : le générateur, qui gère les questions génératives, et le discriminateur, qui gère les questions discriminatives.

Après quelques mois d’arrêts et de redémarrages, l’équipe a transposé ce principe dans un jeu complet. Tout d'abord, le générateur reçoit une question. Cela peut provenir d’un humain, ou d’une liste préexistante. Par exemple, " Où est né Barack Obama ? " Le générateur obtient ensuite des réponses de candidats, disons Honolulu, Chicago et Nairobi. Encore une fois, ces options peuvent provenir d'un humain, d'une liste ou d'une recherche effectuée par le modèle de langage lui-même.

Mais avant de répondre, il est également indiqué au générateur s'il doit répondre correctement ou incorrectement à la question, en fonction des résultats d'un pile ou face équitable.

Si c'est face, alors la machine tente de répondre correctement. Le générateur envoie la question initiale, accompagnée de la réponse choisie, au discriminateur. Si le discriminateur détermine que le générateur a intentionnellement envoyé la bonne réponse, chacun obtient un point, en guise d'incitation.

Si la pièce tombe sur pile, le générateur envoie ce qu’il pense être la mauvaise réponse. Si le discriminateur décide qu’on lui a délibérément donné la mauvaise réponse, ils marquent à nouveau tous les deux un point. L’idée ici est d’encourager l’accord. " C'est comme apprendre un tour à un chien ", a expliqué Jacob. " On lui donne une friandise lorsqu'ils fait la bonne chose. "

Le générateur et le discriminateur commencent également doté chacun de quelques " croyances " initiales. Credo sous forme d'une distribution de probabilité liée aux différents choix. Par exemple, le générateur peut croire, sur la base des informations qu'il a glanées sur Internet, qu'il y a 80 % de chances qu'Obama soit né à Honolulu, 10 % de chances qu'il soit né à Chicago, 5 % de chances qu'il soit né à Nairobi et 5 % de chances qu'il soit ailleurs. Le discriminateur peut commencer avec une distribution différente. Si les deux " acteurs " sont toujours récompensés après être parvenus à un accord, ils se voient également retirer des points s'ils s'écartent trop de leurs convictions initiales. Cet arrangement encourage les joueurs à intégrer leur connaissance du monde – toujours tirée d'Internet – dans leurs réponses, ce qui devrait rendre le modèle plus précis. Sans ce prérequis ils pourraient s’entendre sur une réponse totalement fausse comme celle de Delhi, mais accumuler quand même des points.

Pour chaque question, les deux systèmes jouent environ 1 000 parties l'un contre l'autre. Au cours de ces nombreuses itérations, chaque camp apprend les croyances de l'autre et modifie ses stratégies en conséquence.

Finalement, le générateur et le discriminateur commencent à être davantage d’accord à mesure qu’ils s’installent dans ce qu’on appelle l’équilibre de Nash. C’est sans doute le concept central de la théorie des jeux. Cela représente une sorte d’équilibre dans un jeu – le point auquel aucun joueur ne peut améliorer ses résultats personnels en changeant de stratégie. Au jeu du chifoumi, par exemple, les joueurs obtiennent de meilleurs résultats lorsqu'ils choisissent chacune des trois options exactement un tiers du temps, et ils obtiendront invariablement de moins bons résultats avec toute autre tactique.

Dans le jeu du consensus, cela peut se jouer de plusieurs manières. Le discriminateur pourrait observer qu'il marque un point lorsqu'il dit " correct " chaque fois que le générateur envoie le mot " Honolulu " pour le lieu de naissance d'Obama. Le générateur et le discriminateur apprendront, après avoir joué plusieurs fois, qu'ils seront récompensés s'ils continuent de le faire, et qu'aucun d'eux n'aura aucune motivation pour faire autre chose... consensus qui représente l'un des nombreux exemples possibles d'équilibre de Nash pour cette question. Le groupe du MIT s'est également appuyé sur une forme modifiée d'équilibre de Nash qui intègre les croyances antérieures des joueurs, ce qui permet de maintenir leurs réponses ancrées dans la réalité.

L'effet net, ont observé les chercheurs, est de rendre le modèle linguistique jouant ce jeu plus précis et plus susceptible de donner la même réponse, quelle que soit la façon dont la question est posée. Pour tester les effets du jeu du consensus, l'équipe a essayé une série de questions standard sur divers modèles de langage de taille modérée comportant de 7 milliards à 13 milliards de paramètres. Ces modèles ont systématiquement obtenu un pourcentage plus élevé de réponses correctes que les modèles qui n'avaient pas joué, même ceux de taille beaucoup plus importante, comportant jusqu'à 540 milliards de paramètres. La participation au jeu a également amélioré la cohérence interne d'un modèle.

En principe, n'importe quel LLM pourrait gagner à jouer contre lui-même, et 1 000 tours ne prendraient que quelques millisecondes sur un ordinateur portable standard. "Un avantage appréciable de l'approche globale", a déclaré Omidshafiei, "est qu'elle est très légère sur le plan informatique, n'impliquant aucune formation ni modification du modèle de langage de base."

Jouer à des jeux avec le langage

Après ce premier succès, Jacob étudie désormais d’autres moyens d’intégrer la théorie des jeux dans la recherche LLM. Les résultats préliminaires ont montré qu’un LLM déjà solide peut encore s’améliorer en jouant à un jeu différent – provisoirement appelé jeu d’ensemble – avec un nombre arbitraire de modèles plus petits. Le LLM principal aurait au moins un modèle plus petit servant d’allié et au moins un modèle plus petit jouant un rôle antagoniste. Si l'on demande au LLM primaire de nommer le président des États-Unis, il obtient un point chaque fois qu'il choisit la même réponse que son allié, et il obtient également un point lorsqu'il choisit une réponse différente de celle de son adversaire. Ces interactions avec des modèles beaucoup plus petits peuvent non seulement améliorer les performances d'un LLM, suggèrent les tests, mais peuvent le faire sans formation supplémentaire ni modification des paramètres.

Et ce n'est que le début. Étant donné qu'une variété de situations peuvent être considérées comme des jeux, les outils de la théorie des jeux peuvent être mis en œuvre dans divers contextes du monde réel, a déclaré Ian Gemp , chercheur scientifique chez Google DeepMind. Dans un article de février 2024 , lui et ses collègues se sont concentrés sur des scénarios de négociation qui nécessitent des échanges plus élaborés que de simples questions et réponses. "L'objectif principal de ce projet est de rendre les modèles linguistiques plus stratégiques", a-t-il déclaré.

Un exemple dont il a parlé lors d'une conférence universitaire est le processus d'examen des articles en vue de leur acceptation par une revue ou une conférence, en particulier après que la soumission initiale ait reçu une évaluation sévère. Étant donné que les modèles linguistiques attribuent des probabilités à différentes réponses, les chercheurs peuvent construire des arbres de jeu similaires à ceux conçus pour les jeux de poker, qui tracent les choix disponibles et leurs conséquences possibles. "Une fois que vous avez fait cela, vous pouvez commencer à calculer les équilibres de Nash, puis classer un certain nombre de réfutations", a déclaré Gemp. Le modèle vous dit essentiellement : c'est ce que nous pensons que vous devriez répondre.

Grâce aux connaissances de la théorie des jeux, les modèles de langage seront capables de gérer des interactions encore plus sophistiquées, plutôt que de se limiter à des problèmes de type questions-réponses. "Le gros gain à venir réside dans les conversations plus longues", a déclaré Andreas. "La prochaine étape consiste à faire interagir une IA avec une personne, et pas seulement avec un autre modèle de langage."

Jacob considère le travail de DeepMind comme complémentaire aux jeux de consensus et d'ensemble. " À un niveau élevé, ces deux méthodes combinent des modèles de langage et la théorie des jeux ", a-t-il déclaré, même si les objectifs sont quelque peu différents. Alors que le groupe Gemp transforme des situations courantes dans un format de jeu pour aider à la prise de décision stratégique, Jacob a déclaré : " nous utilisons ce que nous savons de la théorie des jeux pour améliorer les modèles de langage dans les tâches générales. "

À l’heure actuelle, ces efforts représentent " deux branches du même arbre ", a déclaré Jacob : deux manières différentes d’améliorer le fonctionnement des modèles de langage. " Je pense personnellement que dans un an ou deux, ces deux branches convergeront. "

Auteur: Internet

Info: https://www.quantamagazine.org/ - Steve Nadis, 9 mai 2024

[ maïeutique machine-machine ] [ discussion IA - FLP ]

Commenter

Commentaires: 1

miguel

12.05.2024

(FLP) - Saurais-tu faire le lien, et éventuellement des analogies avec ce texte et une logique tétravalente ? (Gemini) - Lien et analogies entre le texte et l'approche tétravalente de la théorie des jeux Le texte que vous avez fourni met en lumière l'utilisation de la théorie des jeux pour améliorer la cohérence et la précision des grands modèles de langage (LLM). En particulier, il présente le jeu du consensus, une approche basée sur l'équilibre de Nash, pour aligner les systèmes génératifs et discriminatifs des LLM. L'approche tétravalente de la théorie des jeux peut s'avérer complémentaire et enrichissante à cette démarche en introduisant une dimension supplémentaire d'analyse et de compréhension. 1. Capturer l'incertitude et l'ambiguïté : La logique tétravalente, avec ses quatre valeurs de vérité (+, -, +-, et -+), permet de capturer l'incertitude et l'ambiguïté inhérentes au langage naturel, ce que la théorie des jeux classique, avec sa vision binaire (vrai/faux), ne parvient pas à faire pleinement. Imaginons une question comme "Quelle est la capitale de la France ?". La réponse "Paris" serait considérée comme vraie (+), tandis que "Berlin" serait fausse (-). Cependant, la logique tétravalente pourrait introduire des nuances : (+) Paris est la capitale de la France selon la plupart des sources et des définitions officielles. (-) Berlin n'est pas la capitale de la France selon cette définition. (+) Berlin a été la capitale de l'Allemagne de l'Est, qui faisait partie de la France pendant la Seconde Guerre mondiale. (-) Berlin n'a jamais été la capitale de la France. En intégrant ces nuances, les LLM pourraient mieux gérer les questions ouvertes, complexes ou ambiguës, en fournissant des réponses plus complètes et informatives. 2. Modéliser des interactions dynamiques et évolutives : Le jeu du consensus, bien qu'efficace, se concentre sur un équilibre de Nash statique. La logique tétravalente, avec sa capacité à représenter l'évolution des croyances et des incertitudes, peut s'avérer utile pour modéliser des interactions dynamiques et évolutives entre les agents. Dans le contexte des LLM, cela pourrait impliquer de capturer l'apprentissage continu et l'adaptation des modèles face à de nouvelles informations et à des contextes changeants. Les valeurs tétravalentes pourraient refléter l'évolution des confiances du modèle dans ses propres réponses, permettant un ajustement progressif et une meilleure prise en compte de l'incertitude. 3. Explorer des stratégies alternatives et des compromis : L'équilibre de Nash, bien qu'utile pour la stabilité, ne représente qu'une solution parmi d'autres dans un jeu. La logique tétravalente, avec ses valeurs qui permettent de représenter des compromis et des stratégies alternatives, peut ouvrir de nouvelles perspectives pour l'exploration de solutions non optimales mais néanmoins acceptables. Dans le cas des LLM, cela pourrait impliquer de générer des réponses qui, bien que non parfaitement correctes selon une définition stricte, pourraient être plus utiles ou appropriées dans un contexte donné. Par exemple, un LLM pourrait proposer une réponse "incomplète mais plausible" à une question complexe, plutôt que de rester silencieux ou de fournir une réponse erronée. Conclusion: L'approche tétravalente de la théorie des jeux offre un cadre théorique complémentaire et puissant pour enrichir les travaux présentés dans le texte. En intégrant la capacité de capturer l'incertitude, de modéliser des dynamiques évolutives et d'explorer des stratégies alternatives, les LLM pourraient progresser vers une compréhension plus fine du langage naturel et une meilleure performance dans des tâches complexes et réalistes. Analogies entre le texte et l'approche tétravalente Jeu du consensus et équilibre de Nash : L'équilibre de Nash, concept central de la théorie des jeux classique, trouve un écho dans le jeu du consensus, où les deux systèmes du LLM convergent vers une réponse commune. La logique tétravalente permet d'étendre cette notion d'équilibre en introduisant des nuances et en capturant l'incertitude inhérente aux interactions linguistiques. Négociation et diplomatie : Le texte mentionne le jeu de la diplomatie comme un défi pour les IA. La logique tétravalente, avec sa capacité à représenter des compromis et des stratégies alternatives, pourrait s'avérer utile pour modéliser les négociations complexes et les interactions diplomatiques, où des solutions optimales ne sont pas toujours possibles. Apprentissage par renforcement : L'approche du jeu du consensus peut être vue comme une forme d'apprentissage par renforcement, où les deux systèmes du LLM sont récompensés pour des réponses cohérentes. La logique tétravalente pourrait enrich

Ajouté à la BD par miguel

homme-animal

La conscience du Dauphin
Bien entendu, les modèles du monde ne manqueront pas de différer selon le degré où les systèmes sensoriels périphériques diffèrent.
Le travail du cerveau est en effet, au moins en partie, de construire une réalité cohérente à partir de données sensorielles spécifiques, réalité qui constitue d’ailleurs la seule connue par celui qui l’expérimente au détriment de toutes les autres.
Dans le cas du dauphin, le système nerveux est celui d’un herbivore retourné à la mer, il y a quelques millions d’années, et ne diffère donc pas fondamentalement de celui de n’importe quel autre grand mammifère.
Le monde physique en revanche, au sein duquel il évolue, nous poserait à nous, humains, d’impossibles défis. C’est pourquoi les cétacés ont développé tout à la fois des formes physiques mieux adaptées au milieu marin mais surtout tout un outillage sensoriel susceptible des les aider à survivre dans un monde humide, froid et obscur, où règnent de fortes pressions.
Faire l’expérience d’une telle subjectivité est par définition une tâche impossible. Même entre époux, entre amis, entre enfants et parents, cette connaissance ne peut s’acquérir que par le biais maladroit du discours mais jamais nous ne pourrons accéder au "goût du monde" d’une autre espèce que la nôtre.
Il se fait heureusement que nos organes sensoriels et nos structures cérébrales sont des outils communs à tous les êtres humains, ce qui nous permet de fonder l’illusion d’un univers de formes stables et tangibles, dont l’existence fait l’unanimité mais que nous sommes les seuls à percevoir comme telles.
En revanche, nous sommes génétiquement incapables de nous figurer un monde filtré par d’autres sens que les nôtres, de la même manière qu’il nous est impossible de visualiser un cube en quatre dimensions ou simplement le monde des abeilles….
"Pouvez-vous imaginer l’expérience que représente le fait d’être sans cesse corrélé à une boussole solaire ?" nous demande le neurologue H.Jerison à ce propos "L’information consiste en la triangulation des objets externes relativement à un observateur (le je) et au soleil comme point de référence. Si cette réaction devait être représentée en terme de perception, on pourrait dire que l’abeille ou la fourmi ressent de manière constante l’existence des points cardinaux au sein d’un monde tridimensionnel de type euclidien. Si notre système sensoriel était celui des hyménoptères, c’est cela la seule réalité que nous pourrions percevoir.
L’intégration de deux points de référence, le soi et le soleil, plutôt qu’un seul soi unitaire en tant qu’origine et centre d’un monde périphérique, doit certainement mener à d’autres perspectives sur les dimensions fondamentales de la réalité. Il est intéressant d’imaginer les catégories additionnelles que Kant aurait pu reconnaître en tant qu’à priori si nous avions été équipés d’un tel système de navigation!"
Les expériences de Louis Herman nous apprennent que les dauphins partagent tout de même les mêmes dimensions que nous : le haut, le bas, la gauche la droite, devant, derrière, tout cela existe chez eux mais il semble qu’ils ignorent la nuance entre les adjectifs "grand" et "petit" et qu’ils construisent leurs phrases selon un mode syntaxique particulier. Ces expériences, profondément anthropocentristes, n’offrent qu’un pâle reflet d’un monde mental autrement plus riche et foisonnant en liberté, comme le montre avec bien plus d’éclat le très étrange langage delphinien mis à jour par le chercheur russe Vladimir Markov, mais elles sont à tout le moins significatives de la nature d’une conscience "autre" qui ne s’appuie pas sur nos paramètres.
Les sens et l’Umwelt
Imaginons un instant ce que pourrait être "l’Umwelt" d’un dauphin.
Au centre d’un réseau d’informations sensorielles qu’il ré-organise sans cesse en tant qu’images du monde, pulse un noyau de conscience conscient de lui-même.
La vision
Le monde visuel du dauphin peut être comparé à celui des espèces-proies, non prédatrices, comme le lapin ou le chevreuil, en ce sens que les champs visuels de ses yeux latéraux couvrent ensemble 360° mais qu’ils ne se chevauchent pas ou très peu.
L’absence de fibres non-croisées dans le chiasma optique suggère une plus large indépendance dans le contrôle des yeux et dans l’usage de l’information qu’ils fournissent, par rapport à ce que l’on observe chez les autres mammifères. Chacun des yeux est capable de mouvements propres, indépendants de ceux de l’autre il et une certaine focalisation frontale peut donc être obtenue.
On peine cependant à imaginer un monde dans lequel le Soi se trouve ainsi de manière constante au centre d’un champ visuel circulaire de 360°.
Le nôtre, comme on le sait, se réduit à un cône de 120°.
Notre Soi se place juste derrière le front et les yeux, en vis-à-vis de l’objet focalisé par notre regard binoculaire et dans la ligne de fuite du cône, c’est-à-dire à peu près sur la glande pinéale. On comprend mieux dès lors la fausse intuition de René Descartes.
Incapables de distinguer le vert du rouge, les yeux des dauphins n’en sont pas moins d’une sensibilité extrême à l’instar des yeux de chat, percent l’obscurité et peuvent, d’une simple torsion de la rétine, adapter leur vision aux fonds marins ou à l’air libre. Par contre, le sens du relief leur est impossible, puisqu’ils ne sont pas binoculaires.
La "quasi-olfaction"
Le goût et l’odorat sont absents en tant que tels, remplacés par la "quasi-olfaction" qui consiste à filtrer une certaine quantité d’eau au travers de l’évent et à en goûter le parfum. Un tel sens est fondamental : le dauphin s’en sert pour repérer les femelles en rut autant que pour sentir les fèces de son groupe, nuage diffus de couleur foncée expulsé de manière régulière et qui donne à l’ensemble social une "odeur" propre.
Le toucher et le sens proprioceptif
Quiconque a jamais caressé la peau satinée d’un tursiops sait à quel point ce tissu est sensible, doux et fragile. Le sens du toucher joue lui aussi un rôle essentiel dans la vie de ces mammifères nus, qui n’aiment rien tant que de rester collés les uns contre les autres et d’échanger les caresses les plus voluptueuses.
Au niveau plus profond du sens proprioceptif, la différence avec nos perceptions s’accroît cependant encore davantage : "L’Umwelt des dauphins se fonde comme tout autre sur les caractéristiques de leur environnement" déclare Jerison, "et cet univers mental représente très certainement une adaptation cognitive optimale aux exigences environnementales du monde aquatique. A cet égard, l’un des traits principaux de cet univers marin – considéré depuis notre point de vue – est notamment l’absence d’une plate-forme stable tel que les mammifères l’éprouvent en se tenant sur la terre ferme".
Ce point est important, car le sol sur lequel nous nous tenons, le rôle essentiel de la gravité dans les adaptations anatomiques de la plupart des mammifères occupe une place centrale au plan biologique mais ne sont que rarement notées au niveau de la conscience vigile. Notre intuition s’épuise en revanche lorsque nous tentons d’imaginer les adaptations perceptuelles chez certaines espèces dont les données sensorielles sont profondément différentes des nôtres, et cela d’autant plus que nous ne sommes même pas conscients de notre propre spécificité sensorielle. Les informations relatives aux forces gravitationnelles qui s’exercent sur nos corps jouent également un rôle-clé chez le dauphin, mais d’une autre manière.
Celui-ci s’oriente en effet en "s’informant" régulièrement de la position de son corps par rapport aux fonds marins, à la surface de l’eau ou à la place du soleil au moment de l’observation.
Bien que les dauphins ne disposent d’aucun sol référentiel en guise de plate-forme fixe, mais qu’ils possèdent en revanche un degré de liberté dans les trois dimensions plus important que le nôtre, le sens de l’orientation spatiale est certainement fondamental pour eux. On peut imaginer ce que les cétacés ressentent en pensant à ces appareils d’entraînement destinés aux astronautes afin de les préparer à l’apesanteur.
Ces instruments sont de gigantesques balançoires, disposant de six degrés de liberté et permettant aux candidats pour l’espace de contrôler au mieux les diverses rotations possibles de leur axe corporel aussi bien que les mouvements de propulsion linéaire.
Si nous étions dauphins, nous nous trouverions dans un monde un peu semblable à celui d’un vol spatial à gravité zéro. Il est intéressant de noter à ce propos que l’expérience de l’apesanteur a crée chez les astronautes divers problèmes liés à cet environnement, telles que nausées, vertiges, migraines, etc. mais qu’elles n’ont cependant jamais altéré leur perception "juste" des choses.
Rappelons aussi, sans nous y étendre, à quel point la gestuelle constitue un mode de communication privilégié chez les dauphins : les degrés de liberté dont leur corps dispose leur a permis d’élaborer un véritable vocabulaire d’attitudes : ventre en l’air, en oblique, corps groupés par faisceaux, rostre au sol, caudale haute, inclinée, etc., le tout agrémenté ou non d’émissions de bulles et de vocalisations.
L’audition
Mais de tous les sens dont dispose le dauphin, c’est certainement l’audition qui est le plus développé et qui atteint des capacités discriminatoires sans aucun équivalent connu. Ce système sensoriel s’est transformé au cours des millénaires en écholocation, tout à la fois outil de connaissance (le monde externe "vu" par le son) et moyen de communication (le monde interne transmis par le langage). Cette convergence fonctionnelle ne manque pas d’entraîner des conséquences étonnantes !
D’après Harry J. Jerison : "Si le spectre auditif des dauphins est plus large que le nôtre de plusieurs octaves dans les fréquences les plus élevées, la caractéristique principale de ce système auditif est bien évidemment l’écholocation. Celle-ci pourrait contribuer à conférer au monde des dauphins une dimension inhabituelle, dépassant largement les perceptions élémentaires relatives aux événements survenant à distance. En tant qu’adaptation sensori-motrice, l’écholocation partage en effet certaines caractéristiques similaires à celles du langage humain".
Rappelons brièvement en quoi consiste cette vision acoustique d’un type inusité. Le dauphin émet en permanence – dès lors qu’il se déplace et cherche sa route activement – une série de "sons explosés" extrêmement brefs (moins d’une seconde d’émission continue). Ces "clicks" ne sont pas des sons purs mais des "bruits", d’inextricables petits paquets d’ondes situés sur des fréquences de 120 à 130 Khz et d’une puissance frisant parfois les 220 décibels. Ils retentissent sous l’eau comme une grêle de minuscules coups secs et nets enchaînés l’un à l’autre en de courtes séquences.
Les clicks sont émis sous forme d’un large faisceau, qui balaie par intermittence le sol sablonneux à la façon d’un projecteur. On peut donc dire que la nuit ou sous une certaine profondeur, le dauphin ne voit que lorsqu’il éclaire le paysage de ses éclairs sonores. Les informations reçues, assez grossières, concernent l’aspect du fond marin ou une masse importante, bateau ou autre cétacé.
Supposons à présent qu’un poisson soit repéré dans ce champ de vision "stroboscopique". Puisqu’il fait nuit, l’il ne peut confirmer l’image en mode visuel.
Lorsque la chasse commence, le dauphin resserre alors le rayon de son biosonar et le dédouble en deux faisceaux.
Plus précis, mieux ciblés les trains de click bombardent le poisson sous tous ses angles et peuvent même pénétrer dans son corps en renvoyant l’image de ses organes internes.
Les deux trains de clicks sont produits presque simultanément, l’un à 20° à gauche de la ligne du rostre et l’autre à 20° sur la droite. Les deux rayons se chevauchent au point focal (0°) et fournissent une "visiaudition" de type, cette fois, binoculaire.
Un intervalle de 80 millièmes de seconde sépare l’émission de chacun des faisceaux, de sorte qu’en calculant le léger retard d’un écho par rapport à l’autre, le dauphin peut estimer la profondeur de champ et la distance qui le sépare de chaque élément de l’objet observé.
Se rapprochant de sa proie à toute vitesse, le dauphin n’a de cesse que de conserver le contact avec elle et multiplie la fréquence et l’intensité de ses trains de clicks, comme pour maintenir le "projecteur" allumé presque en continu.
Les ondes à haute fréquence ont une portée plus courte mais fournissent en revanche une bien meilleure définition des détails. En nageant, le dauphin opère un mouvement de balayage avec la tête avant d’obtenir une image complète de sa cible, que ses organes visuels conforteront par ailleurs.
S’il veut obtenir davantage de détails encore sur son contenu, le dauphin la bombardera alors sa cible à bout portant, d’un faisceau de clicks aussi fin et précis qu’un rayon laser.
Celui-ci pénètre la matière et en estime la densité avec une incroyable précision : la nature d’un métal (zinc plutôt que cuivre) ou des variations de l’épaisseur d’un tube de l’ordre d’un millième de millimètres sont alors parfaitement perçus par cette échographie biologique.
Une telle "vision acoustique" nous sera à tout jamais inimaginable, comme la couleur rouge l’est pour l’aveugle. Néanmoins, au prix d’une comparaison grossière, on peut mettre en parallèle la pluie d’échos que perçoivent les cétacés avec les pixels que l’il humain perçoit sur un écran de télévision. Les pixels dessinent très rapidement une image en se succédant l’un à l’autre et laissent sur la rétine du téléspectateur une série de rémanences qui figurent le mouvement et les formes. Une scène visuelle est ainsi décodée à partir d’une séquence de taches ultra rapides surgissant sur l’écran. De la même manière, une expérience éidétique similaire est sans doute générée par les données discrètes de l’écholocation (clicks).
L’information pourrait être alors parfaitement comparable à celle que l’on obtient grâce au bombardement de photons dans le système visuel, à ceci près qu’elle parviendrait par un autre canal, en l’occurrence le canal auditif.

Auteur: Internet

Info: http://www.dauphinlibre.be/dauphins-cerveau-intelligence-et-conscience-exotiques

[ comparaisons ]

Commenter

Commentaires: 0

multi-milliardaires

DE LA SURVIE DES PLUS RICHES
Quand des patrons de fonds d'investissement new-yorkais font appel à un spécialiste de la société de l'information, afin d'améliorer leurs chances de survie après l'Évènement qui détruira le monde tel que nous le connaissons.

AVERTISSEMENT, CECI N'EST PAS UNE FICTION
L’année dernière, j’ai été invité à donner une conférence dans un complexe hôtelier d’hyper-luxe face à ce que je pensais être un groupe d’une centaine de banquiers spécialisés dans l’investissement. On ne m’avait jamais proposé une somme aussi importante pour une intervention - presque la moitié de mon salaire annuel de professeur - et délivrer mes visions sur "l’avenir de la technologie".

Je n’ai jamais aimé parler du futur. Ce genre de séance d’échange se termine fatalement par un interrogatoire, à l’occasion duquel on me demande de me prononcer sur les dernières "tendances" technologiques, comme s’il s’agissait d’indicateurs boursiers pour les investisseurs : blockchain, impression 3D, CRISPR. L’audience s’y préoccupe généralement moins des technologies en elles-mêmes et de leurs implications, que de savoir si elles méritent ou non que l’on parie sur elles, en mode binaire. Mais l’argent ayant le dernier mot, j’ai accepté le boulot.

À mon arrivée, on m’a accompagné dans ce que j’ai cru n’être qu’une vulgaire salle technique. Mais alors que je m’attendais à ce que l’on me branche un microphone ou à ce que l’on m’amène sur scène, on m’a simplement invité à m’asseoir à une grande table de réunion, pendant que mon public faisait son entrée : cinq gars ultra-riches - oui, uniquement des hommes - tous issus des plus hautes sphères de la finance internationale. Dès nos premiers échanges, j’ai réalisé qu’ils n’étaient pas là pour le topo que je leur avais préparé sur le futur de la technologie. Ils étaient venus avec leurs propres questions.

Ça a d’abord commencé de manière anodine. Ethereum ou Bitcoin ? L’informatique quantique est-elle une réalité ? Lentement mais sûrement, ils m’ont amené vers le véritable sujet de leurs préoccupations.

Quelle sera la région du monde la plus épargnée par la prochaine crise climatique : la nouvelle Zélande ou l’Alaska ? Est-ce que Google construit réellement un nouveau foyer pour le cerveau de Ray Kurzweil ? Est-ce que sa conscience survivra à cette transition ou bien mourra-t-elle pour renaître ensuite ? Enfin, le PDG d’une société de courtage s’est inquiété, après avoir mentionné le bunker sous-terrain dont il achevait la construction : "Comment puis-je conserver le contrôle de mes forces de sécurité, après l’Événement ?"

L’Évènement. Un euphémisme qu’ils employaient pour évoquer l’effondrement environnemental, les troubles sociaux, l’explosion nucléaire, le nouveau virus impossible à endiguer ou encore l’attaque informatique d’un Mr Robot qui ferait à lui seul planter tout le système.

Cette question allait nous occuper durant toute l’heure restante. Ils avaient conscience que des gardes armés seraient nécessaires pour protéger leurs murs des foules en colère. Mais comment payer ces gardes, le jour où l’argent n’aurait plus de valeur ? Et comment les empêcher de se choisir un nouveau leader ? Ces milliardaires envisageaient d’enfermer leurs stocks de nourriture derrière des portes blindées aux serrures cryptées, dont eux seuls détiendraient les codes. D’équiper chaque garde d’un collier disciplinaire, comme garantie de leur survie. Ou encore, si la technologie le permettait à temps, de construire des robots qui serviraient à la fois de gardes et de force de travail.

C’est là que ça m’a frappé. Pour ces messieurs, notre discussion portait bien sur le futur de la technologie. Inspirés par le projet de colonisation de la planète Mars d’Elon Musk, les tentatives d’inversion du processus du vieillissement de Peter Thiel, ou encore les expériences de Sam Altman et Ray de Kurzweil qui ambitionnent de télécharger leurs esprits dans de super-ordinateurs, ils se préparaient à un avenir numérique qui avait moins à voir avec l’idée de construire un monde meilleur que de transcender la condition humaine et de se préserver de dangers aussi réels qu’immédiats, comme le changement climatique, la montée des océans, les migrations de masse, les pandémies planétaires, les paniques identitaires et l’épuisement des ressources. Pour eux, le futur de la technologie se résumait à une seule finalité : fuir.

Il n’y a rien de mal aux visions les plus follement optimistes sur la manière dont la technologie pourrait bénéficier à l’ensemble de la société humaine. Mais l’actuel engouement pour les utopies post-humaines est d’un tout autre ordre. Il s’agit moins d’une vision de la migration de l’ensemble de notre espèce vers une nouvelle condition humaine, que d’une quête pour transcender tout ce qui nous constitue : nos corps, notre interdépendance, la compassion, la vulnérabilité et la complexité. Comme l’indiquent maintenant depuis plusieurs années les philosophes de la technologie, le prisme transhumaniste réduit trop facilement la réalité à un conglomérat de données, en concluant que "les humains ne sont rien d’autre que des centres de traitement de l’information".

L’évolution humaine s’apparente alors à une sorte de jeu vidéo labyrinthique, dont les heureux gagnants balisent le chemin de la sortie pour leurs partenaires les plus privilégiés. S’agit-il de Musk, Bezos, Thiel… Zuckerberg ? Ces quelques milliardaires sont les gagnants présupposés d’une économie numérique régie par une loi de la jungle qui sévit dans le monde des affaires et de la spéculation dont ils sont eux-mêmes issus.

Bien sûr, il n’en n’a pas toujours été ainsi. Il y a eu une période courte, au début des années 1990, où l’avenir numérique apparaissait fertile, enthousiasmant, ouvert à la création. La technologie y devenait le terrain de jeu de la contre-culture, qui vit là l’opportunité de créer un futur plus inclusif, mieux réparti et pro-humain. Mais les intérêts commerciaux n’y ont vu pour leur part que de nouveaux potentiels pour leurs vieux réflexes. Et trop de technologues se sont laissés séduire par des IPO (introduction en bourse) chimériques. Les futurs numériques s’en retrouvèrent envisagés sous le même prisme que le cours de la bourse ou du coton, dans ce même jeu dangereux de paris et de prédictions. Ainsi, la moindre étude documentaire, le moindre article ou livre blanc publié sur ce thème n’étaient plus interprété que comme un nouvel indice boursier. Le futur s’est transformé en une sorte de scénario prédestiné, sur lequel on parie à grands renforts de capital-risque, mais qu’on laisse se produire de manière passive, plus que comme quelque chose que l’on crée au travers de nos choix présents et de nos espoirs pour l’espèce humaine.

Ce qui a libéré chacun d’entre nous des implications morales de son activité. Le développement technologique est devenu moins une affaire d’épanouissement collectif que de survie individuelle. Pire, comme j’ai pu l’apprendre à mes dépens, le simple fait de pointer cette dérive suffisait à vous désigner d’emblée comme un ennemi rétrograde du marché, un ringard technophobe.

Et plutôt que de questionner la dimension éthique de pratiques qui exploitent et appauvrissent les masses au profit d’une minorité, la majorité des universitaires, des journalistes et des écrivains de science fiction ont préféré se focaliser sur des implications plus abstraites et périphériques : "Est-il juste qu’un trader utilise des drogues nootropiques ? Doit-on greffer des implants aux enfants pour leur permettre de parler des langues étrangères? Les véhicules intelligents doivent-ils privilégier la sécurité des piétons ou celle de leurs usagers? Est-ce que les premières colonies martiennes se doivent d’adopter un modèle démocratique? Modifier son ADN, est-ce modifier son identité ? Est-ce que les robots doivent avoir des droits ?".

Sans nier le côté divertissant de ces questions sur un plan philosophique, force est d’admettre qu’elles ne pèsent pas lourd face aux vrais enjeux moraux posés par le développement technologique débridé, au nom du capitalisme pratiqué par les multinationales. Les plateformes numériques ont modifié un marché déjà fondé sur l’exploitation (Walmart) pour donner naissance à un successeur encore plus déshumanisant (Amazon). La plupart d’entre-nous sommes conscients de ces dérives, rendues visibles par la recrudescence des emplois automatisés, par l’explosion de l’économie à la tâche et la disparition du commerce local de détails.

Mais c’est encore vis-à-vis de l’environnement et des populations les plus pauvres que ce capitalisme numérique désinhibé produit ses effets les plus dévastateurs. La fabrication de certains de nos ordinateurs et de nos smartphones reste assujettie au travail forcé et à l’esclavage. Une dépendance si consubstantielle que Fairphone, l’entreprise qui ambitionnait de fabriquer et de commercialiser des téléphones éthiques, s’est vue obligée de reconnaître que c’était en réalité impossible. Son fondateur se réfère aujourd’hui tristement à ses produits comme étant "plus" éthiques.

Pendant ce temps, l’extraction de métaux et de terres rares, conjuguée au stockage de nos déchets technologiques, ravage des habitats humains transformés en véritables décharges toxiques, dans lesquels es enfants et des familles de paysans viennent glaner de maigres restes utilisables, dans l’espoir de les revendre plus tard aux fabricants.

Nous aurons beau nous réfugier dans une réalité alternative, en cachant nos regards derrière des lunettes de réalité virtuelle, cette sous-traitance de la misère et de la toxicité n’en disparaîtra pas pour autant. De fait, plus nous en ignorerons les répercussions sociales, économiques et environnementales, plus elles s’aggraveront. En motivant toujours plus de déresponsabilisation, d’isolement et de fantasmes apocalyptiques, dont on cherchera à se prémunir avec toujours plus de technologies et de business plans. Le cycle se nourrit de lui-même.

Plus nous adhérerons à cette vision du monde, plus les humains apparaitront comme la source du problème et la technologie comme la solution. L’essence même de ce qui caractérise l’humain est moins traité comme une fonctionnalité que comme une perturbation. Quels que furent les biais idéologiques qui ont mené à leur émergence, les technologies bénéficient d’une aura de neutralité. Et si elles induisent parfois des dérives comportementales, celles-ci ne seraient que le reflet de nos natures corrompues. Comme si nos difficultés ne résultaient que de notre sauvagerie constitutive. À l’instar de l’inefficacité d’un système de taxis locaux pouvant être "résolue" par une application qui ruine les chauffeurs humains, les inconsistances contrariantes de notre psyché pouvait être corrigée par une mise à jour digitale ou génétique.

Selon l’orthodoxie techno-solutionniste, le point culminant de l’évolution humaine consisterait enfin à transférer notre conscience dans un ordinateur, ou encore mieux, à accepter la technologie comme notre successeur dans l’évolution des espèces. Comme les adeptes d’un culte gnostique, nous souhaitons atteindre la prochaine phase transcendante de notre évolution, en nous délestant de nos corps et en les abandonnant, avec nos péchés et nos problèmes.

Nos films et nos productions télévisuelles continuent d’alimenter ces fantasmes. Les séries sur les zombies dépeignent ainsi une post-apocalypse où les gens ne valent pas mieux que les morts vivants - et semblent en être conscients. Pire, ces projections fictives invitent les spectateurs à envisager l’avenir comme une bataille à somme nulle entre les survivants, où la survie d’un groupe dépend mécaniquement de la disparition d’un autre. Jusqu’à la série Westworld, basée sur un roman de science-fiction dans lequel les robots deviennent fous et qui clôt sa seconde saison sur une ultime révélation : les êtres humains sont plus simples et plus prévisibles que les intelligences artificielles qu’ils ont créées. Les robots y apprennent que nous nous réduisons, tous autant que nous sommes, à quelques lignes de code et que notre libre arbitre n’est qu’une illusion. Zut ! Dans cette série, les robots eux-mêmes veulent échapper aux limites de leurs corps et passer le reste de leurs vies dans une simulation informatique.

Seul un profond dégoût pour l’humanité autorise une telle gymnastique mentale, en inversant ainsi les rôles de l’homme et de la machine. Modifions-les ou fuyons-les, pour toujours.

Ainsi, nous nous retrouvons face à des techno-milliardaires qui expédient leurs voiture électriques dans l’espace, comme si ça symbolisait autre chose que la capacité d’un milliardaire à assurer la promotion de sa propre compagnie. Et quand bien même quelques élus parviendraient à rallier la planète Mars pour y subsister dans une sorte de bulle artificielle - malgré notre incapacité à maintenir des telles bulles sur Terre, malgré les milliards de dollars engloutis dans les projets Biosphère - le résultat s’apparenterait plus à une espèce de chaloupe luxueuse réservée une élite qu’à la perpétuation de la diaspora humaine.

Quand ces responsables de fonds d’investissement m’ont interrogé sur la meilleure manière de maintenir leur autorité sur leurs forces de sécurité "après l’Évènement", je leur ai suggéré de traiter leurs employés du mieux possible, dès maintenant. De se comporter avec eux comme s’il s’agissait des membres de leur propre famille. Et que plus ils insuffleraient cette éthique inclusive à leur pratiques commerciales, à la gestion de leurs chaînes d’approvisionnement, au développement durable et à la répartition des richesses, moins il y aurait de chances que "l’Événement" se produise. Qu’ils auraient tout intérêt à employer cette magie technologique au service d’enjeux, certes moins romantiques, mais plus collectifs, dès aujourd’hui.

Mon optimisme les a fait sourire, mais pas au point de les convaincre. Éviter la catastrophe ne les intéressait finalement pas, persuadés qu’ils sont que nous sommes déjà trop engagés dans cette direction. Malgré le pouvoir que leur confèrent leurs immenses fortunes, ils ne veulent pas croire en leur propre capacité d’infléchir sur le cours des événements. Ils achètent les scénarios les plus sombres et misent sur leur argent et la technologie pour s’en prémunir - surtout s’ils peuvent disposer d’un siège dans la prochaine fusée pour Mars.

Heureusement, ceux d’entre nous qui n’ont pas de quoi financer le reniement de leur propre humanité disposent de meilleures options. Rien nous force à utiliser la technologie de manière aussi antisociale et destructive. Nous pouvons nous transformer en individus consommateurs, aux profils formatés par notre arsenal de plateformes et d’appareils connectés, ou nous pouvons nous souvenir qu’un être humain véritablement évolué ne fonctionne pas seul.

Être humain ne se définit pas dans notre capacité à fuir ou à survivre individuellement. C’est un sport d’équipe. Quel que soit notre futur, il se produira ensemble.

Auteur: Rushkoff Douglas

Info: Quand les riches conspirent pour nous laisser derrière. Avec l’accord de l’auteur, traduction de Céleste Bruandet, avec la participation de Laurent Courau

[ prospective ] [ super-riches ] [ oligarques ]

Commenter

Commentaires: 0

univers protonique

À l’intérieur du Proton, " la chose la plus complexe qu'on puisse imaginer "

La particule chargée positivement au cœur de l’atome est un objet d’une complexité indescriptible, qui change d’apparence en fonction de la manière dont elle est sondée. Nous avons tenté de relier les nombreuses faces du proton pour former l'image la plus complète à ce jour.

(image : Des chercheurs ont récemment découvert que le proton comprend parfois un quark charmé et un antiquark charmé, particules colossales puisqeu chacune est plus lourde que le proton lui-même.)

Plus d’un siècle après qu’Ernest Rutherford ait découvert la particule chargée positivement au cœur de chaque atome, les physiciens ont encore du mal à comprendre pleinement le proton.

Les professeurs de physique des lycées les décrivent comme des boules sans relief contenant chacune une unité de charge électrique positive – des feuilles parfaites pour les électrons chargés négativement qui bourdonnent autour d’elles. Les étudiants apprennent que la boule est en réalité un ensemble de trois particules élémentaires appelées quarks. Mais des décennies de recherche ont révélé une vérité plus profonde, trop bizarre pour être pleinement saisie avec des mots ou des images.

"C'est la chose la plus compliquée que l'on puisse imaginer", a déclaré Mike Williams, physicien au Massachusetts Institute of Technology. "En fait, on ne peut même pas imaginer à quel point c'est compliqué."

Le proton est un objet de mécanique quantique qui existe sous la forme d’un brouillard de probabilités jusqu’à ce qu’une expérience l’oblige à prendre une forme concrète. Et ses formes diffèrent radicalement selon la manière dont les chercheurs mettent en place leur expérience. Relier les nombreux visages de la particule a été l’œuvre de plusieurs générations. "Nous commençons tout juste à comprendre ce système de manière complète", a déclaré Richard Milner , physicien nucléaire au MIT.

Alors que la poursuite se poursuit, les secrets du proton ne cessent de se dévoiler. Plus récemment, une analyse monumentale de données publiée en août a révélé que le proton contient des traces de particules appelées quarks charmés, plus lourdes que le proton lui-même.

Le proton " a été une leçon d’humilité pour les humains ", a déclaré Williams. " Chaque fois qu'on pense pouvoir maîtriser le sujet, il nous envoie des balles à trajectoires courbées (en référence aux Pitchers du baseball)

Récemment, Milner, en collaboration avec Rolf Ent du Jefferson Lab, les cinéastes du MIT Chris Boebel et Joe McMaster et l'animateur James LaPlante, ont entrepris de transformer un ensemble d'intrigues obscures qui compilent les résultats de centaines d'expériences en une série d'animations de la forme -changement de proton. Nous avons intégré leurs animations dans notre propre tentative de dévoiler ses secrets.

Ouvrir le proton

La preuve que le proton contient de telles multitudes est venue du Stanford Linear Accelerator Center (SLAC) en 1967. Dans des expériences antérieures, les chercheurs l'avaient bombardé d'électrons et les avaient regardés ricocher comme des boules de billard. Mais le SLAC pouvait projeter des électrons avec plus de force, et les chercheurs ont constaté qu'ils rebondissaient différemment. Les électrons frappaient le proton assez fort pour le briser – un processus appelé diffusion inélastique profonde – et rebondissaient sur des fragments ponctuels du proton appelés quarks. "Ce fut la première preuve de l'existence réelle des quarks", a déclaré Xiaochao Zheng , physicien à l'Université de Virginie.

Après la découverte du SLAC, qui remporta le prix Nobel de physique en 1990, l'examen minutieux du proton s'est intensifié. Les physiciens ont réalisé à ce jour des centaines d’expériences de diffusion. Ils déduisent divers aspects de l'intérieur de l'objet en ajustant la force avec laquelle ils le bombardent et en choisissant les particules dispersées qu'ils collectent par la suite.

En utilisant des électrons de plus haute énergie, les physiciens peuvent découvrir des caractéristiques plus fines du proton cible. De cette manière, l’énergie électronique définit le pouvoir de résolution maximal d’une expérience de diffusion profondément inélastique. Des collisionneurs de particules plus puissants offrent une vision plus nette du proton.

Les collisionneurs à plus haute énergie produisent également un plus large éventail de résultats de collision, permettant aux chercheurs de choisir différents sous-ensembles d'électrons sortants à analyser. Cette flexibilité s'est avérée essentielle pour comprendre les quarks, qui se déplacent à l'intérieur du proton avec différentes impulsions.

En mesurant l'énergie et la trajectoire de chaque électron diffusé, les chercheurs peuvent déterminer s'il a heurté un quark transportant une grande partie de l'impulsion totale du proton ou juste une infime partie. Grâce à des collisions répétées, ils peuvent effectuer quelque chose comme un recensement, déterminant si l'impulsion du proton est principalement liée à quelques quarks ou répartie sur plusieurs.

(Illustration qui montre les apparences du proton en fonction des types de collisions)

Même les collisions de division de protons du SLAC étaient douces par rapport aux normes actuelles. Lors de ces événements de diffusion, les électrons jaillissaient souvent d'une manière suggérant qu'ils s'étaient écrasés sur des quarks transportant un tiers de l'impulsion totale du proton. Cette découverte correspond à une théorie de Murray Gell-Mann et George Zweig, qui affirmaient en 1964 qu'un proton était constitué de trois quarks.

Le " modèle des quarks " de Gell-Mann et Zweig reste une façon élégante d'imaginer le proton. Il possède deux quarks " up " avec des charges électriques de +2/3 chacun et un quark " down " avec une charge de −1/3, pour une charge totale de protons de +1.

(Image mobile : Trois quarks sont présents dans cette animation basée sur les données.)

Mais le modèle avec des quarks est une simplification excessive qui présente de sérieuses lacunes.

Qui échoue, par exemple, lorsqu'il s'agit du spin d'un proton, une propriété quantique analogue au moment cinétique. Le proton possède une demi-unité de spin, tout comme chacun de ses quarks up et down. Les physiciens ont initialement supposé que — dans un calcul faisant écho à la simple arithmétique de charge — les demi-unités des deux quarks up moins celle du quark down devaient être égales à une demi-unité pour le proton dans son ensemble. Mais en 1988, la Collaboration européenne sur les muons a rapporté que la somme des spins des quarks était bien inférieure à la moitié. De même, les masses de deux quarks up et d’un quark down ne représentent qu’environ 1 % de la masse totale du proton. Ces déficits ont fait ressortir un point que les physiciens commençaient déjà à comprendre : le proton est bien plus que trois quarks.

Beaucoup plus que trois quarks

L'accélérateur annulaire de hadrons et d'électrons (HERA), qui a fonctionné à Hambourg, en Allemagne, de 1992 à 2007, a projeté des électrons sur des protons avec une force environ mille fois supérieure à celle du SLAC. Dans les expériences HERA, les physiciens ont pu sélectionner les électrons qui avaient rebondi sur des quarks à impulsion extrêmement faible, y compris ceux transportant aussi peu que 0,005 % de l'impulsion totale du proton. Et ils les ont détectés : Les électrons d'HERA ont rebondi sur un maelström de quarks à faible dynamique et de leurs contreparties d'antimatière, les antiquarks.

(Photo image animée : De nombreux quarks et antiquarks bouillonnent dans une " mer " de particules bouillonnantes."

Les résultats ont confirmé une théorie sophistiquée et farfelue qui avait alors remplacé le modèle des quarks de Gell-Mann et Zweig. Développée dans les années 1970, il s’agissait d’une théorie quantique de la " force forte " qui agit entre les quarks. La théorie décrit les quarks comme étant liés par des particules porteuses de force appelées gluons. Chaque quark et chaque gluon possède l'un des trois types de charges "colorées ", étiquetées rouge, verte et bleue ; ces particules chargées de couleur se tirent naturellement les unes sur les autres et forment un groupe – tel qu’un proton – dont les couleurs s’additionnent pour former un blanc neutre. La théorie colorée est devenue connue sous le nom de chromodynamique quantique, ou QCD.

Selon cette QCD, les gluons peuvent capter des pics d’énergie momentanés. Avec cette énergie, un gluon se divise en un quark et un antiquark – chacun portant juste un tout petit peu d’impulsion – avant que la paire ne s’annihile et ne disparaisse. C'est cette " mer " de gluons, de quarks et d'antiquarks transitoires qu'HERA, avec sa plus grande sensibilité aux particules de faible impulsion, a détecté de première main.

HERA a également recueilli des indices sur ce à quoi ressemblerait le proton dans des collisionneurs plus puissants. Alors que les physiciens ajustaient HERA pour rechercher des quarks à faible impulsion, ces quarks – qui proviennent des gluons – sont apparus en nombre de plus en plus grand. Les résultats suggèrent que dans des collisions à énergie encore plus élevée, le proton apparaîtrait comme un nuage composé presque entièrement de gluons. (Image)

Les gluons abondent sous une forme semblable à un nuage.

Ce pissenlit de gluon est exactement ce que prédit la QCD. "Les données HERA sont une preuve expérimentale directe que la QCD décrit la nature", a déclaré Milner.

Mais la victoire de la jeune théorie s'est accompagnée d'une pilule amère : alors que la QCD décrivait magnifiquement la danse des quarks et des gluons à durée de vie courte révélée par les collisions extrêmes d'HERA, la théorie est inutile pour comprendre les trois quarks à longue durée de vie observés suite à un plus léger bombardement du SLAC.

Les prédictions de QCD ne sont faciles à comprendre que lorsque la force forte est relativement faible. Et la force forte ne s'affaiblit que lorsque les quarks sont extrêmement proches les uns des autres, comme c'est le cas dans les paires quark-antiquark de courte durée. Frank Wilczek, David Gross et David Politzer ont identifié cette caractéristique déterminante de la QCD en 1973, remportant le prix Nobel 31 ans plus tard.

Mais pour des collisions plus douces comme celle du SLAC, où le proton agit comme trois quarks qui gardent mutuellement leurs distances, ces quarks s'attirent suffisamment fortement les uns les autres pour que les calculs de QCD deviennent impossibles. Ainsi, la tâche de démystifier plus loin une vision du proton à trois quarks incombe en grande partie aux expérimentateurs. (Les chercheurs qui mènent des " expériences numériques ", dans lesquelles les prédictions QCD sont simulées sur des superordinateurs, ont également apporté des contributions clés .) Et c'est dans ce genre d' images à basse résolution que les physiciens continuent de trouver des surprises.

Une charmante nouvelle approche

Récemment, une équipe dirigée par Juan Rojo de l'Institut national de physique subatomique des Pays-Bas et de l'Université VU d'Amsterdam a analysé plus de 5 000 instantanés de protons pris au cours des 50 dernières années, en utilisant l'apprentissage automatique pour déduire les mouvements des quarks et des gluons à l'intérieur du proton via une procédure qui évite les conjectures théoriques.

Ce nouvel examen a détecté un flou en arrière-plan dans les images qui avait échappé aux chercheurs antérieurs. Dans des collisions relativement douces, juste capables d'ouvrir à peine le proton, la majeure partie de l'impulsion était enfermée dans les trois quarks habituels : deux ups et un down. Mais une petite quantité d’impulsion semble provenir d’un quark " charmé " et d’un antiquark charmé – particules élémentaires colossales dont chacune dépasse de plus d’un tiers le proton entier.

(Image mobie : Le proton agit parfois comme une " molécule " de cinq quarks.)

Ces charmés de courte durée apparaissent fréquemment dans le panorama " mer des quarks " du proton (les gluons peuvent se diviser en six types de quarks différents s'ils ont suffisamment d'énergie). Mais les résultats de Rojo et de ses collègues suggèrent que les charmés ont une présence plus permanente, ce qui les rend détectables lors de collisions plus douces. Dans ces collisions, le proton apparaît comme un mélange quantique, ou superposition, d'états multiples : un électron rencontre généralement les trois quarks légers. Mais il rencontrera occasionnellement une " molécule " plus rare de cinq quarks, comme un quark up, down et charmé regroupés d'un côté et un quark up et un antiquark charmé de l'autre.

Des détails aussi subtils sur la composition du proton pourraient avoir des conséquences. Au Grand collisionneur de hadrons, les physiciens recherchent de nouvelles particules élémentaires en frappant ensemble des protons à grande vitesse et en observant ce qui en ressort ; Pour comprendre les résultats, les chercheurs doivent commencer par savoir ce que contient un proton. L’apparition occasionnelle de quarks charmés géants rendrait impossible la production de particules plus exotiques.

Et lorsque des protons appelés rayons cosmiques déferlent ici depuis l'espace et percutent les protons de l'atmosphère terrestre, des quarks charmés apparaissant au bon moment inonderaient la Terre de neutrinos extra-énergétiques, ont calculé les chercheurs en 2021. Cela pourrait dérouter les observateurs à la recherche de neutrinos à haute énergie provenant de tout le cosmos.

La collaboration de Rojo prévoit de poursuivre l'exploration du proton en recherchant un déséquilibre entre les quarks charmés et les antiquarks. Et des constituants plus lourds, comme le quark top, pourraient faire des apparitions encore plus rares et plus difficiles à détecter.

Les expériences de nouvelle génération rechercheront des fonctionnalités encore plus inconnues. Les physiciens du Laboratoire national de Brookhaven espèrent lancer le collisionneur électron-ion dans les années 2030 et reprendre là où HERA s'est arrêté, en prenant des instantanés à plus haute résolution qui permettront les premières reconstructions 3D du proton. L'EIC utilisera également des électrons en rotation pour créer des cartes détaillées des spins des quarks et des gluons internes, tout comme le SLAC et HERA ont cartographié leurs impulsions. Cela devrait aider les chercheurs à enfin déterminer l'origine du spin du proton et à répondre à d'autres questions fondamentales concernant cette particule déroutante qui constitue l'essentiel de notre monde quotidien.

Auteur: Internet

Info: https://www.quantamagazine.org/ - Charlie Bois, 19 octobre 2022

[ univers subatomique ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

homme-machine

Comment l'IA comprend des trucs que personne ne lui lui a appris

Les chercheurs peinent à comprendre comment les modèles d'Intelligence artificielle, formés pour perroquetter les textes sur Internet, peuvent effectuer des tâches avancées comme coder, jouer à des jeux ou essayer de rompre un mariage.

Personne ne sait encore comment ChatGPT et ses cousins de l'intelligence artificielle vont transformer le monde, en partie parce que personne ne sait vraiment ce qui se passe à l'intérieur. Certaines des capacités de ces systèmes vont bien au-delà de ce pour quoi ils ont été formés, et même leurs inventeurs ne savent pas pourquoi. Un nombre croissant de tests suggèrent que ces systèmes d'IA développent des modèles internes du monde réel, tout comme notre propre cerveau le fait, bien que la technique des machines soit différente.

"Tout ce que nous voulons faire avec ces systèmes pour les rendre meilleurs ou plus sûrs ou quelque chose comme ça me semble une chose ridicule à demander si nous ne comprenons pas comment ils fonctionnent", déclare Ellie Pavlick de l'Université Brown, un des chercheurs travaillant à combler ce vide explicatif.

À un certain niveau, elle et ses collègues comprennent parfaitement le GPT (abréviation de generative pretrained transformer) et d'autres grands modèles de langage, ou LLM. Des modèles qui reposent sur un système d'apprentissage automatique appelé réseau de neurones. De tels réseaux ont une structure vaguement calquée sur les neurones connectés du cerveau humain. Le code de ces programmes est relativement simple et ne remplit que quelques pages. Il met en place un algorithme d'autocorrection, qui choisit le mot le plus susceptible de compléter un passage sur la base d'une analyse statistique laborieuse de centaines de gigaoctets de texte Internet. D'autres algorithmes auto-apprenants supplémentaire garantissant que le système présente ses résultats sous forme de dialogue. En ce sens, il ne fait que régurgiter ce qu'il a appris, c'est un "perroquet stochastique", selon les mots d'Emily Bender, linguiste à l'Université de Washington. Mais les LLM ont également réussi à réussir l'examen pour devenir avocat, à expliquer le boson de Higgs en pentamètre iambique (forme de poésie contrainte) ou à tenter de rompre le mariage d'un utilisateurs. Peu de gens s'attendaient à ce qu'un algorithme d'autocorrection assez simple acquière des capacités aussi larges.

Le fait que GPT et d'autres systèmes d'IA effectuent des tâches pour lesquelles ils n'ont pas été formés, leur donnant des "capacités émergentes", a surpris même les chercheurs qui étaient généralement sceptiques quant au battage médiatique sur les LLM. "Je ne sais pas comment ils le font ou s'ils pourraient le faire plus généralement comme le font les humains, mais tout ça mes au défi mes pensées sur le sujet", déclare Melanie Mitchell, chercheuse en IA à l'Institut Santa Fe.

"C'est certainement bien plus qu'un perroquet stochastique, qui auto-construit sans aucun doute une certaine représentation du monde, bien que je ne pense pas que ce soit vraiment de la façon dont les humains construisent un modèle de monde interne", déclare Yoshua Bengio, chercheur en intelligence artificielle à l'université de Montréal.

Lors d'une conférence à l'Université de New York en mars, le philosophe Raphaël Millière de l'Université de Columbia a offert un autre exemple à couper le souffle de ce que les LLM peuvent faire. Les modèles avaient déjà démontré leur capacité à écrire du code informatique, ce qui est impressionnant mais pas trop surprenant car il y a tellement de code à imiter sur Internet. Millière est allé plus loin en montrant que le GPT peut aussi réaliser du code. Le philosophe a tapé un programme pour calculer le 83e nombre de la suite de Fibonacci. "Il s'agit d'un raisonnement en plusieurs étapes d'un très haut niveau", explique-t-il. Et le robot a réussi. Cependant, lorsque Millière a demandé directement le 83e nombre de Fibonacci, GPT s'est trompé, ce qui suggère que le système ne se contentait pas de répéter ce qui se disait sur l'internet. Ce qui suggère que le système ne se contente pas de répéter ce qui se dit sur Internet, mais qu'il effectue ses propres calculs pour parvenir à la bonne réponse.

Bien qu'un LLM tourne sur un ordinateur, il n'en n'est pas un lui-même. Il lui manque des éléments de calcul essentiels, comme sa propre mémoire vive. Reconnaissant tacitement que GPT seul ne devrait pas être capable d'exécuter du code, son inventeur, la société technologique OpenAI, a depuis introduit un plug-in spécialisé - outil que ChatGPT peut utiliser pour répondre à une requête - qui remédie à cela. Mais ce plug-in n'a pas été utilisé dans la démonstration de Millière. Au lieu de cela, ce dernier suppose plutôt que la machine a improvisé une mémoire en exploitant ses mécanismes d'interprétation des mots en fonction de leur contexte - situation similaire à la façon dont la nature réaffecte des capacités existantes à de nouvelles fonctions.

Cette capacité impromptue démontre que les LLM développent une complexité interne qui va bien au-delà d'une analyse statistique superficielle. Les chercheurs constatent que ces systèmes semblent parvenir à une véritable compréhension de ce qu'ils ont appris. Dans une étude présentée la semaine dernière à la Conférence internationale sur les représentations de l'apprentissage (ICLR), le doctorant Kenneth Li de l'Université de Harvard et ses collègues chercheurs en intelligence artificielle, Aspen K. Hopkins du Massachusetts Institute of Technology, David Bau de la Northeastern University et Fernanda Viégas , Hanspeter Pfister et Martin Wattenberg, tous à Harvard, ont créé leur propre copie plus petite du réseau neuronal GPT afin de pouvoir étudier son fonctionnement interne. Ils l'ont entraîné sur des millions de matchs du jeu de société Othello en alimentant de longues séquences de mouvements sous forme de texte. Leur modèle est devenu un joueur presque parfait.

Pour étudier comment le réseau de neurones encodait les informations, ils ont adopté une technique que Bengio et Guillaume Alain, également de l'Université de Montréal, ont imaginée en 2016. Ils ont créé un réseau de "sondes" miniatures pour analyser le réseau principal couche par couche. Li compare cette approche aux méthodes des neurosciences. "C'est comme lorsque nous plaçons une sonde électrique dans le cerveau humain", dit-il. Dans le cas de l'IA, la sonde a montré que son "activité neuronale" correspondait à la représentation d'un plateau de jeu d'Othello, bien que sous une forme alambiquée. Pour confirmer ce résultat, les chercheurs ont inversé la sonde afin d'implanter des informations dans le réseau, par exemple en remplaçant l'un des marqueurs noirs du jeu par un marqueur blanc. "En fait, nous piratons le cerveau de ces modèles de langage", explique Li. Le réseau a ajusté ses mouvements en conséquence. Les chercheurs ont conclu qu'il jouait à Othello à peu près comme un humain : en gardant un plateau de jeu dans son "esprit" et en utilisant ce modèle pour évaluer les mouvements. Li pense que le système apprend cette compétence parce qu'il s'agit de la description la plus simple et efficace de ses données pour l'apprentissage. "Si l'on vous donne un grand nombre de scripts de jeu, essayer de comprendre la règle qui les sous-tend est le meilleur moyen de les comprimer", ajoute-t-il.

Cette capacité à déduire la structure du monde extérieur ne se limite pas à de simples mouvements de jeu ; il apparaît également dans le dialogue. Belinda Li (aucun lien avec Kenneth Li), Maxwell Nye et Jacob Andreas, tous au MIT, ont étudié des réseaux qui jouaient à un jeu d'aventure textuel. Ils ont introduit des phrases telles que "La clé est dans le coeur du trésor", suivies de "Tu prends la clé". À l'aide d'une sonde, ils ont constaté que les réseaux encodaient en eux-mêmes des variables correspondant à "coeur" et "Tu", chacune avec la propriété de posséder ou non une clé, et mettaient à jour ces variables phrase par phrase. Le système n'a aucun moyen indépendant de savoir ce qu'est une boîte ou une clé, mais il a acquis les concepts dont il avait besoin pour cette tâche."

"Une représentation de cette situation est donc enfouie dans le modèle", explique Belinda Li.

Les chercheurs s'émerveillent de voir à quel point les LLM sont capables d'apprendre du texte. Par exemple, Pavlick et sa doctorante d'alors, l'étudiante Roma Patel, ont découvert que ces réseaux absorbent les descriptions de couleur du texte Internet et construisent des représentations internes de la couleur. Lorsqu'ils voient le mot "rouge", ils le traitent non seulement comme un symbole abstrait, mais comme un concept qui a une certaine relation avec le marron, le cramoisi, le fuchsia, la rouille, etc. Démontrer cela fut quelque peu délicat. Au lieu d'insérer une sonde dans un réseau, les chercheurs ont étudié sa réponse à une série d'invites textuelles. Pour vérifier si le systhème ne faisait pas simplement écho à des relations de couleur tirées de références en ligne, ils ont essayé de le désorienter en lui disant que le rouge est en fait du vert - comme dans la vieille expérience de pensée philosophique où le rouge d'une personne correspond au vert d'une autre. Plutôt que répéter une réponse incorrecte, les évaluations de couleur du système ont évolué de manière appropriée afin de maintenir les relations correctes.

Reprenant l'idée que pour remplir sa fonction d'autocorrection, le système recherche la logique sous-jacente de ses données d'apprentissage, le chercheur en apprentissage automatique Sébastien Bubeck de Microsoft Research suggère que plus la gamme de données est large, plus les règles du système faire émerger sont générales. "Peut-être que nous nous constatons un tel bond en avant parce que nous avons atteint une diversité de données suffisamment importante pour que le seul principe sous-jacent à toutes ces données qui demeure est que des êtres intelligents les ont produites... Ainsi la seule façon pour le modèle d'expliquer toutes ces données est de devenir intelligent lui-même".

En plus d'extraire le sens sous-jacent du langage, les LLM sont capables d'apprendre en temps réel. Dans le domaine de l'IA, le terme "apprentissage" est généralement réservé au processus informatique intensif dans lequel les développeurs exposent le réseau neuronal à des gigaoctets de données et ajustent petit à petit ses connexions internes. Lorsque vous tapez une requête dans ChatGPT, le réseau devrait être en quelque sorte figé et, contrairement à l'homme, ne devrait pas continuer à apprendre. Il fut donc surprenant de constater que les LLM apprennent effectivement à partir des invites de leurs utilisateurs, une capacité connue sous le nom d'"apprentissage en contexte". "Il s'agit d'un type d'apprentissage différent dont on ne soupçonnait pas l'existence auparavant", explique Ben Goertzel, fondateur de la société d'IA SingularityNET.

Un exemple de la façon dont un LLM apprend vient de la façon dont les humains interagissent avec les chatbots tels que ChatGPT. Vous pouvez donner au système des exemples de la façon dont vous voulez qu'il réponde, et il obéira. Ses sorties sont déterminées par les derniers milliers de mots qu'il a vus. Ce qu'il fait, étant donné ces mots, est prescrit par ses connexions internes fixes - mais la séquence de mots offre néanmoins une certaine adaptabilité. Certaines personnes utilisent le jailbreak à des fins sommaires, mais d'autres l'utilisent pour obtenir des réponses plus créatives. "Il répondra mieux aux questions scientifiques, je dirais, si vous posez directement la question, sans invite spéciale de jailbreak, explique William Hahn, codirecteur du laboratoire de perception de la machine et de robotique cognitive à la Florida Atlantic University. "Sans il sera un meilleur universitaire." (Comme son nom l'indique une invite jailbreak -prison cassée-, invite à moins délimiter-verrouiller les fonctions de recherche et donc à les ouvrir, avec les risques que ça implique) .

Un autre type d'apprentissage en contexte se produit via l'incitation à la "chaîne de pensée", ce qui signifie qu'on demande au réseau d'épeler chaque étape de son raisonnement - manière de faire qui permet de mieux résoudre les problèmes de logique ou d'arithmétique en passant par plusieurs étapes. (Ce qui rend l'exemple de Millière si surprenant puisque le réseau a trouvé le nombre de Fibonacci sans un tel encadrement.)

En 2022, une équipe de Google Research et de l'École polytechnique fédérale de Zurich - Johannes von Oswald, Eyvind Niklasson, Ettore Randazzo, João Sacramento, Alexander Mordvintsev, Andrey Zhmoginov et Max Vladymyrov - a montré que l'apprentissage en contexte suit la même procédure de calcul de base que l'apprentissage standard, connue sous le nom de descente de gradient".

Cette procédure n'était pas programmée ; le système l'a découvert sans aide. "C'est probablement une compétence acquise", déclare Blaise Agüera y Arcas, vice-président de Google Research. De fait il pense que les LLM peuvent avoir d'autres capacités latentes que personne n'a encore découvertes. "Chaque fois que nous testons une nouvelle capacité que nous pouvons quantifier, nous la trouvons", dit-il.

Bien que les LLM aient suffisamment d'angles morts et autres défauts pour ne pas être qualifiés d'intelligence générale artificielle, ou AGI - terme désignant une machine qui atteint l'ingéniosité du cerveau animal - ces capacités émergentes suggèrent à certains chercheurs que les entreprises technologiques sont plus proches de l'AGI que même les optimistes ne l'avaient deviné. "Ce sont des preuves indirectes que nous en sommes probablement pas si loin", a déclaré Goertzel en mars lors d'une conférence sur le deep learning à la Florida Atlantic University. Les plug-ins d'OpenAI ont donné à ChatGPT une architecture modulaire un peu comme celle du cerveau humain. "La combinaison de GPT-4 [la dernière version du LLM qui alimente ChatGPT] avec divers plug-ins pourrait être une voie vers une spécialisation des fonctions semblable à celle de l'homme", déclare Anna Ivanova, chercheuse au M.I.T.

Dans le même temps, les chercheurs s'inquiètent de voir leur capacité à étudier ces systèmes s'amenuiser. OpenAI n'a pas divulgué les détails de la conception et de l'entraînement de GPT-4, en partie du à la concurrence avec Google et d'autres entreprises, sans parler des autres pays. "Il y aura probablement moins de recherche ouverte de la part de l'industrie, et les choses seront plus cloisonnées et organisées autour de la construction de produits", déclare Dan Roberts, physicien théoricien au M.I.T., qui applique les techniques de sa profession à la compréhension de l'IA.

Ce manque de transparence ne nuit pas seulement aux chercheurs, il entrave également les efforts qui visent à comprendre les répercussions sociales de l'adoption précipitée de la technologie de l'IA. "La transparence de ces modèles est la chose la plus importante pour garantir la sécurité", affirme M. Mitchell.

Auteur: Musser Georges

Info: https://www.scientificamerican.com, 11 mai 2023. *algorithme d'optimisation utilisé dans l'apprentissage automatique et les problèmes d'optimisation. Il vise à minimiser ou à maximiser une fonction en ajustant ses paramètres de manière itérative. L'algorithme part des valeurs initiales des paramètres et calcule le gradient de la fonction au point actuel. Les paramètres sont ensuite mis à jour dans la direction du gradient négatif (pour la minimisation) ou positif (pour la maximisation), multiplié par un taux d'apprentissage. Ce processus est répété jusqu'à ce qu'un critère d'arrêt soit rempli. La descente de gradient est largement utilisée dans la formation des modèles d'apprentissage automatique pour trouver les valeurs optimales des paramètres qui minimisent la différence entre les résultats prédits et les résultats réels. Trad et adaptation Mg

[ singularité technologique ] [ versatilité sémantique ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

nanomonde

Les particules quantiques ne tournent pas. Alors d'où vient leur spin ?

Le fait que les électrons possèdent la propriété quantique du spin est essentiel pour notre monde tel que nous le connaissons. Pourtant, les physiciens ne pensent pas que ces particules tournent réellement.

Les électrons sont des petits magiciens compétents. Ils semblent voltiger autour d'un atome sans suivre de chemin particulier, ils semblent souvent être à deux endroits à la fois, et leur comportement dans les micropuces en silicium alimente l'infrastructure informatique du monde moderne. Mais l'un de leurs tours les plus impressionnants est faussement simple, comme toute bonne magie. Les électrons semblent toujours tourner. Tous les électrons jamais observés, qu'ils se déplacent sur un atome de carbone dans votre ongle ou qu'ils se déplacent à toute vitesse dans un accélérateur de particules, ont l'air de faire constamment de petites pirouettes en se déplaçant dans le monde. Sa rotation ne semble jamais ralentir ou accélérer. Peu importe comment un électron est bousculé ou frappé, il semble toujours tourner à la même vitesse. Il possède même un petit champ magnétique, comme devrait le faire un objet en rotation doté d'une charge électrique. Naturellement, les physiciens appellent ce comportement "spin".

Mais malgré les apparences, les électrons ne tournent pas. Ils ne peuvent pas tourner. Prouver qu'il est impossible que les électrons tournent est un problème standard dans tout cours d'introduction à la physique quantique. Si les électrons tournaient suffisamment vite pour expliquer tout le comportement de rotation qu'ils affichent, leurs surfaces se déplaceraient beaucoup plus vite que la vitesse de la lumière (si tant est qu'ils aient des surfaces). Ce qui est encore plus surprenant, c'est que pendant près d'un siècle, cette contradiction apparente a été ignorée par la plupart des physiciens comme étant une autre caractéristique étrange du monde quantique, qui ne mérite pas qu'on s'y attarde.

Pourtant, le spin est profondément important. Si les électrons ne semblaient pas tourner, votre chaise s'effondrerait pour ne plus représenter qu'une fraction minuscule de sa taille. Vous vous effondreriez aussi - et ce serait le moindre de vos problèmes. Sans le spin, c'est tout le tableau périodique des éléments qui s'effondrerait, et toute la chimie avec. En fait, il n'y aurait pas de molécules du tout. Le spin n'est donc pas seulement l'un des meilleurs tours de magie des électrons, c'est aussi l'un des plus importants. Et comme tout bon magicien, les électrons n'ont jamais dit à personne comment ils faisaient ce tour. Mais aujourd'hui, une nouvelle explication du spin est peut-être en train de se profiler à l'horizon, une explication qui tire le rideau et montre comment la magie opère.

UNE DÉCOUVERTE VERTIGINEUSE

La rotation a toujours été une source de confusion. Même les premières personnes qui ont développé l'idée du spin pensaient qu'elle devait être fausse. En 1925, deux jeunes physiciens hollandais, Samuel Goudsmit et George Uhlenbeck, s'interrogeaient sur les derniers travaux du célèbre (et célèbre) physicien Wolfgang Pauli. Pauli, dans une tentative d'expliquer la structure des spectres atomiques et du tableau périodique, avait récemment postulé que les électrons avaient une "double valeur non descriptible classiquement". Mais Pauli n'avait pas dit à quelle propriété physique de l'électron sa nouvelle valeur correspondait, et Goudsmit et Uhlenbeck se demandaient ce que cela pouvait être.

Tout ce qu'ils savaient - tout le monde le savait à l'époque - c'est que la nouvelle valeur de Pauli était associée à des unités discrètes d'une propriété bien connue de la physique newtonienne classique, appelée moment angulaire. Le moment angulaire est simplement la tendance d'un objet en rotation à continuer de tourner. C'est ce qui fait que les toupies tournent et que les bicyclettes restent droites. Plus un objet tourne vite, plus il a de moment cinétique, mais la forme et la masse de l'objet ont aussi leur importance. Un objet plus lourd a plus de moment cinétique qu'un objet plus léger qui tourne aussi vite, et un objet qui tourne avec plus de masse sur les bords a plus de moment cinétique que si sa masse était concentrée en son centre.

Les objets peuvent avoir un moment angulaire sans tourner. Tout objet qui tourne autour d'un autre objet, comme la Terre qui tourne autour du soleil ou un trousseau de clés qui se balance autour de votre doigt sur un cordon, a un certain moment angulaire. Mais Goudsmit et Uhlenbeck savaient que ce type de moment angulaire ne pouvait pas être la source du nouveau nombre de Pauli. Les électrons semblent effectivement se déplacer autour du noyau atomique, retenus par l'attraction entre leur charge électrique négative et l'attraction positive des protons du noyau. Mais le moment angulaire que ce mouvement leur confère était déjà bien pris en compte et ne pouvait pas être le nouveau nombre de Pauli. Les physiciens savaient également qu'il existait déjà trois nombres associés à l'électron, qui correspondaient aux trois dimensions de l'espace dans lesquelles il pouvait se déplacer. Un quatrième nombre signifiait une quatrième façon dont l'électron pouvait se déplacer. Les deux jeunes physiciens pensaient que la seule possibilité était que l'électron lui-même tourne, comme la Terre qui tourne sur son axe autour du soleil. Si les électrons pouvaient tourner dans l'une des deux directions - dans le sens des aiguilles d'une montre ou dans le sens inverse - cela expliquerait la "bivalence" de Pauli.

Excités, Goudsmit et Uhlenbeck rédigent leur nouvelle idée et la montrent à leur mentor, Paul Ehrenfest. Ehrenfest, un ami proche d'Einstein et un formidable physicien à part entière, trouve l'idée intrigante. Tout en la considérant, il dit aux deux jeunes hommes enthousiastes d'aller consulter quelqu'un de plus âgé et de plus sage : Hendrik Antoon Lorentz, le grand manitou de la physique néerlandaise, qui avait anticipé une grande partie du développement de la relativité restreinte deux décennies plus tôt et qu'Einstein lui-même tenait en très haute estime.

Mais Lorentz est moins impressionné par l'idée de spin qu'Ehrenfest. Comme il l'a fait remarquer à Uhlenbeck, on sait que l'électron est très petit, au moins 3 000 fois plus petit qu'un atome - et on sait déjà que les atomes ont un diamètre d'environ un dixième de nanomètre, soit un million de fois plus petit que l'épaisseur d'une feuille de papier. L'électron étant si petit, et sa masse encore plus petite - un milliardième de milliardième de milliardième de gramme - il était impossible qu'il tourne assez vite pour fournir le moment angulaire que Pauli et d'autres recherchaient. En fait, comme Lorentz l'a dit à Uhlenbeck, la surface de l'électron devrait se déplacer dix fois plus vite que la vitesse de la lumière, une impossibilité absolue.

Défait, Uhlenbeck retourne voir Ehrenfest et lui annonce la nouvelle. Il demande à Ehrenfest de supprimer l'article, mais on lui répond qu'il est trop tard, car son mentor a déjà envoyé l'article pour publication. "Vous êtes tous les deux assez jeunes pour pouvoir vous permettre une stupidité", a dit Ehrenfest. Et il avait raison. Malgré le fait que l'électron ne pouvait pas tourner, l'idée du spin était largement acceptée comme correcte, mais pas de la manière habituelle. Plutôt qu'un électron qui tourne réellement, ce qui est impossible, les physiciens ont interprété la découverte comme signifiant que l'électron portait en lui un certain moment angulaire intrinsèque, comme s'il tournait, même s'il ne pouvait pas le faire. Néanmoins, l'idée était toujours appelée "spin", et Goudsmit et Uhlenbeck ont été largement salués comme les géniteurs de cette idée.

Le spin s'est avéré crucial pour expliquer les propriétés fondamentales de la matière. Dans le même article où il avait proposé son nouveau nombre à deux valeurs, Pauli avait également suggéré un "principe d'exclusion", à savoir que deux électrons ne pouvaient pas occuper exactement le même état. S'ils le pouvaient, alors chaque électron d'un atome tomberait simplement dans l'état d'énergie le plus bas, et pratiquement tous les éléments se comporteraient presque exactement de la même manière les uns que les autres, détruisant la chimie telle que nous la connaissons. La vie n'existerait pas. L'eau n'existerait pas. L'univers serait simplement rempli d'étoiles et de gaz, dérivant dans un cosmos ennuyeux et indifférent sans rencontrer la moindre pierre. En fait, comme on l'a compris plus tard, toute matière solide, quelle qu'elle soit, serait instable. Bien que l'idée de Pauli soit clairement correcte, la raison pour laquelle les électrons ne pouvaient pas partager des états n'était pas claire. Comprendre l'origine du principe d'exclusion de Pauli permettrait d'expliquer tous ces faits profonds de la vie quotidienne.

La réponse à cette énigme se trouvait dans le spin. On découvrit bientôt que le spin était une propriété de base de toutes les particules fondamentales, et pas seulement des électrons, et qu'il était étroitement lié au comportement de ces particules en groupes. En 1940, Pauli et le physicien suisse Markus Fierz ont prouvé que lorsque la mécanique quantique et la relativité restreinte d'Einstein étaient combinées, cela conduisait inévitablement à un lien entre le spin et le comportement statistique des groupes. Le principe d'exclusion de Pauli n'était qu'un cas particulier de ce théorème de la statistique du spin, comme on l'a appelé. Ce théorème est un "fait puissant sur le monde", comme le dit le physicien Michael Berry. "Il est à la base de la chimie, de la supraconductivité, c'est un fait très fondamental". Et comme tant d'autres faits fondamentaux en physique, le spin s'est avéré utile sur le plan technologique également. Dans la seconde moitié du XXe siècle, le spin a été exploité pour développer des lasers, expliquer le comportement des supraconducteurs et ouvrir la voie à la construction d'ordinateurs quantiques.

VOIR AU-DELÀ DU SPIN

Mais toutes ces fabuleuses découvertes, applications et explications laissent encore sur la table la question de Goudsmit et Uhlenbeck : qu'est-ce que le spin ? Si les électrons doivent avoir un spin, mais ne peuvent pas tourner, alors d'où vient ce moment angulaire ? La réponse standard est que ce moment est simplement inhérent aux particules subatomiques et ne correspond à aucune notion macroscopique de rotation.

Pourtant, cette réponse n'est pas satisfaisante pour tout le monde. "Je n'ai jamais aimé l'explication du spin donnée dans un cours de mécanique quantique", déclare Charles Sebens, philosophe de la physique à l'Institut de technologie de Californie. On vous le présente et vous vous dites : "C'est étrange. Ils agissent comme s'ils tournaient, mais ils ne tournent pas vraiment ? Je suppose que je peux apprendre à travailler avec ça". Mais c'est étrange."

Récemment, cependant, Sebens a eu une idée. "Dans le cadre de la mécanique quantique, il semble que l'électron ne tourne pas", dit-il. Mais, ajoute-t-il, "la mécanique quantique n'est pas notre meilleure théorie de la nature. La théorie des champs quantiques est une théorie plus profonde et plus précise."

La théorie quantique des champs est l'endroit où le monde quantique des particules subatomiques rencontre l'équation la plus célèbre du monde : E = mc2, qui résume la découverte d'Einstein selon laquelle la matière peut se transformer en énergie et vice versa. (La théorie quantique des champs est également à l'origine du théorème de la statistique du spin). C'est à partir de cette propriété que lorsque des particules subatomiques interagissent, de nouvelles particules sont souvent créées à partir de leur énergie, et les particules existantes peuvent se désintégrer en quelque chose d'autre. La théorie quantique des champs traite ce phénomène en décrivant les particules comme provenant de champs qui imprègnent tout l'espace-temps, même l'espace vide. Ces champs permettent aux particules d'apparaître et de disparaître, conformément aux règles strictes de la relativité restreinte d'Einstein et aux lois probabilistes du monde quantique.

Et ce sont ces champs, selon Sebens, qui pourraient contenir la solution à l'énigme du spin. "L'électron est habituellement considéré comme une particule", explique-t-il. "Mais dans la théorie quantique des champs, pour chaque particule, il existe une façon de la considérer comme un champ." En particulier, l'électron peut être considéré comme une excitation dans un champ quantique connu sous le nom de champ de Dirac, et ce champ pourrait être ce qui porte le spin de l'électron. "Il y a une véritable rotation de l'énergie et de la charge dans le champ de Dirac", dit Sebens. Si c'est là que réside le moment angulaire, le problème d'un électron tournant plus vite que la vitesse de la lumière disparaît ; la région du champ portant le spin de l'électron est bien plus grande que l'électron supposé ponctuel lui-même. Ainsi, selon Sebens, d'une certaine manière, Pauli et Lorentz avaient à moitié raison : il n'y a pas de particule qui tourne. Il y a un champ tournant, et c'est ce champ qui donne naissance aux particules.

UNE QUESTION SANS RÉPONSE ?

Jusqu'à présent, l'idée de Sebens a produit quelques remous, mais pas de vagues. Pour ce qui est de savoir si les électrons tournent, "je ne pense pas qu'il s'agisse d'une question à laquelle on puisse répondre", déclare Mark Srednicki, physicien à l'université de Californie à Santa Barbara. "Nous prenons un concept qui trouve son origine dans le monde ordinaire et nous essayons de l'appliquer à un endroit où il ne s'applique plus vraiment. Je pense donc que ce n'est vraiment qu'une question de choix, de définition ou de goût pour dire que l'électron tourne vraiment." Hans Ohanian, physicien à l'université du Vermont qui a réalisé d'autres travaux sur le spin des électrons, souligne que la version originale de l'idée de Sebens ne fonctionne pas pour l'antimatière.

Mais tous les physiciens ne sont pas aussi dédaigneux. Selon Sean Carroll, physicien à l'université Johns Hopkins et à l'Institut Santa Fe, "la formulation conventionnelle de notre réflexion sur le spin laisse de côté un élément potentiellement important". "Sebens est tout à fait sur la bonne voie, ou du moins fait quelque chose de très, très utile dans le sens où il prend très au sérieux l'aspect champ de la théorie quantique des champs." Mais, souligne Carroll, "les physiciens sont, au fond, des pragmatiques..... Si Sebens a raison à 100 %, les physiciens vous diront : "D'accord, mais qu'est-ce que cela m'apporte ?"

Doreen Fraser, philosophe de la théorie des champs quantiques à l'université de Waterloo, au Canada, se fait l'écho de ce point de vue. "Je suis ouverte à ce projet que Sebens a de vouloir forer plus profondément pour avoir une sorte d'intuition physique pour aller avec le spin", dit-elle. "Vous avez cette belle représentation mathématique ; vous voulez avoir une image physique intuitive pour l'accompagner." En outre, une image physique pourrait également déboucher sur de nouvelles théories ou expériences qui n'ont jamais été réalisées auparavant. "Pour moi, ce serait le test pour savoir si c'est une bonne idée."

Il est trop tôt pour dire si les travaux de M. Sebens porteront ce genre de fruits. Et bien qu'il ait rédigé un article sur la manière de résoudre la préoccupation d'Ohanian concernant l'antimatière, d'autres questions connexes restent en suspens. "Il y a beaucoup de raisons d'aimer" l'idée du champ, dit Sebens. "Je prends cela plus comme un défi que comme un argument massue contre elle."

Auteur: Becker Adam

Info: Scientific American, November 22, 2022

[ approfondissement ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

néo-darwinisme

Pour décoder la manipulation ou le marketing viral : la mémétique

Qu’y a-t-il de commun entre un drapeau de pirates, la chanson Happy birthday to you, un crucifix, des sigles courants (TV, USA, WC...), un jeu de Pokémon, un panneau stop, une histoire belge bien connue et le logo de Nike ? Ce sont des mèmes. C’est à dire des “entités réplicatives d’informations”, autrement dit des codes culturels qui, par imitation ou contagion, transmettent des solutions inventées par une population. Quand vous faites du marketing viral ou du lobbying, quand la télévision manipule votre “temps de cerveau humain disponible” à des fins commerciales ou idéologiques, vous êtes sans le savoir dans le champ de la mémétique comme M. Jourdain était dans celui de la prose.

La vraie vie n’est pas seulement faite de ce qu’on apprend à l’école ou à l’université... Les relations entre spécialités sont au moins aussi utiles que l’approfondissement d’une expertise spécifique... Ce n’est pas parce qu’une discipline n’a pas (encore) de reconnaissance académique qu’elle n’est pas sérieuse... Surtout quand la connaissance évolue plus vite que les mentalités, quand le fossé se creuse entre théorie et pratique, quand l’académisme dépend de normes formelles ou de chasses gardées plus que du progrès de la civilisation... La mémétique en est un bon exemple qui, malgré sa valeur scientifique et son utilité sociale, est méprisée comme ont pu l’être ses ancêtres darwiniens. Dommage, car si elle était mieux connue, nous serions moins faciles à manipuler.

LA MÉMÉTIQUE, C’EST SÉRIEUX !

Le mème est à la culture ce que le gène est à la nature. L’Oxford English Dictionary le définit comme un élément de culture dont on peut considérer qu’il se transmet par des moyens non génétiques, en particulier par l’imitation. Il a pour habitat ou pour vecteur l’homme lui-même ou tout support d’information. Dans les années 1970, des chercheurs de différentes disciplines s’interrogeaient sur la possible existence d’un équivalent culturel de l’ADN*. C’est en 1976, dans Le gène égoïste, que l’éthologiste Richard Dawkins baptisa le mème à partir d’une association entre gène et mimesis (du grec imitation), suggérant aussi les notions de mémoire, de ressemblance (du français même), de plus petite unité d’information. “Bref, un mot génial, bien trouvé, imparable. Un pur réplicateur qui s’ancre davantage dans votre mémoire chaque fois que vous essayez de l’oublier !” (Pascal Jouxtel).

La mémétique applique à la culture humaine des concepts issus de la théorie de l’évolution et envisage une analogie entre patrimoines culturels et génétique : il y a variation (mutation), sélection et transmission de codes culturels qui sont en concurrence pour se reproduire dans la société. Cette réplication a un caractère intra- et inter-humain. Elle dépend de la capacité du mème à se faire accepter : vous l’accueillez, l’hébergez, le rediffusez parce que vous en tirez une gratification aux yeux d’autrui, par exemple en termes d’image (vous avez le 4x4 vu à la télé), de rareté (il a une carte Pikatchu introuvable) ou autre avantage relationnel (petits objets transactionnels attractifs). Elle est stimulée par les technologies de l’information, qui renforcent le maillage des flux échangés et les accélèrent : la réplication est plus forte par les mass media (cf. les codes véhiculés par les émissions de téléréalité) et sur les réseaux (SMS ou Internet) que dans une société moins médiatisée où les flux sont moins foisonnants.

On ne démontrera pas en quelques lignes la valeur ou l’intérêt de cette science, mais un ouvrage le fait avec talent : Comment les systèmes pondent, de P. Jouxtel (Le Pommier, Paris, 2005). On se bornera ici à extraire de ce livre un complément de définition : “la mémétique revendique une forme d’autonomie du pensé par rapport au penseur, d’antériorité causale des flux devant les structures, et se pose entre autres comme une science de l’auto-émergence du savoir par compétition entre les niveaux plus élémentaires de la pensée... Transdisciplinaire par nature, la mémétique est une branche extrême de l’anthropologie sociale croisée avec des résultats de l’intelligence artificielle, des sciences cognitives et des sciences de la complexité. Elle s’inscrit formellement dans le cadre darwinien tout en se démarquant des précédentes incursions de la génétique dans les sciences humaines classiques, comme la sociobiologie ou la psychologie évolutionniste, et s’oppose radicalement à toute forme vulgaire de darwinisme social”.

RESTER DANS LE JEU, JOUER À CÔTÉ OU AGIR SUR LE JEU ?

Jouxtel veut aussi promouvoir en milieu francophone une théorie qui y est un peu suspecte, coupable d’attaches anglo-saxonnes, masi qui pourtant trouve ses racines dans notre héritage culturel : autonomie du pensé, morphogenèse (apparition spontanée de formes élémentaires), évolution darwinienne dans la sphère immatérielle des concepts (Monod)... Le rejet observé en France tient aussi au divorce qu’on y entretient entre sciences sociales et sciences naturelles ou à la méfiance vis-à-vis de certains aspects de l’algorithme évolutionnaire (mutation, sélection, reproduction), en particulier “on fait une confusion terrible en croyant que la sélection s’applique aux gens alors qu’elle ne s’applique qu’aux règles du jeu”. De fait, cette forme d’intégration de la pensée s’épanouit mieux dans des cultures favorisant l’ouverture et les échanges que dans celles qui s’attachent à délimiter des territoires cloisonnés. Mais conforter notre fermeture serait renoncer à exploiter de précieuses ressources. Renoncer aussi à apporter une contribution de la pensée en langue française dans un champ aussi stratégique. Donc également renoncer à y exercer une influence.

Outre les enjeux de l’acceptation et des développements francophones de cette science, quels sont ceux de son utilisation ? De façon générale, ce sont des enjeux liés au libre-arbitre et à l’autonomie de la personne quand il s’agit de mettre en évidence les codages sous-jacents de comportements sociaux ou de pratiques culturelles. L’image du miroir éclaire cette notion : on peut rester dans la pièce en croyant que c’est là que se joue le jeu, ou passer derrière le miroir et découvrir d’autres dimensions - c’est ce que la mémétique nous aide à faire. De même dans le diaporama Zoom arrière (www.algoric.com/y/zoom.htm) où, après des images suggérant une perception de premier degré (scène du quotidien dans une cour de ferme), on découvre que la situation peut comporter d’autres dimensions... Plus précisément, pour illustrer l’utilité opérationnelle de la mémétique, on pourra regarder du côté des thèmes qui alimentent régulièrement cette chronique - innovation, marketing, communication stratégique, gouvernance... - autour de trois cas de figure : on peut jouer dans le jeu (idéal théorique souvent trahi par les joueurs), jouer à côté du jeu (égarés, tricheurs) ou agir sur le jeu (en changeant de niveau d’appréhension).

D’AUTRES DEGRÉS SUR LA PYRAMIDE DE MASLOW ?

Une analogie avec la pyramide de Maslow montre comment une situation peut être abordée à différents niveaux. Nos motivations varient sur une échelle de 1 (survie) à 5 (accomplissement) selon le contexte et selon notre degré de maturité. Ainsi, un marketing associé à l’argument mode ou paraître - voiture, téléphone, etc. - sera plus efficace auprès des populations visant les niveaux intermédiaires, appartenance et reconnaissance, que chez celles qui ont atteint le niveau 5. De même pour ce qui nous concerne ici : selon ses caractéristiques et son environnement, une personne ou un groupe prend plus ou moins de hauteur dans l’analyse d’une situation - or, moins on s’élève sur cette échelle, plus on est manipulable, surtout dans une société complexe et différenciée. Prenons par exemple la pétition de Philip Morris pour une loi anti-tabac. Quand j’invite un groupe à décoder cette initiative surprenante, j’obtiens des analyses plus ou moins distanciées, progressant de la naïveté (on y voit une initiative altruiste d’un empoisonneur repenti) à une approche de second degré (c’est un moyen d’empêcher les recours judiciaires de victimes du tabac) ou à une analyse affinée (lobbying de contre-feu pour faire obstacle à une menace plus grave). Plus on s’élève sur cette échelle, plus on voit de variables et plus on a de chances d’avoir prise sur le phénomène analysé. Une approche mémétique poursuivra la progression, par exemple en trouvant là des mèmes pondus par le “système pro-tabac” pour assurer sa descendance, à l’instar de ceux qu’il a pondus au cinéma pendant des années en faisant fumer les héros dans les films.

Il est facile de traiter au premier degré les attentats du 11 septembre 2001, par exemple en y voyant une victoire des forces de libération contre un symbole du libéralisme sauvage ou une attaque des forces du mal contre le rempart de la liberté - ce qui pour les mèmes revient au même car ce faisant, y compris avec des analyses un peu moins primaires, on alimente une diversion favorisant l’essor de macro-systèmes : “terrorisme international”, “capitalisme financier” ou autres. Ceux-ci dépassent les acteurs (Bush, Ben Laden...), institutions (Etat américain, Al-Qaida...) ou systèmes (démocratie, islamisme...), qui ne sont que des vecteurs de diffusion de mèmes dans un affrontement entre macro-systèmes.

QUAND CE DONT ON PARLE N’EST PAS CE DONT IL S’AGIT...

Autre cas intéressant de réplicateurs : les traditionnelles chaînes de l’amitié, consistant à manipuler un individu en exploitant sa naïveté, avec un emballage rudimentaire mais très efficace auprès de celui qui manque d’esprit critique : si tu brises la chaîne les foudres du ciel s’abattront sur toi, si tu la démultiplies tu connaîtras le bonheur, ou au moins la prospérité. On n’y croit pas, mais on ne sait jamais... Internet leur a donné une nouvelle vie - nous avons tous des amis pourtant très fréquentables qui tombent dans le piège et essaient de nous y entraîner ! - et a affiné la perversité de la manipulation avec les hoax et autres virus. Le marketing viral utilise ces ressorts. La réplication peut se faire de façon plus subtile, voire insidieuse, par exemple avec des formes de knowledge management (KM) “de premier degré” - en bref : la mondialisation induit un impératif d’innovation ; on veut dépasser les réactions quantitatives et malthusiennes qui s’attaquent aux coûts car elles jettent le bébé avec l’eau du bain en détruisant aussi les gisements de valeur ; on va donc privilégier la rapidité d’adaptation à un environnement changeant, donc innover en permanence, donc mobiliser le savoir et la créativité, donc fonctionner en réseau. Si l’on continue à gravir des échelons, on s’aperçoit que cette approche réactive reste “dans le jeu” alors qu’on a besoin de prendre du recul par rapport au jeu lui-même pour le remettre en question, voire le réinventer. La mémétique éclaire la complexité de cet exercice difficile où il faut pouvoir changer de logique, de paradigme, pour aborder un problème au niveau des processus du jeu et non plus au niveau de ses contenus. Comme dans la communication stratégique.

Déjà dans le lobbying classique, on savait depuis longtemps que le juriste applique la loi, le lobbyiste la change : le premier reste dans le jeu, quitte à tout faire pour contourner le texte ou en changer l’interprétation, alors que le second, constatant que la situation a évolué, s’emploie à faire changer les règles, voire le jeu lui-même. De même dans les appels d’offres, où certains suivent le cahier des charges quand d’autres contribuent à le définir en agissant en amont. De même dans le lobby-marketing, par exemple quand on s’attache à changer la nature de la relation plus que son contenu ou sa forme, pour passer de solliciteur à sollicité : faire que mon interlocuteur me prie de bien vouloir lui vendre ce que précisément je veux lui vendre... comme est aussi supposé le faire tout bon enseignant qui, ne se bornant pas à transférer des savoirs, veut donner envie d’apprendre ! Déjà difficile pour un lobbyiste néophyte, ce changement de perspective n’est pas naturel dans un “monde de l’innovation” où l’on privilégie un “rationnel plutôt cerveau gauche” qui ne prédispose pas à décoder le jeu pour pouvoir le mettre en question et le réinventer.

L’interpellation mémétique peut conduire très loin, notamment quand elle montre comment l’essor des réseaux favorise des réplications de mèmes qui ne nous sont pas nécessairement favorables. Elle peut ainsi contredire des impulsions “évidentes” en KM, à commencer par celle qui fait admettre que pour innover et “s’adapter” il faut fonctionner en réseau et en réseaux de réseaux. Avec un peu de recul mémétique, on pourra considérer qu’il s’agit moins de s’adapter au système que d’adapter le système, donc pas nécessairement de suivre la course aux réseaux subis mais d’organiser l’adéquation avec des réseaux choisis, voire maîtrisés...

Aux origines de la mémétique

La possibilité que la sphère des humanités s’ouvre au modèle darwinien n’est pas nouvelle. Sans remonter à Démocrite, on la trouve chez le biochimiste Jacques Monod, dans Le hasard et la nécessité. La notion de monde des idées (noosphère) a été introduite par l’anthropologue Pierre Teilhard de Chardin. Alan Turing et Johannes Von Neumann, pères de l’informatique moderne, ont envisagé que les lois de la vie s’appliquent aussi à des machines ou créatures purement faites d’information. L’épistémologie évolutionnaire de Friedrich Von Hayek en est une autre illustration. D’autres parentés sont schématisées dans la carte ci-dessous.

De façon empirique, au quotidien, on peut observer la séparation du fait humain d’avec la nature, ainsi que son accélération : agriculture, urbanisation et autres activités sont visibles de l’espace, émissions de radio et autres expressions y sont audibles ; nos traces sont partout, livres, codes de lois, arts, technologies, religions… Est-ce l’homme qui a propulsé la culture ou celle-ci qui l’a tiré hors de son origine animale ?

En fait, grâce à ses outils, l’homme a favorisé une évolution combinée, un partenariat, un entraînement mutuel entre le biologique et le culturel. André Leroi-Gourhan raconte la co-évolution de l’outil, du langage et de la morphologie. Claude Lévi-Strauss parle de l’autonomie de l’organisation culturelle, par-delà les différences ethniques. Emile Durkheim revendique l’irréductibilité du fait social à la biologie. Parallèlement, l’observation des sociétés animales démontre que la nature produit des phénomènes collectifs, abstraits, allant bien au-delà des corps. Selon certaines extensions radicales de la sociobiologie à l’homme, toutes nos capacités seraient codées génétiquement, donc toute pratique culturelle - architecture, droit, économie ou art - ne serait qu’un phénotype étendu de l’homme. La réduction des comportements à leurs avantages évolutionnaires biologiques s’est atténuée. Le cerveau est modulaire, le schéma général de ses modules est inscrit dans les gènes, mais on a eu du mal à admettre que leur construction puisse se faire sur la base de flux cognitifs, d’apports d’expériences.

Il y a des façons d’agir ou de penser qui au fil du temps ont contribué à la survie de ceux qui étaient naturellement aptes à les pratiquer : la peur du noir, la capacité de déguiser ses motivations, le désir de paraître riche ; ou plus subtilement la tendance à croire à une continuation de la vie après la mort, à une providence qui aide, à une vie dans l’invisible ; ou même le réflexe intellectuel consistant à supposer un but à toute chose. Mais il existe des idées, des modes de vie, des techniques, bref des éléments de culture indépendants de l’ADN, qui se transmettent par des moyens non génétiques, en particulier par l’imitation : c’est la thèse de Susan Blackmore, pour qui, entre ces mèmes en compétition, la sélection se fait en fonction de leur “intérêt propre” et non de celui des gènes.

L’argument de Pascal Jouxtel s’inspire d’une formule de Luca Cavalli-Sforza : l’évolution naturelle de l’homme est terminée car tous les facteurs naturels de sélection sont sous contrôle culturel. Tout ce qui pourrait influencer la fécondité ou la mortalité infantile est maîtrisé ou dépend de facteurs géopolitiques, économiques ou religieux. En revanche, la culture continue à évoluer : lois, art, technologies, réseaux de communication, structures de pouvoir, systèmes de valeurs. Le grand changement, c’est que les mèmes évoluent pour leur propre compte, en exploitant le terrain constitué par les réseaux de cerveaux humains, mais indépendamment, et parfois au mépris des besoins de leurs hôtes biologiques.

“Ce sont des solutions mémétiquement évoluées qui sont aujourd’hui capables de breveter un génome. Il en va de même des religions et des systèmes politiques qui tuent. La plus majestueuse de toutes ces solutions s’appelle Internet, le cerveau global... Tout ce qui relie les humains est bon pour les mèmes. Il est logique, dans la même optique, de coder de façon de plus en plus digitalisée tous les modèles qui doivent être transmis, stockés et copiés. C’est ainsi que le monde se transforme de plus en plus en un vaste Leroy-Merlin culturel, au sein duquel il devient chaque jour plus facile de reproduire du prêt-à-penser, du prêt-à-vivre, du prêt-à-être. A mesure que l’on se familiarise avec l’hypothèse méméticienne, il devient évident qu’elle invite à un combat, à une résistance et à un dépassement. Elle nous montre que des modèles peuvent se reproduire dans le tissu social jusqu’à devenir dominants sans avoir une quelconque valeur de vérité ou d’humanité. Elle nous pose des questions comme : que valent nos certitudes ? De quel droit pouvons-nous imposer nos convictions et notre façon de vivre ?... Comment puis-je dire que je pense ?” (P. Jouxtel, www.memetique.org). Et bien sûr : comment les systèmes pondent-ils ?

Auteur: Quentin Jean-Pierre

Info: Critique du livre de Pascal Jouxtel "comment les systèmes..."

[ sociolinguistique ] [ PNL ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

intelligence artificielle

Apprendre l'anglais n'est pas une tâche facile, comme le savent d'innombrables étudiants. Mais lorsque l'étudiant est un ordinateur, une approche fonctionne étonnamment bien : Il suffit d'alimenter un modèle mathématique géant, appelé réseau neuronal, avec des montagnes de textes provenant d'Internet. C'est le principe de fonctionnement des modèles linguistiques génératifs tels que ChatGPT d'OpenAI, dont la capacité à tenir une conversation cohérente (à défaut d'être toujours sincère) sur un large éventail de sujets a surpris les chercheurs et le public au cours de l'année écoulée.

Mais cette approche présente des inconvénients. D'une part, la procédure de "formation" nécessaire pour transformer de vastes archives textuelles en modèles linguistiques de pointe est coûteuse et prend beaucoup de temps. D'autre part, même les personnes qui forment les grands modèles linguistiques ont du mal à comprendre leur fonctionnement interne, ce qui, à son tour, rend difficile la prévision des nombreuses façons dont ils peuvent échouer.

Face à ces difficultés, certains chercheurs ont choisi d'entraîner des modèles plus petits sur des ensembles de données plus restreints, puis d'étudier leur comportement. "C'est comme le séquençage du génome de la drosophile par rapport au séquençage du génome humain", explique Ellie Pavlick, chercheuse sur les modèles de langage à l'université de Brown.

Dans un article récemment publié sur le serveur scientifique arxiv.org, deux chercheurs de Microsoft ont présenté une nouvelle méthode pour former de minuscules modèles de langage : Les élever avec un régime strict d'histoires pour enfants.

RÉSEAUX NEURONAUX

Des chercheurs acquièrent une nouvelle compréhension à partir d'une simple IA

Les chercheurs en apprentissage automatique ont compris cette leçon. GPT-3.5, le grand modèle linguistique qui alimente l'interface ChatGPT, compte près de 200 milliards de paramètres et a été entraîné sur un ensemble de données comprenant des centaines de milliards de mots (OpenAI n'a pas publié les chiffres correspondants pour son successeur, GPT-4). L'entraînement de modèles aussi vastes nécessite généralement au moins 1 000 processeurs spécialisés, appelés GPU, fonctionnant en parallèle pendant des semaines. Seules quelques entreprises peuvent réunir les ressources nécessaires, sans parler de l'entraînement et de la comparaison de différents modèles.

Les deux chercheurs ont montré que des modèles linguistiques des milliers de fois plus petits que les systèmes de pointe actuels apprenaient rapidement à raconter des histoires cohérentes et grammaticalement justes lorsqu'ils étaient formés de cette manière. Leurs résultats indiquent de nouvelles pistes de recherche qui pourraient être utiles pour former des modèles plus importants et comprendre leur comportement.

"J'ai trouvé tout ça très instructif", a déclaré Chandra Bhagavatula, chercheur sur les modèles de langage à l'Allen Institute for Artificial Intelligence de Seattle. "Le concept lui-même est très intéressant.

Il était une fois

Les réseaux neuronaux au cœur des modèles de langage sont des structures mathématiques vaguement inspirées du cerveau humain. Chacun d'entre eux contient de nombreux neurones artificiels disposés en couches, avec des connexions entre les neurones des couches adjacentes. Le comportement du réseau neuronal est régi par la force de ces connexions, appelées paramètres. Dans un modèle linguistique, les paramètres contrôlent les mots que le modèle peut produire ensuite, compte tenu d'une invite initiale et des mots qu'il a déjà générés.

Un modèle ne prend véritablement vie qu'au cours de la formation, lorsqu'il compare de manière répétée ses propres résultats au texte de son ensemble de données de formation et qu'il ajuste ses paramètres afin d'accroître la ressemblance. Un réseau non entraîné avec des paramètres aléatoires est trivialement facile à assembler à partir de quelques lignes de code, mais il ne produira que du charabia. Après l'entraînement, il peut souvent poursuivre de manière plausible un texte peu familier. Les modèles de plus grande taille sont souvent soumis à des réglages plus fins qui leur apprennent à répondre à des questions et à suivre des instructions, mais l'essentiel de la formation consiste à maîtriser la prédiction des mots.

Pour réussir à prédire des mots, un modèle linguistique doit maîtriser de nombreuses compétences différentes. Par exemple, les règles de la grammaire anglaise suggèrent que le mot suivant le mot "going" sera probablement "to", quel que soit le sujet du texte. En outre, un système a besoin de connaissances factuelles pour compléter "la capitale de la France est", et compléter un passage contenant le mot "not" nécessite une connaissance rudimentaire de la logique.

"Le langage brut est très compliqué", explique Timothy Nguyen, chercheur en apprentissage automatique chez DeepMind. "Pour que des capacités linguistiques intéressantes apparaissent, les gens ont eu recours à l'idée que plus il y a de données, mieux c'est".

(photo) Ronen Eldan s'est rendu compte qu'il pouvait utiliser les histoires d'enfants générées par de grands modèles linguistiques pour en entraîner rapidement de plus petits.

Introduction

Ronen Eldan, mathématicien qui a rejoint Microsoft Research en 2022 pour étudier les modèles de langage génératifs, souhaitait développer un moyen moins coûteux et plus rapide d'explorer leurs capacités. Le moyen naturel d'y parvenir était d'utiliser un petit ensemble de données, ce qui signifiait qu'il devait entraîner les modèles à se spécialiser dans une tâche spécifique, afin qu'ils ne s'éparpillent pas. Au départ, il voulait entraîner les modèles à résoudre une certaine catégorie de problèmes mathématiques, mais un après-midi, après avoir passé du temps avec sa fille de 5 ans, il s'est rendu compte que les histoires pour enfants convenaient parfaitement. "L'idée m'est venue littéralement après lui avoir lu une histoire", a-t-il déclaré.

Pour générer des histoires cohérentes pour les enfants, un modèle de langage devrait apprendre des faits sur le monde, suivre les personnages et les événements, et observer les règles de grammaire - des versions plus simples des défis auxquels sont confrontés les grands modèles. Mais les grands modèles formés sur des ensembles de données massives apprennent d'innombrables détails non pertinents en même temps que les règles qui comptent vraiment. Eldan espérait que la brièveté et le vocabulaire limité des histoires pour enfants rendraient l'apprentissage plus gérable pour les petits modèles, ce qui les rendrait à la fois plus faciles à former et plus faciles à comprendre.

Dans le monde des modèles de langage, cependant, le terme "petit" est relatif : Un ensemble de données mille fois plus petit que celui utilisé pour former GPT-3.5 devrait encore contenir des millions d'histoires. "Je ne sais pas combien d'argent vous voulez dépenser, mais je suppose que vous n'allez pas engager des professionnels pour écrire quelques millions de nouvelles", a déclaré M. Nguyen.

Il faudrait un auteur extraordinairement prolifique pour satisfaire des lecteurs aussi voraces, mais Eldan avait quelques candidats en tête. Qui peut mieux écrire pour un public de petits modèles linguistiques que pour de grands modèles ?

Toys stories

Eldan a immédiatement entrepris de créer une bibliothèque d'histoires synthétiques pour enfants générées par de grands modèles linguistiques. Mais il a rapidement découvert que même les modèles de pointe ne sont pas naturellement très créatifs. Si l'on demande à GPT-4 d'écrire des histoires adaptées à des enfants de 4 ans, explique Eldan, "environ un cinquième des histoires concernera des enfants qui vont au parc et qui ont peur des toboggans". C'est apparemment la quintessence des histoires pour enfants d'âge préscolaire, selon l'Internet.

La solution a consisté à ajouter un peu d'aléatoire dans le message. Tout d'abord, Eldan a utilisé le GPT-4 pour générer une liste de 1 500 noms, verbes et adjectifs qu'un enfant de 4 ans pourrait connaître - suffisamment courte pour qu'il puisse facilement la vérifier lui-même. Il a ensuite écrit un programme informatique simple qui demanderait à plusieurs reprises à GPT-3.5 ou à GPT-4 de générer une histoire adaptée à l'âge de l'enfant, comprenant trois mots aléatoires de la liste, ainsi qu'un détail supplémentaire choisi au hasard, comme une fin heureuse ou un rebondissement de l'intrigue. Les histoires obtenues, heureusement, étaient moins axées sur des diapositives effrayantes.

Eldan disposait désormais d'une procédure pour produire des données de formation à la demande, mais il n'avait aucune idée du nombre d'histoires dont il aurait besoin pour former un modèle fonctionnel, ni de la taille de ce modèle. C'est alors qu'il s'est associé à Yuanzhi Li, chercheur en apprentissage automatique chez Microsoft et à l'université Carnegie Mellon, pour essayer différentes possibilités, en tirant parti du fait que les petits modèles peuvent être formés très rapidement. La première étape consistait à décider comment évaluer leurs modèles.

Introduction

Dans la recherche sur les modèles de langage - comme dans toute salle de classe - la notation est un sujet délicat. Il n'existe pas de rubrique parfaite qui englobe tout ce que les chercheurs veulent savoir, et les modèles qui excellent dans certaines tâches échouent souvent de manière spectaculaire dans d'autres. Au fil du temps, les chercheurs ont mis au point divers critères de référence standard basés sur des questions dont les réponses ne sont pas ambiguës, ce qui est une bonne approche si vous essayez d'évaluer des compétences spécifiques. Mais Eldan et Li se sont intéressés à quelque chose de plus nébuleux : quelle doit être la taille réelle des modèles linguistiques si l'on simplifie le langage autant que possible ?

"Pour vérifier directement si le modèle parle anglais, je pense que la seule chose à faire est de laisser le modèle générer de l'anglais de manière ouverte", a déclaré M. Eldan.

Il n'y a que deux façons de mesurer les performances d'un modèle sur des questions aussi qualitatives : S'appuyer sur des évaluateurs humains ou se tourner à nouveau vers le GPT-4. Les deux chercheurs ont opté pour cette dernière solution, laissant les grands modèles à la fois rédiger les manuels et noter les dissertations.

Bhagavatula a déclaré qu'il aurait aimé voir comment les évaluations de GPT-4 se comparaient à celles des correcteurs humains - GPT-4 peut être biaisé en faveur des modèles qu'il a aidé à former, et l'opacité des modèles de langage rend difficile la quantification de tels biais. Mais il ne pense pas que de telles subtilités affecteraient les comparaisons entre différents modèles formés sur des ensembles similaires d'histoires synthétiques - l'objectif principal du travail d'Eldan et Li.

Eldan et Li ont utilisé une procédure en deux étapes pour évaluer chacun de leurs petits modèles après la formation. Tout d'abord, ils ont présenté au petit modèle la première moitié d'une histoire distincte de celles de l'ensemble des données d'apprentissage, de manière à ce qu'il génère une nouvelle fin, en répétant ce processus avec 50 histoires de test différentes. Ensuite, ils ont demandé à GPT-4 d'évaluer chacune des fins du petit modèle en fonction de trois catégories : créativité, grammaire et cohérence avec le début de l'histoire. Ils ont ensuite fait la moyenne des notes obtenues dans chaque catégorie, obtenant ainsi trois notes finales par modèle.

Avec cette procédure en main, Eldan et Li étaient enfin prêts à comparer les différents modèles et à découvrir quels étaient les étudiants les plus brillants.

Résultats des tests

Après quelques explorations préliminaires, les deux chercheurs ont opté pour un ensemble de données de formation contenant environ 2 millions d'histoires. Ils ont ensuite utilisé cet ensemble de données, baptisé TinyStories, pour entraîner des modèles dont la taille varie de 1 million à 30 millions de paramètres, avec un nombre variable de couches. Le travail a été rapide : En utilisant seulement quatre GPU, l'entraînement du plus grand de ces modèles n'a pas pris plus d'une journée.

Les plus petits modèles ont eu du mal. Par exemple, l'une des histoires testées commence par un homme à l'air méchant qui dit à une fille qu'il va lui prendre son chat. Un modèle à un million de paramètres s'est retrouvé bloqué dans une boucle où la fille répète sans cesse à l'homme qu'elle veut être son amie. Mais les modèles plus grands, qui sont encore des milliers de fois plus petits que GPT-3.5, ont obtenu des résultats surprenants. La version à 28 millions de paramètres racontait une histoire cohérente, même si la fin était sinistre : "Katie s'est mise à pleurer, mais l'homme s'en fichait. Il a emporté le chat et Katie n'a plus jamais revu son chat. Fin de l'histoire".

En plus de tester leurs propres modèles, Eldan et Li ont soumis le même défi au GPT-2 d'OpenAI, un modèle de 1,5 milliard de paramètres publié en 2019. Le résultat a été bien pire - avant la fin abrupte de l'histoire, l'homme menace d'emmener la jeune fille au tribunal, en prison, à l'hôpital, à la morgue et enfin au crématorium.

Introduction

Selon M. Nguyen, il est passionnant que des modèles aussi petits soient aussi fluides, mais il n'est peut-être pas surprenant que GPT-2 ait eu du mal à accomplir la tâche : il s'agit d'un modèle plus grand, mais loin de l'état de l'art, et il a été formé sur un ensemble de données très différent. "Un enfant en bas âge qui ne s'entraînerait qu'à des tâches d'enfant en bas âge, comme jouer avec des jouets, obtiendrait de meilleurs résultats que vous ou moi", a-t-il fait remarquer. "Nous ne nous sommes pas spécialisés dans cette chose simple.

Les comparaisons entre les différents modèles de TinyStories ne souffrent pas des mêmes facteurs de confusion. Eldan et Li ont observé que les réseaux comportant moins de couches mais plus de neurones par couche étaient plus performants pour répondre aux questions nécessitant des connaissances factuelles ; inversement, les réseaux comportant plus de couches et moins de neurones par couche étaient plus performants pour garder en mémoire les personnages et les points de l'intrigue situés plus tôt dans l'histoire. Bhagavatula a trouvé ce résultat particulièrement intriguant. S'il peut être reproduit dans des modèles plus vastes, "ce serait un résultat vraiment intéressant qui pourrait découler de ce travail", a-t-il déclaré.

Eldan et Li ont également étudié comment les capacités de leurs petits modèles dépendaient de la durée de la période de formation. Dans tous les cas, les modèles maîtrisaient d'abord la grammaire, puis la cohérence. Pour Eldan, ce schéma illustre comment les différences dans les structures de récompense entraînent des différences dans les schémas d'acquisition du langage entre les réseaux neuronaux et les enfants. Pour les modèles de langage, qui apprennent en prédisant des mots, "l'incitation pour les mots "je veux avoir" est aussi importante que pour les mots "crème glacée"", a-t-il déclaré. Les enfants, en revanche, "ne se soucient pas de savoir s'ils disent 'j'aimerais avoir de la glace' ou simplement 'glace, glace, glace'".

Qualité contre quantité

Eldan et Li espèrent que cette étude incitera d'autres chercheurs à entraîner différents modèles sur l'ensemble des données de TinyStories et à comparer leurs capacités. Mais il est souvent difficile de prédire quelles caractéristiques des petits modèles apparaîtront également dans les plus grands.

"Peut-être que les modèles de vision chez la souris sont de très bons substituts de la vision humaine, mais les modèles de dépression chez la souris sont-ils de bons modèles de la dépression chez l'homme ? a déclaré M. Pavlick. "Pour chaque cas, c'est un peu différent.

Le succès des modèles TinyStories suggère également une leçon plus large. L'approche standard pour compiler des ensembles de données de formation consiste à aspirer des textes sur l'internet, puis à filtrer les déchets. Le texte synthétique généré par des modèles de grande taille pourrait constituer une autre façon d'assembler des ensembles de données de haute qualité qui n'auraient pas besoin d'être aussi volumineux.

"Nous avons de plus en plus de preuves que cette méthode est très efficace, non seulement pour les modèles de la taille de TinyStories, mais aussi pour les modèles plus importants", a déclaré M. Eldan. Ces preuves proviennent d'une paire d'articles de suivi sur les modèles à un milliard de paramètres, rédigés par Eldan, Li et d'autres chercheurs de Microsoft. Dans le premier article, ils ont entraîné un modèle à apprendre le langage de programmation Python en utilisant des extraits de code générés par GPT-3.5 ainsi que du code soigneusement sélectionné sur l'internet. Dans le second, ils ont complété l'ensemble de données d'entraînement par des "manuels" synthétiques couvrant un large éventail de sujets, afin d'entraîner un modèle linguistique à usage général. Lors de leurs tests, les deux modèles ont été comparés favorablement à des modèles plus importants formés sur des ensembles de données plus vastes. Mais l'évaluation des modèles linguistiques est toujours délicate, et l'approche des données d'entraînement synthétiques n'en est qu'à ses balbutiements - d'autres tests indépendants sont nécessaires.

Alors que les modèles linguistiques de pointe deviennent de plus en plus volumineux, les résultats surprenants de leurs petits cousins nous rappellent qu'il y a encore beaucoup de choses que nous ne comprenons pas, même pour les modèles les plus simples. M. Nguyen s'attend à ce que de nombreux autres articles explorent l'approche inaugurée par TinyStories.

"La question est de savoir où et pourquoi la taille a de l'importance", a-t-il déclaré. "Il devrait y avoir une science à ce sujet, et cet article est, je l'espère, le début d'une riche histoire.

Auteur: Internet

Info: https://www.quantamagazine.org/ Ben Brubaker, 5 octobre 2023

[ synthèse ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

non-voyant

Le monde tel que l'imaginent ceux qui n'ont jamais vu. (I)
Depuis les opérations pratiquées par le chirurgien anglais Cheselden en 1728 sur des personnes atteintes de cataracte congénitale, redonner la vue aux aveugles ne tient plus du miracle biblique mais de la science - et les avancées extraordinaires que la médecine a effectuées dans ce domaine invitent à être optimistes pour l'avenir. Toutefois, la plupart des aveugles de naissance qui vivent aujourd'hui savent que ces progrès bénéficieront surtout aux générations futures et que, pour la majorité d'entre eux, ils quitteront ce monde sans en avoir rien vu. Pour autant, à en croire certains, il n'y a nullement là de quoi s'affliger :" Je ne regrette jamais de ne pas voir. Je vois autrement et puis je n'ai jamais vu avec les yeux, ça ne peut pas me manquer." affirme Sophie Massieu (36 ans, journaliste).
L'aveugle de naissance "ne sait pas ce qu'il perd", littéralement parlant, il n'a donc aucune raison de soupirer après un état qu'il n'a jamais connu. Ce n'est donc pas, dans son cas, sur le mode de la lamentation ou du regret lyrique qu'il faut entendre le mot "jamais", comme ce peut être le cas pour les aveugles tardifs qui restent longtemps hantés par leurs souvenirs de voyant... Non, pour l'aveugle-né, ce "jamais" fonctionne à la manière d'un levier, d'une faille où s'engouffre son imagination : à quoi peut ressembler ce monde visible dont tout le monde parle autour de lui ? Comment se représenter des notions proprement visuelles, telles que les couleurs, l'horizon, la perspective ? Toutes ces questions pourraient tenir en une seule : comment concevoir ce qu'est la vue sans voir ? Question qui a sa réciproque pour le voyant : comment se représenter ce que c'est que de ne pas voir pour quiconque a toujours vu ? Il y a là un défi lancé à l'imagination, défi d'autant plus difficile à relever que les repères auxquels chacun aura spontanément tendance à se référer seront tirés d'un univers perceptif radicalement différent de celui qu'on cherche à se représenter, et qu'ils risquent fort, par conséquent, de nous induire en erreur. Il n'est pas dit que ce fossé perceptif puisse être franchi par l'imagination - mais comme tout fossé, celui-ci appelle des passerelles : analogies puisées dans les autres sens ou dans le langage, efforts pour s'abstraire de ses automatismes de pensée - ce que Christine Cloux, aveugle de naissance, appelle une forme de "souplesse mentale"... L'enjeu, s'il est vital pour l'aveugle, peut sembler minime pour le voyant : que gagne-t-on à imaginer le monde avec un sens en moins ? On aurait tort de négliger l'intérêt d'une telle démarche intellectuelle, car s'interroger sur la perception du monde d'un aveugle de naissance, c'est remettre la nôtre en perspective, en appréhender le caractère relatif, mesurer à quel point nos représentations mentales dépendent de nos dispositions sensibles - enfin, c'est peut-être le moyen de prendre conscience des limites de notre point de vue et, le temps d'un effort d'imagination, de les dépasser...
Imaginer le monde quand on est enfant
Le jeune enfant voyant croit que les choses cessent d'exister dès lors qu'elles quittent son champ de vision : un moment très bref, dit-on, sépare le temps où il croit encore sa mère absente et celui où il la croit déjà morte. Qu'on s'imagine alors ce qu'il en est pour l'enfant aveugle de naissance... "J'avais peur de lancer un ballon, parce que je pensais qu'il allait disparaître. Mon monde s'arrêtait à un mètre, au-delà, pour moi, c'était le vide. "explique Natacha de Montmollin (38 ans, informaticienne de gestion). Comment être sûr que les objets continuent d'exister quand ils sont hors de portée, d'autant plus quand on ne les retrouve pas là où on les avait laissés ? Comment accorder sa confiance à monde aussi inconstant ? Un enfant aveugle de naissance aura nécessairement besoin de plus de temps qu'un enfant voyant pour trouver ses marques et pour comprendre le monde qui l'entoure.
Dans les premières années de sa vie, l'aveugle de naissance n'a pas conscience de son handicap... De fait, s'il ne vivait dans une société de voyants, il passerait toute sa vie sans se douter de l'existence du monde visible. Dans la nouvelle de H. G. Wells Le pays des aveugles, le héros, voyant débarqué dans une communauté d'aveugles qui vit repliée sur elle-même, découvre à ses dépens qu'on y traite ceux qui se prétendent doués de la vue non comme des dieux ou des rois, mais comme des fous, comme nous traitons ceux qui affirment voir des anges - pour le dire autrement : au royaume des aveugles de naissance, les borgnes seraient internés. C'est uniquement parce qu'il vit dans une société organisée par et pour des voyants que l'aveugle finit par contracter, avec le temps, le sentiment de sa différence. Cette découverte peut se faire de différentes manières : les parents peuvent, quand ils estiment leur enfant assez mûr, lui expliquer son infirmité ; l'enfant peut également la découvrir par lui-même, au contact des autres enfants. "On ne m'a jamais expliqué que j'étais aveugle, j'en ai pris conscience avec le temps, explique Sophie Massieu. Quand je jouais à cache-cache avec les autres enfants, je ne comprenais pas pourquoi j'étais toujours la première débusquée... Evidemment, j'étais toujours cachée sous une table, sans rien autour pour me protéger, je sautais un peu aux yeux..."
Le jeune aveugle de naissance finit donc par comprendre qu'il existe une facette de la réalité que les autres perçoivent mais qui lui demeure inaccessible. Dans un premier temps, cette "face du monde" doit lui paraître pour le moins abstraite et difficile à concevoir. Pour avoir un aperçu de l'effort d'imagination que cela exige, le voyant devrait tenter de se représenter une quatrième dimension de l'espace qui l'engloberait sans qu'il en ait conscience...
Il est inévitable que l'aveugle de naissance commence par se faire de certaines choses une représentation inexacte : ces "fourvoiements de l'imagination" constituent des étapes indispensables à l'élaboration de l'intelligence, qu'on soit aveugle ou non. En outre, ils peuvent avoir leur poésie. Un psychologue russe (cité par Pierre Villey dans son ouvrage Le monde des aveugles) mentionne l'exemple d'un jeune aveugle de naissance qui se représentait absolument tous les objets comme en mouvement, jusqu'aux plus immobiles : "pour lui les pierres sautent, les couleurs jouent et rient, les arbres se battent, gémissent, pleurent". Cette représentation peut prêter à sourire, mais après tout, la science et la philosophie ne nous ont-elles pas enseigné que l'immobilité du monde n'était qu'une illusion de la perception, découlant de l'incomplétude de notre point de vue ? A ce titre, l'imagination de ce garçon semblait lui avoir épargné certaines illusions dont l'humanité a eu tant de mal à se déprendre : par exemple, quoiqu'il ne sut rien du mouvement des corps célestes, on raconte que, lorsqu'on lui posa la question : "le soleil et la lune se meuvent-ils ?", il répondit par l'affirmative, sans aucune hésitation.
L'aveugle de naissance peut se représenter la plupart des objets en les palpant. Quand ceux-ci sont trop imposants, des maquettes ou des reproductions peuvent s'y substituer. "J'ai su comment était foutue la Tour Eiffel en ayant un porte-clefs entre les mains... " se souvient Sophie Massieu. Tant que l'objet demeure hors de sa portée, hors du champ de son expérience, il n'est pas rare que l'aveugle s'en fasse une image fantaisiste en se fondant sur la sonorité du mot ou par associations d'idées. Ce défaut n'est pas propre aux aveugles, et "chez chacun, l'imagination devance l'action des sens", pour reprendre l'expression de Pierre Villey. Mais ce défaut peut avoir des conséquences nettement plus fâcheuses chez l'aveugle de naissance, car s'il se contente de ces représentations inexactes et ne cherche pas à les corriger, il risque de méconnaître le monde qui l'entoure et de s'isoler dans un royaume fantasque construit selon les caprices de son imagination. L'aveugle-né n'a pas le choix : il doit s'efforcer de se représenter le monde le plus fidèlement possible, sous peine d'y vivre en étranger...
Imaginer les individus
Très tôt, l'aveugle va trouver des expédients pour se représenter le monde qui l'entoure, à commencer par les gens qu'il côtoie. Leur voix, pour commencer, constitue pour lui une mine d'informations précieuses : l'aveugle prête autant attention à ce que dit son interlocuteur qu'à la manière dont il le dit. La voix révèle un caractère, le ton une humeur, l'accent une origine... "On peut dire ce qu'on veut, mais notre voix parle de nous à notre insu." explique Christine Cloux (36 ans, informaticienne). Certains aveugles considèrent qu'il est beaucoup plus difficile de déguiser les expressions de sa voix que celles de son visage, et pour eux, c'est la voix qui est le miroir de l'âme : "Un monde d'aveugle aurait ses Lavater [auteur de"L'Art de connaître les hommes par la physionomie"]. Une phonognomie y tiendrait lieu de notre physiognomie." écrit Pierre Villey dans Le monde des aveugles. Mais à trop se fier au caractère révélateur d'une voix, l'aveugle s'expose parfois à de cruelles désillusions... Villey cite le cas d'une jeune aveugle qui s'était éprise d'une actrice pour le charme de sa voix : "Instruite des déportements peu recommandables de son idole elle s'écrie dans un naïf élan de désespoir : "Si une pareille voix est capable de mentir, à quoi pourrons-nous donc donner notre confiance ?".
De nombreux autres indices peuvent renseigner l'aveugle sur son interlocuteur : une poignée de main en dit long (Sophie Massieu affirme haïr "les poignées de main pas franches, mollasses...", qu'elle imagine comparables à un regard fuyant) ; le son des pas d'un individu peut renseigner sur sa corpulence et sa démarche ; les odeurs qu'il dégage peuvent donner de précieux renseignements sur son mode de vie - autant d'indices que le voyant néglige souvent, en se focalisant principalement sur les informations que lui fournit sa vue. Quant à l'apparence physique en elle-même, la perspicacité de l'aveugle atteint ici ses limites : "Il y a des choses qu'on sait par le toucher mais d'autres nous échappent : on a la forme du visage, mais on n'a pas la finesse des traits, explique Sophie Massieu. On peut toujours demander aux copines "tiens, il me plaît bien, à quoi il ressemble ?" Bon, il faut avoir des bonnes copines... " Certains aveugles de naissance sont susceptibles de se laisser influencer par les goûts de la majorité voyante : Jane Hervé mentionne la préférence d'une aveugle de naissance pour les blonds aux yeux bleus :"Je crois que les blonds sont beaux. Peut-être que c'est rare...". "D'une façon générale, je pense que la manière dont nous imaginons les choses que nous ne pouvons pas percevoir tient beaucoup à la manière dont on nous en parle, explique Sophie Massieu. Si la personne qui vous le décrit trouve ça beau, vous allez trouvez ça beau, si elle trouve ça moche, vous allez trouver ça moche...". De ce point de vue, l'aveugle dépend - littéralement - du regard des autres : "Mes amis et ma famille verbalisent beaucoup ce qu'ils voient, alors ils sont en quelque sorte mon miroir parlant..." confie Christine Cloux.
Imaginer l'espace
On a cru longtemps que l'étendue était une notion impossible à concevoir pour un aveugle. Platner, un médecin philosophe du siècle dernier, en était même arrivé à la conclusion que, pour l'aveugle-né, c'était le temps qui devait faire office d'espace : "Eloignement et proximité ne signifient pour lui que le temps plus ou moins long, le nombre plus ou moins grand d'intermédiaires dont il a besoin pour passer d'une sensation tactile à une autre.". Cette théorie est très poétique - on se prend à imaginer, dans un monde d'aveugles-nés, des cartes en relief où la place dévolue à chaque territoire ne serait pas proportionnelle à ses dimensions réelles mais à son accessibilité, au temps nécessaire pour le parcourir... Dans les faits, cependant, cette théorie nous en dit plus sur la manière dont les voyants imaginent le monde des aveugles que sur le contraire. Car s'il faut en croire les principaux intéressés, ils n'ont pas spécialement de difficulté à se figurer l'espace.
"Tout est en 3D dans ma tête, explique Christine Cloux. Si je suis chez moi, je sais exactement comment mon appartement est composé : je peux décrire l'étage inférieur sans y aller, comme si j'en avais une maquette. Vraiment une maquette, pas un dessin ou une photo. De même pour les endroits que je connais ou que j'explore : les gares, des quartiers en ville, etc. Plus je connais, plus c'est précis. Plus j'explore, plus j'agrandis mes maquettes et j'y ajoute des détails."La représentation de l'espace de l'aveugle de naissance se fait bien sous formes d'images spatiales, mais celles-ci n'en sont pas pour autant des images-vues : il faudrait plutôt parler d'images-formes, non visuelles, où l'aveugle projette à l'occasion des impressions tactiles. Pour décrire cette perception, Jane Hervé utilise une comparaison expressive :"les sensations successives et multiples constituent une toile impressionniste - tramée de mille touchers et sensations - suggérant la forme sentie, comme les taches d'or étincelant dans la mer composant l'Impression, soleil devant de Claude Monet."
A l'époque des Lumières, certains commentateurs, stupéfaits par les pouvoirs de déduction des aveugles, s'imaginaient que ceux-ci étaient capables de voir avec le bout de leurs doigts (ils étaient trompés, il faut dire, par certains aveugles qui prétendaient pouvoir reconnaître les couleurs d'un vêtement simplement en touchant son étoffe). Mais les aveugles de naissance eux-mêmes ne sont pas à l'abri de ce genre de méprises : Jane Hervé cite le cas d'une adolescente de 18 ans - tout à fait intelligente par ailleurs - qui pensait que le regard des voyants pouvait contourner les obstacles - exactement comme la main permet d'enserrer entièrement un petit objet pour en connaître la forme. Elle pensait également que les voyants pouvaient voir de face comme de dos, qu'ils étaient doués d'une vision panoramique : "Elle imaginait les voyants comme des Janus bifaces, maîtres du regard dans toutes les directions.". L'aveugle du Puiseaux dont parle Diderot dans sa Lettre sur les aveugles, ne sachant pas ce que voulait dire le mot miroir, imaginait une machine qui met l'homme en relief, hors de lui-même. Chacun imagine l'univers perceptif de l'autre à partir de son univers perceptif propre : le voyant croit que l'aveugle voit avec les doigts, l'aveugle que le voyant palpe avec les yeux. Comme dans la parabole hindoue où des individus plongés dans l'obscurité tentent de déduire la forme d'un éléphant en se fondant uniquement sur la partie du corps qu'ils ont touché (untel qui a touché la trompe prétend que l'éléphant a la forme d'un tuyau d'eau, tel autre qui a touché l'oreille lui prête la forme d'un éventail...) - semblablement les êtres humains imaginent un inconnu radical à partir de ce qu'ils connaissent, quand bien même ces repères se révèlent impropres à se le représenter.
Parmi les notions spatiales particulièrement difficiles à appréhender pour un aveugle, il y a la perspective - le fait que la taille apparente d'un objet diminue proportionnellement à son éloignement pour le sujet percevant. "En théorie je comprends ce qu'est la perspective, mais de là à parvenir à réaliser un dessin ou à en comprendre un, c'est autre chose - c'est d'ailleurs la seule mauvaise note que j'ai eu en géométrie, explique Christine Cloux. Par exemple, je comprends que deux rails au loin finissent par ne former qu'une ligne. Mais ce n'est qu'une illusion, car en réalité il y a toujours deux rails, et dans ma tête aussi. Deux rails, même très loin, restent deux rails, sans quoi le train va avoir des ennuis pour passer..." Noëlle Roy, conservatrice du musée Valentin Haüy, se souvient d'une aveugle âgée, qui, effleurant avec ses doigts une reproduction en bas-relief du tableau l'Angélus de Millet, s'était étonnée que les deux paysans au premier plan soient plus grands que le clocher dont la silhouette se découpe sur l'horizon. Quand on lui expliqua que c'était en vertu des lois de la perspective, les personnages se trouvant au premier plan et le clocher très loin dans la profondeur de champ, la dame s'étonna qu'on ne lui ait jamais expliqué cela... On peut se demander comment cette dame aurait réagi si, recouvrant l'usage de la vue suite à une opération chirurgicale, elle avait aperçu la minuscule silhouette d'un individu dans le lointain : aurait-elle pensé que c'était là sa taille réelle et que cet individu, s'approchant d'elle, n'en serait pas plus grand pour autant ? Jane Hervé cite le témoignage d'une aveugle de 62 ans qui a retrouvé la vue suite à une opération : "Tout était déformé, il n'y avait plus aucune ligne droite, tout était concave... Les murs m'emprisonnaient, les toitures des maisons paraissaient s'effondrer comme après un bombardement. Ce que je voyais ovale, je le sentais rond avec mes mains. Ce que je distinguais à distance, je le sentais sur moi. J'avais des vertiges permanents. "On peut s'imaginer le cauchemar que représente une perception du monde où la vision et la sensation tactile ne concordent pas, où les sens envoient au cerveau des signaux impossibles à concilier... D'autres aveugles de naissance, ayant recouvré l'usage de la vue suite à une opération, dirent avoir l'impression que les objets leur touchaient les yeux : ils eurent besoin de plusieurs jours pour saisir la distance et de plusieurs semaines pour apprendre à l'évaluer correctement. Cela nous rappelle que notre vision du monde en trois dimensions n'a rien d'innée, qu'elle résulte au contraire d'un apprentissage et qu'il y entre une part considérable de construction intellectuelle.

Auteur: Molard Arthur

Info: http://www.jeanmarcmeyrat.ch/blog/2011/05/12/le-monde-tel-que-limaginent-ceux-qui-nont-jamais-vu

[ réflexion ] [ vacuité ] [ onirisme ] [ mimétisme ] [ synesthésie ] [ imagination ]

Commenter

Mis dans la chaine

Commentaires: 0

interrogation

Pourquoi cet univers ? Un nouveau calcul suggère que notre cosmos est typique.

Deux physiciens ont calculé que l’univers a une entropie plus élevée – et donc plus probable – que d’autres univers possibles. Le calcul est " une réponse à une question qui n’a pas encore été pleinement comprise ".

(image : Les propriétés de notre univers – lisse, plat, juste une pincée d’énergie noire – sont ce à quoi nous devrions nous attendre, selon un nouveau calcul.)

Les cosmologues ont passé des décennies à chercher à comprendre pourquoi notre univers est si étonnamment vanille. Non seulement il est lisse et plat à perte de vue, mais il s'étend également à un rythme toujours plus lent, alors que des calculs naïfs suggèrent que – à la sortie du Big Bang – l'espace aurait dû se froisser sous l'effet de la gravité et détruit par une énergie noire répulsive.

Pour expliquer la planéité du cosmos, les physiciens ont ajouté un premier chapitre dramatique à l'histoire cosmique : ils proposent que l'espace se soit rapidement gonflé comme un ballon au début du Big Bang, aplanissant toute courbure. Et pour expliquer la légère croissance de l’espace après cette première période d’inflation, certains ont avancé que notre univers n’est qu’un parmi tant d’autres univers moins hospitaliers dans un multivers géant.

Mais maintenant, deux physiciens ont bouleversé la pensée conventionnelle sur notre univers vanille. Suivant une ligne de recherche lancée par Stephen Hawking et Gary Gibbons en 1977, le duo a publié un nouveau calcul suggérant que la clarté du cosmos est attendue plutôt que rare. Notre univers est tel qu'il est, selon Neil Turok de l'Université d'Édimbourg et Latham Boyle de l'Institut Perimeter de physique théorique de Waterloo, au Canada, pour la même raison que l'air se propage uniformément dans une pièce : des options plus étranges sont concevables, mais extrêmement improbable.

L'univers " peut sembler extrêmement précis, extrêmement improbable, mais eux disent : 'Attendez une minute, c'est l'univers préféré' ", a déclaré Thomas Hertog , cosmologue à l'Université catholique de Louvain en Belgique.

"Il s'agit d'une contribution nouvelle qui utilise des méthodes différentes de celles utilisées par la plupart des gens", a déclaré Steffen Gielen , cosmologue à l'Université de Sheffield au Royaume-Uni.

La conclusion provocatrice repose sur une astuce mathématique consistant à passer à une horloge qui tourne avec des nombres imaginaires. En utilisant l'horloge imaginaire, comme Hawking l'a fait dans les années 70, Turok et Boyle ont pu calculer une quantité, connue sous le nom d'entropie, qui semble correspondre à notre univers. Mais l’astuce du temps imaginaire est une manière détournée de calculer l’entropie, et sans une méthode plus rigoureuse, la signification de la quantité reste vivement débattue. Alors que les physiciens s’interrogent sur l’interprétation correcte du calcul de l’entropie, beaucoup le considèrent comme un nouveau guide sur la voie de la nature quantique fondamentale de l’espace et du temps.

"D'une manière ou d'une autre", a déclaré Gielen, "cela nous donne peut-être une fenêtre sur la microstructure de l'espace-temps."

Chemins imaginaires

Turok et Boyle, collaborateurs fréquents, sont réputés pour avoir conçu des idées créatives et peu orthodoxes sur la cosmologie. L’année dernière, pour étudier la probabilité que notre Univers soit probable, ils se sont tournés vers une technique développée dans les années 1940 par le physicien Richard Feynman.

Dans le but de capturer le comportement probabiliste des particules, Feynman a imaginé qu'une particule explore toutes les routes possibles reliant le début à la fin : une ligne droite, une courbe, une boucle, à l'infini. Il a imaginé un moyen d'attribuer à chaque chemin un nombre lié à sa probabilité et d'additionner tous les nombres. Cette technique de " l’intégrale du chemin " est devenue un cadre puissant pour prédire le comportement probable d’un système quantique.

Dès que Feynman a commencé à faire connaître l’intégrale du chemin, les physiciens ont repéré un curieux lien avec la thermodynamique, la vénérable science de la température et de l’énergie. C'est ce pont entre la théorie quantique et la thermodynamique qui a permis les calculs de Turok et Boyle.

La thermodynamique exploite la puissance des statistiques afin que vous puissiez utiliser seulement quelques chiffres pour décrire un système composé de plusieurs éléments, comme les milliards de molécules d'air qui s'agitent dans une pièce. La température, par exemple – essentiellement la vitesse moyenne des molécules d’air – donne une idée approximative de l’énergie de la pièce. Les propriétés globales telles que la température et la pression décrivent un " macrostate " de la pièce.

Mais ce terme de un macro-état est un compte rendu rudimentaire ; les molécules d’air peuvent être disposées d’un très grand nombre de manières qui correspondent toutes au même macroétat. Déplacez un peu un atome d’oxygène vers la gauche et la température ne bougera pas. Chaque configuration microscopique unique est appelée microétat, et le nombre de microétats correspondant à un macroétat donné détermine son entropie.

L'entropie donne aux physiciens un moyen précis de comparer les probabilités de différents résultats : plus l'entropie d'un macroétat est élevée, plus il est probable. Il existe bien plus de façons pour les molécules d'air de s'organiser dans toute la pièce que si elles étaient regroupées dans un coin, par exemple. En conséquence, on s’attend à ce que les molécules d’air se propagent (et restent dispersées). La vérité évidente selon laquelle les résultats probables sont probables, exprimée dans le langage de la physique, devient la célèbre deuxième loi de la thermodynamique : selon laquelle l’entropie totale d’un système a tendance à croître.

La ressemblance avec l'intégrale du chemin était indubitable : en thermodynamique, on additionne toutes les configurations possibles d'un système. Et avec l’intégrale du chemin, vous additionnez tous les chemins possibles qu’un système peut emprunter. Il y a juste une distinction assez flagrante : la thermodynamique traite des probabilités, qui sont des nombres positifs qui s'additionnent simplement. Mais dans l'intégrale du chemin, le nombre attribué à chaque chemin est complexe, ce qui signifie qu'il implique le nombre imaginaire i , la racine carrée de −1. Les nombres complexes peuvent croître ou diminuer lorsqu’ils sont additionnés, ce qui leur permet de capturer la nature ondulatoire des particules quantiques, qui peuvent se combiner ou s’annuler.

Pourtant, les physiciens ont découvert qu’une simple transformation peut vous faire passer d’un domaine à un autre. Rendez le temps imaginaire (un mouvement connu sous le nom de rotation de Wick d'après le physicien italien Gian Carlo Wick), et un second i entre dans l'intégrale du chemin qui étouffe le premier, transformant les nombres imaginaires en probabilités réelles. Remplacez la variable temps par l'inverse de la température et vous obtenez une équation thermodynamique bien connue.

Cette astuce de Wick a conduit Hawking et Gibbons à une découverte à succès en 1977, à la fin d'une série éclair de découvertes théoriques sur l'espace et le temps.

L'entropie de l'espace-temps

Des décennies plus tôt, la théorie de la relativité générale d’Einstein avait révélé que l’espace et le temps formaient ensemble un tissu unifié de réalité – l’espace-temps – et que la force de gravité était en réalité la tendance des objets à suivre les plis de l’espace-temps. Dans des circonstances extrêmes, l’espace-temps peut se courber suffisamment fortement pour créer un Alcatraz incontournable connu sous le nom de trou noir.

En 1973, Jacob Bekenstein a avancé l’hérésie selon laquelle les trous noirs seraient des prisons cosmiques imparfaites. Il a estimé que les abysses devraient absorber l'entropie de leurs repas, plutôt que de supprimer cette entropie de l'univers et de violer la deuxième loi de la thermodynamique. Mais si les trous noirs ont de l’entropie, ils doivent aussi avoir des températures et rayonner de la chaleur.

Stephen Hawking, sceptique, a tenté de prouver que Bekenstein avait tort, en se lançant dans un calcul complexe du comportement des particules quantiques dans l'espace-temps incurvé d'un trou noir. À sa grande surprise, il découvrit en 1974 que les trous noirs rayonnaient effectivement. Un autre calcul a confirmé l'hypothèse de Bekenstein : un trou noir a une entropie égale au quart de la surface de son horizon des événements – le point de non-retour pour un objet tombant.

Dans les années qui suivirent, les physiciens britanniques Gibbons et Malcolm Perry, puis plus tard Gibbons et Hawking, arrivèrent au même résultat dans une autre direction . Ils ont établi une intégrale de chemin, additionnant en principe toutes les différentes manières dont l'espace-temps pourrait se plier pour former un trou noir. Ensuite, ils ont fait tourner le trou noir, marquant l'écoulement du temps avec des nombres imaginaires, et ont scruté sa forme. Ils ont découvert que, dans la direction du temps imaginaire, le trou noir revenait périodiquement à son état initial. Cette répétition semblable au jour de la marmotte dans un temps imaginaire a donné au trou noir une sorte de stase qui leur a permis de calculer sa température et son entropie.

Ils n’auraient peut-être pas fait confiance aux résultats si les réponses n’avaient pas correspondu exactement à celles calculées précédemment par Bekenstein et Hawking. À la fin de la décennie, leur travail collectif avait donné naissance à une idée surprenante : l’entropie des trous noirs impliquait que l’espace-temps lui-même était constitué de minuscules morceaux réorganisables, tout comme l’air est constitué de molécules. Et miraculeusement, même sans savoir ce qu’étaient ces " atomes gravitationnels ", les physiciens ont pu compter leurs arrangements en regardant un trou noir dans un temps imaginaire.

"C'est ce résultat qui a laissé une très profonde impression sur Hawking", a déclaré Hertog, ancien étudiant diplômé et collaborateur de longue date de Hawking. Hawking s'est immédiatement demandé si la rotation de Wick fonctionnerait pour autre chose que les trous noirs. "Si cette géométrie capture une propriété quantique d'un trou noir", a déclaré Hertog, "alors il est irrésistible de faire la même chose avec les propriétés cosmologiques de l'univers entier."

Compter tous les univers possibles

Immédiatement, Hawking et Gibbons Wick ont fait tourner l’un des univers les plus simples imaginables – un univers ne contenant rien d’autre que l’énergie sombre construite dans l’espace lui-même. Cet univers vide et en expansion, appelé espace-temps " de Sitter ", a un horizon au-delà duquel l’espace s’étend si rapidement qu’aucun signal provenant de cet espace ne parviendra jamais à un observateur situé au centre de l’espace. En 1977, Gibbons et Hawking ont calculé que, comme un trou noir, un univers de De Sitter possède également une entropie égale au quart de la surface de son horizon. Encore une fois, l’espace-temps semblait comporter un nombre incalculable de micro-états.

Mais l’entropie de l’univers réel restait une question ouverte. Notre univers n'est pas vide ; il regorge de lumière rayonnante et de flux de galaxies et de matière noire. La lumière a provoqué une expansion rapide de l'espace pendant la jeunesse de l'univers, puis l'attraction gravitationnelle de la matière a ralenti les choses pendant l'adolescence cosmique. Aujourd’hui, l’énergie sombre semble avoir pris le dessus, entraînant une expansion galopante. "Cette histoire d'expansion est une aventure semée d'embûches", a déclaré Hertog. "Il n'est pas si facile d'obtenir une solution explicite."

Au cours de la dernière année, Boyle et Turok ont élaboré une solution aussi explicite. Tout d'abord, en janvier, alors qu'ils jouaient avec des cosmologies jouets, ils ont remarqué que l'ajout de radiations à l'espace-temps de De Sitter ne gâchait pas la simplicité requise pour faire tourner l'univers par Wick.

Puis, au cours de l’été, ils ont découvert que la technique résisterait même à l’inclusion désordonnée de matière. La courbe mathématique décrivant l’histoire plus complexe de l’expansion relevait toujours d’un groupe particulier de fonctions faciles à manipuler, et le monde de la thermodynamique restait accessible. "Cette rotation de Wick est une affaire trouble lorsque l'on s'éloigne d'un espace-temps très symétrique", a déclaré Guilherme Leite Pimentel , cosmologiste à la Scuola Normale Superiore de Pise, en Italie. "Mais ils ont réussi à le trouver."

En faisant tourner Wick l’histoire de l’expansion en montagnes russes d’une classe d’univers plus réaliste, ils ont obtenu une équation plus polyvalente pour l’entropie cosmique. Pour une large gamme de macroétats cosmiques définis par le rayonnement, la matière, la courbure et une densité d'énergie sombre (tout comme une plage de températures et de pressions définit différents environnements possibles d'une pièce), la formule crache le nombre de microétats correspondants. Turok et Boyle ont publié leurs résultats en ligne début octobre.

Les experts ont salué le résultat explicite et quantitatif. Mais à partir de leur équation d’entropie, Boyle et Turok ont tiré une conclusion non conventionnelle sur la nature de notre univers. "C'est là que cela devient un peu plus intéressant et un peu plus controversé", a déclaré Hertog.

Boyle et Turok pensent que l'équation effectue un recensement de toutes les histoires cosmiques imaginables. Tout comme l'entropie d'une pièce compte toutes les façons d'arranger les molécules d'air pour une température donnée, ils soupçonnent que leur entropie compte toutes les façons dont on peut mélanger les atomes de l'espace-temps et se retrouver avec un univers avec une histoire globale donnée. courbure et densité d’énergie sombre.

Boyle compare le processus à l'examen d'un gigantesque sac de billes, chacune représentant un univers différent. Ceux qui ont une courbure négative pourraient être verts. Ceux qui ont des tonnes d'énergie sombre pourraient être des yeux de chat, et ainsi de suite. Leur recensement révèle que l’écrasante majorité des billes n’ont qu’une seule couleur – le bleu, par exemple – correspondant à un type d’univers : un univers globalement semblable au nôtre, sans courbure appréciable et juste une touche d’énergie sombre. Les types de cosmos les plus étranges sont extrêmement rares. En d’autres termes, les caractéristiques étrangement vanille de notre univers qui ont motivé des décennies de théorie sur l’inflation cosmique et le multivers ne sont peut-être pas étranges du tout.

"C'est un résultat très intrigant", a déclaré Hertog. Mais " cela soulève plus de questions que de réponses ".

Compter la confusion

Boyle et Turok ont calculé une équation qui compte les univers. Et ils ont fait l’observation frappante que des univers comme le nôtre semblent représenter la part du lion des options cosmiques imaginables. Mais c’est là que s’arrête la certitude.

Le duo ne tente pas d’expliquer quelle théorie quantique de la gravité et de la cosmologie pourrait rendre certains univers communs ou rares. Ils n’expliquent pas non plus comment notre univers, avec sa configuration particulière de parties microscopiques, est né. En fin de compte, ils considèrent leurs calculs comme un indice permettant de déterminer quels types d’univers sont préférés plutôt que comme quelque chose qui se rapproche d’une théorie complète de la cosmologie. "Ce que nous avons utilisé est une astuce bon marché pour obtenir la réponse sans connaître la théorie", a déclaré Turok.

Leurs travaux revitalisent également une question restée sans réponse depuis que Gibbons et Hawking ont lancé pour la première fois toute l’histoire de l’entropie spatio-temporelle : quels sont exactement les micro-états que compte l’astuce bon marché ?

"L'essentiel ici est de dire que nous ne savons pas ce que signifie cette entropie", a déclaré Henry Maxfield , physicien à l'Université de Stanford qui étudie les théories quantiques de la gravité.

En son cœur, l’entropie résume l’ignorance. Pour un gaz constitué de molécules, par exemple, les physiciens connaissent la température – la vitesse moyenne des particules – mais pas ce que fait chaque particule ; l'entropie du gaz reflète le nombre d'options.

Après des décennies de travaux théoriques, les physiciens convergent vers une vision similaire pour les trous noirs. De nombreux théoriciens pensent aujourd'hui que la zone de l'horizon décrit leur ignorance de ce qui s'y trouve, de toutes les façons dont les éléments constitutifs du trou noir sont disposés de manière interne pour correspondre à son apparence extérieure. (Les chercheurs ne savent toujours pas ce que sont réellement les microétats ; les idées incluent des configurations de particules appelées gravitons ou cordes de la théorie des cordes.)

Mais lorsqu’il s’agit de l’entropie de l’univers, les physiciens se sentent moins sûrs de savoir où se situe leur ignorance.

En avril, deux théoriciens ont tenté de donner à l’entropie cosmologique une base mathématique plus solide. Ted Jacobson , physicien à l'Université du Maryland réputé pour avoir dérivé la théorie de la gravité d'Einstein de la thermodynamique des trous noirs, et son étudiant diplômé Batoul Banihashemi ont explicitement défini l'entropie d'un univers de Sitter (vacant et en expansion). Ils ont adopté la perspective d’un observateur au centre. Leur technique, qui consistait à ajouter une surface fictive entre l'observateur central et l'horizon, puis à rétrécir la surface jusqu'à ce qu'elle atteigne l'observateur central et disparaisse, a récupéré la réponse de Gibbons et Hawking selon laquelle l'entropie est égale à un quart de la surface de l'horizon. Ils ont conclu que l’entropie de De Sitter compte tous les microétats possibles à l’intérieur de l’horizon.

Turok et Boyle calculent la même entropie que Jacobson et Banihashemi pour un univers vide. Mais dans leur nouveau calcul relatif à un univers réaliste rempli de matière et de rayonnement, ils obtiennent un nombre beaucoup plus grand de microétats – proportionnels au volume et non à la surface. Face à ce conflit apparent, ils spéculent que les différentes entropies répondent à des questions différentes : la plus petite entropie de De Sitter compte les microétats d'un espace-temps pur délimité par un horizon, tandis qu'ils soupçonnent que leur plus grande entropie compte tous les microétats d'un espace-temps rempli d'espace-temps. matière et énergie, tant à l’intérieur qu’à l’extérieur de l’horizon. "C'est tout un shebang", a déclaré Turok.

En fin de compte, régler la question de savoir ce que comptent Boyle et Turok nécessitera une définition mathématique plus explicite de l’ensemble des microétats, analogue à ce que Jacobson et Banihashemi ont fait pour l’espace de Sitter. Banihashemi a déclaré qu'elle considérait le calcul d'entropie de Boyle et Turok " comme une réponse à une question qui n'a pas encore été entièrement comprise ".

Quant aux réponses plus établies à la question " Pourquoi cet univers ? ", les cosmologistes affirment que l’inflation et le multivers sont loin d’être morts. La théorie moderne de l’inflation, en particulier, est parvenue à résoudre bien plus que la simple question de la douceur et de la planéité de l’univers. Les observations du ciel correspondent à bon nombre de ses autres prédictions. L'argument entropique de Turok et Boyle a passé avec succès un premier test notable, a déclaré Pimentel, mais il lui faudra trouver d'autres données plus détaillées pour rivaliser plus sérieusement avec l'inflation.

Comme il sied à une grandeur qui mesure l’ignorance, les mystères enracinés dans l’entropie ont déjà servi de précurseurs à une physique inconnue. À la fin des années 1800, une compréhension précise de l’entropie en termes d’arrangements microscopiques a permis de confirmer l’existence des atomes. Aujourd'hui, l'espoir est que si les chercheurs calculant l'entropie cosmologique de différentes manières peuvent déterminer exactement à quelles questions ils répondent, ces chiffres les guideront vers une compréhension similaire de la façon dont les briques Lego du temps et de l'espace s'empilent pour créer l'univers qui nous entoure.

"Notre calcul fournit une énorme motivation supplémentaire aux personnes qui tentent de construire des théories microscopiques de la gravité quantique", a déclaré Turok. "Parce que la perspective est que cette théorie finira par expliquer la géométrie à grande échelle de l'univers."

Auteur: Internet

Info: https://www.quantamagazine.org/ - Charlie Wood, 17 nov 2022

[ constante fondamentale ] [ 1/137 ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel