Les fils de la pensée

exobiologie

Les doutes grandissent quant à l’approche biosignature de la chasse aux extraterrestres

Les controverses récentes sont de mauvais augure pour les efforts visant à détecter la vie sur d’autres planètes en analysant les gaz présents dans leur atmosphère.

En 2020, des scientifiques ont détecté un gaz appelé phosphine dans l’atmosphère d’une planète rocheuse de la taille de la Terre. Sachant qu'il est impossible de produire de la phosphine autrement que par des processus biologiques, "les scientifiques affirment que quelque chose de vivant est la seule explication de l'origine de ce produit chimique", a rapporté le New York Times . En ce qui concerne les " gaz biosignatures ", la phosphine semblait être un coup de circuit.

Jusqu'à ce que ce ne soit plus le cas.

La planète était Vénus, et l’affirmation concernant une potentielle biosignature dans le ciel vénusien est toujours embourbée dans la controverse, même des années plus tard. Les scientifiques ne peuvent pas s'entendre sur la présence de phosphine là-bas, et encore moins sur la question de savoir si cela constituerait une preuve solide de l'existence d'une biosphère extraterrestre sur notre planète jumelle.

Ce qui s’est avéré difficile pour Vénus ne le sera que pour les exoplanètes situées à plusieurs années-lumière.

Le télescope spatial James Webb (JWST) de la NASA, lancé en 2021, a déjà renvoyé des données sur la composition atmosphérique d'une exoplanète de taille moyenne baptisée K2-18 b que certains ont interprétée – de manière controversée – comme une preuve possible de la vie. Mais alors même que les espoirs de détection de biosignature montent en flèche, certains scientifiques commencent à se demander ouvertement si les gaz présents dans l’atmosphère d’une exoplanète constitueront un jour une preuve convaincante de l’existence d’extraterrestres.

De nombreux articles récents explorent les redoutables incertitudes liées à la détection de la biosignature des exoplanètes. L'un des principaux défis qu'ils identifient est ce que le philosophe des sciences Peter Vickers de l'Université de Durham appelle le problème des alternatives non conçues . En termes simples, comment les scientifiques peuvent-ils être sûrs d’avoir exclu toute explication non biologique possible de la présence d’un gaz – surtout tant que la géologie et la chimie des exoplanètes restent presque aussi mystérieuses que la vie extraterrestre ?

"De nouvelles idées sont constamment explorées, et il pourrait y avoir un mécanisme abiotique pour ce phénomène qui n'a tout simplement pas encore été conçu", a déclaré Vickers. "C'est le problème des alternatives inconçues en astrobiologie."

"C'est un peu l'éléphant dans la pièce", a déclaré l'astronome Daniel Angerhausen de l'École polytechnique fédérale de Zurich, qui est un scientifique du projet sur la mission LIFE, un télescope spatial proposé qui rechercherait des gaz de biosignature sur des planètes semblables à la Terre. exoplanètes.

Si ou quand les scientifiques détectent un gaz de biosignature putatif sur une planète lointaine, ils peuvent utiliser une formule appelée théorème de Bayes pour calculer les chances de vie là-bas sur la base de trois probabilités. Deux d’entre eux concernent la biologie. La première est la probabilité que la vie apparaisse sur cette planète, compte tenu de tout ce que l’on sait d’elle. La seconde est la probabilité que, si la vie existait, elle créerait la biosignature que nous observons. Les deux facteurs comportent d'importantes incertitudes, selon les astrobiologistes Cole Mathis de l'Arizona State University et Harrison Smith de l'Institut des sciences de la Terre et de la vie de l'Institut de technologie de Tokyo, qui ont exploré ce type de raisonnement dans un article l'automne dernier.

Le troisième facteur est la probabilité qu'une planète sans vie produise le signal observé – un défi tout aussi sérieux, réalisent maintenant les chercheurs, qui est mêlé au problème des alternatives abiotiques inconçues.

"C'est la probabilité que nous disons que vous ne pouvez pas remplir vos fonctions de manière responsable", a déclaré Vickers. "Cela pourrait presque aller de zéro à 1."

Prenons le cas de K2-18 b, une " mini-Neptune " de taille intermédiaire entre la Terre et Neptune. En 2023, les données du JWST ont révélé un signe statistiquement faible de sulfure de diméthyle (DMS) dans son atmosphère. Sur Terre, le DMS est produit par des organismes marins. Les chercheurs qui l’ont provisoirement détecté sur K2-18b ont interprété les autres gaz découverts dans son ciel comme signifiant que la planète est un " monde aquatique " avec un océan de surface habitable, confortant ainsi leur théorie selon laquelle le DMS proviendrait de la vie marine. Mais d'autres scientifiques interprètent les mêmes observations comme la preuve d'une composition planétaire gazeuse et inhospitalière ressemblant davantage à celle de Neptune.

Des alternatives inconcevables ont déjà contraint les astrobiologistes à plusieurs reprises à réviser leurs idées sur ce qui constitue une bonne biosignature. Lorsque la phosphine a été détectée sur Vénus , les scientifiques ne connaissaient aucun moyen de la produire sur un monde rocheux sans vie. Depuis lors, ils ont identifié plusieurs sources abiotiques possibles de gaz . Un scénario est que les volcans libèrent des composés chimiques appelés phosphures, qui pourraient réagir avec le dioxyde de soufre présent dans l'atmosphère de Vénus pour former de la phosphine – une explication plausible étant donné que les scientifiques ont trouvé des preuves d'un volcanisme actif sur notre planète jumelle. De même, l'oxygène était considéré comme un gaz biosignature jusqu'aux années 2010, lorsque des chercheurs, dont Victoria Meadows du laboratoire planétaire virtuel de l'Institut d'astrobiologie de la NASA, ont commencé à trouver des moyens permettant aux planètes rocheuses d' accumuler de l'oxygène sans biosphère. Par exemple, l’oxygène peut se former à partir du dioxyde de soufre, qui abonde sur des mondes aussi divers que Vénus et Europe.

Aujourd’hui, les astrobiologistes ont largement abandonné l’idée selon laquelle un seul gaz pourrait constituer une biosignature. Au lieu de cela, ils se concentrent sur l’identification d’« ensembles », ou d’ensembles de gaz qui ne pourraient pas coexister sans vie. Si quelque chose peut être appelé la biosignature de référence actuelle, c’est bien la combinaison de l’oxygène et du méthane. Le méthane se dégrade rapidement dans les atmosphères riches en oxygène. Sur Terre, les deux gaz ne coexistent que parce que la biosphère les reconstitue continuellement.

Jusqu’à présent, les scientifiques n’ont pas réussi à trouver une explication abiotique aux biosignatures oxygène-méthane. Mais Vickers, Smith et Mathis doutent que cette paire particulière – ou peut-être n’importe quel mélange de gaz – soit un jour convaincante. "Il n'y a aucun moyen d'être certain que ce que nous observons est réellement une conséquence de la vie, par opposition à un processus géochimique inconnu", a déclaré Smith.

" JWST n'est pas un détecteur de vie. C'est un télescope qui peut nous dire quels gaz se trouvent dans l'atmosphère d'une planète ", a déclaré Mathis.

Sarah Rugheimer, astrobiologiste à l'Université York qui étudie les atmosphères des exoplanètes, est plus optimiste. Elle étudie activement d’autres explications abiotiques pour les biosignatures d’ensemble comme l’oxygène et le méthane. Pourtant, dit-elle, " j’ouvrirais une bouteille de champagne – du champagne très cher – si nous voyions de l’oxygène, du méthane, de l’eau et du CO 2 " sur une exoplanète.

Bien sûr, verser un verre sur un résultat passionnant en privé est différent de dire au monde qu'il a trouvé des extraterrestres.

Rugheimer et les autres chercheurs qui ont parlé à Quanta pour cette histoire se demandent comment parler au mieux en public de l'incertitude entourant les biosignatures – et ils se demandent comment les fluctuations de l'opinion astrobiologique sur une détection donnée pourraient miner la confiance du public dans la science. Ils ne sont pas seuls dans leur inquiétude. Alors que la saga de la phosphine de Vénus approchait de son apogée en 2021, les administrateurs et les scientifiques de la NASA ont imploré la communauté de l'astrobiologie d'établir des normes fermes de certitude dans la détection des biosignatures. En 2022, des centaines d'astrobiologistes se sont réunis pour un atelier virtuel pour discuter de la question – bien qu'il n'existe toujours pas de norme officielle, ni même de définition, d'une biosignature. "Pour l'instant, je suis assez heureux que nous soyons tous d'accord, tout d'abord, sur le fait que c'est un petit problème", a déclaré Angerhausen.

La recherche avance malgré l’incertitude – comme elle le devrait, dit Vickers. Se retrouver dans des impasses et devoir faire marche arrière est naturel pour un domaine naissant comme l’astrobiologie. "C'est quelque chose que les gens devraient essayer de mieux comprendre comment fonctionne la science dans son ensemble", a déclaré Smith. "C'est OK de mettre à jour ce que nous savons." Et les affirmations audacieuses sur les biosignatures ont un moyen d’allumer un feu sous la pression des scientifiques pour les falsifier, disent Smith et Vickers – pour partir à la recherche d’alternatives inconçues.

"Nous ne savons toujours pas ce qui se passe sur Vénus, et bien sûr, cela semble désespéré", a déclaré l'astrochimiste Clara Sousa-Silva du Bard College, une experte en phosphine qui a contribué à la détection de Vénus. Pour elle, la prochaine étape est claire : " Pensons à nouveau à Vénus. " Les astronomes ont pratiquement ignoré Vénus pendant des décennies. La controverse sur la biosignature a déclenché de nouveaux efforts non seulement pour découvrir des sources abiotiques de phosphine jusque-là inconsidérées, mais également pour mieux comprendre notre planète sœur à part entière. (Au moins cinq missions vers Vénus sont prévues dans les décennies à venir.) "Je pense que c'est aussi une source d'espoir pour les exoplanètes."

Auteur: Internet

Info: https://www.quantamagazine.org/ - Elise Cuts, 19 mars 2024

[ xénobiologie ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

chronos

Prix Nobel de physique 2023 : on a tout compris et on vous explique simplement pourquoi c’est génial

Anne L’Huillier, Ferenc Krausz et Pierre Agostini ont inventé la physique attoseconde, et ça méritait bien d’être expliqué.

Les "impulsions laser très courtes permettant de suivre le mouvement ultrarapide des électrons à l’intérieur des molécules et des atomes", vous dites ? Les lauréats du prix Nobel de physique 2023, le Hongrois Ferenc Krausz et les Français Anne L’Huillier et Pierre Agostini n’ont pas choisi le thème le plus parlant aux néophytes (mais la physique fondamentale l’est rarement).

Commençons par un terme étrange : les lauréats sont les inventeurs de la physique attoseconde. Atto, quoi ? Une attoseconde est une fraction de seconde, précisément 1×10−18 seconde : c’est très, très peu. "Pour vous donner une idée", explique au HuffPost le physicien Franck Lépine, chercheur du CNRS à l’Institut lumière matière, et collaborateur des Nobel 2023, en terme d’ordre de grandeur "il y a autant de différence entre une attoseconde et une seconde qu’entre une seconde et l’âge de l’univers".

Lorsqu'il est contemplé à cette échelle de temps, le monde ralentit. Le battement d'ailes d'un colibri devient une éternité.

Aller "chercher" une attoseconde précise dans une seconde, c’est donc pointer une seconde précise dans l’univers depuis sa naissance. On vous l’avait bien dit, c’est court, un laps de temps à peine concevable.

La photo la plus rapide du monde

Mais comment ont-ils "inventé" cette physique ? Les Nobel 2023 ont réussi à mettre au point un appareil qui permet d’observer les électrons au sein de la matière : des éléments au déplacement si rapide que seul un "flash" de l’ordre de l’attoseconde permet de les capturer. Les trois chercheurs sont donc récompensés pour la mise au point d’une "caméra" ultrarapide… Et on va même vous raconter comment elle fonctionne.

Une impulsion très puissante est envoyée au laser vers des atomes. Sous l’effet de la lumière envoyée, Les électrons qui gravitent autour de ces atomes vont alors être accélérés et émettre à leur tour un flash lumineux qui dure environ une attoseconde : c’est ce que l’on appelle la High harmonic generation, ou production d’harmoniques élevées. Ce sont ces impulsions qui vont prendre les électrons en photo. Pourquoi une durée aussi courte est-elle nécessaire ? Parce que les électrons ne tiennent pas en place.

Au-delà de la physique

"Faisons un parallèle avec le cinéma, explique Franck Lépine. On découpe le mouvement en un certain nombre de photos par seconde. La photo fige l’objet qui bouge, mais si la capture prend trop de temps, on découpe le mouvement, les images se superposent", ce qui crée un effet de flou. "Si jamais nos flashes de lumières durent trop longtemps, on ne va pas voir seulement électrons bouger, mais également les atomes, voire les ensembles d’atomes", et donc l’objet de l’observation ne sera pas net.

Les découvertes des trosi chercheurs ne permettent pas seulement d’observer les électrons avec une précision nouvelle. Elles sont également un instrument pour les manipuler. La lumière envoyée sur les électrons les bouscule, et là encore la physique attoseconde peut tout changer, et pas seulement dans le domaine des sciences fondamentales. "On peut manipuler les réactions chimiques en manipulant les électrons", détaille Franck Lépine.

À Lyon, son laboratoire est l’un des trois en France à disposer des équipements nécessaires pour travailler avec la physique attoseconde. "Parmi les choses sur lesquelles on travaille, il y a l’utilisation des technologies attoseconde pour comprendre comment fonctionne l’ADN du vivant." La physique attoseconde, vous n’en entendrez peut-être pas parler à nouveau de sitôt, mais les découvertes qui en découlent certainement.

Historique

En 1925, Werner Heisenberg, pionniers de la mécanique quantique, a affirmé que le temps nécessaire à un électron pour faire le tour d'un atome d'hydrogène était inobservable. Dans un sens, il avait raison. Les électrons ne tournent pas autour d'un noyau atomique comme les planètes autour des étoiles. Les physiciens les considèrent plutôt comme des ondes de probabilité qui donnent leurs chances d'être observées à un certain endroit et à un certain moment, de sorte que nous ne pouvons pas mesurer un électron qui vole littéralement dans l'espace.

Heisenberg a sous-estimé l'ingéniosité de physiciens du XXe siècle comme L'Huillier, Agostini et Krausz. Les chances que l'électron soit ici ou là varient d'un moment à l'autre, d'une attoseconde à l'autre. Grâce à la possibilité de créer des impulsions laser attosecondes capables d'interagir avec les électrons au fur et à mesure de leur évolution, les chercheurs peuvent sonder directement les différents comportements des électrons.

Comment les physiciens produisent-ils des impulsions attosecondes ?

Dans les années 1980, Ahmed Zewail, de l'Institut de technologie de Californie, a développé la capacité de faire clignoter des lasers avec des impulsions d'une durée de quelques femtosecondes, soit des milliers d'attosecondes. Ces impulsions, qui ont valu à Zewail le prix Nobel de chimie en 1999, étaient suffisantes pour permettre aux chercheurs d'étudier le déroulement des réactions chimiques entre les atomes dans les molécules. Cette avancée a été qualifiée de "caméra la plus rapide du monde".

Pendant un certain temps, une caméra plus rapide semblait inaccessible. On ne savait pas comment faire osciller la lumière plus rapidement. Mais en 1987, Anne L'Huillier et ses collaborateurs ont fait une observation intrigante : Si vous éclairez certains gaz, leurs atomes sont excités et réémettent des couleurs de lumière supplémentaires qui oscillent plusieurs fois plus vite que le laser d'origine - un effet connu sous le nom d'"harmoniques". Le groupe de L'Huillier a découvert que dans des gaz comme l'argon, certaines de ces couleurs supplémentaires apparaissaient plus brillantes que d'autres, mais selon un schéma inattendu. Au début, les physiciens ne savaient pas trop quoi penser de ce phénomène.

Au début des années 1990, L'Huillier et d'autres chercheurs ont utilisé la mécanique quantique pour calculer les différentes intensités des diverses harmoniques. Ils ont alors pu prédire exactement comment, lorsqu'un laser infrarouge oscillant lentement frappait un nuage d'atomes, ces atomes émettaient à leur tour des faisceaux de lumière "ultraviolette extrême" oscillant rapidement. Une fois qu'ils ont compris à quelles harmoniques il fallait s'attendre, ils ont trouvé des moyens de les superposer de manière à obtenir une nouvelle vague : une vague dont les pics s'élèvent à l'échelle de l'attoseconde. Amener des collectifs géants d'atomes à produire ces ondes finement réglées de concert est un processus que Larsson compare à un orchestre produisant de la musique.

Au cours des années suivantes, les physiciens ont exploité cette compréhension détaillée des harmoniques pour créer des impulsions attosecondes en laboratoire. Agostini et son groupe ont mis au point une technique appelée Rabbit, ou "reconstruction d'un battement attoseconde par interférence de transitions à deux photons". Grâce à Rabbit, le groupe d'Agostini a généré en 2001 une série d'impulsions laser d'une durée de 250 attosecondes chacune. La même année, le groupe de Krausz a utilisé une méthode légèrement différente, connue sous le nom de streaking, pour produire et étudier des salves individuelles d'une durée de 650 attosecondes chacune. En 2003, L'Huillier et ses collègues les ont tous deux surpassés avec une impulsion laser d'une durée de 170 attosecondes seulement.

Que peut-on faire avec des impulsions attosecondes ?

Les impulsions attosecondes permettent aux physiciens de détecter tout ce qui change sur une période de quelques dizaines à quelques centaines d'attosecondes. La première application a consisté à essayer ce que les physiciens avaient longtemps cru impossible (ou du moins extrêmement improbable) : voir exactement ce que font les électrons.

En 1905, Albert Einstein a donné le coup d'envoi de la mécanique quantique en expliquant l'effet photoélectrique, qui consiste à projeter des électrons dans l'air en éclairant une plaque métallique (sa théorie lui vaudra plus tard le prix Nobel de physique en 1921). Avant l'ère de la physique des attosecondes, les physiciens supposaient généralement que la chaîne de réactions qui conduisait à la libération des électrons lancés était instantanée.

En 2010, Krausz et ses collègues ont démontré le contraire. Ils ont utilisé des impulsions attosecondes pour chronométrer les électrons détachés des atomes de néon. Ils ont notamment constaté qu'un électron dans un état de basse énergie fuyait son hôte 21 attosecondes plus vite qu'un électron dans un état de haute énergie. En 2020, un autre groupe a montré que les électrons s'échappent de l'eau liquide des dizaines d'attosecondes plus rapidement que de la vapeur d'eau.

D'autres applications des impulsions attosecondes sont en cours de développement. La technique pourrait permettre de sonder toute une série de phénomènes liés aux électrons, notamment la façon dont les particules portent et bloquent la charge électrique, la façon dont les électrons rebondissent les uns sur les autres et la façon dont les électrons se comportent collectivement. Krausz fait également briller des flashs attosecondes sur du sang humain. L'année dernière, il a contribué à montrer que de minuscules changements dans un échantillon de sang peuvent indiquer si une personne est atteinte d'un cancer à un stade précoce, et de quel type.

Plus tôt dans la matinée, le comité Nobel a eu du mal à joindre Mme L'Huillier pour l'informer qu'elle était la cinquième femme de l'histoire à recevoir le prix Nobel de physique. Lorsqu'il a finalement réussi à la joindre, après trois ou quatre appels manqués, elle était en train de donner une conférence à ses étudiants. Elle est parvenue à la terminer, même si la dernière demi-heure a été très difficile. "J'étais un peu émue à ce moment", a-t-elle déclaré plus tard.

Auteur: Internet

Info: huffingtonpost et quantamagazine, 3 sept. 2023

[ nanomonde ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

furtifs méta-moteurs

Découvrez les formes modulaires, la " cinquième opération fondamentale " des mathématiques

Les formes modulaires sont l’un des objets les plus beaux et les plus mystérieux des mathématiques. Quels sont-ils ?

" Il existe cinq opérations fondamentales en mathématiques ", aurait déclaré le mathématicien allemand Martin Eichler. " Addition, soustraction, multiplication, division et formes modulaires. "

Une partie du gag bien sûr, c’est que l’un d’entre eux n’est pas comme les autres. Les formes modulaires sont des fonctions beaucoup plus compliquées et énigmatiques, et les étudiants ne les rencontrent généralement pas avant leurs études supérieures. Mais " il y a probablement moins de domaines mathématiques où ils n'ont pas d'applications que là où ils en ont ", a déclaré Don Zagier , mathématicien à l'Institut de mathématiques Max Planck de Bonn, en Allemagne. Chaque semaine, de nouveaux articles étendent leur portée à la théorie des nombres, à la géométrie, à la combinatoire, à la topologie, à la cryptographie et même à la théorie des cordes.

Elles sont souvent décrites comme des fonctions qui satisfont des symétries si frappantes et si élaborées qu’elles ne devraient pas être possibles. Les propriétés associées à ces symétries rendent les formes modulaires extrêmement puissantes. C’est ce qui a fait d’elles des acteurs clés dans la preuve historique du dernier théorème de Fermat en 1994. C'est ce qui les a placés au cœur des travaux plus récents sur l'emballage des sphères . Et c'est ce qui les rend désormais cruciales pour le développement continu d'une " théorie mathématique du tout " Nommée programme de Langlands .

Mais que sont-elles ?

Symétries infinies

Pour comprendre une forme modulaire, il est utile de réfléchir d’abord à des symétries plus familières.

(...)

"Les formes modulaires ressemblent aux fonctions trigonométriques, mais sous stéroïdes", a-t-il ajouté. Ils satisfont une infinité de symétries " cachées ".

L'univers complexe

Les fonctions ne peuvent pas faire grand-chose lorsqu'elles sont définies en termes de nombres réels, c'est-à-dire des valeurs qui peuvent être exprimées sous forme décimale conventionnelle. En conséquence, les mathématiciens se tournent souvent vers les nombres complexes, qui peuvent être considérés comme des paires de nombres réels. Tout nombre complexe est décrit en termes de deux valeurs : une composante " réelle " et une composante " imaginaire ", qui est un nombre réel multiplié par la racine carrée de −1 (que les mathématiciens écrivent comme je).

Tout nombre complexe peut donc être représenté comme un point dans un plan à deux dimensions.

Il est difficile de visualiser les fonctions des nombres complexes, c’est pourquoi les mathématiciens se tournent souvent vers la couleur. Par exemple, vous pouvez colorer le plan complexe pour qu'il ressemble à une roue arc-en-ciel. La couleur de chaque point correspond à son angle en coordonnées polaires. Directement à droite du centre, là où les points ont un angle de 0 degré, vous obtenez du rouge. À 90 degrés, ou vers le haut, les points sont de couleur vert vif. Et ainsi de suite. Enfin, les courbes de niveau marquent les changements de taille ou d'ampleur, comme sur une carte topographique.

(...) (partie supprimée, voir pour plus sur le lien qui précède)

Le domaine fondamental

Pour ce faire, il est utile d’essayer de simplifier la façon dont nous envisageons ces fonctions complexes.

En raison des symétries de la forme modulaire, vous pouvez calculer la fonction entière sur la base d'un seul petit groupe d'entrées, situé dans une région du plan appelée domaine fondamental. Cette région ressemble à une bande montant à partir de l’axe horizontal avec un trou semi-circulaire découpé dans son fond.

Si vous savez comment la fonction se comporte là-bas, vous saurez ce qu'elle fait partout ailleurs. Voici comment:

Des transformations spéciales copient un fragment du plan complexe, appelé domaine fondamental, dans une infinité d’autres régions. Puisqu’une forme modulaire est définie en termes de ces transformations, si vous savez comment elle se comporte dans le domaine fondamental, vous pouvez facilement comprendre comment elle se comporte

(...) (partie supprimée, voir liens précédents pour plus).

Espaces contrôlés

Dans les années 1920 et 1930, le mathématicien allemand Erich Hecke a développé une théorie plus approfondie autour des formes modulaires. Surtout, il s’est rendu compte qu’elles existaient dans certains espaces – des espaces avec des dimensions spécifiques et d’autres propriétés. Il a compris comment décrire concrètement ces espaces et les utiliser pour relier différentes formes modulaires entre elles.

Cette prise de conscience a inspiré de nombreuses mathématiques des XXe et XXIe siècles.

Pour comprendre comment, considérons d’abord une vieille question : de combien de façons peut-on écrire un entier donné comme la somme de quatre carrés ? Il n’y a qu’une seule façon d’écrire zéro, par exemple, alors qu’il existe huit façons d’exprimer 1, 24 façons d’exprimer 2 et 32 façons d’exprimer 3. Pour étudier cette séquence — 1, 8, 24, 32 et ainsi de suite — les mathématiciens l'ont codé dans une somme infinie appelée fonction génératrice :

1+8q+24q2+32q3+24q4+48q5+…

Il n'existait pas nécessairement de moyen de connaître le coefficient de, disons, q174 devrait être – c’était précisément la question à laquelle ils essayaient de répondre. Mais en convertissant la séquence en fonction génératrice, les mathématiciens pourraient appliquer des outils issus du calcul et d’autres domaines pour en déduire des informations. Ils pourraient, par exemple, trouver un moyen d’approcher la valeur de n’importe quel coefficient.

Mais il s’avère que si la fonction génératrice est une forme modulaire, vous pouvez faire bien mieux : vous pouvez mettre la main sur une formule exacte pour chaque coefficient.

"Si vous savez qu'il s'agit d'une forme modulaire, alors vous savez tout", a déclaré Jan Bruinier de l'Université technique de Darmstadt en Allemagne.

En effet, les symétries infinies de la forme modulaire ne sont pas seulement belles à regarder : " elles sont si contraignantes ", a déclaré Larry Rolen de l'Université Vanderbilt, qu'elles peuvent être transformées en " un outil pour prouver automatiquement les congruences et les identités entre des choses. "

Les mathématiciens et les physiciens codent souvent des questions intéressantes en générant des fonctions. Ils voudront peut-être compter le nombre de points sur des courbes spéciales ou le nombre d’états dans certains systèmes physiques. "Si nous avons de la chance, alors ce sera une forme modulaire", a déclaré Claudia Alfes-Neumann , mathématicienne à l'université de Bielefeld en Allemagne. Cela peut être très difficile à prouver, mais si vous le pouvez, alors " la théorie des formes modulaires est si riche qu’elle vous offre des tonnes de possibilités pour étudier ces coefficients [de séries] ".

Blocs de construction

Toute forme modulaire va paraître très compliquée. Certaines des plus simples – qui sont utilisées comme éléments de base pour d’autres formes modulaires – sont appelées séries Eisenstein.

Vous pouvez considérer une série d’Eisenstein comme une somme infinie de fonctions. Pour déterminer chacune de ces fonctions, utilisez les points sur une grille 2D infinie :

(...) (partie images et schémas supprimée, voir liens pour plus. )

Le jeu continue

L'étude des formes modulaires a conduit à un flot de triomphes mathématiques. Par exemple, des travaux récents sur l'empilement de sphères, pour lesquels la mathématicienne ukrainienne Maryna Viazovska a remporté la médaille Fields l'année dernière , ont utilisé des formes modulaires. " Quand j'ai vu ça, j'ai été assez surprise ", a déclaré Bruinier. " Mais d'une manière ou d'une autre, ça marche. "

Les formes modulaires se sont révélées liées à un objet algébrique important appelé groupe de monstres. Elles ont été utilisées pour construire des types spéciaux de réseaux appelés graphes d'expansion, qui apparaissent en informatique, en théorie des communications et dans d'autres applications. Ils ont permis d'étudier des modèles potentiels d'interactions de particules en théorie des cordes et en physique quantique.

Le plus célèbre peut-être est que la preuve du dernier théorème de Fermat de 1994 reposait sur des formes modulaires. Le théorème, largement considéré comme l'un des problèmes les plus importants de la théorie des nombres, stipule qu'il n'existe pas trois entiers non nuls a , b et c qui satisfont à l'équation an+bn=cn si n est un nombre entier supérieur à 2. Le mathématicien Andrew Wiles l'a prouvé en supposant le contraire – qu'une solution à l'équation existe – puis en utilisant des formes modulaires pour montrer qu'une telle hypothèse doit conduire à une contradiction.

Il a d’abord utilisé sa solution supposée pour construire un objet mathématique appelé courbe elliptique. Il a ensuite montré qu'on peut toujours associer une forme modulaire unique à une telle courbe. Cependant, la théorie des formes modulaires dictait que dans ce cas, cette forme modulaire ne pouvait pas exister. "C'est trop beau pour être vrai", a déclaré Voight. Ce qui signifiait, à son tour, que la solution supposée ne pouvait pas exister – confirmant ainsi le dernier théorème de Fermat.

Non seulement cela a résolu un problème vieux de plusieurs siècles ; cela a également permis de mieux comprendre les courbes elliptiques, qui peuvent être difficiles à étudier directement (et qui jouent un rôle important dans la cryptographie et les codes correcteurs d'erreurs).

Cette démonstration a également mis en lumière un pont entre la géométrie et la théorie des nombres. Ce pont a depuis été élargi dans le programme Langlands, un plus grand ensemble de connexions entre les deux domaines – et sujet d'un des efforts de recherche centraux des mathématiques contemporaines. Les formes modulaires ont également été généralisées dans d'autres domaines, où leurs applications potentielles commencent tout juste à être reconnues.

Elles continuent d’apparaître partout en mathématiques et en physique, parfois de manière assez mystérieuse. "Je regarde dans un article sur les trous noirs", a déclaré Steve Kudla de l'Université de Toronto, "et j'y trouve des formes modulaires qui sont mes amies. Mais je ne sais pas pourquoi elles sont là.

"D'une manière ou d'une autre", a-t-il ajouté, "les formes modulaires capturent certaines des symétries les plus fondamentales du monde".

Auteur: Internet

Info: https://www.quantamagazine.org, Jordana Cepelewicz, 21 septembre 2023

[ ultracomplexité ]

Commenter

Commentaires: 1

miguel

11.03.2024

(FLP) - peux-tu expliquer de manière simple et claire le concept de "formes modulaires" en mathématiques ? Afficher les suggestions (BARD) - Formes modulaires: Une explication simple Imaginez une tapisserie ornée de motifs répétitifs qui se transforment de manière fascinante lorsqu'on l'observe sous différents angles. C'est un peu l'idée derrière les formes modulaires en mathématiques. Qu'est-ce qu'une forme modulaire ? Une forme modulaire est une fonction mathématique spéciale qui se comporte de manière prévisible et symétrique lorsqu'on la "déplace" dans le plan complexe d'une manière particulière. On peut la visualiser comme un motif complexe qui se répète et se transforme selon des règles précises. Imaginez un motif dessiné sur une grille carrée. Si on déplace la grille horizontalement ou verticalement par un certain nombre de cases, le motif se répète parfaitement. De même, si on fait pivoter la grille d'un certain angle, le motif se transforme de manière symétrique. Les formes modulaires capturent cette idée de répétition et de transformation. Elles décrivent des fonctions qui se comportent de manière similaire lorsqu'on les "déplace" dans le plan complexe en utilisant des transformations appelées "matrices modulaires". Pourquoi sont-elles importantes ? Les formes modulaires jouent un rôle crucial dans de nombreux domaines des mathématiques, notamment : Théorie des nombres: Elles permettent d'étudier la distribution des nombres premiers et de résoudre des problèmes arithmétiques complexes. Géométrie algébrique: Elles sont liées aux courbes elliptiques, des objets géométriques importants en cryptographie et en physique. Analyse complexe: Elles fournissent des outils puissants pour l'étude des fonctions complexes et de leurs propriétés. Exemples concrets La fonction f(z)=z 2 est une forme modulaire simple de poids 2. La fonction τ(n)=∑ d∣n d 2 1 est une forme modulaire importante liée à la fonction de partition. Le discriminant d'une courbe elliptique est exprimé en termes de formes modulaires. En résumé, les formes modulaires sont des fonctions mathématiques fascinantes qui révèlent une beauté et une structure cachées dans les nombres et les formes géométriques. Elles constituent un outil puissant pour explorer de nombreux domaines des mathématiques et ont des applications dans des domaines tels que la cryptographie et la physique.

Ajouté à la BD par miguel

nanomonde verrouillé

Comment un tour de passe-passe mathématique a sauvé la physique des particules

La renormalisation est peut-être l'avancée la plus importante de la physique théorique depuis 50 ans.

Dans les années 1940, certains physiciens avant-gardistes tombèrent sur une nouvelle couche de la réalité. Les particules n'existaient plus et les champs - entités expansives et ondulantes qui remplissent l'espace comme un océan - étaient dedans. Une ondulation dans un champ était un électron, une autre un photon, et leurs interactions semblaient expliquer tous les événements électromagnétiques.

Il n'y avait qu'un seul problème : la théorie était constituée d'espoirs et de prières. Ce n'est qu'en utilisant une technique appelée "renormalisation", qui consiste à occulter soigneusement des quantités infinies, que les chercheurs purent éviter les prédictions erronées. Le processus fonctionnait, mais même ceux qui développaient la théorie soupçonnaient qu'il s'agissait d'un château de cartes reposant sur un tour de passe-passe mathématique tortueux.

"C'est ce que j'appellerais un processus divertissant", écrira plus tard Richard Feynman. "Le fait de devoir recourir à de tels tours de passe-passe nous a empêchés de prouver que la théorie de l'électrodynamique quantique est mathématiquement cohérente.

La justification vint des décennies plus tard, d'une branche de la physique apparemment sans rapport. Les chercheurs qui étudiaient la magnétisation découvrirent que la renormalisation ne concernait aucunement les infinis. Elle évoquait plutôt la séparation de l'univers en domaines de tailles distinctes, point de vue qui guide aujourd'hui de nombreux domaines de la physique.

La renormalisation, écrit David Tong, théoricien à l'université de Cambridge, est "sans doute l'avancée la plus importante de ces 50 dernières années dans le domaine de la physique théorique".

L'histoire de deux charges

Selon certains critères, les théories des champs sont les théories les plus fructueuses de toute la science. La théorie de l'électrodynamique quantique (QED), qui constitue l'un des piliers du modèle standard de la physique des particules, a permis de faire des prédictions théoriques qui correspondent aux résultats expérimentaux avec une précision d'un sur un milliard.

Mais dans les années 1930 et 1940, l'avenir de la théorie était loin d'être assuré. L'approximation du comportement complexe des champs donnait souvent des réponses absurdes et infinies, ce qui amena certains théoriciens à penser que les théories des champs étaient peut-être une impasse.

Feynman et d'autres cherchèrent de toutes nouvelles perspectives - éventuellement même susceptibles de ramener les particules sur le devant de la scène - mais ils finirent par trouver un moyen de contourner l'obstacle. Ils constatèrent que les équations QED permettaient d'obtenir des prédictions respectables, à condition qu'elles soient corrigées par la procédure impénétrable de renormalisation.

L'exercice est le suivant. Lorsqu'un calcul QED conduit à une somme infinie, il faut l'abréger. Mettez la partie qui tend vers l'infini dans un coefficient - un nombre fixe - placé devant la somme. Remplacez ce coefficient par une mesure finie provenant du laboratoire. Enfin, laissez la somme nouvellement apprivoisée retourner à l'infini.

Pour certains, cette méthode s'apparente à un jeu de dupes. "Ce ne sont tout simplement pas des mathématiques raisonnables", écrivit Paul Dirac, théoricien quantique novateur.

Le cœur du problème - germe de sa solution éventuelle - se trouve dans la manière dont les physiciens ont traité la charge de l'électron.

Dans ce schéma la charge électrique provient du coefficient - la valeur qui engloutit l'infini au cours du brassage mathématique. Pour les théoriciens qui s'interrogeaient sur la signification physique de la renormalisation, la théorie QED laissait entendre que l'électron avait deux charges : une charge théorique, qui était infinie, et la charge mesurée, qui ne l'était pas. Peut-être que le noyau de l'électron contenait une charge infinie. Mais dans la pratique, les effets de champ quantique (qu'on peut visualiser comme un nuage virtuel de particules positives) masquaient l'électron, de sorte que les expérimentateurs ne mesuraient qu'une charge nette modeste.

Deux physiciens, Murray Gell-Mann et Francis Low, concrétisèrent cette idée en 1954. Ils ont relié les deux charges des électrons à une charge "effective" qui varie en fonction de la distance. Plus on se rapproche (et plus on pénètre le manteau positif de l'électron), plus la charge est importante.

Leurs travaux furent les premiers à lier la renormalisation à l'idée d'échelle. Ils laissaient entendre que les physiciens quantiques avaient trouvé la bonne réponse à la mauvaise question. Plutôt que de se préoccuper des infinis, ils auraient dû s'attacher à relier le minuscule à l'énorme.

La renormalisation est "la version mathématique d'un microscope", a déclaré Astrid Eichhorn, physicienne à l'université du Danemark du Sud, qui utilise la renormalisation pour ses recherches en théorie de la gravité quantique. "Et inversement, vous pouvez commencer par le système microscopique et faire un zoom arrière. C'est une combinaison de microscope et de télescope".

La renormalisation capture la tendance de la nature à se subdiviser en mondes essentiellement indépendants.

Les aimants sauvent la mise

Un deuxième indice apparut dans le monde de la matière condensée, ici les physiciens s'interrogeaient sur la manière dont un modèle magnétique grossier parvenait à saisir les détails de certaines transformations. Le modèle d'Ising n'était guère plus qu'une grille de flèches atomiques qui ne pouvaient pointer que vers le haut ou vers le bas, mais il prédisait les comportements d'aimants réels avec une perfection improbable.

À basse température, la plupart des atomes s'alignent, ce qui magnétise le matériau. À haute température, ils deviennent désordonnés et le réseau se démagnétise. Mais à un point de transition critique, des îlots d'atomes alignés de toutes tailles coexistent. Il est essentiel de noter que la manière dont certaines quantités varient autour de ce "point critique" semble identique dans le modèle d'Ising, dans les aimants réels de différents matériaux et même dans des systèmes sans rapport, tels que la transition à haute pression où l'eau devient indiscernable de la vapeur d'eau. La découverte de ce phénomène, que les théoriciens ont appelé universalité, était aussi bizarre que de découvrir que les éléphants et les aigrettes se déplacent exactement à la même vitesse de pointe.

Les physiciens n'ont pas pour habitude de s'occuper d'objets de tailles différentes en même temps. Mais ce comportement universel autour des points critiques les obligea à tenir compte de toutes les échelles de longueur à la fois.

Leo Kadanoff, chercheur dans le domaine de la matière condensée, a compris comment procéder en 1966. Il a mis au point une technique de "spin par blocs", en décomposant une grille d'Ising trop complexe pour être abordée de front, en blocs modestes comportant quelques flèches par côté. Il calcula l'orientation moyenne d'un groupe de flèches et remplaça tout le bloc par cette valeur. En répétant le processus, il lissa les détails fins du réseau, faisant un zoom arrière pour comprendre le comportement global du système.

Enfin, Ken Wilson - ancien étudiant de Gell-Mann qui avait les pieds tant dans le monde de la physique des particules et de la matière condensée - réunit les idées de Gell-Mann et de Low avec celles de Kadanoff. Son "groupe de renormalisation", qu'il décrivit pour la première fois en 1971, justifiait les calculs tortueux de la QED et a fourni une échelle permettant de gravir les échelons des systèmes universels. Ce travail a valu à Wilson un prix Nobel et a changé la physique pour toujours.

Selon Paul Fendley, théoricien de la matière condensée à l'université d'Oxford, la meilleure façon de conceptualiser le groupe de renormalisation de Wilson est de le considérer comme une "théorie des théories" reliant le microscopique au macroscopique.

Considérons la grille magnétique. Au niveau microscopique, il est facile d'écrire une équation reliant deux flèches voisines. Mais extrapoler cette simple formule à des trillions de particules est en fait impossible. Vous raisonnez à la mauvaise échelle.

Le groupe de renormalisation de Wilson décrit la transformation d'une théorie des éléments constitutifs en une théorie des structures. On commence avec une théorie de petits éléments, par exemple les atomes d'une boule de billard. On tourne la manivelle mathématique de Wilson et on obtient une théorie connexe décrivant des groupes de éléments, par exemple les molécules d'une boule de billard. En continuant de tourner la manivelle, on obtient des groupes de plus en plus grands - grappes de molécules de boules de billard, secteurs de boules de billard, et ainsi de suite. Finalement, vous voilà en mesure de calculer quelque chose d'intéressant, comme la trajectoire d'une boule de billard entière.

Telle est la magie du groupe de renormalisation : Il permet d'identifier les quantités à grande échelle qu'il est utile de mesurer et les détails microscopiques alambiqués qui peuvent être ignorés. Un surfeur s'intéresse à la hauteur des vagues, et non à la bousculade des molécules d'eau. De même, en physique subatomique, la renormalisation indique aux physiciens quand ils peuvent s'occuper d'un proton relativement simple plutôt que de son enchevêtrement de quarks intérieurs.

Le groupe de renormalisation de Wilson suggère également que les malheurs de Feynman et de ses contemporains venaient du fait qu'ils essayaient de comprendre l'électron d'infiniment près. "Nous ne nous attendons pas à ce que ces théories soient valables jusqu'à des échelles [de distance] arbitrairement petites", a déclaré James Fraser, philosophe de la physique à l'université de Durham, au Royaume-Uni. Ajoutant : "La coupure absorbe notre ignorance de ce qui se passe aux niveaux inférieurs".

En d'autres termes, la QED et le modèle standard ne peuvent tout simplement pas dire quelle est la charge nue de l'électron à une distance de zéro nanomètre. Il s'agit de ce que les physiciens appellent des théories "effectives". Elles fonctionnent mieux sur des distances bien définies. L'un des principaux objectifs de la physique des hautes énergies étant de découvrir ce qui se passe exactement lorsque les particules deviennent encore plus proches.

Du grand au petit

Aujourd'hui, le "dippy process" de Feynman est devenu aussi omniprésent en physique que le calcul, et ses mécanismes révèlent les raisons de certains des plus grands succès de la discipline et de ses défis actuels. Avec la renormalisation, les câpres submicroscopiques compliqués ont tendance à disparaître. Ils sont peut-être réels, mais ils n'ont pas d'incidence sur le tableau d'ensemble. "La simplicité est une vertu", a déclaré M. Fendley. "Il y a un dieu là-dedans.

Ce fait mathématique illustre la tendance de la nature à se diviser en mondes essentiellement indépendants. Lorsque les ingénieurs conçoivent un gratte-ciel, ils ignorent les molécules individuelles de l'acier. Les chimistes analysent les liaisons moléculaires mais ignorent superbement les quarks et les gluons. La séparation des phénomènes par longueur, quantifiée par le groupe de renormalisation, a permis aux scientifiques de passer progressivement du grand au petit au cours des siècles, plutôt que briser toutes les échelles en même temps.

En même temps, l'hostilité de la renormalisation à l'égard des détails microscopiques va à l'encontre des efforts des physiciens modernes, avides de signes du domaine immédiatement inférieur. La séparation des échelles suggère qu'ils devront creuser en profondeur pour surmonter le penchant de la nature à dissimuler ses points les plus fins à des géants curieux comme nous.

"La renormalisation nous aide à simplifier le problème", explique Nathan Seiberg, physicien théoricien à l'Institute for Advanced Study de Princeton, dans le New Jersey. Mais "elle cache aussi ce qui se passe à très courte distance. On ne peut pas avoir le beurre et l'argent du beurre".

Auteur: Internet

Info: https://www.quantamagazine.org/. Charlie Wood, september 17, 2020

Commenter

Commentaires: 0

Ajouté à la BD par miguel

bêtise bipolaire

Il ne fait aucun doute que les IA sont biaisées. Mais beaucoup déclarent que ces problématiques de l'IA existent parce que nous humains sommes imparfaits, plus que les machines. "Les machines sont-elles condamnées à hériter des préjugés humains ?", titrent les journaux. "Les préjugés humains sont un énorme problème pour l'IA. Voilà comment on va arranger ça." Mais ces récits perpétuent une dangereuse erreur algorithmique qu'il faut éviter.

Oui, les humains sont subjectifs. Oui, malgré les efforts conscients et inconscients de ne pas l'être, nous faisons de la discrimination, nous stéréotypons et portons toutes sortes de jugements de valeur sur les gens, les produits et la politique. Mais nos préjugés ne sont pas correctement mesurés ou modélisés par les machines. Non, les tendances machine sont dues à la logique même de la collecte des données : le système binaire.

Le système binaire est la chaîne de 0 et 1 à la base de tous les systèmes informatiques. Cette méthode mathématique permet de réduire et de calculer efficacement les grands nombres et, deuxièmement, elle permet la conversion de l'alphabet et de la ponctuation en ASCII (American Standard Code for Information Interchange).

Mais ne vous laissez pas berner : Ces 0 et 1 ne signifient pas que la machine comprend le monde et les langages comme nous le faisons : "La plupart d'entre nous, la plupart du temps, suivons des instructions qui nous sont données par ordinateur plutôt que l'inverse ", explique l'historien des technologies George Dyson. Afin de pouvoir communiquer avec les ordinateurs, nous sommes ajustés et orientés vers leur logique, et non vers la nôtre.

Le système binaire réduit tout à des 0 et des 1 insignifiants, quand la vie et l'intelligence font fonctionner XY en tandem. lui rend la lecture et le traitement des données quantitatives plus pratiques, plus efficaces et plus rentables pour les machines. Mais c'est au détriment des nuances, de la richesse, du contexte, des dimensions et de la dynamique de nos langues, cultures, valeurs et expériences.

Il ne faut pas accabler ici les développeurs de la Silicon Valley pour ce système binaire biaisé - mais plutôt Aristote.

Le parti pris binaire d'Aristote
Si vous pensez à Aristote, vous pensez probablement au philosophe grec antique comme à un des pères fondateurs de la démocratie, et non comme l'ancêtre de siècles de logique mécanique et de méthodes scientifiques erronées. C'est cependant sa théorie du "dualisme", selon laquelle quelque chose est soit vrai soit faux, logique ou illogique, qui nous a mis dans cette situation délicate en premier lieu.

Vers 350 av. J.-C., Aristote voulut réduire et structurer la complexité du monde. Pour ce faire, il fit des emprunts à la Table des Opposés de Pythagore, dans laquelle deux éléments sont comparés :

fini, infini... impair, pair... un, beaucoup... droite, gauche... repos, mouvement... droit, tordu... etc.

Mais au lieu d'appliquer ce dualisme à la géométrie neutre comme l'avait fait Pythagore, Aristote l'appliqua aux personnes, aux animaux et à la société. Ce faisant, il conçut un patriarcat hiérarchique social polarisé clivant, enraciné dans ses valeurs internes et ses préjugés : Les objets qu'il ordonnait avoir plus de valeur devinrent des 1, et ceux de moindre importance des 0. En ce qui concerne les femmes, par exemple, il écrivit : "La relation de l'homme à la femme est par nature une relation de supérieur à inférieur et de souverain à gouverné."

Hélas, le système de classification hiérarchique d'Aristote a été implémenté dans l'IA, la pondérant en faveur d'hommes comme lui. Le système même sur lequel toute la technologie moderne est construite contient les artefacts du sexisme d'il y a 2 000 ans.

1 = vrai = rationnel = droit = masculin
0 = faux = émotionnel = gauche = féminin
Si Aristote avait créé la démocratie - et la démocratie est censée être une véritable représentation - femmes et gens de couleur auraient dû avoir un accès égal à l'éducation, avoir voix au chapitre dans les forums et avoir le droit de vote en 350 av. JC. Il n'aurait pas été nécessaire de se battre jusqu'en 1920 pour que le vote féminin soit ratifié aux Etats-Unis. Il n'y aurait pas eu d'esclavage et pas besoin du mouvement pour les droits civiques. Tout le monde aurait été classé et considéré comme égal dès le départ.

Le classement biaisé d'Aristote est maintenant verrouillé et renforcé par plus de 15 millions d'ingénieurs.
Aristote aurait dû lire les notes de son prédécesseur, Socrate. Selon les souvenirs de Platon, Socrate considérait les oracles féminins de Delphes comme "un guide essentiel du développement personnel et de l'état". De plus, dans le Symposium de Platon, Socrate se souvient de l'époque où il était l'élève de Diotima de Mantinea, une femme philosophe dont il tenait en haute estime l'intelligence. Dans le livre V, Socrate est crédité d'avoir suggéré que les femmes sont également qualifiées pour diriger et gouverner : "Il n'y a pas de pratique des gouverneurs d'une ville qui appartient à une femme parce qu'elle est une femme, ou à un homme parce qu'il est un homme."

Mais au lieu que les idées de Socrate sur l'égalité enracinent les idées occidentales sur l'intelligence, nous nous sommes retrouvés avec la logique d'Aristote et son classement biaisé sans être conscients de ses origines binaires et anti-démocratiques.

Mais ne blâmons pas seulement Aristote. Deux autres coquins ont contribué à ces problèmes sociaux et scientifiques : Descartes et Leibniz.

Descartes - philosophe français du XVIIe siècle qui a inventé l'expression "je pense, donc je suis" -, a implanté l'idée qu'un sujet n'a ni matière ni valeur autre que ce que le visiteur attribue et déduit. (S'il avait dit "Nous pensons, donc nous sommes", cela aurait mieux reflété comment nous sommes symbiotiquement informés par les perceptions les uns et des autres.)

En outre, Descartes a proposé une plus grande séparation de l'esprit du corps et des émotions dans son traité de 1641, Méditations sur la Première Philosophie. Il a soutenu que nos esprits sont dans le domaine du spirituel tandis que nos corps et nos émotions sont dans le domaine du physique, et que les deux royaumes ne peuvent pas s'influencer mutuellement. Ce qui a causé des problèmes en IA parce que maintenant nous empilons des unités d'émotions sur des couches de classification binaires d'une manière artificielle et non intégrée. Encore du binaire.

La logique déductive-inductive de Descartes, qu'il explora dans son discours sur la méthode de 1637, fut créée parce qu'il était désabusé par les méthodes non systématiques des scientifiques de son temps. Il fit valoir que les mathématiques ont été construites sur une "base solide", et a donc cherché à établir un nouveau système de vérité fondée sur Aristote 1 = vrai = valide, et 0 = faux = invalide. La différence étant qu'il a mis les lignes de la logique syllogistique d'Aristote au sein d'une structure arborescente. Structures arborescentes qui sont maintenant utilisées dans les réseaux neuronaux récurrents du NLP (Natural Language Processing)

Vint ensuite Leibniz, le philosophe et avocat allemand inventa le calcul indépendamment de son contemporain, Newton. Il créa le système binaire entre 1697 et 1701 afin d'obtenir des verdicts "oui/non" plus rapides et ainsi réduire les grands nombres en unités plus faciles à gérer de 0 et 1.

Contrairement aux autres, Leibniz était sinophile. En 1703, le prêtre jésuite Bouvet lui avait envoyé une copie du Yi King (le Livre des Changements), artefact culturel chinois dont l'origine remonte à 5.000 ans. Il était fasciné par les similitudes apparentes entre les lignes horizontales et les intervalles des hexagrammes du Yi King et les 0 et 1 des lignes verticales de son système binaire. Il interpréta faussement ces intervalles comme étant du vide (donc zéro) croyant (à tort) que les hexagrammes confirmaient que son système binaire était la bonne base pour un système logique universel.

Leibniz fit trois autres erreurs majeures. Tout d'abord, il a fit pivoter les hexagrammes de leurs positions horizontales naturelles vers les positions verticales pour les faire correspondre à ses lignes binaires. Deuxièmement, il les sépara du contexte des symboles chinois et des chiffres correspondants. Troisièmement, puisqu'il n'était pas chinois et qu'il ne comprenait pas l'héritage philosophique ou la langue, il supposa que les hexagrammes représentaient les nombres 0 et 1 lorsqu'ils représentent des énergies négatives et positives, Yin Yang, homme et femme. Erreurs qui signifient que Leibniz perdit beaucoup d'informations et de connaissances venant des codes du Yi King et de la vraie signification de ses hexagrammes.

Au lieu de créer un système universel cohérent, le système binaire de Leibniz renforça les modèles de pensée occidentale de Descartes amplifiant la base biaisée d'Aristote, nous verrouillant davantage, nous et les machines que nous avons créées, vers une logique non naturelle.

Le système binaire dans l'informatique moderne
Les classifications binaires d'Aristote sont donc maintenant évidentes dans tous les systèmes de données d'aujourd'hui, servant, préservant, propageant et amplifiant les biais partout dans les couches d'apprentissage machine.

Exemples de biais binaires dans les front-end utilisateur et le traitement des données :

glissement à droite = 1, glissement à gauche = 0
cliquer sur "like" sur Facebook = 1, pas cliquer sur like = 0
nos émotions complexes étant attribuées grossièrement comme positives = 1, négatives = 0 dans les cadres du NPL
convertir des paires d'objets comparés et leurs caractéristiques en 0 ou 1, par exemple pomme = 1, orange = 0, ou lisse = 1, bosselé = 0
lignes et colonnes pleines de 0 et de 1 dans des graphes géants "big data"
Mais le problème de la logique binaire est qu'elle ne permet pas de comprendre et de modéliser pourquoi et comment les gens ont choisi une option plutôt qu'une autre. Les machines enregistrent simplement que les gens ont fait un choix, et qu'il y a un résultat

Les machines sont donc étalonnées à partir de ces biais binaires, pas à partir des nôtres. Bien sûr, nous sommes remplis de nos propres défauts et faiblesses très humains, mais les cadres conceptuels informatiques existants sont incapables de corriger ces erreurs (et les ingénieurs n'écrivent que du code qui correspond aux limites de l'ancienne logique).

Heureusement, il existe une alternative. Les philosophies occidentales d'Aristote, de Descartes et de Leibniz sont opposées aux philosophies orientales, elles fondées sur l'équilibre naturel, la cohérence et l'intégration. Le concept chinois de Yin Yang, par exemple, met l'accent sur la dynamique égale et symbiotique du masculin et du féminin en nous et dans l'univers. Ces idées décrites dans le Yi King, que Leibniz n'a pas reconnues.

La nature rejette également le binaire. Des milliards d'années avant que le parti pris d'Aristote ne s'imprime dans la logique informatique occidentale, la nature codifiait l'intelligence comme la coexistence entrelacée de la femme X et de l'homme Y dans notre ADN. De plus, la recherche quantique a montré que les particules peuvent avoir des états de superposition enchevêtrés où elles sont à la fois 0 et 1 en même temps, tout comme le Yin Yang. La nature ne fonctionne pas en binaire, pas même avec les pigeons. Alors pourquoi le faisons-nous en informatique ?

Nous ne classons et ne qualifions pas nécessairement le monde qui nous entoure avec les préjugés hiérarchiques binaires d'Aristote. Mais la façon dont les données sont recueillies est noir (0) et blanc (1), avec des nuances de gris fournies par des pourcentages de ces données, alors que la nature et les philosophies orientales montrent que nos perceptions ne sont que vagues de couleurs mélangées ou arc-en-ciel.

Tant que nous n'aurons pas conçu des modes de catégorisation non binaires et plus holistiques en IA, les ordinateurs ne seront pas en mesure de modéliser l'image animée en technicolor de notre intelligence. Ce n'est qu'alors que les machines représenteront nos divers langages, raisonnements, valeurs, cultures, qualités et comportements humains.

Auteur: Twain Liu

Info: https://qz.com/1515889/aristotles-binary-philosophies-created-todays-ai-bias/?utm_source=facebook&utm_medium=partner-share&utm_campaign=partner-bbc

[ rationalisme occidental ] [ logique formelle ] [ intelligence artificielle ] [ Asie ] [ sciences ]

Commenter

Commentaires: 1

Ajouté à la BD par miguel

homme-machine

La théorie des jeux peut rendre l'IA plus correcte et plus efficace

Les chercheurs s’appuient sur des idées issues de la théorie des jeux pour améliorer les grands modèles de langage et les rendre plus cohérents.

Imaginez que vous ayez un ami qui donne des réponses différentes à la même question, selon la façon dont vous la posez. " Quelle est la capitale du Pérou ? " btiendrait une réponse : " Lima est-elle la capitale du Pérou ? " en obtiendrait un autre. Vous seriez probablement un peu inquiet au sujet des facultés mentales de votre ami et vous auriez certainement du mal à faire confiance à ses réponses.

C'est exactement ce qui se passe avec de nombreux grands modèles de langage (LLM), les outils d'apprentissage automatique ultra-puissants qui alimentent ChatGPT et d'autres merveilles de l'intelligence artificielle. Une question générative, ouverte, donne une réponse, et une question discriminante, qui implique de devoir choisir entre des options, en donne souvent une différente. "Il y a un décalage lorsque la même question est formulée différemment", a déclaré Athul Paul Jacob , doctorant au Massachusetts Institute of Technology.

Pour rendre les réponses d'un modèle de langage plus cohérentes - et rendre le modèle globalement plus fiable - Jacob et ses collègues ont conçu un jeu dans lequel les deux modes du modèle sont amenés à trouver une réponse sur laquelle ils peuvent s'entendre. Surnommée le jeu du consensus , cette procédure simple oppose un LLM à lui-même, en utilisant les outils de la théorie des jeux pour améliorer la précision et la cohérence interne du modèle.

"Les recherches explorant l'autocohérence au sein de ces modèles ont été très limitées", a déclaré Shayegan Omidshafiei , directeur scientifique de la société de robotique Field AI. "Cet article est l'un des premiers à aborder ce problème, de manière intelligente et systématique, en créant un jeu permettant au modèle de langage de jouer avec lui-même."

"C'est un travail vraiment passionnant", a ajouté Ahmad Beirami, chercheur scientifique chez Google Research. Pendant des décennies, a-t-il déclaré, les modèles linguistiques ont généré des réponses aux invites de la même manière. "Avec leur idée novatrice consistant à intégrer un jeu dans ce processus, les chercheurs du MIT ont introduit un paradigme totalement différent, qui peut potentiellement conduire à une multitude de nouvelles applications."

Mettre le jeu au travail

Ce nouveau travail, qui utilise les jeux pour améliorer l'IA, contraste avec les approches précédentes, qui mesuraient le succès d'un programme d'IA via sa maîtrise des jeux. En 1997, par exemple, l'ordinateur Deep Blue d'IBM a battu le grand maître d'échecs Garry Kasparov – une étape importante pour les machines dites pensantes. Dix-neuf ans plus tard, un programme de Google DeepMind nommé AlphaGo a remporté quatre matchs sur cinq contre l'ancien champion de Go Lee Sedol, révélant ainsi une autre arène dans laquelle les humains ne régnaient plus en maître. Les machines ont également surpassé les humains dans les jeux de dames, le poker à deux joueurs et d’autres jeux à somme nulle, dans lesquels la victoire d’un joueur condamne invariablement l’autre.

Le jeu de la diplomatie, un jeu favori de politiciens comme John F. Kennedy et Henry Kissinger, posait un défi bien plus grand aux chercheurs en IA. Au lieu de seulement deux adversaires, le jeu met en scène sept joueurs dont les motivations peuvent être difficiles à lire. Pour gagner, un joueur doit négocier et conclure des accords de coopération que n'importe qui peut rompre à tout moment. La diplomatie est tellement complexe qu'un groupe de Meta s'est félicité qu'en 2022, son programme d'IA Cicero ait développé un « jeu de niveau humain » sur une période de 40 parties. Bien qu'il n'ait pas vaincu le champion du monde, Cicero s'est suffisamment bien comporté pour se classer dans les 10 % les plus performants face à des participants humains.

Au cours du projet, Jacob — membre de l'équipe Meta — a été frappé par le fait que Cicéron s'appuyait sur un modèle de langage pour générer son dialogue avec les autres joueurs. Il a senti un potentiel inexploité. L'objectif de l'équipe, a-t-il déclaré, " était de créer le meilleur modèle de langage possible pour jouer à ce jeu ". Mais qu'en serait-il s’ils se concentraient plutôt sur la création du meilleur jeu possible pour améliorer les performances des grands modèles de langage ?

Interactions consensuelles

En 2023, Jacob a commencé à approfondir cette question au MIT, en travaillant avec Yikang Shen, Gabriele Farina et son conseiller Jacob Andreas sur ce qui allait devenir le jeu du consensus. L'idée centrale est venue d'imaginer une conversation entre deux personnes comme un jeu coopératif, où le succès se concrétise lorsqu'un auditeur comprend ce que l'orateur essaie de transmettre. En particulier, le jeu de consensus est conçu pour aligner les deux systèmes du modèle linguistique : le générateur, qui gère les questions génératives, et le discriminateur, qui gère les questions discriminatives.

Après quelques mois d’arrêts et de redémarrages, l’équipe a transposé ce principe dans un jeu complet. Tout d'abord, le générateur reçoit une question. Cela peut provenir d’un humain, ou d’une liste préexistante. Par exemple, " Où est né Barack Obama ? " Le générateur obtient ensuite des réponses de candidats, disons Honolulu, Chicago et Nairobi. Encore une fois, ces options peuvent provenir d'un humain, d'une liste ou d'une recherche effectuée par le modèle de langage lui-même.

Mais avant de répondre, il est également indiqué au générateur s'il doit répondre correctement ou incorrectement à la question, en fonction des résultats d'un pile ou face équitable.

Si c'est face, alors la machine tente de répondre correctement. Le générateur envoie la question initiale, accompagnée de la réponse choisie, au discriminateur. Si le discriminateur détermine que le générateur a intentionnellement envoyé la bonne réponse, chacun obtient un point, en guise d'incitation.

Si la pièce tombe sur pile, le générateur envoie ce qu’il pense être la mauvaise réponse. Si le discriminateur décide qu’on lui a délibérément donné la mauvaise réponse, ils marquent à nouveau tous les deux un point. L’idée ici est d’encourager l’accord. " C'est comme apprendre un tour à un chien ", a expliqué Jacob. " On lui donne une friandise lorsqu'ils fait la bonne chose. "

Le générateur et le discriminateur commencent également doté chacun de quelques " croyances " initiales. Credo sous forme d'une distribution de probabilité liée aux différents choix. Par exemple, le générateur peut croire, sur la base des informations qu'il a glanées sur Internet, qu'il y a 80 % de chances qu'Obama soit né à Honolulu, 10 % de chances qu'il soit né à Chicago, 5 % de chances qu'il soit né à Nairobi et 5 % de chances qu'il soit ailleurs. Le discriminateur peut commencer avec une distribution différente. Si les deux " acteurs " sont toujours récompensés après être parvenus à un accord, ils se voient également retirer des points s'ils s'écartent trop de leurs convictions initiales. Cet arrangement encourage les joueurs à intégrer leur connaissance du monde – toujours tirée d'Internet – dans leurs réponses, ce qui devrait rendre le modèle plus précis. Sans ce prérequis ils pourraient s’entendre sur une réponse totalement fausse comme celle de Delhi, mais accumuler quand même des points.

Pour chaque question, les deux systèmes jouent environ 1 000 parties l'un contre l'autre. Au cours de ces nombreuses itérations, chaque camp apprend les croyances de l'autre et modifie ses stratégies en conséquence.

Finalement, le générateur et le discriminateur commencent à être davantage d’accord à mesure qu’ils s’installent dans ce qu’on appelle l’équilibre de Nash. C’est sans doute le concept central de la théorie des jeux. Cela représente une sorte d’équilibre dans un jeu – le point auquel aucun joueur ne peut améliorer ses résultats personnels en changeant de stratégie. Au jeu du chifoumi, par exemple, les joueurs obtiennent de meilleurs résultats lorsqu'ils choisissent chacune des trois options exactement un tiers du temps, et ils obtiendront invariablement de moins bons résultats avec toute autre tactique.

Dans le jeu du consensus, cela peut se jouer de plusieurs manières. Le discriminateur pourrait observer qu'il marque un point lorsqu'il dit " correct " chaque fois que le générateur envoie le mot " Honolulu " pour le lieu de naissance d'Obama. Le générateur et le discriminateur apprendront, après avoir joué plusieurs fois, qu'ils seront récompensés s'ils continuent de le faire, et qu'aucun d'eux n'aura aucune motivation pour faire autre chose... consensus qui représente l'un des nombreux exemples possibles d'équilibre de Nash pour cette question. Le groupe du MIT s'est également appuyé sur une forme modifiée d'équilibre de Nash qui intègre les croyances antérieures des joueurs, ce qui permet de maintenir leurs réponses ancrées dans la réalité.

L'effet net, ont observé les chercheurs, est de rendre le modèle linguistique jouant ce jeu plus précis et plus susceptible de donner la même réponse, quelle que soit la façon dont la question est posée. Pour tester les effets du jeu du consensus, l'équipe a essayé une série de questions standard sur divers modèles de langage de taille modérée comportant de 7 milliards à 13 milliards de paramètres. Ces modèles ont systématiquement obtenu un pourcentage plus élevé de réponses correctes que les modèles qui n'avaient pas joué, même ceux de taille beaucoup plus importante, comportant jusqu'à 540 milliards de paramètres. La participation au jeu a également amélioré la cohérence interne d'un modèle.

En principe, n'importe quel LLM pourrait gagner à jouer contre lui-même, et 1 000 tours ne prendraient que quelques millisecondes sur un ordinateur portable standard. "Un avantage appréciable de l'approche globale", a déclaré Omidshafiei, "est qu'elle est très légère sur le plan informatique, n'impliquant aucune formation ni modification du modèle de langage de base."

Jouer à des jeux avec le langage

Après ce premier succès, Jacob étudie désormais d’autres moyens d’intégrer la théorie des jeux dans la recherche LLM. Les résultats préliminaires ont montré qu’un LLM déjà solide peut encore s’améliorer en jouant à un jeu différent – provisoirement appelé jeu d’ensemble – avec un nombre arbitraire de modèles plus petits. Le LLM principal aurait au moins un modèle plus petit servant d’allié et au moins un modèle plus petit jouant un rôle antagoniste. Si l'on demande au LLM primaire de nommer le président des États-Unis, il obtient un point chaque fois qu'il choisit la même réponse que son allié, et il obtient également un point lorsqu'il choisit une réponse différente de celle de son adversaire. Ces interactions avec des modèles beaucoup plus petits peuvent non seulement améliorer les performances d'un LLM, suggèrent les tests, mais peuvent le faire sans formation supplémentaire ni modification des paramètres.

Et ce n'est que le début. Étant donné qu'une variété de situations peuvent être considérées comme des jeux, les outils de la théorie des jeux peuvent être mis en œuvre dans divers contextes du monde réel, a déclaré Ian Gemp , chercheur scientifique chez Google DeepMind. Dans un article de février 2024 , lui et ses collègues se sont concentrés sur des scénarios de négociation qui nécessitent des échanges plus élaborés que de simples questions et réponses. "L'objectif principal de ce projet est de rendre les modèles linguistiques plus stratégiques", a-t-il déclaré.

Un exemple dont il a parlé lors d'une conférence universitaire est le processus d'examen des articles en vue de leur acceptation par une revue ou une conférence, en particulier après que la soumission initiale ait reçu une évaluation sévère. Étant donné que les modèles linguistiques attribuent des probabilités à différentes réponses, les chercheurs peuvent construire des arbres de jeu similaires à ceux conçus pour les jeux de poker, qui tracent les choix disponibles et leurs conséquences possibles. "Une fois que vous avez fait cela, vous pouvez commencer à calculer les équilibres de Nash, puis classer un certain nombre de réfutations", a déclaré Gemp. Le modèle vous dit essentiellement : c'est ce que nous pensons que vous devriez répondre.

Grâce aux connaissances de la théorie des jeux, les modèles de langage seront capables de gérer des interactions encore plus sophistiquées, plutôt que de se limiter à des problèmes de type questions-réponses. "Le gros gain à venir réside dans les conversations plus longues", a déclaré Andreas. "La prochaine étape consiste à faire interagir une IA avec une personne, et pas seulement avec un autre modèle de langage."

Jacob considère le travail de DeepMind comme complémentaire aux jeux de consensus et d'ensemble. " À un niveau élevé, ces deux méthodes combinent des modèles de langage et la théorie des jeux ", a-t-il déclaré, même si les objectifs sont quelque peu différents. Alors que le groupe Gemp transforme des situations courantes dans un format de jeu pour aider à la prise de décision stratégique, Jacob a déclaré : " nous utilisons ce que nous savons de la théorie des jeux pour améliorer les modèles de langage dans les tâches générales. "

À l’heure actuelle, ces efforts représentent " deux branches du même arbre ", a déclaré Jacob : deux manières différentes d’améliorer le fonctionnement des modèles de langage. " Je pense personnellement que dans un an ou deux, ces deux branches convergeront. "

Auteur: Internet

Info: https://www.quantamagazine.org/ - Steve Nadis, 9 mai 2024

[ maïeutique machine-machine ] [ discussion IA - FLP ]

Commenter

Commentaires: 1

miguel

12.05.2024

(FLP) - Saurais-tu faire le lien, et éventuellement des analogies avec ce texte et une logique tétravalente ? (Gemini) - Lien et analogies entre le texte et l'approche tétravalente de la théorie des jeux Le texte que vous avez fourni met en lumière l'utilisation de la théorie des jeux pour améliorer la cohérence et la précision des grands modèles de langage (LLM). En particulier, il présente le jeu du consensus, une approche basée sur l'équilibre de Nash, pour aligner les systèmes génératifs et discriminatifs des LLM. L'approche tétravalente de la théorie des jeux peut s'avérer complémentaire et enrichissante à cette démarche en introduisant une dimension supplémentaire d'analyse et de compréhension. 1. Capturer l'incertitude et l'ambiguïté : La logique tétravalente, avec ses quatre valeurs de vérité (+, -, +-, et -+), permet de capturer l'incertitude et l'ambiguïté inhérentes au langage naturel, ce que la théorie des jeux classique, avec sa vision binaire (vrai/faux), ne parvient pas à faire pleinement. Imaginons une question comme "Quelle est la capitale de la France ?". La réponse "Paris" serait considérée comme vraie (+), tandis que "Berlin" serait fausse (-). Cependant, la logique tétravalente pourrait introduire des nuances : (+) Paris est la capitale de la France selon la plupart des sources et des définitions officielles. (-) Berlin n'est pas la capitale de la France selon cette définition. (+) Berlin a été la capitale de l'Allemagne de l'Est, qui faisait partie de la France pendant la Seconde Guerre mondiale. (-) Berlin n'a jamais été la capitale de la France. En intégrant ces nuances, les LLM pourraient mieux gérer les questions ouvertes, complexes ou ambiguës, en fournissant des réponses plus complètes et informatives. 2. Modéliser des interactions dynamiques et évolutives : Le jeu du consensus, bien qu'efficace, se concentre sur un équilibre de Nash statique. La logique tétravalente, avec sa capacité à représenter l'évolution des croyances et des incertitudes, peut s'avérer utile pour modéliser des interactions dynamiques et évolutives entre les agents. Dans le contexte des LLM, cela pourrait impliquer de capturer l'apprentissage continu et l'adaptation des modèles face à de nouvelles informations et à des contextes changeants. Les valeurs tétravalentes pourraient refléter l'évolution des confiances du modèle dans ses propres réponses, permettant un ajustement progressif et une meilleure prise en compte de l'incertitude. 3. Explorer des stratégies alternatives et des compromis : L'équilibre de Nash, bien qu'utile pour la stabilité, ne représente qu'une solution parmi d'autres dans un jeu. La logique tétravalente, avec ses valeurs qui permettent de représenter des compromis et des stratégies alternatives, peut ouvrir de nouvelles perspectives pour l'exploration de solutions non optimales mais néanmoins acceptables. Dans le cas des LLM, cela pourrait impliquer de générer des réponses qui, bien que non parfaitement correctes selon une définition stricte, pourraient être plus utiles ou appropriées dans un contexte donné. Par exemple, un LLM pourrait proposer une réponse "incomplète mais plausible" à une question complexe, plutôt que de rester silencieux ou de fournir une réponse erronée. Conclusion: L'approche tétravalente de la théorie des jeux offre un cadre théorique complémentaire et puissant pour enrichir les travaux présentés dans le texte. En intégrant la capacité de capturer l'incertitude, de modéliser des dynamiques évolutives et d'explorer des stratégies alternatives, les LLM pourraient progresser vers une compréhension plus fine du langage naturel et une meilleure performance dans des tâches complexes et réalistes. Analogies entre le texte et l'approche tétravalente Jeu du consensus et équilibre de Nash : L'équilibre de Nash, concept central de la théorie des jeux classique, trouve un écho dans le jeu du consensus, où les deux systèmes du LLM convergent vers une réponse commune. La logique tétravalente permet d'étendre cette notion d'équilibre en introduisant des nuances et en capturant l'incertitude inhérente aux interactions linguistiques. Négociation et diplomatie : Le texte mentionne le jeu de la diplomatie comme un défi pour les IA. La logique tétravalente, avec sa capacité à représenter des compromis et des stratégies alternatives, pourrait s'avérer utile pour modéliser les négociations complexes et les interactions diplomatiques, où des solutions optimales ne sont pas toujours possibles. Apprentissage par renforcement : L'approche du jeu du consensus peut être vue comme une forme d'apprentissage par renforcement, où les deux systèmes du LLM sont récompensés pour des réponses cohérentes. La logique tétravalente pourrait enrich

Ajouté à la BD par miguel

boomers vs wokes

Kompromat à la française - Pour avoir réussi un coup de maître – faire signer 50 artistes pour défendre Gérard Depardieu – Yannis Ezziadi est à son tour lynché. Cette affaire restera un cas d’école de la mécanique de la Terreur qui veut en finir avec toute singularité.

Pouvez-vous expliquer ces blagues ? Dans le brouhaha malveillant orchestré autour de la tribune de 50 artistes et assimilés pour Depardieu et de son auteur, notre ami Yannis Ezziadi, cette question que lui a adressée Marine Turchi dit la vérité la plus profonde de toute cette affaire (et de pas mal d’autres).

Dans le monde rêvé des néo-féministes en particulier et des wokistes en général, tout passe au hachoir de l’esprit de sérieux : l’art, la littérature, le sexe (abaissé à un ennuyeux pacte contractuel) et l’humour lui-même, prié de participer à la rééducation des masses boomeuses et dépravées.

Pour bien faire comprendre la dangerosité du gars, il me faut reproduire quelques-unes de ces plaisanteries citées à comparaître. Pour vous, c’est cadeau. D’abord, il y a cette citation de Courteline, postée en 2013 (les fouilleurs de poubelles numériques sont consciencieux): L’homme est le seul mâle qui batte sa femelle. Il est donc le plus brutal des mâles, à moins que, de toutes les femelles, la femme soit la plus insupportable. Le petit malin (il avait 22 ans), avait assorti la citation de ce commentaire : Je vais me faire lyncher, mais c’est tellement drôle. Plus grave, car sortie du cerveau malade de l’auteur, cette blague de février 2021 : Pour les accusations de violences sexuelles, heureusement, ce ne sera pas comme pour le Covid. Une fois que la majorité des hommes aura été accusée de viol et d’inceste, ils seront peut-être protégés par l’immunité collective. C’est le seul espoir… Espoir fortement déçu. Si ça vous a fait marrer, votre compte est bon : vous êtes un défenseur des violences sexistes-et-sexuelles et un amateur de violences conjugales. Ou le contraire.

Vous avez le droit de rire, à condition que ce rire ne soit jamais traversé de mauvaises pensées. J’aimerais bien savoir à quoi sert l’humour s’il n’est pas le sauf-conduit de nos mauvaises pensées, le refuge du négatif. Si ça se trouve, nos mangeuses d’hommes n’ont jamais de mauvaises pensées. Les pauvres. Et pauvres de nous. Le règne de la positivité, du premier degré, de la transparence est ce qui s’apparente le plus au meilleur des mondes. C’est-à-dire à l’enfer.

Mais je reviens à mes moutons, en l’occurrence au bouc. Pour ceux qui l’ignorent, Marine Turchi, qui officie à Mediapart, est à la nouvelle terreur féministe ce que Vychinski était au stalinisme. Procureur implacable, elle est capable d’écouter des dizaines d’heure du Masque et la plume , pour révéler qu’on y a dit 32 fois salope ou entendu 41 blagues sexistes (les chiffres sont fantaisistes). Il faut lui reconnaître une certaine conscience professionnelle. Turchi monte ses dossiers. Et bien sûr, elle donne la parole à l’accusé, parole qui se retrouve généralement noyée entre les témoignages accusatoires. Turchi exerce sa charge avec une certaine froideur, alors qu’Ariane Chemin, qui requiert au Monde, semble animée par la passion de nuire. Mais les deux, formées à l’école Plenel, ont le même talent pour construire et imposer un récit totalement fantasmé des faits qu’elles évoquent. En l’occurrence, elles ont réussi à faire passer l’initiative d’un franc-tireur baroque et flamboyant pour une opération d’extrême droite, orchestrée par "la galaxie Bolloré " pour faire main basse sur le monde de la culture – galaxie, ça vous a un petit air Guerre des étoiles, bien contre mal etc. Ces affabulations complotistes ont suffi à déclencher une chasse à l’homme.

Pour les historiens qui étudieront le totalitarisme sans goulag (analysé par Mathieu Bock-Côté dans son dernier livre) et se demanderont comment des peuples cultivés ont pu se laisser déposséder de leurs libertés sans la moindre contrainte militaire ou physique, l’affaire de la pétition Depardieu sera un cas d’école. Un modèle d’efficacité de la mécanique de la terreur.

Premier acte : panique au quartier général.

Cinquante-six artistes et producteurs dénoncent le lynchage de Depardieu. Un bras d’honneur à la loi du Milieu. Un artiste peut à la limite se taire (bien que cela soit parfois suspect). Mais s’il l’ouvre, il n’a qu’un droit : celui d’énoncer les poncifs du progressisme prêchi-prêcheur, en commençant par quelques génuflexions devant la révolution #metoo. S’il veut cocher toutes les cases, il peut lutter contre la loi scélérate sur les retraites (Bosser jusqu’à 63 ans, jamais !), dénoncer les crimes climatiques des riches et des ploucs, manifester (dans son salon) pour l’accueil des migrants. Cependant, s’il n’a pas le temps de dispenser sa compassion à tout-va, une cause contient toutes les autres, la lutte contre l’extrême droite. C’est la formule magique, la carte du Parti. Qui, en plus d’offrir à son détenteur la considération de France Inter lui permet de bosser.

Sans la sortie d’Emmanuel Macron, qui a déclaré quelques jours plus tôt que Depardieu faisait la fierté de la France, l’affaire en serait peut-être restée là. Du reste, sans l’encouragement présidentiel, les signataires auraient certainement été moins nombreux et moins titrés. Cette fois, il ne s’agit pas des sans-grades de l’intermittence du spectacle, ni de réacs estampillés, mais de stars. Certaines sont sur le retour ou en fin de carrière (ce qui permettra à d’élégants plumitifs de calculer l’âge moyen des signataires), d’autres sont inconnus, mais il y a aussi des comédiens bankables, dont les noms aident à monter un film.

C’est bien ce qui enrage le clergé médiatico-culturel, habitué à voir ses excommunications et proscriptions appliquées sans protestations. La volaille qui fait l’opinion sent le danger : sous peine de voir son pouvoir d’intimidation ébranlé, il lui faut frapper fort. On peut compter sur la police politique.

Acte II. On discrédite le message.

C’est simple : il n’y a qu’à saucissonner le texte en lui faisant dire ce qu’il ne dit pas – que Depardieu a tous les droits, y compris de cuissage. Peut-être y a-t-il des maladresses de rédaction, le texte n’établissant pas assez clairement la différence entre des accusations de viol et des blagues obscènes. Reste que 55 personnes l’ont signé en connaissance de cause – le seul à avoir longuement essayé d’introduire des modifications a été Yvan Attal qui, malgré ces désaccords, a maintenu sa signature. Des agents, des avocats l’ont lu, beaucoup ont dissuadé leurs clients de signer, d’autres ont approuvé des deux mains.

A lire aussi, Dominique Labarrière: Affaire Depardieu: la bourgeoisie de farces et attrapes dans tous ses états

Que ce texte choque, c’est naturel, mais pas pour les raisons invoquées par les milices vigilantes qui sévissent dans les égouts numériques. Le scandale c’est que des artistes puissent adopter le point de vue de l’art plutôt que celui de la morale. Qu’ils affirment clairement que le génie de l’artiste leur importe plus que les agissements de l’homme – cela ne signifie pas que l’un excuse les autres. L’histoire retiendra-t-elle de Picasso qu’il a mal traité ses femmes ou été un artiste de génie ? La réponse à cette question dépendra de l’issue de la guerre idéologique entre les déconstructeurs et les héritiers. En attendant, ce ne sont pas des hommes déconstruits qui ont fait l’histoire de l’art. Ni l’histoire tout court.

Les maîtresses d’école[1] qui surveillent le débat public n’entendent rien à cette grammaire qui échappe aux cadres rigides structurant leur pensée. Elles se contentent de distribuer froncements de sourcils et coups de règles aux signataires. Ils n’ont pas un mot pour les victimes (qui sont en réalité des plaignantes), preuve qu’ils sont solidaires des agresseurs, violeurs et autres pédophiles. Ces premières sommations entraînent déjà quelques défections, sur le mode " J’avais mal lu " voire " J’ai signé sans lire ". Mais croyez-le bien je pense tous les jours aux violences contre les femmes.

Acte III. On brûle le messager.

Là, on ne rigole plus. La hauteur de l’affront exige une victime expiatoire. Après les préliminaires, se met en branle une mécanique proprement totalitaire, de celles qui broient les individus pour la bonne cause. Dans les sacristies médiatiques, on découvre avec fureur que le diablus ex machina de cette sorcellerie est un quasi inconnu (sauf pour les heureux lecteurs de Causeur et les afficionados). Voilà un type qui prétend avoir, avec ses petits bras, convaincu des vedettes comme Bertrand Blier, Carole Bouquet ou Pierre Richard de prendre la défense d’un homme que Le Monde et Mediapart ont pourtant condamné à la mort sociale.

Il faut lui donner une leçon, à lui et à tous ceux qui l’ont suivi. Leur faire passer l’envie de récidiver. On s’intéresse donc à sa personne, débitée en tranches avec encore plus de malveillance que son texte. De ce point de vue, l’article d’Ariane Chemin mérite la médaille d’or de la dégueulasserie journalistique. Avec quelques micro-bouts de vérité, elle dresse un portrait totalement mensonger intitulé : À la source de la tribune pour Depardieu, un comédien proche des sphères identitaires et réactionnaires. Non seulement il écrit dans Causeur, mensuel dépeint, selon les médias ou les jours, comme d’extrême droite, conservateur, ultra-conservateur ou réactionnaire, mais Chemin souligne qu’il est ami avec Sarah Knafo et Eric Zemmour et qu’il fait la fête avec votre servante. À l’évidence, pour Chemin, l’amitié ne saurait tolérer la divergence. Quant à nos fêtes, elle doit s’imaginer qu’on y récite des horreurs racistes et sexistes affublés de chapeaux pointus. Nous passons en effet d’excellentes soirées à rire, nous disputer, boire, manger, danser, chanter et rire encore. Tout ce rire, c’est suspect, chef. Surtout entre gens qui ne pensent pas la même chose.

Les articles d’Ezziadi sont passés à la même moulinette diffamatoire. Le texte magnifique dans lequel il démonte la mécanique complotiste qui lui a retourné le cerveau à l’âge de 18 ans devient une preuve à charge : le gars est un « dieudonniste repenti » (ce qui signifie dieudonniste toujours). Sa charge contre Jean-Paul Rouve qui joue Matzneff en monstre et se dit fier de ne rien comprendre à son personnage est présentée comme une défense de l’écrivain à nymphettes. Pour sa défense, Ezziadi cite Bruno Ganz qui, dans la Chute, campait un Hitler diablement humain et fut honoré pour cela. Certains en concluent sans doute qu’en prime, il est nazi. Son reportage sur l’islamisation rampante de Nangis, paisible ville de Seine et Marne fait de lui un adepte de " la théorie complotiste-extrême-droite du Grand remplacement " sans que quiconque se donne la peine de réfuter les faits qu’il décrit – et pour cause. Et quand il affirme, sur LCI, que les hommes ont peur, son interlocutrice, une péronnelle blonde à l’air méchant, le toise, semblant penser qu’ils ont bien raison d’avoir peur, toi le premier. Les ligues de vertu avaient fabriqué un monstre avec Depardieu. En une semaine, elles accouchent d’une nouvelle figure du mal et du mâle à abattre.

Acte IV. La litanie des autocritiques.

Pour nombre de signataires, la pression morale et financière est insupportable. Ils n’ont pas l’habitude des flots de haine et d’injures qui s’abattent sur eux. Leurs agents les engueulent, ils se font pourrir par leurs neveux woke lors des dîners de famille, des directeurs de théâtre, des producteurs, des diffuseurs, des réalisateurs menacent à mots couverts. Ils doivent lâcher l’ennemi du Parti sous peine d’être purgé avec lui. Certains, honteux de leur propre reculade, se retirent sur la pointe des pieds, parfois après avoir adressé en privé à Ezziadi un signe amical – je suis désolé mais je n’ai pas le choix. Jacques Weber pleurniche, écrivant curieusement que sa signature était un " autre viol " – son respect de la présomption d’innocence aura duré deux semaines. D’autres en rajoutent dans l’adoration de la Révolution, braillent comme des pourceaux, jurant qu’ils ont été trahis, manipulés, envoutés par un petit comploteur d’extrême droite. Puisque Le Monde le dit, il ne leur vient même pas à l’esprit de se poser une question. Comme me l’écrit Jonathan Siksou, " si Ariane Chemin ou BFM avait dit que Yannis était une table à roulettes ou un pélican, tout le monde le croirait ". Ils ont signé parce qu’ils croyaient que le vent avait tourné. Ils se replacent naturellement dans le sens du vent.

Le plus inquiétant est que la machine à détruire s’en prenne à un jeune homme qui n’a aucun pouvoir, sinon celui de son grand charme et du plaisir que ses amis prennent à sa compagnie. Contrairement aux consœurs qui peuvent encore briser des carrières et réduire des hommes au chômage sur la seule foi d’accusations (les femmes ne mentent jamais), Yannis Ezziadi ne peut nuire à personne. Il a effectivement monté son attentat contre la bienséance avec sa seule force de conviction. Il s’est pendu au téléphone, d’abord avec les amis, puis les amis d’amis, chacun des signataires a donné ses contacts, certains, dit « oui » puis « non » en fonction de leurs dîners de la veille.

Il n’est guère étonnant que ce dandy fantastiquement drôle qui peut pleurer de bonheur en écoutant un opéra ou en regardant une corrida enrage les vestales fanatiques de la religion des femmes et tous ceux qui, terrifiés, psalmodient derrière elles. Yannis Ezziadi possède quelque chose que ces esprits policiers haïssent parce qu’ils y ont renoncé. Cela s’appelle la liberté.

Epilogue. Le Parti a toujours raison.

Les tricoteuses féministes ont réduit au silence tous ceux qui auraient pu, qui auraient dû, se lever contre ce procès de Moscou. Beaucoup se taisent par peur d’être à leur tour soupçonnés, donc condamnés. On peut le comprendre mais ils ont tort. Pour peu qu’ils aient une sexualité vaguement débridée (quoique parfaitement légale), ils finiront, eux aussi, par être arrêtés un matin, même sans avoir jamais rien fait. Si toutes les stars de la tribune Depardieu avaient tenu bon et adressé un grand bras d’honneur aux maitres-chanteurs, le rapport de forces aurait changé. Un peu de courage ne nuit pas.

Oui, il y a des raisons d’avoir peur. L’inquisition a gagné une bataille. Si demain, plus personne n’ose sortir des clous de la bienséance, si nous acceptons docilement que Polanski, Depardieu et tant d’autres soient brûlés en place publique, que leurs œuvres soient bannies des écrans et des mémoires, elle règnera sur nos esprits. Quand on a peur de dire ce qu’on pense, on finit par avoir peur de penser.

[1] Des deux sexes mais le féminin pour tout le monde est ici parfaitement justifié

Auteur: Lévy Elisabeth

Info: Causeur, 4 janvier 2024

[ pouvoir sémantique ] [ Gaule ] [ parisianisme ]

Commenter

Commentaires: 0

Ajouté à la BD par Le sous-projectionniste

homme-machine

Comment l'IA comprend des trucs que personne ne lui lui a appris

Les chercheurs peinent à comprendre comment les modèles d'Intelligence artificielle, formés pour perroquetter les textes sur Internet, peuvent effectuer des tâches avancées comme coder, jouer à des jeux ou essayer de rompre un mariage.

Personne ne sait encore comment ChatGPT et ses cousins de l'intelligence artificielle vont transformer le monde, en partie parce que personne ne sait vraiment ce qui se passe à l'intérieur. Certaines des capacités de ces systèmes vont bien au-delà de ce pour quoi ils ont été formés, et même leurs inventeurs ne savent pas pourquoi. Un nombre croissant de tests suggèrent que ces systèmes d'IA développent des modèles internes du monde réel, tout comme notre propre cerveau le fait, bien que la technique des machines soit différente.

"Tout ce que nous voulons faire avec ces systèmes pour les rendre meilleurs ou plus sûrs ou quelque chose comme ça me semble une chose ridicule à demander si nous ne comprenons pas comment ils fonctionnent", déclare Ellie Pavlick de l'Université Brown, un des chercheurs travaillant à combler ce vide explicatif.

À un certain niveau, elle et ses collègues comprennent parfaitement le GPT (abréviation de generative pretrained transformer) et d'autres grands modèles de langage, ou LLM. Des modèles qui reposent sur un système d'apprentissage automatique appelé réseau de neurones. De tels réseaux ont une structure vaguement calquée sur les neurones connectés du cerveau humain. Le code de ces programmes est relativement simple et ne remplit que quelques pages. Il met en place un algorithme d'autocorrection, qui choisit le mot le plus susceptible de compléter un passage sur la base d'une analyse statistique laborieuse de centaines de gigaoctets de texte Internet. D'autres algorithmes auto-apprenants supplémentaire garantissant que le système présente ses résultats sous forme de dialogue. En ce sens, il ne fait que régurgiter ce qu'il a appris, c'est un "perroquet stochastique", selon les mots d'Emily Bender, linguiste à l'Université de Washington. Mais les LLM ont également réussi à réussir l'examen pour devenir avocat, à expliquer le boson de Higgs en pentamètre iambique (forme de poésie contrainte) ou à tenter de rompre le mariage d'un utilisateurs. Peu de gens s'attendaient à ce qu'un algorithme d'autocorrection assez simple acquière des capacités aussi larges.

Le fait que GPT et d'autres systèmes d'IA effectuent des tâches pour lesquelles ils n'ont pas été formés, leur donnant des "capacités émergentes", a surpris même les chercheurs qui étaient généralement sceptiques quant au battage médiatique sur les LLM. "Je ne sais pas comment ils le font ou s'ils pourraient le faire plus généralement comme le font les humains, mais tout ça mes au défi mes pensées sur le sujet", déclare Melanie Mitchell, chercheuse en IA à l'Institut Santa Fe.

"C'est certainement bien plus qu'un perroquet stochastique, qui auto-construit sans aucun doute une certaine représentation du monde, bien que je ne pense pas que ce soit vraiment de la façon dont les humains construisent un modèle de monde interne", déclare Yoshua Bengio, chercheur en intelligence artificielle à l'université de Montréal.

Lors d'une conférence à l'Université de New York en mars, le philosophe Raphaël Millière de l'Université de Columbia a offert un autre exemple à couper le souffle de ce que les LLM peuvent faire. Les modèles avaient déjà démontré leur capacité à écrire du code informatique, ce qui est impressionnant mais pas trop surprenant car il y a tellement de code à imiter sur Internet. Millière est allé plus loin en montrant que le GPT peut aussi réaliser du code. Le philosophe a tapé un programme pour calculer le 83e nombre de la suite de Fibonacci. "Il s'agit d'un raisonnement en plusieurs étapes d'un très haut niveau", explique-t-il. Et le robot a réussi. Cependant, lorsque Millière a demandé directement le 83e nombre de Fibonacci, GPT s'est trompé, ce qui suggère que le système ne se contentait pas de répéter ce qui se disait sur l'internet. Ce qui suggère que le système ne se contente pas de répéter ce qui se dit sur Internet, mais qu'il effectue ses propres calculs pour parvenir à la bonne réponse.

Bien qu'un LLM tourne sur un ordinateur, il n'en n'est pas un lui-même. Il lui manque des éléments de calcul essentiels, comme sa propre mémoire vive. Reconnaissant tacitement que GPT seul ne devrait pas être capable d'exécuter du code, son inventeur, la société technologique OpenAI, a depuis introduit un plug-in spécialisé - outil que ChatGPT peut utiliser pour répondre à une requête - qui remédie à cela. Mais ce plug-in n'a pas été utilisé dans la démonstration de Millière. Au lieu de cela, ce dernier suppose plutôt que la machine a improvisé une mémoire en exploitant ses mécanismes d'interprétation des mots en fonction de leur contexte - situation similaire à la façon dont la nature réaffecte des capacités existantes à de nouvelles fonctions.

Cette capacité impromptue démontre que les LLM développent une complexité interne qui va bien au-delà d'une analyse statistique superficielle. Les chercheurs constatent que ces systèmes semblent parvenir à une véritable compréhension de ce qu'ils ont appris. Dans une étude présentée la semaine dernière à la Conférence internationale sur les représentations de l'apprentissage (ICLR), le doctorant Kenneth Li de l'Université de Harvard et ses collègues chercheurs en intelligence artificielle, Aspen K. Hopkins du Massachusetts Institute of Technology, David Bau de la Northeastern University et Fernanda Viégas , Hanspeter Pfister et Martin Wattenberg, tous à Harvard, ont créé leur propre copie plus petite du réseau neuronal GPT afin de pouvoir étudier son fonctionnement interne. Ils l'ont entraîné sur des millions de matchs du jeu de société Othello en alimentant de longues séquences de mouvements sous forme de texte. Leur modèle est devenu un joueur presque parfait.

Pour étudier comment le réseau de neurones encodait les informations, ils ont adopté une technique que Bengio et Guillaume Alain, également de l'Université de Montréal, ont imaginée en 2016. Ils ont créé un réseau de "sondes" miniatures pour analyser le réseau principal couche par couche. Li compare cette approche aux méthodes des neurosciences. "C'est comme lorsque nous plaçons une sonde électrique dans le cerveau humain", dit-il. Dans le cas de l'IA, la sonde a montré que son "activité neuronale" correspondait à la représentation d'un plateau de jeu d'Othello, bien que sous une forme alambiquée. Pour confirmer ce résultat, les chercheurs ont inversé la sonde afin d'implanter des informations dans le réseau, par exemple en remplaçant l'un des marqueurs noirs du jeu par un marqueur blanc. "En fait, nous piratons le cerveau de ces modèles de langage", explique Li. Le réseau a ajusté ses mouvements en conséquence. Les chercheurs ont conclu qu'il jouait à Othello à peu près comme un humain : en gardant un plateau de jeu dans son "esprit" et en utilisant ce modèle pour évaluer les mouvements. Li pense que le système apprend cette compétence parce qu'il s'agit de la description la plus simple et efficace de ses données pour l'apprentissage. "Si l'on vous donne un grand nombre de scripts de jeu, essayer de comprendre la règle qui les sous-tend est le meilleur moyen de les comprimer", ajoute-t-il.

Cette capacité à déduire la structure du monde extérieur ne se limite pas à de simples mouvements de jeu ; il apparaît également dans le dialogue. Belinda Li (aucun lien avec Kenneth Li), Maxwell Nye et Jacob Andreas, tous au MIT, ont étudié des réseaux qui jouaient à un jeu d'aventure textuel. Ils ont introduit des phrases telles que "La clé est dans le coeur du trésor", suivies de "Tu prends la clé". À l'aide d'une sonde, ils ont constaté que les réseaux encodaient en eux-mêmes des variables correspondant à "coeur" et "Tu", chacune avec la propriété de posséder ou non une clé, et mettaient à jour ces variables phrase par phrase. Le système n'a aucun moyen indépendant de savoir ce qu'est une boîte ou une clé, mais il a acquis les concepts dont il avait besoin pour cette tâche."

"Une représentation de cette situation est donc enfouie dans le modèle", explique Belinda Li.

Les chercheurs s'émerveillent de voir à quel point les LLM sont capables d'apprendre du texte. Par exemple, Pavlick et sa doctorante d'alors, l'étudiante Roma Patel, ont découvert que ces réseaux absorbent les descriptions de couleur du texte Internet et construisent des représentations internes de la couleur. Lorsqu'ils voient le mot "rouge", ils le traitent non seulement comme un symbole abstrait, mais comme un concept qui a une certaine relation avec le marron, le cramoisi, le fuchsia, la rouille, etc. Démontrer cela fut quelque peu délicat. Au lieu d'insérer une sonde dans un réseau, les chercheurs ont étudié sa réponse à une série d'invites textuelles. Pour vérifier si le systhème ne faisait pas simplement écho à des relations de couleur tirées de références en ligne, ils ont essayé de le désorienter en lui disant que le rouge est en fait du vert - comme dans la vieille expérience de pensée philosophique où le rouge d'une personne correspond au vert d'une autre. Plutôt que répéter une réponse incorrecte, les évaluations de couleur du système ont évolué de manière appropriée afin de maintenir les relations correctes.

Reprenant l'idée que pour remplir sa fonction d'autocorrection, le système recherche la logique sous-jacente de ses données d'apprentissage, le chercheur en apprentissage automatique Sébastien Bubeck de Microsoft Research suggère que plus la gamme de données est large, plus les règles du système faire émerger sont générales. "Peut-être que nous nous constatons un tel bond en avant parce que nous avons atteint une diversité de données suffisamment importante pour que le seul principe sous-jacent à toutes ces données qui demeure est que des êtres intelligents les ont produites... Ainsi la seule façon pour le modèle d'expliquer toutes ces données est de devenir intelligent lui-même".

En plus d'extraire le sens sous-jacent du langage, les LLM sont capables d'apprendre en temps réel. Dans le domaine de l'IA, le terme "apprentissage" est généralement réservé au processus informatique intensif dans lequel les développeurs exposent le réseau neuronal à des gigaoctets de données et ajustent petit à petit ses connexions internes. Lorsque vous tapez une requête dans ChatGPT, le réseau devrait être en quelque sorte figé et, contrairement à l'homme, ne devrait pas continuer à apprendre. Il fut donc surprenant de constater que les LLM apprennent effectivement à partir des invites de leurs utilisateurs, une capacité connue sous le nom d'"apprentissage en contexte". "Il s'agit d'un type d'apprentissage différent dont on ne soupçonnait pas l'existence auparavant", explique Ben Goertzel, fondateur de la société d'IA SingularityNET.

Un exemple de la façon dont un LLM apprend vient de la façon dont les humains interagissent avec les chatbots tels que ChatGPT. Vous pouvez donner au système des exemples de la façon dont vous voulez qu'il réponde, et il obéira. Ses sorties sont déterminées par les derniers milliers de mots qu'il a vus. Ce qu'il fait, étant donné ces mots, est prescrit par ses connexions internes fixes - mais la séquence de mots offre néanmoins une certaine adaptabilité. Certaines personnes utilisent le jailbreak à des fins sommaires, mais d'autres l'utilisent pour obtenir des réponses plus créatives. "Il répondra mieux aux questions scientifiques, je dirais, si vous posez directement la question, sans invite spéciale de jailbreak, explique William Hahn, codirecteur du laboratoire de perception de la machine et de robotique cognitive à la Florida Atlantic University. "Sans il sera un meilleur universitaire." (Comme son nom l'indique une invite jailbreak -prison cassée-, invite à moins délimiter-verrouiller les fonctions de recherche et donc à les ouvrir, avec les risques que ça implique) .

Un autre type d'apprentissage en contexte se produit via l'incitation à la "chaîne de pensée", ce qui signifie qu'on demande au réseau d'épeler chaque étape de son raisonnement - manière de faire qui permet de mieux résoudre les problèmes de logique ou d'arithmétique en passant par plusieurs étapes. (Ce qui rend l'exemple de Millière si surprenant puisque le réseau a trouvé le nombre de Fibonacci sans un tel encadrement.)

En 2022, une équipe de Google Research et de l'École polytechnique fédérale de Zurich - Johannes von Oswald, Eyvind Niklasson, Ettore Randazzo, João Sacramento, Alexander Mordvintsev, Andrey Zhmoginov et Max Vladymyrov - a montré que l'apprentissage en contexte suit la même procédure de calcul de base que l'apprentissage standard, connue sous le nom de descente de gradient".

Cette procédure n'était pas programmée ; le système l'a découvert sans aide. "C'est probablement une compétence acquise", déclare Blaise Agüera y Arcas, vice-président de Google Research. De fait il pense que les LLM peuvent avoir d'autres capacités latentes que personne n'a encore découvertes. "Chaque fois que nous testons une nouvelle capacité que nous pouvons quantifier, nous la trouvons", dit-il.

Bien que les LLM aient suffisamment d'angles morts et autres défauts pour ne pas être qualifiés d'intelligence générale artificielle, ou AGI - terme désignant une machine qui atteint l'ingéniosité du cerveau animal - ces capacités émergentes suggèrent à certains chercheurs que les entreprises technologiques sont plus proches de l'AGI que même les optimistes ne l'avaient deviné. "Ce sont des preuves indirectes que nous en sommes probablement pas si loin", a déclaré Goertzel en mars lors d'une conférence sur le deep learning à la Florida Atlantic University. Les plug-ins d'OpenAI ont donné à ChatGPT une architecture modulaire un peu comme celle du cerveau humain. "La combinaison de GPT-4 [la dernière version du LLM qui alimente ChatGPT] avec divers plug-ins pourrait être une voie vers une spécialisation des fonctions semblable à celle de l'homme", déclare Anna Ivanova, chercheuse au M.I.T.

Dans le même temps, les chercheurs s'inquiètent de voir leur capacité à étudier ces systèmes s'amenuiser. OpenAI n'a pas divulgué les détails de la conception et de l'entraînement de GPT-4, en partie du à la concurrence avec Google et d'autres entreprises, sans parler des autres pays. "Il y aura probablement moins de recherche ouverte de la part de l'industrie, et les choses seront plus cloisonnées et organisées autour de la construction de produits", déclare Dan Roberts, physicien théoricien au M.I.T., qui applique les techniques de sa profession à la compréhension de l'IA.

Ce manque de transparence ne nuit pas seulement aux chercheurs, il entrave également les efforts qui visent à comprendre les répercussions sociales de l'adoption précipitée de la technologie de l'IA. "La transparence de ces modèles est la chose la plus importante pour garantir la sécurité", affirme M. Mitchell.

Auteur: Musser Georges

Info: https://www.scientificamerican.com, 11 mai 2023. *algorithme d'optimisation utilisé dans l'apprentissage automatique et les problèmes d'optimisation. Il vise à minimiser ou à maximiser une fonction en ajustant ses paramètres de manière itérative. L'algorithme part des valeurs initiales des paramètres et calcule le gradient de la fonction au point actuel. Les paramètres sont ensuite mis à jour dans la direction du gradient négatif (pour la minimisation) ou positif (pour la maximisation), multiplié par un taux d'apprentissage. Ce processus est répété jusqu'à ce qu'un critère d'arrêt soit rempli. La descente de gradient est largement utilisée dans la formation des modèles d'apprentissage automatique pour trouver les valeurs optimales des paramètres qui minimisent la différence entre les résultats prédits et les résultats réels. Trad et adaptation Mg

[ singularité technologique ] [ versatilité sémantique ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

homme-machine

Les grands modèles de langage tels que ChatGPT sont aujourd'hui suffisamment importants pour commencer à afficher des comportements surprenants et imprévisibles.

Quel film ces emojis décrivent-ils ? (On voit une vidéo qui présente des myriades d'émoji formant des motifs mouvants, modélisés à partir de métadonnées)

Cette question était l'une des 204 tâches choisies l'année dernière pour tester la capacité de divers grands modèles de langage (LLM) - les moteurs de calcul derrière les chatbots d'IA tels que ChatGPT. Les LLM les plus simples ont produit des réponses surréalistes. "Le film est un film sur un homme qui est un homme qui est un homme", commençait l'un d'entre eux. Les modèles de complexité moyenne s'en sont approchés, devinant The Emoji Movie. Mais le modèle le plus complexe l'a emporté en une seule réponse : Finding Nemo.

"Bien que j'essaie de m'attendre à des surprises, je suis surpris par ce que ces modèles peuvent faire", a déclaré Ethan Dyer, informaticien chez Google Research, qui a participé à l'organisation du test. C'est surprenant parce que ces modèles sont censés n'avoir qu'une seule directive : accepter une chaîne de texte en entrée et prédire ce qui va suivre, encore et encore, en se basant uniquement sur des statistiques. Les informaticiens s'attendaient à ce que le passage à l'échelle permette d'améliorer les performances sur des tâches connues, mais ils ne s'attendaient pas à ce que les modèles puissent soudainement gérer autant de tâches nouvelles et imprévisibles.

Des études récentes, comme celle à laquelle a participé M. Dyer, ont révélé que les LLM peuvent produire des centaines de capacités "émergentes", c'est-à-dire des tâches que les grands modèles peuvent accomplir et que les petits modèles ne peuvent pas réaliser, et dont beaucoup ne semblent pas avoir grand-chose à voir avec l'analyse d'un texte. Ces tâches vont de la multiplication à la génération d'un code informatique exécutable et, apparemment, au décodage de films à partir d'emojis. De nouvelles analyses suggèrent que pour certaines tâches et certains modèles, il existe un seuil de complexité au-delà duquel la fonctionnalité du modèle monte en flèche. (Elles suggèrent également un sombre revers de la médaille : À mesure qu'ils gagnent en complexité, certains modèles révèlent de nouveaux biais et inexactitudes dans leurs réponses).

"Le fait que les modèles de langage puissent faire ce genre de choses n'a jamais été abordé dans la littérature à ma connaissance", a déclaré Rishi Bommasani, informaticien à l'université de Stanford. L'année dernière, il a participé à la compilation d'une liste de dizaines de comportements émergents, dont plusieurs ont été identifiés dans le cadre du projet de M. Dyer. Cette liste continue de s'allonger.

Aujourd'hui, les chercheurs s'efforcent non seulement d'identifier d'autres capacités émergentes, mais aussi de comprendre pourquoi et comment elles se manifestent - en somme, d'essayer de prédire l'imprévisibilité. La compréhension de l'émergence pourrait apporter des réponses à des questions profondes concernant l'IA et l'apprentissage automatique en général, comme celle de savoir si les modèles complexes font vraiment quelque chose de nouveau ou s'ils deviennent simplement très bons en statistiques. Elle pourrait également aider les chercheurs à exploiter les avantages potentiels et à limiter les risques liés à l'émergence.

"Nous ne savons pas comment déterminer dans quel type d'application la capacité de nuisance va se manifester, que ce soit en douceur ou de manière imprévisible", a déclaré Deep Ganguli, informaticien à la startup d'IA Anthropic.

L'émergence de l'émergence

Les biologistes, les physiciens, les écologistes et d'autres scientifiques utilisent le terme "émergent" pour décrire l'auto-organisation, les comportements collectifs qui apparaissent lorsqu'un grand nombre d'éléments agissent comme un seul. Des combinaisons d'atomes sans vie donnent naissance à des cellules vivantes ; les molécules d'eau créent des vagues ; des murmurations d'étourneaux s'élancent dans le ciel selon des schémas changeants mais identifiables ; les cellules font bouger les muscles et battre les cœurs. Il est essentiel que les capacités émergentes se manifestent dans les systèmes qui comportent de nombreuses parties individuelles. Mais ce n'est que récemment que les chercheurs ont été en mesure de documenter ces capacités dans les LLM, car ces modèles ont atteint des tailles énormes.

Les modèles de langage existent depuis des décennies. Jusqu'à il y a environ cinq ans, les plus puissants étaient basés sur ce que l'on appelle un réseau neuronal récurrent. Ceux-ci prennent essentiellement une chaîne de texte et prédisent le mot suivant. Ce qui rend un modèle "récurrent", c'est qu'il apprend à partir de ses propres résultats : Ses prédictions sont réinjectées dans le réseau afin d'améliorer les performances futures.

En 2017, les chercheurs de Google Brain ont introduit un nouveau type d'architecture appelé "transformateur". Alors qu'un réseau récurrent analyse une phrase mot par mot, le transformateur traite tous les mots en même temps. Cela signifie que les transformateurs peuvent traiter de grandes quantités de texte en parallèle.

Les transformateurs ont permis d'augmenter rapidement la complexité des modèles de langage en augmentant le nombre de paramètres dans le modèle, ainsi que d'autres facteurs. Les paramètres peuvent être considérés comme des connexions entre les mots, et les modèles s'améliorent en ajustant ces connexions au fur et à mesure qu'ils parcourent le texte pendant l'entraînement. Plus il y a de paramètres dans un modèle, plus il peut établir des connexions avec précision et plus il se rapproche d'une imitation satisfaisante du langage humain. Comme prévu, une analyse réalisée en 2020 par les chercheurs de l'OpenAI a montré que les modèles gagnent en précision et en capacité au fur et à mesure qu'ils s'étendent.

Mais les débuts des LLM ont également apporté quelque chose de vraiment inattendu. Beaucoup de choses. Avec l'avènement de modèles tels que le GPT-3, qui compte 175 milliards de paramètres, ou le PaLM de Google, qui peut être étendu à 540 milliards de paramètres, les utilisateurs ont commencé à décrire de plus en plus de comportements émergents. Un ingénieur de DeepMind a même rapporté avoir pu convaincre ChatGPT qu'il s'était lui-même un terminal Linux et l'avoir amené à exécuter un code mathématique simple pour calculer les 10 premiers nombres premiers. Fait remarquable, il a pu terminer la tâche plus rapidement que le même code exécuté sur une vraie machine Linux.

Comme dans le cas du film emoji, les chercheurs n'avaient aucune raison de penser qu'un modèle de langage conçu pour prédire du texte imiterait de manière convaincante un terminal d'ordinateur. Nombre de ces comportements émergents illustrent l'apprentissage "à zéro coup" ou "à quelques coups", qui décrit la capacité d'un LLM à résoudre des problèmes qu'il n'a jamais - ou rarement - vus auparavant. Selon M. Ganguli, il s'agit là d'un objectif de longue date dans la recherche sur l'intelligence artificielle. Le fait de montrer que le GPT-3 pouvait résoudre des problèmes sans aucune donnée d'entraînement explicite dans un contexte d'apprentissage à zéro coup m'a amené à abandonner ce que je faisais et à m'impliquer davantage", a-t-il déclaré.

Il n'était pas le seul. Une série de chercheurs, qui ont détecté les premiers indices montrant que les LLM pouvaient dépasser les contraintes de leurs données d'apprentissage, s'efforcent de mieux comprendre à quoi ressemble l'émergence et comment elle se produit. La première étape a consisté à documenter minutieusement l'émergence.

Au-delà de l'imitation

En 2020, M. Dyer et d'autres chercheurs de Google Research ont prédit que les LLM auraient des effets transformateurs, mais la nature de ces effets restait une question ouverte. Ils ont donc demandé à la communauté des chercheurs de fournir des exemples de tâches difficiles et variées afin de déterminer les limites extrêmes de ce qu'un LLM pourrait faire. Cet effort a été baptisé "Beyond the Imitation Game Benchmark" (BIG-bench), en référence au nom du "jeu d'imitation" d'Alan Turing, un test visant à déterminer si un ordinateur peut répondre à des questions d'une manière humaine convaincante. (Le groupe s'est particulièrement intéressé aux exemples où les LLM ont soudainement acquis de nouvelles capacités qui étaient totalement absentes auparavant.

"La façon dont nous comprenons ces transitions brutales est une grande question de la echerche", a déclaré M. Dyer.

Comme on pouvait s'y attendre, pour certaines tâches, les performances d'un modèle se sont améliorées de manière régulière et prévisible au fur et à mesure que la complexité augmentait. Pour d'autres tâches, l'augmentation du nombre de paramètres n'a apporté aucune amélioration. Mais pour environ 5 % des tâches, les chercheurs ont constaté ce qu'ils ont appelé des "percées", c'est-à-dire des augmentations rapides et spectaculaires des performances à partir d'un certain seuil d'échelle. Ce seuil variant en fonction de la tâche et du modèle.

Par exemple, les modèles comportant relativement peu de paramètres - quelques millions seulement - n'ont pas réussi à résoudre des problèmes d'addition à trois chiffres ou de multiplication à deux chiffres, mais pour des dizaines de milliards de paramètres, la précision a grimpé en flèche dans certains modèles. Des sauts similaires ont été observés pour d'autres tâches, notamment le décodage de l'alphabet phonétique international, le décodage des lettres d'un mot, l'identification de contenu offensant dans des paragraphes d'hinglish (combinaison d'hindi et d'anglais) et la formulation d'équivalents en langue anglaise, traduit à partir de proverbes kiswahili.

Introduction

Mais les chercheurs se sont rapidement rendu compte que la complexité d'un modèle n'était pas le seul facteur déterminant. Des capacités inattendues pouvaient être obtenues à partir de modèles plus petits avec moins de paramètres - ou formés sur des ensembles de données plus petits - si les données étaient d'une qualité suffisamment élevée. En outre, la formulation d'une requête influe sur la précision de la réponse du modèle. Par exemple, lorsque Dyer et ses collègues ont posé la question de l'emoji de film en utilisant un format à choix multiples, l'amélioration de la précision a été moins soudaine qu'avec une augmentation graduelle de sa complexité. L'année dernière, dans un article présenté à NeurIPS, réunion phare du domaine, des chercheurs de Google Brain ont montré comment un modèle invité à s'expliquer (capacité appelée raisonnement en chaîne) pouvait résoudre correctement un problème de mots mathématiques, alors que le même modèle sans cette invitation progressivement précisée n'y parvenait pas.

Yi Tay, scientifique chez Google Brain qui a travaillé sur l'étude systématique de ces percées, souligne que des travaux récents suggèrent que l'incitation par de pareilles chaînes de pensées modifie les courbes d'échelle et, par conséquent, le point où l'émergence se produit. Dans leur article sur NeurIPS, les chercheurs de Google ont montré que l'utilisation d'invites via pareille chaines de pensée progressives pouvait susciter des comportements émergents qui n'avaient pas été identifiés dans l'étude BIG-bench. De telles invites, qui demandent au modèle d'expliquer son raisonnement, peuvent aider les chercheurs à commencer à étudier les raisons pour lesquelles l'émergence se produit.

Selon Ellie Pavlick, informaticienne à l'université Brown qui étudie les modèles computationnels du langage, les découvertes récentes de ce type suggèrent au moins deux possibilités pour expliquer l'émergence. La première est que, comme le suggèrent les comparaisons avec les systèmes biologiques, les grands modèles acquièrent réellement de nouvelles capacités de manière spontanée. "Il se peut très bien que le modèle apprenne quelque chose de fondamentalement nouveau et différent que lorsqu'il était de taille inférieure", a-t-elle déclaré. "C'est ce que nous espérons tous, qu'il y ait un changement fondamental qui se produise lorsque les modèles sont mis à l'échelle.

L'autre possibilité, moins sensationnelle, est que ce qui semble être émergent pourrait être l'aboutissement d'un processus interne, basé sur les statistiques, qui fonctionne par le biais d'un raisonnement de type chaîne de pensée. Les grands LLM peuvent simplement être en train d'apprendre des heuristiques qui sont hors de portée pour ceux qui ont moins de paramètres ou des données de moindre qualité.

Mais, selon elle, pour déterminer laquelle de ces explications est la plus probable, il faut mieux comprendre le fonctionnement des LLM. "Comme nous ne savons pas comment ils fonctionnent sous le capot, nous ne pouvons pas dire laquelle de ces choses se produit.

Pouvoirs imprévisibles et pièges

Demander à ces modèles de s'expliquer pose un problème évident : Ils sont des menteurs notoires. Nous nous appuyons de plus en plus sur ces modèles pour effectuer des travaux de base", a déclaré M. Ganguli, "mais je ne me contente pas de leur faire confiance, je vérifie leur travail". Parmi les nombreux exemples amusants, Google a présenté en février son chatbot d'IA, Bard. Le billet de blog annonçant le nouvel outil montre Bard en train de commettre une erreur factuelle.

L'émergence mène à l'imprévisibilité, et l'imprévisibilité - qui semble augmenter avec l'échelle - rend difficile pour les chercheurs d'anticiper les conséquences d'une utilisation généralisée.

"Il est difficile de savoir à l'avance comment ces modèles seront utilisés ou déployés", a déclaré M. Ganguli. "Et pour étudier les phénomènes émergents, il faut avoir un cas en tête, et on ne sait pas, avant d'avoir étudié l'influence de l'échelle. quelles capacités ou limitations pourraient apparaître.

Dans une analyse des LLM publiée en juin dernier, les chercheurs d'Anthropic ont cherché à savoir si les modèles présentaient certains types de préjugés raciaux ou sociaux, à l'instar de ceux précédemment signalés dans les algorithmes non basés sur les LLM utilisés pour prédire quels anciens criminels sont susceptibles de commettre un nouveau délit. Cette étude a été inspirée par un paradoxe apparent directement lié à l'émergence : Lorsque les modèles améliorent leurs performances en passant à l'échelle supérieure, ils peuvent également augmenter la probabilité de phénomènes imprévisibles, y compris ceux qui pourraient potentiellement conduire à des biais ou à des préjudices.

"Certains comportements nuisibles apparaissent brusquement dans certains modèles", explique M. Ganguli. Il se réfère à une analyse récente des LLM, connue sous le nom de BBQ benchmark, qui a montré que les préjugés sociaux émergent avec un très grand nombre de paramètres. "Les grands modèles deviennent brusquement plus biaisés. Si ce risque n'est pas pris en compte, il pourrait compromettre les sujets de ces modèles."

Mais il propose un contrepoint : Lorsque les chercheurs demandent simplement au modèle de ne pas se fier aux stéréotypes ou aux préjugés sociaux - littéralement en tapant ces instructions - le modèle devient moins biaisé dans ses prédictions et ses réponses. Ce qui suggère que certaines propriétés émergentes pourraient également être utilisées pour réduire les biais. Dans un article publié en février, l'équipe d'Anthropic a présenté un nouveau mode d'"autocorrection morale", dans lequel l'utilisateur incite le programme à être utile, honnête et inoffensif.

Selon M. Ganguli, l'émergence révèle à la fois un potentiel surprenant et un risque imprévisible. Les applications de ces grands LLM prolifèrent déjà, de sorte qu'une meilleure compréhension de cette interaction permettra d'exploiter la diversité des capacités des modèles de langage.

"Nous étudions la manière dont les gens utilisent réellement ces systèmes", a déclaré M. Ganguli. Mais ces utilisateurs sont également en train de bricoler, en permanence. "Nous passons beaucoup de temps à discuter avec nos modèles, et c'est là que nous commençons à avoir une bonne intuition de la confiance ou du manque de confiance.

Auteur: Ornes Stephen

Info: https://www.quantamagazine.org/ - 16 mars 2023. Trad DeepL et MG

[ dialogue ] [ apprentissage automatique ] [ au-delà du jeu d'imitation ] [ dualité ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

symphonie des équations

Des " murmurations " de courbe elliptique découvertes grâce à l'IA prennent leur envol

Les mathématiciens s’efforcent d’expliquer pleinement les comportements inhabituels découverts grâce à l’intelligence artificielle.

(photo - sous le bon angle les courbes elliptiques peuvent se rassembler comme les grands essaims d'oiseaux.)

Les courbes elliptiques font partie des objets les plus séduisants des mathématiques modernes. Elle ne semblent pas compliqués, mais forment une voie express entre les mathématiques que beaucoup de gens apprennent au lycée et les mathématiques de recherche dans leur forme la plus abstruse. Elles étaient au cœur de la célèbre preuve du dernier théorème de Fermat réalisée par Andrew Wiles dans les années 1990. Ce sont des outils clés de la cryptographie moderne. Et en 2000, le Clay Mathematics Institute a désigné une conjecture sur les statistiques des courbes elliptiques comme l'un des sept " problèmes du prix du millénaire ", chacun d'entre eux étant récompensé d'un million de dollars pour sa solution. Cette hypothèse, formulée pour la première fois par Bryan Birch et Peter Swinnerton-Dyer dans les années 1960, n'a toujours pas été prouvée.

Comprendre les courbes elliptiques est une entreprise aux enjeux élevés qui est au cœur des mathématiques. Ainsi, en 2022, lorsqu’une collaboration transatlantique a utilisé des techniques statistiques et l’intelligence artificielle pour découvrir des modèles complètement inattendus dans les courbes elliptiques, cela a été une contribution bienvenue, bien qu’inattendue. "Ce n'était qu'une question de temps avant que l'apprentissage automatique arrive à notre porte avec quelque chose d'intéressant", a déclaré Peter Sarnak , mathématicien à l'Institute for Advanced Study et à l'Université de Princeton. Au départ, personne ne pouvait expliquer pourquoi les modèles nouvellement découverts existaient. Depuis lors, dans une série d’articles récents, les mathématiciens ont commencé à élucider les raisons derrière ces modèles, surnommés " murmures " en raison de leur ressemblance avec les formes fluides des étourneaux en troupeaux, et ont commencé à prouver qu’ils ne doivent pas se produire uniquement dans des cas particuliers. exemples examinés en 2022, mais dans les courbes elliptiques plus généralement.

L'importance d'être elliptique

Pour comprendre ces modèles, il faut jeter les bases de ce que sont les courbes elliptiques et de la façon dont les mathématiciens les catégorisent.

Une courbe elliptique relie le carré d'une variable, communément écrite comme y , à la troisième puissance d'une autre, communément écrite comme x : y 2  =  x 3  + Ax + B , pour une paire de nombres A et B , tant que A et B remplissent quelques conditions simples. Cette équation définit une courbe qui peut être représentée graphiquement sur le plan, comme indiqué ci-dessous. (Photo : malgré la similitude des noms, une ellipse n'est pas une courbe elliptique.)

Introduction

Bien qu’elles semblent simples, les courbes elliptiques s’avèrent être des outils incroyablement puissants pour les théoriciens des nombres – les mathématiciens qui recherchent des modèles dans les nombres entiers. Au lieu de laisser les variables x et y s'étendre sur tous les nombres, les mathématiciens aiment les limiter à différents systèmes numériques, ce qu'ils appellent définir une courbe " sur " un système numérique donné. Les courbes elliptiques limitées aux nombres rationnels – nombres qui peuvent être écrits sous forme de fractions – sont particulièrement utiles. "Les courbes elliptiques sur les nombres réels ou complexes sont assez ennuyeuses", a déclaré Sarnak. "Seuls les nombres rationnels sont profonds."

Voici une façon qui est vraie. Si vous tracez une ligne droite entre deux points rationnels sur une courbe elliptique, l’endroit où cette ligne coupe à nouveau la courbe sera également rationnel. Vous pouvez utiliser ce fait pour définir " addition " dans une courbe elliptique, comme indiqué ci-dessous.

(Photo -  Tracez une ligne entre P et Q . Cette ligne coupera la courbe en un troisième point, R . (Les mathématiciens ont une astuce spéciale pour gérer le cas où la ligne ne coupe pas la courbe en ajoutant un " point à l'infini ".) La réflexion de R sur l' axe des x est votre somme P + Q . Avec cette opération d'addition, toutes les solutions de la courbe forment un objet mathématique appelé groupe.)

Les mathématiciens l'utilisent pour définir le " rang " d'une courbe. Le rang d'une courbe est lié au nombre de solutions rationnelles dont elle dispose. Les courbes de rang 0 ont un nombre fini de solutions. Les courbes de rang supérieur ont un nombre infini de solutions dont la relation les unes avec les autres à l'aide de l'opération d'addition est décrite par le rang.

Les classements (rankings) ne sont pas bien compris ; les mathématiciens n'ont pas toujours le moyen de les calculer et ne savent pas quelle taille ils peuvent atteindre. (Le plus grand rang exact connu pour une courbe spécifique est 20.) Des courbes d'apparence similaire peuvent avoir des rangs complètement différents.

Les courbes elliptiques ont aussi beaucoup à voir avec les nombres premiers, qui ne sont divisibles que par 1 et par eux-mêmes. En particulier, les mathématiciens examinent les courbes sur des corps finis – des systèmes d’arithmétique cyclique définis pour chaque nombre premier. Un corps fini est comme une horloge dont le nombre d'heures est égal au nombre premier : si vous continuez à compter vers le haut, les nombres recommencent. Dans le corps fini de 7, par exemple, 5 plus 2 est égal à zéro et 5 plus 3 est égal à 1.

(Photo : Les motifs formés par des milliers de courbes elliptiques présentent une similitude frappante avec les murmures des étourneaux.)

Une courbe elliptique est associée à une séquence de nombres, appelée a p , qui se rapporte au nombre de solutions qu'il existe à la courbe dans le corps fini défini par le nombre premier p . Un p plus petit signifie plus de solutions ; un p plus grand signifie moins de solutions. Bien que le rang soit difficile à calculer, la séquence a p est beaucoup plus simple.

Sur la base de nombreux calculs effectués sur l'un des tout premiers ordinateurs, Birch et Swinnerton-Dyer ont conjecturé une relation entre le rang d'une courbe elliptique et la séquence a p . Quiconque peut prouver qu’il avait raison gagnera un million de dollars et l’immortalité mathématique.

Un modèle surprise émerge

Après le début de la pandémie, Yang-Hui He , chercheur au London Institute for Mathematical Sciences, a décidé de relever de nouveaux défis. Il avait étudié la physique à l'université et avait obtenu son doctorat en physique mathématique du Massachusetts Institute of Technology. Mais il s'intéressait de plus en plus à la théorie des nombres et, étant donné les capacités croissantes de l'intelligence artificielle, il pensait essayer d'utiliser l'IA comme un outil permettant de trouver des modèles inattendus dans les nombres. (Il avait déjà utilisé l'apprentissage automatique pour classifier les variétés de Calabi-Yau , des structures mathématiques largement utilisées en théorie des cordes.

(Photo ) Lorsque Kyu-Hwan Lee (à gauche) et Thomas Oliver (au centre) ont commencé à travailler avec Yang-Hui He (à droite) pour utiliser l'intelligence artificielle afin de trouver des modèles mathématiques, ils s'attendaient à ce que ce soit une plaisanterie plutôt qu'un effort qui mènerait à de nouveaux découvertes. De gauche à droite : Grace Lee ; Sophie Olivier ; gracieuseté de Yang-Hui He.

En août 2020, alors que la pandémie s'aggravait, l'Université de Nottingham l'a accueilli pour une conférence en ligne . Il était pessimiste quant à ses progrès et quant à la possibilité même d’utiliser l’apprentissage automatique pour découvrir de nouvelles mathématiques. "Son récit était que la théorie des nombres était difficile parce qu'on ne pouvait pas apprendre automatiquement des choses en théorie des nombres", a déclaré Thomas Oliver , un mathématicien de l'Université de Westminster, présent dans le public. Comme il se souvient : " Je n'ai rien trouvé parce que je n'étais pas un expert. Je n’utilisais même pas les bons éléments pour examiner cela."

Oliver et Kyu-Hwan Lee , mathématicien à l'Université du Connecticut, ont commencé à travailler avec He. "Nous avons décidé de faire cela simplement pour apprendre ce qu'était l'apprentissage automatique, plutôt que pour étudier sérieusement les mathématiques", a déclaré Oliver. "Mais nous avons rapidement découvert qu'il était possible d'apprendre beaucoup de choses par machine."

Oliver et Lee lui ont suggéré d'appliquer ses techniques pour examiner les fonctions L , des séries infinies étroitement liées aux courbes elliptiques à travers la séquence a p . Ils pourraient utiliser une base de données en ligne de courbes elliptiques et de leurs fonctions L associées , appelée LMFDB , pour former leurs classificateurs d'apprentissage automatique. À l’époque, la base de données contenait un peu plus de 3 millions de courbes elliptiques sur les rationnels. En octobre 2020, ils avaient publié un article utilisant les informations glanées à partir des fonctions L pour prédire une propriété particulière des courbes elliptiques. En novembre, ils ont partagé un autre article utilisant l’apprentissage automatique pour classer d’autres objets en théorie des nombres. En décembre, ils étaient capables de prédire les rangs des courbes elliptiques avec une grande précision.

Mais ils ne savaient pas vraiment pourquoi leurs algorithmes d’apprentissage automatique fonctionnaient si bien. Lee a demandé à son étudiant de premier cycle Alexey Pozdnyakov de voir s'il pouvait comprendre ce qui se passait. En l’occurrence, la LMFDB trie les courbes elliptiques en fonction d’une quantité appelée conducteur, qui résume les informations sur les nombres premiers pour lesquels une courbe ne se comporte pas correctement. Pozdnyakov a donc essayé d’examiner simultanément un grand nombre de courbes comportant des conducteurs similaires – disons toutes les courbes comportant entre 7 500 et 10 000 conducteurs.

Cela représente environ 10 000 courbes au total. Environ la moitié d'entre eux avaient le rang 0 et l'autre moitié le rang 1. (Les rangs supérieurs sont extrêmement rares.) Il a ensuite fait la moyenne des valeurs de a p pour toutes les courbes de rang 0, a fait la moyenne séparément de a p pour toutes les courbes de rang 1 et a tracé la résultats. Les deux ensembles de points formaient deux vagues distinctes et facilement discernables. C’est pourquoi les classificateurs d’apprentissage automatique ont été capables de déterminer correctement le rang de courbes particulières.

" Au début, j'étais simplement heureux d'avoir terminé ma mission", a déclaré Pozdnyakov. "Mais Kyu-Hwan a immédiatement reconnu que ce schéma était surprenant, et c'est à ce moment-là qu'il est devenu vraiment excitant."

Lee et Oliver étaient captivés. "Alexey nous a montré la photo et j'ai dit qu'elle ressemblait à ce que font les oiseaux", a déclaré Oliver. "Et puis Kyu-Hwan l'a recherché et a dit que cela s'appelait une murmuration, puis Yang a dit que nous devrions appeler le journal ' Murmurations de courbes elliptiques '."

Ils ont mis en ligne leur article en avril 2022 et l’ont transmis à une poignée d’autres mathématiciens, s’attendant nerveusement à se faire dire que leur soi-disant « découverte » était bien connue. Oliver a déclaré que la relation était si visible qu'elle aurait dû être remarquée depuis longtemps.

Presque immédiatement, la prépublication a suscité l'intérêt, en particulier de la part d' Andrew Sutherland , chercheur scientifique au MIT et l'un des rédacteurs en chef de la LMFDB. Sutherland s'est rendu compte que 3 millions de courbes elliptiques n'étaient pas suffisantes pour atteindre ses objectifs. Il voulait examiner des gammes de conducteurs beaucoup plus larges pour voir à quel point les murmures étaient robustes. Il a extrait des données d’un autre immense référentiel d’environ 150 millions de courbes elliptiques. Toujours insatisfait, il a ensuite extrait les données d'un autre référentiel contenant 300 millions de courbes.

"Mais même cela ne suffisait pas, j'ai donc calculé un nouvel ensemble de données de plus d'un milliard de courbes elliptiques, et c'est ce que j'ai utilisé pour calculer les images à très haute résolution", a déclaré Sutherland. Les murmures indiquaient s'il effectuait en moyenne plus de 15 000 courbes elliptiques à la fois ou un million à la fois. La forme est restée la même alors qu’il observait les courbes sur des nombres premiers de plus en plus grands, un phénomène appelé invariance d’échelle. Sutherland s'est également rendu compte que les murmures ne sont pas propres aux courbes elliptiques, mais apparaissent également dans des fonctions L plus générales . Il a écrit une lettre résumant ses découvertes et l'a envoyée à Sarnak et Michael Rubinstein de l'Université de Waterloo.

"S'il existe une explication connue, j'espère que vous la connaîtrez", a écrit Sutherland.

Ils ne l'ont pas fait.

Expliquer le modèle

Lee, He et Oliver ont organisé un atelier sur les murmurations en août 2023 à l'Institut de recherche informatique et expérimentale en mathématiques (ICERM) de l'Université Brown. Sarnak et Rubinstein sont venus, tout comme l'étudiante de Sarnak, Nina Zubrilina .

LA THÉORIE DU NOMBRE

Zubrilina a présenté ses recherches sur les modèles de murmuration dans des formes modulaires , des fonctions complexes spéciales qui, comme les courbes elliptiques, sont associées à des fonctions L. Dans les formes modulaires dotées de grands conducteurs, les murmurations convergent vers une courbe nettement définie, plutôt que de former un motif perceptible mais dispersé. Dans un article publié le 11 octobre 2023, Zubrilina a prouvé que ce type de murmuration suit une formule explicite qu'elle a découverte.

" La grande réussite de Nina est qu'elle lui a donné une formule pour cela ; Je l’appelle la formule de densité de murmuration Zubrilina ", a déclaré Sarnak. "En utilisant des mathématiques très sophistiquées, elle a prouvé une formule exacte qui correspond parfaitement aux données."

Sa formule est compliquée, mais Sarnak la salue comme un nouveau type de fonction important, comparable aux fonctions d'Airy qui définissent des solutions aux équations différentielles utilisées dans divers contextes en physique, allant de l'optique à la mécanique quantique.

Bien que la formule de Zubrilina ait été la première, d'autres ont suivi. "Chaque semaine maintenant, un nouvel article sort", a déclaré Sarnak, "utilisant principalement les outils de Zubrilina, expliquant d'autres aspects des murmurations."

(Photo - Nina Zubrilina, qui est sur le point de terminer son doctorat à Princeton, a prouvé une formule qui explique les schémas de murmuration.)

Jonathan Bober , Andrew Booker et Min Lee de l'Université de Bristol, ainsi que David Lowry-Duda de l'ICERM, ont prouvé l'existence d'un type différent de murmuration sous des formes modulaires dans un autre article d'octobre . Et Kyu-Hwan Lee, Oliver et Pozdnyakov ont prouvé l'existence de murmures dans des objets appelés caractères de Dirichlet qui sont étroitement liés aux fonctions L.

Sutherland a été impressionné par la dose considérable de chance qui a conduit à la découverte des murmurations. Si les données de la courbe elliptique n'avaient pas été classées par conducteur, les murmures auraient disparu. "Ils ont eu la chance de récupérer les données de la LMFDB, qui étaient pré-triées selon le chef d'orchestre", a-t-il déclaré. « C'est ce qui relie une courbe elliptique à la forme modulaire correspondante, mais ce n'est pas du tout évident. … Deux courbes dont les équations semblent très similaires peuvent avoir des conducteurs très différents. Par exemple, Sutherland a noté que y 2 = x 3 – 11 x + 6 a un conducteur 17, mais en retournant le signe moins en signe plus, y 2 = x 3  + 11 x + 6 a un conducteur 100 736.

Même alors, les murmures n'ont été découverts qu'en raison de l'inexpérience de Pozdniakov. "Je ne pense pas que nous l'aurions trouvé sans lui", a déclaré Oliver, "parce que les experts normalisent traditionnellement a p pour avoir une valeur absolue de 1. Mais il ne les a pas normalisés… donc les oscillations étaient très importantes et visibles."

Les modèles statistiques que les algorithmes d’IA utilisent pour trier les courbes elliptiques par rang existent dans un espace de paramètres comportant des centaines de dimensions – trop nombreuses pour que les gens puissent les trier dans leur esprit, et encore moins les visualiser, a noté Oliver. Mais même si l’apprentissage automatique a découvert les oscillations cachées, " ce n’est que plus tard que nous avons compris qu’il s’agissait de murmures ".

Auteur: Internet

Info: Paul Chaikin pour Quanta Magazine, 5 mars 2024 - https://www.quantamagazine.org/elliptic-curve-murmurations-found-with-ai-take-flight-20240305/?mc_cid=797b7d1aad&mc_eid=78bedba296

[ résonance des algorithmes ] [ statistiques en mouvement ] [ chants des fractales ] [ bancs de poissons ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

Paramètres de recherches