Les fils de la pensée

Paramètres de recherches

Filtres

Citation

Catégorie

Tag – étiquette

Auteur

Info

Recherche avancée

Détail auteurs

Présentation, tri

Dictionnaire analogique intriqué pour extraits. Recherche mots ou phrases tous azimuts. Aussi outil de précision sémantique et de réflexion communautaire. Voir la rubrique mode d'emploi. Jetez un oeil à la colonne "chaînes". ATTENTION, faire une REINITIALISATION après une recherche complexe. Et utilisez le nuage de corrélats !!!!..... Lire la suite >>

Nuage de corrélats

artificielle chatgpt chercheurs comment contre-pouvoir corps data augmenté dialogue domination économique données enrichies expérience incompressible homme-machine intégration holistique langage mathématiques modèle modèles monde métalangage nature nord-sud priméité - tiercités humaines prospective quantique recherche système texte-image transcendance triade

Résultat(s): 53

Temps de recherche: 0.0756s

nanomonde verrouillé

Comment un tour de passe-passe mathématique a sauvé la physique des particules

La renormalisation est peut-être l'avancée la plus importante de la physique théorique depuis 50 ans.

Dans les années 1940, certains physiciens avant-gardistes tombèrent sur une nouvelle couche de la réalité. Les particules n'existaient plus et les champs - entités expansives et ondulantes qui remplissent l'espace comme un océan - étaient dedans. Une ondulation dans un champ était un électron, une autre un photon, et leurs interactions semblaient expliquer tous les événements électromagnétiques.

Il n'y avait qu'un seul problème : la théorie était constituée d'espoirs et de prières. Ce n'est qu'en utilisant une technique appelée "renormalisation", qui consiste à occulter soigneusement des quantités infinies, que les chercheurs purent éviter les prédictions erronées. Le processus fonctionnait, mais même ceux qui développaient la théorie soupçonnaient qu'il s'agissait d'un château de cartes reposant sur un tour de passe-passe mathématique tortueux.

"C'est ce que j'appellerais un processus divertissant", écrira plus tard Richard Feynman. "Le fait de devoir recourir à de tels tours de passe-passe nous a empêchés de prouver que la théorie de l'électrodynamique quantique est mathématiquement cohérente.

La justification vint des décennies plus tard, d'une branche de la physique apparemment sans rapport. Les chercheurs qui étudiaient la magnétisation découvrirent que la renormalisation ne concernait aucunement les infinis. Elle évoquait plutôt la séparation de l'univers en domaines de tailles distinctes, point de vue qui guide aujourd'hui de nombreux domaines de la physique.

La renormalisation, écrit David Tong, théoricien à l'université de Cambridge, est "sans doute l'avancée la plus importante de ces 50 dernières années dans le domaine de la physique théorique".

L'histoire de deux charges

Selon certains critères, les théories des champs sont les théories les plus fructueuses de toute la science. La théorie de l'électrodynamique quantique (QED), qui constitue l'un des piliers du modèle standard de la physique des particules, a permis de faire des prédictions théoriques qui correspondent aux résultats expérimentaux avec une précision d'un sur un milliard.

Mais dans les années 1930 et 1940, l'avenir de la théorie était loin d'être assuré. L'approximation du comportement complexe des champs donnait souvent des réponses absurdes et infinies, ce qui amena certains théoriciens à penser que les théories des champs étaient peut-être une impasse.

Feynman et d'autres cherchèrent de toutes nouvelles perspectives - éventuellement même susceptibles de ramener les particules sur le devant de la scène - mais ils finirent par trouver un moyen de contourner l'obstacle. Ils constatèrent que les équations QED permettaient d'obtenir des prédictions respectables, à condition qu'elles soient corrigées par la procédure impénétrable de renormalisation.

L'exercice est le suivant. Lorsqu'un calcul QED conduit à une somme infinie, il faut l'abréger. Mettez la partie qui tend vers l'infini dans un coefficient - un nombre fixe - placé devant la somme. Remplacez ce coefficient par une mesure finie provenant du laboratoire. Enfin, laissez la somme nouvellement apprivoisée retourner à l'infini.

Pour certains, cette méthode s'apparente à un jeu de dupes. "Ce ne sont tout simplement pas des mathématiques raisonnables", écrivit Paul Dirac, théoricien quantique novateur.

Le cœur du problème - germe de sa solution éventuelle - se trouve dans la manière dont les physiciens ont traité la charge de l'électron.

Dans ce schéma la charge électrique provient du coefficient - la valeur qui engloutit l'infini au cours du brassage mathématique. Pour les théoriciens qui s'interrogeaient sur la signification physique de la renormalisation, la théorie QED laissait entendre que l'électron avait deux charges : une charge théorique, qui était infinie, et la charge mesurée, qui ne l'était pas. Peut-être que le noyau de l'électron contenait une charge infinie. Mais dans la pratique, les effets de champ quantique (qu'on peut visualiser comme un nuage virtuel de particules positives) masquaient l'électron, de sorte que les expérimentateurs ne mesuraient qu'une charge nette modeste.

Deux physiciens, Murray Gell-Mann et Francis Low, concrétisèrent cette idée en 1954. Ils ont relié les deux charges des électrons à une charge "effective" qui varie en fonction de la distance. Plus on se rapproche (et plus on pénètre le manteau positif de l'électron), plus la charge est importante.

Leurs travaux furent les premiers à lier la renormalisation à l'idée d'échelle. Ils laissaient entendre que les physiciens quantiques avaient trouvé la bonne réponse à la mauvaise question. Plutôt que de se préoccuper des infinis, ils auraient dû s'attacher à relier le minuscule à l'énorme.

La renormalisation est "la version mathématique d'un microscope", a déclaré Astrid Eichhorn, physicienne à l'université du Danemark du Sud, qui utilise la renormalisation pour ses recherches en théorie de la gravité quantique. "Et inversement, vous pouvez commencer par le système microscopique et faire un zoom arrière. C'est une combinaison de microscope et de télescope".

La renormalisation capture la tendance de la nature à se subdiviser en mondes essentiellement indépendants.

Les aimants sauvent la mise

Un deuxième indice apparut dans le monde de la matière condensée, ici les physiciens s'interrogeaient sur la manière dont un modèle magnétique grossier parvenait à saisir les détails de certaines transformations. Le modèle d'Ising n'était guère plus qu'une grille de flèches atomiques qui ne pouvaient pointer que vers le haut ou vers le bas, mais il prédisait les comportements d'aimants réels avec une perfection improbable.

À basse température, la plupart des atomes s'alignent, ce qui magnétise le matériau. À haute température, ils deviennent désordonnés et le réseau se démagnétise. Mais à un point de transition critique, des îlots d'atomes alignés de toutes tailles coexistent. Il est essentiel de noter que la manière dont certaines quantités varient autour de ce "point critique" semble identique dans le modèle d'Ising, dans les aimants réels de différents matériaux et même dans des systèmes sans rapport, tels que la transition à haute pression où l'eau devient indiscernable de la vapeur d'eau. La découverte de ce phénomène, que les théoriciens ont appelé universalité, était aussi bizarre que de découvrir que les éléphants et les aigrettes se déplacent exactement à la même vitesse de pointe.

Les physiciens n'ont pas pour habitude de s'occuper d'objets de tailles différentes en même temps. Mais ce comportement universel autour des points critiques les obligea à tenir compte de toutes les échelles de longueur à la fois.

Leo Kadanoff, chercheur dans le domaine de la matière condensée, a compris comment procéder en 1966. Il a mis au point une technique de "spin par blocs", en décomposant une grille d'Ising trop complexe pour être abordée de front, en blocs modestes comportant quelques flèches par côté. Il calcula l'orientation moyenne d'un groupe de flèches et remplaça tout le bloc par cette valeur. En répétant le processus, il lissa les détails fins du réseau, faisant un zoom arrière pour comprendre le comportement global du système.

Enfin, Ken Wilson - ancien étudiant de Gell-Mann qui avait les pieds tant dans le monde de la physique des particules et de la matière condensée - réunit les idées de Gell-Mann et de Low avec celles de Kadanoff. Son "groupe de renormalisation", qu'il décrivit pour la première fois en 1971, justifiait les calculs tortueux de la QED et a fourni une échelle permettant de gravir les échelons des systèmes universels. Ce travail a valu à Wilson un prix Nobel et a changé la physique pour toujours.

Selon Paul Fendley, théoricien de la matière condensée à l'université d'Oxford, la meilleure façon de conceptualiser le groupe de renormalisation de Wilson est de le considérer comme une "théorie des théories" reliant le microscopique au macroscopique.

Considérons la grille magnétique. Au niveau microscopique, il est facile d'écrire une équation reliant deux flèches voisines. Mais extrapoler cette simple formule à des trillions de particules est en fait impossible. Vous raisonnez à la mauvaise échelle.

Le groupe de renormalisation de Wilson décrit la transformation d'une théorie des éléments constitutifs en une théorie des structures. On commence avec une théorie de petits éléments, par exemple les atomes d'une boule de billard. On tourne la manivelle mathématique de Wilson et on obtient une théorie connexe décrivant des groupes de éléments, par exemple les molécules d'une boule de billard. En continuant de tourner la manivelle, on obtient des groupes de plus en plus grands - grappes de molécules de boules de billard, secteurs de boules de billard, et ainsi de suite. Finalement, vous voilà en mesure de calculer quelque chose d'intéressant, comme la trajectoire d'une boule de billard entière.

Telle est la magie du groupe de renormalisation : Il permet d'identifier les quantités à grande échelle qu'il est utile de mesurer et les détails microscopiques alambiqués qui peuvent être ignorés. Un surfeur s'intéresse à la hauteur des vagues, et non à la bousculade des molécules d'eau. De même, en physique subatomique, la renormalisation indique aux physiciens quand ils peuvent s'occuper d'un proton relativement simple plutôt que de son enchevêtrement de quarks intérieurs.

Le groupe de renormalisation de Wilson suggère également que les malheurs de Feynman et de ses contemporains venaient du fait qu'ils essayaient de comprendre l'électron d'infiniment près. "Nous ne nous attendons pas à ce que ces théories soient valables jusqu'à des échelles [de distance] arbitrairement petites", a déclaré James Fraser, philosophe de la physique à l'université de Durham, au Royaume-Uni. Ajoutant : "La coupure absorbe notre ignorance de ce qui se passe aux niveaux inférieurs".

En d'autres termes, la QED et le modèle standard ne peuvent tout simplement pas dire quelle est la charge nue de l'électron à une distance de zéro nanomètre. Il s'agit de ce que les physiciens appellent des théories "effectives". Elles fonctionnent mieux sur des distances bien définies. L'un des principaux objectifs de la physique des hautes énergies étant de découvrir ce qui se passe exactement lorsque les particules deviennent encore plus proches.

Du grand au petit

Aujourd'hui, le "dippy process" de Feynman est devenu aussi omniprésent en physique que le calcul, et ses mécanismes révèlent les raisons de certains des plus grands succès de la discipline et de ses défis actuels. Avec la renormalisation, les câpres submicroscopiques compliqués ont tendance à disparaître. Ils sont peut-être réels, mais ils n'ont pas d'incidence sur le tableau d'ensemble. "La simplicité est une vertu", a déclaré M. Fendley. "Il y a un dieu là-dedans.

Ce fait mathématique illustre la tendance de la nature à se diviser en mondes essentiellement indépendants. Lorsque les ingénieurs conçoivent un gratte-ciel, ils ignorent les molécules individuelles de l'acier. Les chimistes analysent les liaisons moléculaires mais ignorent superbement les quarks et les gluons. La séparation des phénomènes par longueur, quantifiée par le groupe de renormalisation, a permis aux scientifiques de passer progressivement du grand au petit au cours des siècles, plutôt que briser toutes les échelles en même temps.

En même temps, l'hostilité de la renormalisation à l'égard des détails microscopiques va à l'encontre des efforts des physiciens modernes, avides de signes du domaine immédiatement inférieur. La séparation des échelles suggère qu'ils devront creuser en profondeur pour surmonter le penchant de la nature à dissimuler ses points les plus fins à des géants curieux comme nous.

"La renormalisation nous aide à simplifier le problème", explique Nathan Seiberg, physicien théoricien à l'Institute for Advanced Study de Princeton, dans le New Jersey. Mais "elle cache aussi ce qui se passe à très courte distance. On ne peut pas avoir le beurre et l'argent du beurre".

Auteur: Internet

Info: https://www.quantamagazine.org/. Charlie Wood, september 17, 2020

Commenter

Commentaires: 0

Ajouté à la BD par miguel

legos protéiques

De nouveaux outils d’IA prédisent comment les blocs de construction de la vie s’assemblent

AlphaFold3 de Google DeepMind et d'autres algorithmes d'apprentissage profond peuvent désormais prédire la forme des complexes en interaction de protéines, d'ADN, d'ARN et d'autres molécules, capturant ainsi mieux les paysages biologiques des cellules.

Les protéines sont les machines moléculaires qui soutiennent chaque cellule et chaque organisme, et savoir à quoi elles ressemblent sera essentiel pour comprendre comment elles fonctionnent normalement et fonctionnent mal en cas de maladie. Aujourd’hui, les chercheurs ont fait un grand pas en avant vers cet objectif grâce au développement de nouveaux algorithmes d’apprentissage automatique capables de prédire les formes rdéployées et repliées non seulement des protéines mais aussi d’autres biomolécules avec une précision sans précédent.

Dans un article publié aujourd'hui dans Nature , Google DeepMind et sa société dérivée Isomorphic Labs ont annoncé la dernière itération de leur programme AlphaFold, AlphaFold3, capable de prédire les structures des protéines, de l'ADN, de l'ARN, des ligands et d'autres biomolécules, seuls ou liés ensemble dans différentes configurations. Les résultats font suite à une mise à jour similaire d'un autre algorithme de prédiction de structure d'apprentissage profond, appelé RoseTTAFold All-Atom, publié en mars dans Science .

Même si les versions précédentes de ces algorithmes pouvaient prédire la structure des protéines – une réussite remarquable en soi – elles ne sont pas allées assez loin pour dissiper les mystères des processus biologiques, car les protéines agissent rarement seules. "Chaque fois que je donnais une conférence AlphaFold2, je pouvais presque deviner quelles seraient les questions", a déclaré John Jumper, qui dirige l'équipe AlphaFold chez Google DeepMind. "Quelqu'un allait lever la main et dire : 'Oui, mais ma protéine interagit avec l'ADN.' Pouvez-vous me dire comment ?' " Jumper devrait bien admettre qu'AlphaFold2 ne connaissait pas la réponse.

Mais AlphaFold3 pourrait le faire. Avec d’autres algorithmes d’apprentissage profond émergents, il va au-delà des protéines et s’étend sur un paysage biologique plus complexe et plus pertinent qui comprend une bien plus grande diversité de molécules interagissant dans les cellules.

" On découvre désormais toutes les interactions complexes qui comptent en biologie ", a déclaré Brenda Rubenstein , professeure agrégée de chimie et de physique à l'Université Brown, qui n'a participé à aucune des deux études. " On commence à avoir une vision plus large."

Comprendre ces interactions est " fondamental pour la fonction biologique ", a déclaré Paul Adams , biophysicien moléculaire au Lawrence Berkeley National Laboratory qui n’a également participé à aucune des deux études. " Les deux groupes ont fait des progrès significatifs pour résoudre ce problème. "

Les deux algorithmes ont leurs limites, mais ils ont le potentiel d’évoluer vers des outils de prédiction encore plus puissants. Dans les mois à venir, les scientifiques commenceront à les tester et, ce faisant, ils révéleront à quel point ces algorithmes pourraient être utiles.

Progrès de l’IA en biologie

L’apprentissage profond est une variante de l’apprentissage automatique vaguement inspirée du cerveau humain. Ces algorithmes informatiques sont construits à l’aide de réseaux complexes de nœuds d’information (appelés neurones) qui forment des connexions en couches les unes avec les autres. Les chercheurs fournissent au réseau d’apprentissage profond des données d’entraînement, que l’algorithme utilise pour ajuster les forces relatives des connexions entre les neurones afin de produire des résultats toujours plus proches des exemples d’entraînement. Dans le cas des systèmes d'intelligence artificielle protéique, ce processus amène le réseau à produire de meilleures prédictions des formes des protéines sur la base de leurs données de séquence d'acides aminés.

AlphaFold2, sorti en 2021, a constitué une avancée majeure dans l’apprentissage profond en biologie. Il a ouvert la voie à un monde immense de structures protéiques jusque-là inconnues et est déjà devenu un outil utile pour les chercheurs qui cherchent à tout comprendre, depuis les structures cellulaires jusqu'à la tuberculose. Cela a également inspiré le développement d’outils supplémentaires d’apprentissage biologique profond. Plus particulièrement, le biochimiste David Baker et son équipe de l’Université de Washington ont développé en 2021 un algorithme concurrent appelé RoseTTAFold , qui, comme AlphaFold2, prédit les structures protéiques à partir de séquences de données.

Depuis, les deux algorithmes ont été mis à jour avec de nouvelles fonctionnalités. RoseTTAFold Diffusion pourrait être utilisé pour concevoir de nouvelles protéines qui n’existent pas dans la nature. AlphaFold Multimer pourrait étudier l’interaction de plusieurs protéines. " Mais ce que nous avons laissé sans réponse ", a déclaré Jumper, " était : comment les protéines communiquent-elles avec le reste de la cellule ? "

Le succès des premières itérations d'algorithmes d'apprentissage profond de prédiction des protéines reposait sur la disponibilité de bonnes données d'entraînement : environ 140 000 structures protéiques validées qui avaient été déposées pendant 50 ans dans la banque de données sur les protéines. De plus en plus, les biologistes ont également déposé les structures de petites molécules, d'ADN, d'ARN et leurs combinaisons. Dans cette expansion de l'algorithme d'AlphaFold pour inclure davantage de biomolécules, " la plus grande inconnue ", a déclaré Jumper, "est de savoir s'il y aurait suffisamment de données pour permettre à l'algorithme de prédire avec précision les complexes de protéines avec ces autres molécules."

Apparemment oui. Fin 2023, Baker puis Jumper ont publié les versions préliminaires de leurs nouveaux outils d’IA, et depuis, ils soumettent leurs algorithmes à un examen par les pairs.

Les deux systèmes d'IA répondent à la même question, mais les architectures sous-jacentes de leurs méthodes d'apprentissage profond diffèrent, a déclaré Mohammed AlQuraishi , biologiste des systèmes à l'Université de Columbia qui n'est impliqué dans aucun des deux systèmes. L'équipe de Jumper a utilisé un processus appelé diffusion – technologie qui alimente la plupart des systèmes d'IA génératifs non basés sur du texte, tels que Midjourney et DALL·E, qui génèrent des œuvres d'art basées sur des invites textuelles, a expliqué AlQuraishi. Au lieu de prédire directement la structure moléculaire puis de l’améliorer, ce type de modèle produit d’abord une image floue et l’affine de manière itérative.

D'un point de vue technique, il n'y a pas de grand saut entre RoseTTAFold et RoseTTAFold All-Atom, a déclaré AlQuraishi. Baker n'a pas modifié massivement l'architecture sous-jacente de RoseTTAFold, mais l'a mise à jour pour inclure les règles connues des interactions biochimiques. L'algorithme n'utilise pas la diffusion pour prédire les structures biomoléculaires. Cependant, l'IA de Baker pour la conception de protéines le fait. La dernière itération de ce programme, connue sous le nom de RoseTTAFold Diffusion All-Atom, permet de concevoir de nouvelles biomolécules en plus des protéines.

" Le type de dividendes qui pourraient découler de la possibilité d'appliquer les technologies d'IA générative aux biomolécules n'est que partiellement réalisé grâce à la conception de protéines", a déclaré AlQuraishi. "Si nous pouvions faire aussi bien avec de petites molécules, ce serait incroyable."

Évaluer la concurrence

Côte à côte, AlphaFold3 semble être plus précis que RoseTTAFold All-Atom. Par exemple, dans leur analyse dans Nature , l'équipe de Google a constaté que leur outil est précis à environ 76 % pour prédire les structures des protéines interagissant avec de petites molécules appelées ligands, contre une précision d'environ 42 % pour RoseTTAFold All-Atom et 52 % pour le meilleur. outils alternatifs disponibles.

Les performances de prédiction de structure d'AlphaFold3 sont " très impressionnantes ", a déclaré Baker, " et meilleures que celles de RoseTTAFold All-Atom ".

Toutefois, ces chiffres sont basés sur un ensemble de données limité qui n'est pas très performant, a expliqué AlQuraishi. Il ne s’attend pas à ce que toutes les prédictions concernant les complexes protéiques obtiennent un score aussi élevé. Et il est certain que les nouveaux outils d’IA ne sont pas encore assez puissants pour soutenir à eux seuls un programme robuste de découverte de médicaments, car cela nécessite que les chercheurs comprennent des interactions biomoléculaires complexes. Pourtant, " c'est vraiment prometteur ", a-t-il déclaré, et nettement meilleur que ce qui existait auparavant.

Adams est d'accord. "Si quelqu'un prétend pouvoir utiliser cela demain pour développer des médicaments avec précision, je n'y crois pas", a-t-il déclaré. " Les deux méthodes sont encore limitées dans leur précision, [mais] les deux constituent des améliorations spectaculaires par rapport à ce qui était possible. "

(Image gif, tournante, en 3D : AlphaFold3 peut prédire la forme de complexes biomoléculaires, comme cette protéine de pointe provenant d'un virus du rhume. Les structures prédites de deux protéines sont visualisées en bleu et vert, tandis que les petites molécules (ligands) liées aux protéines sont représentées en jaune. La structure expérimentale connue de la protéine est encadrée en gris.)

Ils seront particulièrement utiles pour créer des prédictions approximatives qui pourront ensuite être testées informatiquement ou expérimentalement. Le biochimiste Frank Uhlmann a eu l'occasion de pré-tester AlphaFold3 après avoir croisé un employé de Google dans un couloir du Francis Crick Institute de Londres, où il travaille. Il a décidé de rechercher une interaction protéine-ADN qui était " vraiment déroutante pour nous ", a-t-il déclaré. AlphaFold3 a craché une prédiction qu'ils testent actuellement expérimentalement en laboratoire. "Nous avons déjà de nouvelles idées qui pourraient vraiment fonctionner", a déclaré Uhlmann. " C'est un formidable outil de découverte. "

Il reste néanmoins beaucoup à améliorer. Lorsque RoseTTAFold All-Atom prédit les structures de complexes de protéines et de petites molécules, il place parfois les molécules dans la bonne poche d'une protéine mais pas dans la bonne orientation. AlphaFold3 prédit parfois de manière incorrecte la chiralité d'une molécule – l'orientation géométrique distincte " gauche " ou " droite " de sa structure. Parfois, il hallucine ou crée des structures inexactes.

Et les deux algorithmes produisent toujours des images statiques des protéines et de leurs complexes. Dans une cellule, les protéines sont dynamiques et peuvent changer en fonction de leur environnement : elles se déplacent, tournent et passent par différentes conformations. Il sera difficile de résoudre ce problème, a déclaré Adams, principalement en raison du manque de données de formation. " Ce serait formidable de déployer des efforts concertés pour collecter des données expérimentales conçues pour éclairer ces défis ", a-t-il déclaré.

Un changement majeur dans le nouveau produit de Google est qu'il ne sera pas open source. Lorsque l’équipe a publié AlphaFold2, elle a publié le code sous-jacent, qui a permis aux biologistes de reproduire et de jouer avec l’algorithme dans leurs propres laboratoires. Mais le code d'AlphaFold3 ne sera pas accessible au public.

" Ils semblent décrire la méthode en détail. Mais pour le moment, au moins, personne ne peut l’exécuter et l’utiliser comme il l’a fait avec [AlphaFold2] ", a déclaré AlQuraishi. C’est " un grand pas en arrière. Nous essaierons bien sûr de le reproduire."

Google a cependant annoncé qu'il prenait des mesures pour rendre le produit accessible en proposant un nouveau serveur AlphaFold aux biologistes exécutant AlphaFold3. Prédire les structures biomoléculaires nécessite une tonne de puissance de calcul : même dans un laboratoire comme Francis Crick, qui héberge des clusters informatiques hautes performances, il faut environ une semaine pour produire un résultat, a déclaré Uhlmann. En comparaison, les serveurs plus puissants de Google peuvent faire une prédiction en 10 minutes, a-t-il déclaré, et les scientifiques du monde entier pourront les utiliser. "Cela va démocratiser complètement la recherche sur la prédiction des protéines", a déclaré Uhlmann.

Le véritable impact de ces outils ne sera pas connu avant des mois ou des années, alors que les biologistes commenceront à les tester et à les utiliser dans la recherche. Et ils continueront à évoluer. La prochaine étape de l'apprentissage profond en biologie moléculaire consiste à " gravir l'échelle de la complexité biologique ", a déclaré Baker, au-delà même des complexes biomoléculaires prédits par AlphaFold3 et RoseTTAFold All-Atom. Mais si l’histoire de l’IA en matière de structure protéique peut prédire l’avenir, alors ces modèles d’apprentissage profond de nouvelle génération continueront d’aider les scientifiques à révéler les interactions complexes qui font que la vie se réalise.

" Il y a tellement plus à comprendre ", a déclaré Jumper. "C'est juste le début."

Auteur: Internet

Info: https://www.quantamagazine.org/new-ai-tools-predict-how-lifes-building-blocks-assemble-20240508/ - Yasemin Saplakoglu, 8 mai 2024

[ briques du vivant ] [ texte-image ] [ modélisation mobiles ] [ nano mécanismes du vivant ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

homme-machine

La théorie des jeux peut rendre l'IA plus correcte et plus efficace

Les chercheurs s’appuient sur des idées issues de la théorie des jeux pour améliorer les grands modèles de langage et les rendre plus cohérents.

Imaginez que vous ayez un ami qui donne des réponses différentes à la même question, selon la façon dont vous la posez. " Quelle est la capitale du Pérou ? " btiendrait une réponse : " Lima est-elle la capitale du Pérou ? " en obtiendrait un autre. Vous seriez probablement un peu inquiet au sujet des facultés mentales de votre ami et vous auriez certainement du mal à faire confiance à ses réponses.

C'est exactement ce qui se passe avec de nombreux grands modèles de langage (LLM), les outils d'apprentissage automatique ultra-puissants qui alimentent ChatGPT et d'autres merveilles de l'intelligence artificielle. Une question générative, ouverte, donne une réponse, et une question discriminante, qui implique de devoir choisir entre des options, en donne souvent une différente. "Il y a un décalage lorsque la même question est formulée différemment", a déclaré Athul Paul Jacob , doctorant au Massachusetts Institute of Technology.

Pour rendre les réponses d'un modèle de langage plus cohérentes - et rendre le modèle globalement plus fiable - Jacob et ses collègues ont conçu un jeu dans lequel les deux modes du modèle sont amenés à trouver une réponse sur laquelle ils peuvent s'entendre. Surnommée le jeu du consensus , cette procédure simple oppose un LLM à lui-même, en utilisant les outils de la théorie des jeux pour améliorer la précision et la cohérence interne du modèle.

"Les recherches explorant l'autocohérence au sein de ces modèles ont été très limitées", a déclaré Shayegan Omidshafiei , directeur scientifique de la société de robotique Field AI. "Cet article est l'un des premiers à aborder ce problème, de manière intelligente et systématique, en créant un jeu permettant au modèle de langage de jouer avec lui-même."

"C'est un travail vraiment passionnant", a ajouté Ahmad Beirami, chercheur scientifique chez Google Research. Pendant des décennies, a-t-il déclaré, les modèles linguistiques ont généré des réponses aux invites de la même manière. "Avec leur idée novatrice consistant à intégrer un jeu dans ce processus, les chercheurs du MIT ont introduit un paradigme totalement différent, qui peut potentiellement conduire à une multitude de nouvelles applications."

Mettre le jeu au travail

Ce nouveau travail, qui utilise les jeux pour améliorer l'IA, contraste avec les approches précédentes, qui mesuraient le succès d'un programme d'IA via sa maîtrise des jeux. En 1997, par exemple, l'ordinateur Deep Blue d'IBM a battu le grand maître d'échecs Garry Kasparov – une étape importante pour les machines dites pensantes. Dix-neuf ans plus tard, un programme de Google DeepMind nommé AlphaGo a remporté quatre matchs sur cinq contre l'ancien champion de Go Lee Sedol, révélant ainsi une autre arène dans laquelle les humains ne régnaient plus en maître. Les machines ont également surpassé les humains dans les jeux de dames, le poker à deux joueurs et d’autres jeux à somme nulle, dans lesquels la victoire d’un joueur condamne invariablement l’autre.

Le jeu de la diplomatie, un jeu favori de politiciens comme John F. Kennedy et Henry Kissinger, posait un défi bien plus grand aux chercheurs en IA. Au lieu de seulement deux adversaires, le jeu met en scène sept joueurs dont les motivations peuvent être difficiles à lire. Pour gagner, un joueur doit négocier et conclure des accords de coopération que n'importe qui peut rompre à tout moment. La diplomatie est tellement complexe qu'un groupe de Meta s'est félicité qu'en 2022, son programme d'IA Cicero ait développé un « jeu de niveau humain » sur une période de 40 parties. Bien qu'il n'ait pas vaincu le champion du monde, Cicero s'est suffisamment bien comporté pour se classer dans les 10 % les plus performants face à des participants humains.

Au cours du projet, Jacob — membre de l'équipe Meta — a été frappé par le fait que Cicéron s'appuyait sur un modèle de langage pour générer son dialogue avec les autres joueurs. Il a senti un potentiel inexploité. L'objectif de l'équipe, a-t-il déclaré, " était de créer le meilleur modèle de langage possible pour jouer à ce jeu ". Mais qu'en serait-il s’ils se concentraient plutôt sur la création du meilleur jeu possible pour améliorer les performances des grands modèles de langage ?

Interactions consensuelles

En 2023, Jacob a commencé à approfondir cette question au MIT, en travaillant avec Yikang Shen, Gabriele Farina et son conseiller Jacob Andreas sur ce qui allait devenir le jeu du consensus. L'idée centrale est venue d'imaginer une conversation entre deux personnes comme un jeu coopératif, où le succès se concrétise lorsqu'un auditeur comprend ce que l'orateur essaie de transmettre. En particulier, le jeu de consensus est conçu pour aligner les deux systèmes du modèle linguistique : le générateur, qui gère les questions génératives, et le discriminateur, qui gère les questions discriminatives.

Après quelques mois d’arrêts et de redémarrages, l’équipe a transposé ce principe dans un jeu complet. Tout d'abord, le générateur reçoit une question. Cela peut provenir d’un humain, ou d’une liste préexistante. Par exemple, " Où est né Barack Obama ? " Le générateur obtient ensuite des réponses de candidats, disons Honolulu, Chicago et Nairobi. Encore une fois, ces options peuvent provenir d'un humain, d'une liste ou d'une recherche effectuée par le modèle de langage lui-même.

Mais avant de répondre, il est également indiqué au générateur s'il doit répondre correctement ou incorrectement à la question, en fonction des résultats d'un pile ou face équitable.

Si c'est face, alors la machine tente de répondre correctement. Le générateur envoie la question initiale, accompagnée de la réponse choisie, au discriminateur. Si le discriminateur détermine que le générateur a intentionnellement envoyé la bonne réponse, chacun obtient un point, en guise d'incitation.

Si la pièce tombe sur pile, le générateur envoie ce qu’il pense être la mauvaise réponse. Si le discriminateur décide qu’on lui a délibérément donné la mauvaise réponse, ils marquent à nouveau tous les deux un point. L’idée ici est d’encourager l’accord. " C'est comme apprendre un tour à un chien ", a expliqué Jacob. " On lui donne une friandise lorsqu'ils fait la bonne chose. "

Le générateur et le discriminateur commencent également doté chacun de quelques " croyances " initiales. Credo sous forme d'une distribution de probabilité liée aux différents choix. Par exemple, le générateur peut croire, sur la base des informations qu'il a glanées sur Internet, qu'il y a 80 % de chances qu'Obama soit né à Honolulu, 10 % de chances qu'il soit né à Chicago, 5 % de chances qu'il soit né à Nairobi et 5 % de chances qu'il soit ailleurs. Le discriminateur peut commencer avec une distribution différente. Si les deux " acteurs " sont toujours récompensés après être parvenus à un accord, ils se voient également retirer des points s'ils s'écartent trop de leurs convictions initiales. Cet arrangement encourage les joueurs à intégrer leur connaissance du monde – toujours tirée d'Internet – dans leurs réponses, ce qui devrait rendre le modèle plus précis. Sans ce prérequis ils pourraient s’entendre sur une réponse totalement fausse comme celle de Delhi, mais accumuler quand même des points.

Pour chaque question, les deux systèmes jouent environ 1 000 parties l'un contre l'autre. Au cours de ces nombreuses itérations, chaque camp apprend les croyances de l'autre et modifie ses stratégies en conséquence.

Finalement, le générateur et le discriminateur commencent à être davantage d’accord à mesure qu’ils s’installent dans ce qu’on appelle l’équilibre de Nash. C’est sans doute le concept central de la théorie des jeux. Cela représente une sorte d’équilibre dans un jeu – le point auquel aucun joueur ne peut améliorer ses résultats personnels en changeant de stratégie. Au jeu du chifoumi, par exemple, les joueurs obtiennent de meilleurs résultats lorsqu'ils choisissent chacune des trois options exactement un tiers du temps, et ils obtiendront invariablement de moins bons résultats avec toute autre tactique.

Dans le jeu du consensus, cela peut se jouer de plusieurs manières. Le discriminateur pourrait observer qu'il marque un point lorsqu'il dit " correct " chaque fois que le générateur envoie le mot " Honolulu " pour le lieu de naissance d'Obama. Le générateur et le discriminateur apprendront, après avoir joué plusieurs fois, qu'ils seront récompensés s'ils continuent de le faire, et qu'aucun d'eux n'aura aucune motivation pour faire autre chose... consensus qui représente l'un des nombreux exemples possibles d'équilibre de Nash pour cette question. Le groupe du MIT s'est également appuyé sur une forme modifiée d'équilibre de Nash qui intègre les croyances antérieures des joueurs, ce qui permet de maintenir leurs réponses ancrées dans la réalité.

L'effet net, ont observé les chercheurs, est de rendre le modèle linguistique jouant ce jeu plus précis et plus susceptible de donner la même réponse, quelle que soit la façon dont la question est posée. Pour tester les effets du jeu du consensus, l'équipe a essayé une série de questions standard sur divers modèles de langage de taille modérée comportant de 7 milliards à 13 milliards de paramètres. Ces modèles ont systématiquement obtenu un pourcentage plus élevé de réponses correctes que les modèles qui n'avaient pas joué, même ceux de taille beaucoup plus importante, comportant jusqu'à 540 milliards de paramètres. La participation au jeu a également amélioré la cohérence interne d'un modèle.

En principe, n'importe quel LLM pourrait gagner à jouer contre lui-même, et 1 000 tours ne prendraient que quelques millisecondes sur un ordinateur portable standard. "Un avantage appréciable de l'approche globale", a déclaré Omidshafiei, "est qu'elle est très légère sur le plan informatique, n'impliquant aucune formation ni modification du modèle de langage de base."

Jouer à des jeux avec le langage

Après ce premier succès, Jacob étudie désormais d’autres moyens d’intégrer la théorie des jeux dans la recherche LLM. Les résultats préliminaires ont montré qu’un LLM déjà solide peut encore s’améliorer en jouant à un jeu différent – provisoirement appelé jeu d’ensemble – avec un nombre arbitraire de modèles plus petits. Le LLM principal aurait au moins un modèle plus petit servant d’allié et au moins un modèle plus petit jouant un rôle antagoniste. Si l'on demande au LLM primaire de nommer le président des États-Unis, il obtient un point chaque fois qu'il choisit la même réponse que son allié, et il obtient également un point lorsqu'il choisit une réponse différente de celle de son adversaire. Ces interactions avec des modèles beaucoup plus petits peuvent non seulement améliorer les performances d'un LLM, suggèrent les tests, mais peuvent le faire sans formation supplémentaire ni modification des paramètres.

Et ce n'est que le début. Étant donné qu'une variété de situations peuvent être considérées comme des jeux, les outils de la théorie des jeux peuvent être mis en œuvre dans divers contextes du monde réel, a déclaré Ian Gemp , chercheur scientifique chez Google DeepMind. Dans un article de février 2024 , lui et ses collègues se sont concentrés sur des scénarios de négociation qui nécessitent des échanges plus élaborés que de simples questions et réponses. "L'objectif principal de ce projet est de rendre les modèles linguistiques plus stratégiques", a-t-il déclaré.

Un exemple dont il a parlé lors d'une conférence universitaire est le processus d'examen des articles en vue de leur acceptation par une revue ou une conférence, en particulier après que la soumission initiale ait reçu une évaluation sévère. Étant donné que les modèles linguistiques attribuent des probabilités à différentes réponses, les chercheurs peuvent construire des arbres de jeu similaires à ceux conçus pour les jeux de poker, qui tracent les choix disponibles et leurs conséquences possibles. "Une fois que vous avez fait cela, vous pouvez commencer à calculer les équilibres de Nash, puis classer un certain nombre de réfutations", a déclaré Gemp. Le modèle vous dit essentiellement : c'est ce que nous pensons que vous devriez répondre.

Grâce aux connaissances de la théorie des jeux, les modèles de langage seront capables de gérer des interactions encore plus sophistiquées, plutôt que de se limiter à des problèmes de type questions-réponses. "Le gros gain à venir réside dans les conversations plus longues", a déclaré Andreas. "La prochaine étape consiste à faire interagir une IA avec une personne, et pas seulement avec un autre modèle de langage."

Jacob considère le travail de DeepMind comme complémentaire aux jeux de consensus et d'ensemble. " À un niveau élevé, ces deux méthodes combinent des modèles de langage et la théorie des jeux ", a-t-il déclaré, même si les objectifs sont quelque peu différents. Alors que le groupe Gemp transforme des situations courantes dans un format de jeu pour aider à la prise de décision stratégique, Jacob a déclaré : " nous utilisons ce que nous savons de la théorie des jeux pour améliorer les modèles de langage dans les tâches générales. "

À l’heure actuelle, ces efforts représentent " deux branches du même arbre ", a déclaré Jacob : deux manières différentes d’améliorer le fonctionnement des modèles de langage. " Je pense personnellement que dans un an ou deux, ces deux branches convergeront. "

Auteur: Internet

Info: https://www.quantamagazine.org/ - Steve Nadis, 9 mai 2024

[ maïeutique machine-machine ] [ discussion IA - FLP ]

Commenter

Commentaires: 1

miguel

12.05.2024

(FLP) - Saurais-tu faire le lien, et éventuellement des analogies avec ce texte et une logique tétravalente ? (Gemini) - Lien et analogies entre le texte et l'approche tétravalente de la théorie des jeux Le texte que vous avez fourni met en lumière l'utilisation de la théorie des jeux pour améliorer la cohérence et la précision des grands modèles de langage (LLM). En particulier, il présente le jeu du consensus, une approche basée sur l'équilibre de Nash, pour aligner les systèmes génératifs et discriminatifs des LLM. L'approche tétravalente de la théorie des jeux peut s'avérer complémentaire et enrichissante à cette démarche en introduisant une dimension supplémentaire d'analyse et de compréhension. 1. Capturer l'incertitude et l'ambiguïté : La logique tétravalente, avec ses quatre valeurs de vérité (+, -, +-, et -+), permet de capturer l'incertitude et l'ambiguïté inhérentes au langage naturel, ce que la théorie des jeux classique, avec sa vision binaire (vrai/faux), ne parvient pas à faire pleinement. Imaginons une question comme "Quelle est la capitale de la France ?". La réponse "Paris" serait considérée comme vraie (+), tandis que "Berlin" serait fausse (-). Cependant, la logique tétravalente pourrait introduire des nuances : (+) Paris est la capitale de la France selon la plupart des sources et des définitions officielles. (-) Berlin n'est pas la capitale de la France selon cette définition. (+) Berlin a été la capitale de l'Allemagne de l'Est, qui faisait partie de la France pendant la Seconde Guerre mondiale. (-) Berlin n'a jamais été la capitale de la France. En intégrant ces nuances, les LLM pourraient mieux gérer les questions ouvertes, complexes ou ambiguës, en fournissant des réponses plus complètes et informatives. 2. Modéliser des interactions dynamiques et évolutives : Le jeu du consensus, bien qu'efficace, se concentre sur un équilibre de Nash statique. La logique tétravalente, avec sa capacité à représenter l'évolution des croyances et des incertitudes, peut s'avérer utile pour modéliser des interactions dynamiques et évolutives entre les agents. Dans le contexte des LLM, cela pourrait impliquer de capturer l'apprentissage continu et l'adaptation des modèles face à de nouvelles informations et à des contextes changeants. Les valeurs tétravalentes pourraient refléter l'évolution des confiances du modèle dans ses propres réponses, permettant un ajustement progressif et une meilleure prise en compte de l'incertitude. 3. Explorer des stratégies alternatives et des compromis : L'équilibre de Nash, bien qu'utile pour la stabilité, ne représente qu'une solution parmi d'autres dans un jeu. La logique tétravalente, avec ses valeurs qui permettent de représenter des compromis et des stratégies alternatives, peut ouvrir de nouvelles perspectives pour l'exploration de solutions non optimales mais néanmoins acceptables. Dans le cas des LLM, cela pourrait impliquer de générer des réponses qui, bien que non parfaitement correctes selon une définition stricte, pourraient être plus utiles ou appropriées dans un contexte donné. Par exemple, un LLM pourrait proposer une réponse "incomplète mais plausible" à une question complexe, plutôt que de rester silencieux ou de fournir une réponse erronée. Conclusion: L'approche tétravalente de la théorie des jeux offre un cadre théorique complémentaire et puissant pour enrichir les travaux présentés dans le texte. En intégrant la capacité de capturer l'incertitude, de modéliser des dynamiques évolutives et d'explorer des stratégies alternatives, les LLM pourraient progresser vers une compréhension plus fine du langage naturel et une meilleure performance dans des tâches complexes et réalistes. Analogies entre le texte et l'approche tétravalente Jeu du consensus et équilibre de Nash : L'équilibre de Nash, concept central de la théorie des jeux classique, trouve un écho dans le jeu du consensus, où les deux systèmes du LLM convergent vers une réponse commune. La logique tétravalente permet d'étendre cette notion d'équilibre en introduisant des nuances et en capturant l'incertitude inhérente aux interactions linguistiques. Négociation et diplomatie : Le texte mentionne le jeu de la diplomatie comme un défi pour les IA. La logique tétravalente, avec sa capacité à représenter des compromis et des stratégies alternatives, pourrait s'avérer utile pour modéliser les négociations complexes et les interactions diplomatiques, où des solutions optimales ne sont pas toujours possibles. Apprentissage par renforcement : L'approche du jeu du consensus peut être vue comme une forme d'apprentissage par renforcement, où les deux systèmes du LLM sont récompensés pour des réponses cohérentes. La logique tétravalente pourrait enrich

Ajouté à la BD par miguel

homme-machine

Les grands modèles de langage tels que ChatGPT sont aujourd'hui suffisamment importants pour commencer à afficher des comportements surprenants et imprévisibles.

Quel film ces emojis décrivent-ils ? (On voit une vidéo qui présente des myriades d'émoji formant des motifs mouvants, modélisés à partir de métadonnées)

Cette question était l'une des 204 tâches choisies l'année dernière pour tester la capacité de divers grands modèles de langage (LLM) - les moteurs de calcul derrière les chatbots d'IA tels que ChatGPT. Les LLM les plus simples ont produit des réponses surréalistes. "Le film est un film sur un homme qui est un homme qui est un homme", commençait l'un d'entre eux. Les modèles de complexité moyenne s'en sont approchés, devinant The Emoji Movie. Mais le modèle le plus complexe l'a emporté en une seule réponse : Finding Nemo.

"Bien que j'essaie de m'attendre à des surprises, je suis surpris par ce que ces modèles peuvent faire", a déclaré Ethan Dyer, informaticien chez Google Research, qui a participé à l'organisation du test. C'est surprenant parce que ces modèles sont censés n'avoir qu'une seule directive : accepter une chaîne de texte en entrée et prédire ce qui va suivre, encore et encore, en se basant uniquement sur des statistiques. Les informaticiens s'attendaient à ce que le passage à l'échelle permette d'améliorer les performances sur des tâches connues, mais ils ne s'attendaient pas à ce que les modèles puissent soudainement gérer autant de tâches nouvelles et imprévisibles.

Des études récentes, comme celle à laquelle a participé M. Dyer, ont révélé que les LLM peuvent produire des centaines de capacités "émergentes", c'est-à-dire des tâches que les grands modèles peuvent accomplir et que les petits modèles ne peuvent pas réaliser, et dont beaucoup ne semblent pas avoir grand-chose à voir avec l'analyse d'un texte. Ces tâches vont de la multiplication à la génération d'un code informatique exécutable et, apparemment, au décodage de films à partir d'emojis. De nouvelles analyses suggèrent que pour certaines tâches et certains modèles, il existe un seuil de complexité au-delà duquel la fonctionnalité du modèle monte en flèche. (Elles suggèrent également un sombre revers de la médaille : À mesure qu'ils gagnent en complexité, certains modèles révèlent de nouveaux biais et inexactitudes dans leurs réponses).

"Le fait que les modèles de langage puissent faire ce genre de choses n'a jamais été abordé dans la littérature à ma connaissance", a déclaré Rishi Bommasani, informaticien à l'université de Stanford. L'année dernière, il a participé à la compilation d'une liste de dizaines de comportements émergents, dont plusieurs ont été identifiés dans le cadre du projet de M. Dyer. Cette liste continue de s'allonger.

Aujourd'hui, les chercheurs s'efforcent non seulement d'identifier d'autres capacités émergentes, mais aussi de comprendre pourquoi et comment elles se manifestent - en somme, d'essayer de prédire l'imprévisibilité. La compréhension de l'émergence pourrait apporter des réponses à des questions profondes concernant l'IA et l'apprentissage automatique en général, comme celle de savoir si les modèles complexes font vraiment quelque chose de nouveau ou s'ils deviennent simplement très bons en statistiques. Elle pourrait également aider les chercheurs à exploiter les avantages potentiels et à limiter les risques liés à l'émergence.

"Nous ne savons pas comment déterminer dans quel type d'application la capacité de nuisance va se manifester, que ce soit en douceur ou de manière imprévisible", a déclaré Deep Ganguli, informaticien à la startup d'IA Anthropic.

L'émergence de l'émergence

Les biologistes, les physiciens, les écologistes et d'autres scientifiques utilisent le terme "émergent" pour décrire l'auto-organisation, les comportements collectifs qui apparaissent lorsqu'un grand nombre d'éléments agissent comme un seul. Des combinaisons d'atomes sans vie donnent naissance à des cellules vivantes ; les molécules d'eau créent des vagues ; des murmurations d'étourneaux s'élancent dans le ciel selon des schémas changeants mais identifiables ; les cellules font bouger les muscles et battre les cœurs. Il est essentiel que les capacités émergentes se manifestent dans les systèmes qui comportent de nombreuses parties individuelles. Mais ce n'est que récemment que les chercheurs ont été en mesure de documenter ces capacités dans les LLM, car ces modèles ont atteint des tailles énormes.

Les modèles de langage existent depuis des décennies. Jusqu'à il y a environ cinq ans, les plus puissants étaient basés sur ce que l'on appelle un réseau neuronal récurrent. Ceux-ci prennent essentiellement une chaîne de texte et prédisent le mot suivant. Ce qui rend un modèle "récurrent", c'est qu'il apprend à partir de ses propres résultats : Ses prédictions sont réinjectées dans le réseau afin d'améliorer les performances futures.

En 2017, les chercheurs de Google Brain ont introduit un nouveau type d'architecture appelé "transformateur". Alors qu'un réseau récurrent analyse une phrase mot par mot, le transformateur traite tous les mots en même temps. Cela signifie que les transformateurs peuvent traiter de grandes quantités de texte en parallèle.

Les transformateurs ont permis d'augmenter rapidement la complexité des modèles de langage en augmentant le nombre de paramètres dans le modèle, ainsi que d'autres facteurs. Les paramètres peuvent être considérés comme des connexions entre les mots, et les modèles s'améliorent en ajustant ces connexions au fur et à mesure qu'ils parcourent le texte pendant l'entraînement. Plus il y a de paramètres dans un modèle, plus il peut établir des connexions avec précision et plus il se rapproche d'une imitation satisfaisante du langage humain. Comme prévu, une analyse réalisée en 2020 par les chercheurs de l'OpenAI a montré que les modèles gagnent en précision et en capacité au fur et à mesure qu'ils s'étendent.

Mais les débuts des LLM ont également apporté quelque chose de vraiment inattendu. Beaucoup de choses. Avec l'avènement de modèles tels que le GPT-3, qui compte 175 milliards de paramètres, ou le PaLM de Google, qui peut être étendu à 540 milliards de paramètres, les utilisateurs ont commencé à décrire de plus en plus de comportements émergents. Un ingénieur de DeepMind a même rapporté avoir pu convaincre ChatGPT qu'il s'était lui-même un terminal Linux et l'avoir amené à exécuter un code mathématique simple pour calculer les 10 premiers nombres premiers. Fait remarquable, il a pu terminer la tâche plus rapidement que le même code exécuté sur une vraie machine Linux.

Comme dans le cas du film emoji, les chercheurs n'avaient aucune raison de penser qu'un modèle de langage conçu pour prédire du texte imiterait de manière convaincante un terminal d'ordinateur. Nombre de ces comportements émergents illustrent l'apprentissage "à zéro coup" ou "à quelques coups", qui décrit la capacité d'un LLM à résoudre des problèmes qu'il n'a jamais - ou rarement - vus auparavant. Selon M. Ganguli, il s'agit là d'un objectif de longue date dans la recherche sur l'intelligence artificielle. Le fait de montrer que le GPT-3 pouvait résoudre des problèmes sans aucune donnée d'entraînement explicite dans un contexte d'apprentissage à zéro coup m'a amené à abandonner ce que je faisais et à m'impliquer davantage", a-t-il déclaré.

Il n'était pas le seul. Une série de chercheurs, qui ont détecté les premiers indices montrant que les LLM pouvaient dépasser les contraintes de leurs données d'apprentissage, s'efforcent de mieux comprendre à quoi ressemble l'émergence et comment elle se produit. La première étape a consisté à documenter minutieusement l'émergence.

Au-delà de l'imitation

En 2020, M. Dyer et d'autres chercheurs de Google Research ont prédit que les LLM auraient des effets transformateurs, mais la nature de ces effets restait une question ouverte. Ils ont donc demandé à la communauté des chercheurs de fournir des exemples de tâches difficiles et variées afin de déterminer les limites extrêmes de ce qu'un LLM pourrait faire. Cet effort a été baptisé "Beyond the Imitation Game Benchmark" (BIG-bench), en référence au nom du "jeu d'imitation" d'Alan Turing, un test visant à déterminer si un ordinateur peut répondre à des questions d'une manière humaine convaincante. (Le groupe s'est particulièrement intéressé aux exemples où les LLM ont soudainement acquis de nouvelles capacités qui étaient totalement absentes auparavant.

"La façon dont nous comprenons ces transitions brutales est une grande question de la echerche", a déclaré M. Dyer.

Comme on pouvait s'y attendre, pour certaines tâches, les performances d'un modèle se sont améliorées de manière régulière et prévisible au fur et à mesure que la complexité augmentait. Pour d'autres tâches, l'augmentation du nombre de paramètres n'a apporté aucune amélioration. Mais pour environ 5 % des tâches, les chercheurs ont constaté ce qu'ils ont appelé des "percées", c'est-à-dire des augmentations rapides et spectaculaires des performances à partir d'un certain seuil d'échelle. Ce seuil variant en fonction de la tâche et du modèle.

Par exemple, les modèles comportant relativement peu de paramètres - quelques millions seulement - n'ont pas réussi à résoudre des problèmes d'addition à trois chiffres ou de multiplication à deux chiffres, mais pour des dizaines de milliards de paramètres, la précision a grimpé en flèche dans certains modèles. Des sauts similaires ont été observés pour d'autres tâches, notamment le décodage de l'alphabet phonétique international, le décodage des lettres d'un mot, l'identification de contenu offensant dans des paragraphes d'hinglish (combinaison d'hindi et d'anglais) et la formulation d'équivalents en langue anglaise, traduit à partir de proverbes kiswahili.

Introduction

Mais les chercheurs se sont rapidement rendu compte que la complexité d'un modèle n'était pas le seul facteur déterminant. Des capacités inattendues pouvaient être obtenues à partir de modèles plus petits avec moins de paramètres - ou formés sur des ensembles de données plus petits - si les données étaient d'une qualité suffisamment élevée. En outre, la formulation d'une requête influe sur la précision de la réponse du modèle. Par exemple, lorsque Dyer et ses collègues ont posé la question de l'emoji de film en utilisant un format à choix multiples, l'amélioration de la précision a été moins soudaine qu'avec une augmentation graduelle de sa complexité. L'année dernière, dans un article présenté à NeurIPS, réunion phare du domaine, des chercheurs de Google Brain ont montré comment un modèle invité à s'expliquer (capacité appelée raisonnement en chaîne) pouvait résoudre correctement un problème de mots mathématiques, alors que le même modèle sans cette invitation progressivement précisée n'y parvenait pas.

Yi Tay, scientifique chez Google Brain qui a travaillé sur l'étude systématique de ces percées, souligne que des travaux récents suggèrent que l'incitation par de pareilles chaînes de pensées modifie les courbes d'échelle et, par conséquent, le point où l'émergence se produit. Dans leur article sur NeurIPS, les chercheurs de Google ont montré que l'utilisation d'invites via pareille chaines de pensée progressives pouvait susciter des comportements émergents qui n'avaient pas été identifiés dans l'étude BIG-bench. De telles invites, qui demandent au modèle d'expliquer son raisonnement, peuvent aider les chercheurs à commencer à étudier les raisons pour lesquelles l'émergence se produit.

Selon Ellie Pavlick, informaticienne à l'université Brown qui étudie les modèles computationnels du langage, les découvertes récentes de ce type suggèrent au moins deux possibilités pour expliquer l'émergence. La première est que, comme le suggèrent les comparaisons avec les systèmes biologiques, les grands modèles acquièrent réellement de nouvelles capacités de manière spontanée. "Il se peut très bien que le modèle apprenne quelque chose de fondamentalement nouveau et différent que lorsqu'il était de taille inférieure", a-t-elle déclaré. "C'est ce que nous espérons tous, qu'il y ait un changement fondamental qui se produise lorsque les modèles sont mis à l'échelle.

L'autre possibilité, moins sensationnelle, est que ce qui semble être émergent pourrait être l'aboutissement d'un processus interne, basé sur les statistiques, qui fonctionne par le biais d'un raisonnement de type chaîne de pensée. Les grands LLM peuvent simplement être en train d'apprendre des heuristiques qui sont hors de portée pour ceux qui ont moins de paramètres ou des données de moindre qualité.

Mais, selon elle, pour déterminer laquelle de ces explications est la plus probable, il faut mieux comprendre le fonctionnement des LLM. "Comme nous ne savons pas comment ils fonctionnent sous le capot, nous ne pouvons pas dire laquelle de ces choses se produit.

Pouvoirs imprévisibles et pièges

Demander à ces modèles de s'expliquer pose un problème évident : Ils sont des menteurs notoires. Nous nous appuyons de plus en plus sur ces modèles pour effectuer des travaux de base", a déclaré M. Ganguli, "mais je ne me contente pas de leur faire confiance, je vérifie leur travail". Parmi les nombreux exemples amusants, Google a présenté en février son chatbot d'IA, Bard. Le billet de blog annonçant le nouvel outil montre Bard en train de commettre une erreur factuelle.

L'émergence mène à l'imprévisibilité, et l'imprévisibilité - qui semble augmenter avec l'échelle - rend difficile pour les chercheurs d'anticiper les conséquences d'une utilisation généralisée.

"Il est difficile de savoir à l'avance comment ces modèles seront utilisés ou déployés", a déclaré M. Ganguli. "Et pour étudier les phénomènes émergents, il faut avoir un cas en tête, et on ne sait pas, avant d'avoir étudié l'influence de l'échelle. quelles capacités ou limitations pourraient apparaître.

Dans une analyse des LLM publiée en juin dernier, les chercheurs d'Anthropic ont cherché à savoir si les modèles présentaient certains types de préjugés raciaux ou sociaux, à l'instar de ceux précédemment signalés dans les algorithmes non basés sur les LLM utilisés pour prédire quels anciens criminels sont susceptibles de commettre un nouveau délit. Cette étude a été inspirée par un paradoxe apparent directement lié à l'émergence : Lorsque les modèles améliorent leurs performances en passant à l'échelle supérieure, ils peuvent également augmenter la probabilité de phénomènes imprévisibles, y compris ceux qui pourraient potentiellement conduire à des biais ou à des préjudices.

"Certains comportements nuisibles apparaissent brusquement dans certains modèles", explique M. Ganguli. Il se réfère à une analyse récente des LLM, connue sous le nom de BBQ benchmark, qui a montré que les préjugés sociaux émergent avec un très grand nombre de paramètres. "Les grands modèles deviennent brusquement plus biaisés. Si ce risque n'est pas pris en compte, il pourrait compromettre les sujets de ces modèles."

Mais il propose un contrepoint : Lorsque les chercheurs demandent simplement au modèle de ne pas se fier aux stéréotypes ou aux préjugés sociaux - littéralement en tapant ces instructions - le modèle devient moins biaisé dans ses prédictions et ses réponses. Ce qui suggère que certaines propriétés émergentes pourraient également être utilisées pour réduire les biais. Dans un article publié en février, l'équipe d'Anthropic a présenté un nouveau mode d'"autocorrection morale", dans lequel l'utilisateur incite le programme à être utile, honnête et inoffensif.

Selon M. Ganguli, l'émergence révèle à la fois un potentiel surprenant et un risque imprévisible. Les applications de ces grands LLM prolifèrent déjà, de sorte qu'une meilleure compréhension de cette interaction permettra d'exploiter la diversité des capacités des modèles de langage.

"Nous étudions la manière dont les gens utilisent réellement ces systèmes", a déclaré M. Ganguli. Mais ces utilisateurs sont également en train de bricoler, en permanence. "Nous passons beaucoup de temps à discuter avec nos modèles, et c'est là que nous commençons à avoir une bonne intuition de la confiance ou du manque de confiance.

Auteur: Ornes Stephen

Info: https://www.quantamagazine.org/ - 16 mars 2023. Trad DeepL et MG

[ dialogue ] [ apprentissage automatique ] [ au-delà du jeu d'imitation ] [ dualité ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

symphonie des équations

Des " murmurations " de courbe elliptique découvertes grâce à l'IA prennent leur envol

Les mathématiciens s’efforcent d’expliquer pleinement les comportements inhabituels découverts grâce à l’intelligence artificielle.

(photo - sous le bon angle les courbes elliptiques peuvent se rassembler comme les grands essaims d'oiseaux.)

Les courbes elliptiques font partie des objets les plus séduisants des mathématiques modernes. Elle ne semblent pas compliqués, mais forment une voie express entre les mathématiques que beaucoup de gens apprennent au lycée et les mathématiques de recherche dans leur forme la plus abstruse. Elles étaient au cœur de la célèbre preuve du dernier théorème de Fermat réalisée par Andrew Wiles dans les années 1990. Ce sont des outils clés de la cryptographie moderne. Et en 2000, le Clay Mathematics Institute a désigné une conjecture sur les statistiques des courbes elliptiques comme l'un des sept " problèmes du prix du millénaire ", chacun d'entre eux étant récompensé d'un million de dollars pour sa solution. Cette hypothèse, formulée pour la première fois par Bryan Birch et Peter Swinnerton-Dyer dans les années 1960, n'a toujours pas été prouvée.

Comprendre les courbes elliptiques est une entreprise aux enjeux élevés qui est au cœur des mathématiques. Ainsi, en 2022, lorsqu’une collaboration transatlantique a utilisé des techniques statistiques et l’intelligence artificielle pour découvrir des modèles complètement inattendus dans les courbes elliptiques, cela a été une contribution bienvenue, bien qu’inattendue. "Ce n'était qu'une question de temps avant que l'apprentissage automatique arrive à notre porte avec quelque chose d'intéressant", a déclaré Peter Sarnak , mathématicien à l'Institute for Advanced Study et à l'Université de Princeton. Au départ, personne ne pouvait expliquer pourquoi les modèles nouvellement découverts existaient. Depuis lors, dans une série d’articles récents, les mathématiciens ont commencé à élucider les raisons derrière ces modèles, surnommés " murmures " en raison de leur ressemblance avec les formes fluides des étourneaux en troupeaux, et ont commencé à prouver qu’ils ne doivent pas se produire uniquement dans des cas particuliers. exemples examinés en 2022, mais dans les courbes elliptiques plus généralement.

L'importance d'être elliptique

Pour comprendre ces modèles, il faut jeter les bases de ce que sont les courbes elliptiques et de la façon dont les mathématiciens les catégorisent.

Une courbe elliptique relie le carré d'une variable, communément écrite comme y , à la troisième puissance d'une autre, communément écrite comme x : y 2  =  x 3  + Ax + B , pour une paire de nombres A et B , tant que A et B remplissent quelques conditions simples. Cette équation définit une courbe qui peut être représentée graphiquement sur le plan, comme indiqué ci-dessous. (Photo : malgré la similitude des noms, une ellipse n'est pas une courbe elliptique.)

Introduction

Bien qu’elles semblent simples, les courbes elliptiques s’avèrent être des outils incroyablement puissants pour les théoriciens des nombres – les mathématiciens qui recherchent des modèles dans les nombres entiers. Au lieu de laisser les variables x et y s'étendre sur tous les nombres, les mathématiciens aiment les limiter à différents systèmes numériques, ce qu'ils appellent définir une courbe " sur " un système numérique donné. Les courbes elliptiques limitées aux nombres rationnels – nombres qui peuvent être écrits sous forme de fractions – sont particulièrement utiles. "Les courbes elliptiques sur les nombres réels ou complexes sont assez ennuyeuses", a déclaré Sarnak. "Seuls les nombres rationnels sont profonds."

Voici une façon qui est vraie. Si vous tracez une ligne droite entre deux points rationnels sur une courbe elliptique, l’endroit où cette ligne coupe à nouveau la courbe sera également rationnel. Vous pouvez utiliser ce fait pour définir " addition " dans une courbe elliptique, comme indiqué ci-dessous.

(Photo -  Tracez une ligne entre P et Q . Cette ligne coupera la courbe en un troisième point, R . (Les mathématiciens ont une astuce spéciale pour gérer le cas où la ligne ne coupe pas la courbe en ajoutant un " point à l'infini ".) La réflexion de R sur l' axe des x est votre somme P + Q . Avec cette opération d'addition, toutes les solutions de la courbe forment un objet mathématique appelé groupe.)

Les mathématiciens l'utilisent pour définir le " rang " d'une courbe. Le rang d'une courbe est lié au nombre de solutions rationnelles dont elle dispose. Les courbes de rang 0 ont un nombre fini de solutions. Les courbes de rang supérieur ont un nombre infini de solutions dont la relation les unes avec les autres à l'aide de l'opération d'addition est décrite par le rang.

Les classements (rankings) ne sont pas bien compris ; les mathématiciens n'ont pas toujours le moyen de les calculer et ne savent pas quelle taille ils peuvent atteindre. (Le plus grand rang exact connu pour une courbe spécifique est 20.) Des courbes d'apparence similaire peuvent avoir des rangs complètement différents.

Les courbes elliptiques ont aussi beaucoup à voir avec les nombres premiers, qui ne sont divisibles que par 1 et par eux-mêmes. En particulier, les mathématiciens examinent les courbes sur des corps finis – des systèmes d’arithmétique cyclique définis pour chaque nombre premier. Un corps fini est comme une horloge dont le nombre d'heures est égal au nombre premier : si vous continuez à compter vers le haut, les nombres recommencent. Dans le corps fini de 7, par exemple, 5 plus 2 est égal à zéro et 5 plus 3 est égal à 1.

(Photo : Les motifs formés par des milliers de courbes elliptiques présentent une similitude frappante avec les murmures des étourneaux.)

Une courbe elliptique est associée à une séquence de nombres, appelée a p , qui se rapporte au nombre de solutions qu'il existe à la courbe dans le corps fini défini par le nombre premier p . Un p plus petit signifie plus de solutions ; un p plus grand signifie moins de solutions. Bien que le rang soit difficile à calculer, la séquence a p est beaucoup plus simple.

Sur la base de nombreux calculs effectués sur l'un des tout premiers ordinateurs, Birch et Swinnerton-Dyer ont conjecturé une relation entre le rang d'une courbe elliptique et la séquence a p . Quiconque peut prouver qu’il avait raison gagnera un million de dollars et l’immortalité mathématique.

Un modèle surprise émerge

Après le début de la pandémie, Yang-Hui He , chercheur au London Institute for Mathematical Sciences, a décidé de relever de nouveaux défis. Il avait étudié la physique à l'université et avait obtenu son doctorat en physique mathématique du Massachusetts Institute of Technology. Mais il s'intéressait de plus en plus à la théorie des nombres et, étant donné les capacités croissantes de l'intelligence artificielle, il pensait essayer d'utiliser l'IA comme un outil permettant de trouver des modèles inattendus dans les nombres. (Il avait déjà utilisé l'apprentissage automatique pour classifier les variétés de Calabi-Yau , des structures mathématiques largement utilisées en théorie des cordes.

(Photo ) Lorsque Kyu-Hwan Lee (à gauche) et Thomas Oliver (au centre) ont commencé à travailler avec Yang-Hui He (à droite) pour utiliser l'intelligence artificielle afin de trouver des modèles mathématiques, ils s'attendaient à ce que ce soit une plaisanterie plutôt qu'un effort qui mènerait à de nouveaux découvertes. De gauche à droite : Grace Lee ; Sophie Olivier ; gracieuseté de Yang-Hui He.

En août 2020, alors que la pandémie s'aggravait, l'Université de Nottingham l'a accueilli pour une conférence en ligne . Il était pessimiste quant à ses progrès et quant à la possibilité même d’utiliser l’apprentissage automatique pour découvrir de nouvelles mathématiques. "Son récit était que la théorie des nombres était difficile parce qu'on ne pouvait pas apprendre automatiquement des choses en théorie des nombres", a déclaré Thomas Oliver , un mathématicien de l'Université de Westminster, présent dans le public. Comme il se souvient : " Je n'ai rien trouvé parce que je n'étais pas un expert. Je n’utilisais même pas les bons éléments pour examiner cela."

Oliver et Kyu-Hwan Lee , mathématicien à l'Université du Connecticut, ont commencé à travailler avec He. "Nous avons décidé de faire cela simplement pour apprendre ce qu'était l'apprentissage automatique, plutôt que pour étudier sérieusement les mathématiques", a déclaré Oliver. "Mais nous avons rapidement découvert qu'il était possible d'apprendre beaucoup de choses par machine."

Oliver et Lee lui ont suggéré d'appliquer ses techniques pour examiner les fonctions L , des séries infinies étroitement liées aux courbes elliptiques à travers la séquence a p . Ils pourraient utiliser une base de données en ligne de courbes elliptiques et de leurs fonctions L associées , appelée LMFDB , pour former leurs classificateurs d'apprentissage automatique. À l’époque, la base de données contenait un peu plus de 3 millions de courbes elliptiques sur les rationnels. En octobre 2020, ils avaient publié un article utilisant les informations glanées à partir des fonctions L pour prédire une propriété particulière des courbes elliptiques. En novembre, ils ont partagé un autre article utilisant l’apprentissage automatique pour classer d’autres objets en théorie des nombres. En décembre, ils étaient capables de prédire les rangs des courbes elliptiques avec une grande précision.

Mais ils ne savaient pas vraiment pourquoi leurs algorithmes d’apprentissage automatique fonctionnaient si bien. Lee a demandé à son étudiant de premier cycle Alexey Pozdnyakov de voir s'il pouvait comprendre ce qui se passait. En l’occurrence, la LMFDB trie les courbes elliptiques en fonction d’une quantité appelée conducteur, qui résume les informations sur les nombres premiers pour lesquels une courbe ne se comporte pas correctement. Pozdnyakov a donc essayé d’examiner simultanément un grand nombre de courbes comportant des conducteurs similaires – disons toutes les courbes comportant entre 7 500 et 10 000 conducteurs.

Cela représente environ 10 000 courbes au total. Environ la moitié d'entre eux avaient le rang 0 et l'autre moitié le rang 1. (Les rangs supérieurs sont extrêmement rares.) Il a ensuite fait la moyenne des valeurs de a p pour toutes les courbes de rang 0, a fait la moyenne séparément de a p pour toutes les courbes de rang 1 et a tracé la résultats. Les deux ensembles de points formaient deux vagues distinctes et facilement discernables. C’est pourquoi les classificateurs d’apprentissage automatique ont été capables de déterminer correctement le rang de courbes particulières.

" Au début, j'étais simplement heureux d'avoir terminé ma mission", a déclaré Pozdnyakov. "Mais Kyu-Hwan a immédiatement reconnu que ce schéma était surprenant, et c'est à ce moment-là qu'il est devenu vraiment excitant."

Lee et Oliver étaient captivés. "Alexey nous a montré la photo et j'ai dit qu'elle ressemblait à ce que font les oiseaux", a déclaré Oliver. "Et puis Kyu-Hwan l'a recherché et a dit que cela s'appelait une murmuration, puis Yang a dit que nous devrions appeler le journal ' Murmurations de courbes elliptiques '."

Ils ont mis en ligne leur article en avril 2022 et l’ont transmis à une poignée d’autres mathématiciens, s’attendant nerveusement à se faire dire que leur soi-disant « découverte » était bien connue. Oliver a déclaré que la relation était si visible qu'elle aurait dû être remarquée depuis longtemps.

Presque immédiatement, la prépublication a suscité l'intérêt, en particulier de la part d' Andrew Sutherland , chercheur scientifique au MIT et l'un des rédacteurs en chef de la LMFDB. Sutherland s'est rendu compte que 3 millions de courbes elliptiques n'étaient pas suffisantes pour atteindre ses objectifs. Il voulait examiner des gammes de conducteurs beaucoup plus larges pour voir à quel point les murmures étaient robustes. Il a extrait des données d’un autre immense référentiel d’environ 150 millions de courbes elliptiques. Toujours insatisfait, il a ensuite extrait les données d'un autre référentiel contenant 300 millions de courbes.

"Mais même cela ne suffisait pas, j'ai donc calculé un nouvel ensemble de données de plus d'un milliard de courbes elliptiques, et c'est ce que j'ai utilisé pour calculer les images à très haute résolution", a déclaré Sutherland. Les murmures indiquaient s'il effectuait en moyenne plus de 15 000 courbes elliptiques à la fois ou un million à la fois. La forme est restée la même alors qu’il observait les courbes sur des nombres premiers de plus en plus grands, un phénomène appelé invariance d’échelle. Sutherland s'est également rendu compte que les murmures ne sont pas propres aux courbes elliptiques, mais apparaissent également dans des fonctions L plus générales . Il a écrit une lettre résumant ses découvertes et l'a envoyée à Sarnak et Michael Rubinstein de l'Université de Waterloo.

"S'il existe une explication connue, j'espère que vous la connaîtrez", a écrit Sutherland.

Ils ne l'ont pas fait.

Expliquer le modèle

Lee, He et Oliver ont organisé un atelier sur les murmurations en août 2023 à l'Institut de recherche informatique et expérimentale en mathématiques (ICERM) de l'Université Brown. Sarnak et Rubinstein sont venus, tout comme l'étudiante de Sarnak, Nina Zubrilina .

LA THÉORIE DU NOMBRE

Zubrilina a présenté ses recherches sur les modèles de murmuration dans des formes modulaires , des fonctions complexes spéciales qui, comme les courbes elliptiques, sont associées à des fonctions L. Dans les formes modulaires dotées de grands conducteurs, les murmurations convergent vers une courbe nettement définie, plutôt que de former un motif perceptible mais dispersé. Dans un article publié le 11 octobre 2023, Zubrilina a prouvé que ce type de murmuration suit une formule explicite qu'elle a découverte.

" La grande réussite de Nina est qu'elle lui a donné une formule pour cela ; Je l’appelle la formule de densité de murmuration Zubrilina ", a déclaré Sarnak. "En utilisant des mathématiques très sophistiquées, elle a prouvé une formule exacte qui correspond parfaitement aux données."

Sa formule est compliquée, mais Sarnak la salue comme un nouveau type de fonction important, comparable aux fonctions d'Airy qui définissent des solutions aux équations différentielles utilisées dans divers contextes en physique, allant de l'optique à la mécanique quantique.

Bien que la formule de Zubrilina ait été la première, d'autres ont suivi. "Chaque semaine maintenant, un nouvel article sort", a déclaré Sarnak, "utilisant principalement les outils de Zubrilina, expliquant d'autres aspects des murmurations."

(Photo - Nina Zubrilina, qui est sur le point de terminer son doctorat à Princeton, a prouvé une formule qui explique les schémas de murmuration.)

Jonathan Bober , Andrew Booker et Min Lee de l'Université de Bristol, ainsi que David Lowry-Duda de l'ICERM, ont prouvé l'existence d'un type différent de murmuration sous des formes modulaires dans un autre article d'octobre . Et Kyu-Hwan Lee, Oliver et Pozdnyakov ont prouvé l'existence de murmures dans des objets appelés caractères de Dirichlet qui sont étroitement liés aux fonctions L.

Sutherland a été impressionné par la dose considérable de chance qui a conduit à la découverte des murmurations. Si les données de la courbe elliptique n'avaient pas été classées par conducteur, les murmures auraient disparu. "Ils ont eu la chance de récupérer les données de la LMFDB, qui étaient pré-triées selon le chef d'orchestre", a-t-il déclaré. « C'est ce qui relie une courbe elliptique à la forme modulaire correspondante, mais ce n'est pas du tout évident. … Deux courbes dont les équations semblent très similaires peuvent avoir des conducteurs très différents. Par exemple, Sutherland a noté que y 2 = x 3 – 11 x + 6 a un conducteur 17, mais en retournant le signe moins en signe plus, y 2 = x 3  + 11 x + 6 a un conducteur 100 736.

Même alors, les murmures n'ont été découverts qu'en raison de l'inexpérience de Pozdniakov. "Je ne pense pas que nous l'aurions trouvé sans lui", a déclaré Oliver, "parce que les experts normalisent traditionnellement a p pour avoir une valeur absolue de 1. Mais il ne les a pas normalisés… donc les oscillations étaient très importantes et visibles."

Les modèles statistiques que les algorithmes d’IA utilisent pour trier les courbes elliptiques par rang existent dans un espace de paramètres comportant des centaines de dimensions – trop nombreuses pour que les gens puissent les trier dans leur esprit, et encore moins les visualiser, a noté Oliver. Mais même si l’apprentissage automatique a découvert les oscillations cachées, " ce n’est que plus tard que nous avons compris qu’il s’agissait de murmures ".

Auteur: Internet

Info: Paul Chaikin pour Quanta Magazine, 5 mars 2024 - https://www.quantamagazine.org/elliptic-curve-murmurations-found-with-ai-take-flight-20240305/?mc_cid=797b7d1aad&mc_eid=78bedba296

[ résonance des algorithmes ] [ statistiques en mouvement ] [ chants des fractales ] [ bancs de poissons ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

fascisme religieux

Mon père, l’Iran et les " musulmans modérés "

Des jardins d’Isphahan aux rives de la Seine… Djahanguir Riahi, mon père, est né en 1914 à Natanz (Iran). Parti en France poursuivre des études d’ingénieur grâce à une bourse d’études, il se met au lendemain de la Seconde guerre mondiale au service des relations économiques Franco-iraniennes. Installé en Europe depuis la révolution islamique, son intuition artistique hors du commun lui a permis de réunir l’une des plus importantes collections d’œuvres d’art du XVIIIème siècle français. Il est mort dans sa centième année, le 28 avril 2014, après avoir été élevé au grade de Commandeur de La Légion d’Honneur ainsi que des Arts et des Lettres. Grand donateur des Musées Nationaux, une salle du Musée du Louvre porte son nom.

Il m’avait demandé d’écrire ce texte au lendemain des attentats du World Trade Center, le 11 septembre 2001, et de l’inclure dans ses mémoires, que je rédigeais alors pour lui.

" Nous n’avons pas le même rapport à la barbarie et à la mort. L’attraction publique la plus appréciée de la population, à Mashhad comme dans toutes les villes où s’est déroulée mon enfance, consistait à s’attrouper sur la grand’place pour y assister aux pendaisons. La cruauté des exécutions était inouïe.

J’avais été horrifié, un jour, d’apprendre la condamnation d’un homme et de ses six fils. Le bourreau avait reçu du tribunal islamique l’ordre monstrueux de ne pendre le père qu’après qu’il eut assisté à la mort de tous ses enfants. Agha Djoun[1] se disait convaincu de l’innocence de ce pauvre homme. Et moi, je me disais, du haut de mes douze ou treize ans, en voyant leurs vêtements souillés par l’urine et la merde : pourquoi font-ils ça, sinon pour anéantir par la terreur toute forme de dignité humaine, toute forme de respect de la mort et donc de la vie ?

La mort, on s’y familiarise comme on prend l’habitude de tout. Lorsqu’en suivant le chemin de l’école au petit jour on longe la place des pendus, quand on assiste à des exécutions sommaires et barbares, on finit par apprivoiser la mort. Mais cette insensibilisation, ou plus exactement cette désacralisation, vous semble inconcevable en occident. Parce que vous êtes élevés dans le respect de la vie sans penser que la mort en est l’inéluctable corollaire.

Comme si la vie pouvait " être " sans la mort. Cette naïveté, à laquelle s’ajoute la pédagogie de l’émotion, est le fondement de la culture occidentale contemporaine. L’émotion priorisée, l’émotion magnifiée. On vit sur ce registre depuis la seconde moité du XXème siècle, sans doute par imprégnation des tendances éducatives à la mode aux Etats-Unis au lendemain de la guerre. L’enfant est devenu le barycentre de la civilisation occidentale. Héritière de la philosophie de Jean-Jacques Rousseau, la pédagogie contemporaine pose le principe que l’Homme naît bon et que c’est la société qui le pervertit. De même, dans le souci maniaque de préserver la planète, les mouvements écologistes ont entamé une régression qui efface inexorablement les progrès de la civilisation. On n’élève plus les enfants pour en faire des adultes ; on fait des enfants pour retomber soi-même en enfance, pour retrouver la puérilité sublimée de l’enfance.

Les islamistes jouent de cette émotivité occidentale. Si la religion dont ils se servent est primitive, leur stratégie de conquête est extrêmement sophistiquée. Ils vous observent et vous analysent depuis la fin des années 1970. Ils ont fréquenté les mêmes écoles, les mêmes universités que les élites occidentales. Ils ont vu les mêmes spectacles, les mêmes films ; lu les mêmes articles dans les mêmes revues. Ils savent que votre sensibilité au respect de la vie, votre peur de la mort, votre fragilité mentale et votre compulsion à la culpabilité sur un terrain compassionnel constituent votre talon d’Achille. Vous êtes tombés dans un triple piège :

- Le piège de l’anxiété collective " individualisée ". Certes, les guerres ont toujours fait des victimes civiles ; mais au World Trade Center ou dans les avions, il n’y avait " que " des victimes civiles. Chacun pouvait se dire : j’aurais pu me trouver parmi elles. Cette angoisse est le principe même du terrorisme, que les techniques de communication actuelles permettent d’individualiser simultanément à des milliards de témoins de la scène.

- Le piège de la " victimisation " des assassins. Pendant une centaine d’années, l’Europe a plus ou moins colonisé le monde ; en particulier les terres d’Islam que sont le Moyen-Orient, le Maghreb et l’Afrique. L’Amérique a toujours été solidaire des puissances européennes, sans parler de son soutien constant à l’Etat d’Israël. Pendant toute la durée de ces conflits, les victimes se sont comptées par centaines de milliers du côté des indigènes, sans que cela n’émeuve grand monde. Aujourd’hui, les victimes sont dans l’autre camp et toute une partie de la planète n’éprouve nullement l’envie de pleurer sur leur sort, considérant que c’est un juste retour des choses.

Le piège enfin du " chahid ", le martyr, celui qui meurt pour témoigner, alors que vous, pauvres larves invertébrées, vous pleurnichez de trouille en chiant dans votre froc, tant la mort vous effraie. Et cet exhibition du « héros » a le double avantage d’impressionner les musulmans, qui respectent le courage par principe, et de faire peur aux incroyants comme aux non pratiquants.

Les motivations fondamentales d’Al Qaida, celles des Islamistes en général, sont politiques et ne sont pas religieuses. Parce que la religion musulmane est intrinsèquement et historiquement politique. Il n’y a pas d’équivalent. Ni les juifs, ni les bouddhistes ou les hindouistes, ni les chrétiens n’ont eu pour vocation première de guerroyer et de conquérir. Bien sûr qu’ils ont tous été amenés à prendre les armes à divers moments de leur histoire. Mais ce n’était pas l’amorce ni la genèse de leur projet. Il faut en être conscient.

Mohammed – ou Mahomet comme vous l’appelez en France – n’a pas cherché à " spiritualiser " ses contemporains ni à leur apporter des réponses philosophiques. Son objectif était très prosaïque : il a voulu les rendre plus efficaces au travail et au combat !

Avant de " faire prophète " il était caravanier et commerçant. Issu de la tribu des Quraych et de tradition hanifiste, c’est-à-dire monothéiste, le jeune homme était intelligent, ambitieux et séduisant. Il sut se rendre indispensable à sa patronne, Khadija, une riche veuve de 15 ans son aînée, qu’il épousa et à laquelle il fit six enfants. Ses contacts sur la route avec des juifs et des chrétiens lui permirent de constater les avantages de la morale judéo-chrétienne et l’efficacité, par 45° à l’ombre, des prescritions hygiéniques et alimentaires de la kashrout.

On connaît la suite : Gibril dans le rôle de l’Ange Gabriel transforma ces préceptes en révélation divine et donna à l’accomplissement de ces pratiques un caractère religieux. Mais très objectivement, la plupart des Hadiths du Coran concernent l’organisation familiale et sociale, les pratiques et les règles juridiques à observer dans ces domaines, ce qui en fait un code civil plus qu’une somme théologique. L’islam a bénéficié de l’antériorité du Judaïsme et du Christianisme ; ses messages ont donc été parfaitement ajustés à leur objectif : discipliner et contrôler l’être humain. Le pouvoir politique l’a utilisé sans vergogne pour manipuler les peuples, tant il est vrai que la religion s’est toujours avérée l’arme la plus efficace pour anéantir toute aspiration à la démocratie et à la liberté.

Un simple constat: les monarchies héréditaires musulmanes se sont systématiquement trouvé une filiation directe avec le Prophète ou l’un de ses descendants ! Pour leurs chefs, pour les meneurs, la religion a toujours été un moyen, jamais une fin. Ben Laden, comme ceux qui l’ont précédé et ceux qui prendront sa suite, n’en a strictement rien à faire (et je suis poli…) du projet spirituel du Djihad et de l’accomplissement des hadiths du Coran. L’Islamisme sert juste un dessein politique. La religion n’est que l’instrument de la conquête, ou plutôt de la reconquête. Qu’importe le temps que cela mettra : dix ans, vingt ans, plus de trente ans peut-être… Ce que l’Islam a programmé, c’est la chute de l’Occident et de la civilisation judéo-chrétienne. Pas pour le takbîr, mais pour conquérir le monde et ses richesses, asservir ses populations. Allahou Akbar, proclamé et calligraphié sur les emblèmes et les drapeaux, n’est qu’un cri de guerre destiné à galvaniser les pauvres idiots crédules qui se prennent pour des soldats d’Allah et ne sont que la chair à canon de ceux qui rêvent de pouvoir absolu et universel depuis 1422 ans !

Le terrorisme est une tactique, que les islamistes utilisent ponctuellement ; pour entretenir la terreur, bien sûr, mais aussi parce qu’ils ont compris tout le bénéfice qu’il pouvaient tirer de la dichotomie que vous avez créée entre la religion musulmane et l’Islam " radical ". En triant vous-mêmes les " bons musulmans " des mauvais, vous vous êtes tiré une balle dans le pied et vous leur avez rendu un fieffé service ! En focalisant l’attention sur le terrorisme, vous réduisez la cible contre laquelle vous devriez combattre. Grâce à la très ancienne tactique du leurre, les Islamistes vous montrent du doigt les djihadistes et détournent votre attention du cheval de Troie qu’ils ont construit et mis en marche pour vous soumettre.

Et que l’on ne vienne pas me parler de " musulmans modérés "! Ils sont, évidemment, très largement majoritaires aujourd’hui. Mais où et comment les voit-on condamner les agissement des fondamentalistes? Combien sont-ils à être descendus dans la rue pour manifester massivement contre Al Qaïda au lendemain du 11 septembre 2001 ? Pour hurler à la face du monde, dans tous les médias et dans toutes les langues qu’ils se désolidarisent du salafisme, du wahhabisme, du frérisme et autres branches radicales de l’Islam ? Pour affirmer qu’ils vont faire le ménage dans leurs pratiques, actualiser drastiquement la charia et définir une ligne exclusivement métaphysique à leur religion ?

La religion musulmane n’est pas monolithique et exclusivement constituée de conquérants assoiffés de pouvoir et de vengeance, c’est clair. Mais la conquête est consubstantielle de la religion musulmane. L’Islam, sa culture politique, sa doctrine, son prosélytisme, son histoire et sa finalité sont intrinsèquement d’inspiration guerrière. De même que la vie ne peut se concevoir sans la mort, il n’y a pas de soumission sans victoire, ni de victoire sans combat. Or, la soumission à Allah est l’essence même du message de l’Islam.

C’est pourquoi les musulmans se soumettent implicitement aujourd’hui au fondamentalisme que leur impose l’Islam radical. Ils s’y soumettront explicitement demain et vous ne résisterez pas, un jour, à la tentation de vous y soumettre à votre tour. Parce que la peur est l’arme absolue, l’arme que l’Islam politique utilise avec talent pour anéantir toute forme de résistance à leur domination. Ils l’utiliseront jusqu’au bout, contre vous, mais aussi contre ceux que vous appelez " les musulmans modérés " pour anéantir votre civilisation.

Bien sûr qu’il existe des courants plus ou moins progressistes comme le malikisme, dont le logiciel est régulièrement mis à jour par le Roi du Maroc. Bien sûr que l’on peut interpréter le Coran de dizaines, de centaines de manières. Bien sûr que l’on peut intellectualiser le concept du Djihad et en faire un idéal moral (…) Néanmoins le syllogisme est évident et les faits sont têtus : tous les musulmans ne sont pas des fondamentalistes islamiques ni des djihadistes ; mais tous les fondamentalistes islamiques et tous les djihadistes sont musulmans. Trop facile d’établir une distinction morale et sémantique entre les prescriptions religieuses supposées acceptables, que vous qualifiez d’ " islamiques " et celles, intolérables, cataloguées " islamistes ". Quand on tue au nom de l’Islam, on n’accomplit pas un acte de dément, pas plus qu’un crime de sang ordinaire. Quand on tue au nom de l’Islam, c’est qu’on vous a mis dans la tête qu’il est de votre devoir de croyant d’exterminer les incroyants, lesquels auraient soit disant " déclaré la guerre " aux soldats de la vraie foi !

La motivation du donneur d’ordre est politique, pas religieuse. Ils arriveront à leurs fins, parce que la dialectique de l’Islam est redoutable. Les stratégies et les techniques de communication qu’ils mettent en œuvre sont très subtiles et pertinentes, car ils savent parfaitement comment vous fonctionnez. Ils achètent depuis des années les réseaux de communication qui influencent l’opinion publique, en Europe comme aux USA. Vous êtes des enfants dans leurs mains. Ils vous connaissent très bien, alors que vous ne les connaissez pas. Vous êtes manipulés et vous ne le savez pas.

Ils ont compris voila longtemps que votre talon d’Achille, c’est la mauvaise conscience et la compassion. Les Français en sont rongés depuis qu’on leur a mis dans la tête que la colonisation de l’Afrique et du Maghreb avait été un crime contre l’Humanité commis par leurs aïeux. Les uns après les autres, tous les gouvernants français ont baissé leur froc et fait acte de " repentance " vis-à-vis de ces peuples que leurs pères avaient " exploités " ; mais a-t-on songé à demander aux Arabes de se repentir, eux qui ont réduit en esclavage pendant des siècles, des générations d’Africains ?

Je suis athée, mais je ne pourrais pas le dire si j’étais resté dans mon pays. Pas plus hier qu’aujourd’hui. Ce n’est pas un problème de liberté d’expression, c’est juste un problème de liberté d’être. On n’a pas le droit d’être athée en Islam : juif, chrétien, oui. Athée, non. Mon appréhension, au vu de tout ce qui s’est produit depuis une dizaine d’années, c’est que je ne puisse pas le dire demain ; ici, dans ce beau pays libre qu’est la France. Je ne le crains pas pour moi, bien sûr, je suis vieux. Mais je crains que mes enfants et mes petits enfants se trouvent confrontés à la main-mise de l’Islam, à laquelle j’ai eu la chance de me soustraire voila près d’un siècle.

En 25 ans, j’ai vu évoluer la société française d’un modèle républicain et comme vous dites " laïc " vers un modèle communautaire à l’anglo-américaine. Il a fallu dix-neuf siècles de conflits et de guerres pour que la France, " Fille aînée de l’Eglise " sépare sa " mère " de son Etat, en 1905. Et encore, nous sommes très loin du compte aujourd’hui, pour les raisons économiques et électoralistes que tu connais mieux que moi. Il n’y a qu’à regarder tes hommes politiques se trémousser dans les églises, les mosquées et les synagogues pour en être convaincu.

La religion est un leurre contre la peur de la mort ; un leurre pour assujettir ceux qui ont vocation à être dominés. Depuis toujours, la religion est l’auxiliaire du pouvoir. Dans toutes les religions. Pourquoi l’être humain a-t-il tellement besoin de se raccrocher à un Dieu et à un au-delà pour tenter d’évacuer la peur de la mort ? Je ne sais pas. Moi, vois-tu, je n’ai jamais eu peur. Jamais eu peur de la mort, en tous cas. Sauf (rires) que j’ai toujours craint d’être enterré vivant. Je fais très souvent un affreux cauchemar. On ferme mon cercueil alors que je suis assoupi. Je me réveille et je frappe désespérément sur le couvercle en hurlant : bande d’idiots, espèces d’imbéciles… Vous ne voyez donc pas que je ne suis pas mort ? "

Mon père est mort le 28 avril 2014 dans sa centième année. Il a arrêté de se nourrir, estimant qu’il avait suffisamment vécu.

Il n’a pas connu les attentats de Charlie Hebdo, du Bataclan, de la Promenade des Anglais à Nice, ni l’égorgement du Père Jacques Hamel à St. Etienne-du-Rouvray.

A chacune de ces attaques terroristes et plus encore aujourd’hui, après le carnage barbare du Hamas perpétré le samedi 7 octobre 2023, j’ai repensé à ce qu’il m’avait dit au lendemain du 11 septembre 2001.

Auteur: Mansouret Anne

Info: https://www.causeur.fr/, 21 octobre 2023, [1] Agha Djoun est mon grand-père, le père de mon père. C’est l’appellation donnée dans les familles, qui peut s’interpréter : " Votre Éminence chérie " et qui traduit tout à la fois la déférence et l’affection. En l’occurrence, mon grand-père était haut fonctionnaire territorial, c’est à dire Trésorier général dans plusieurs provinces, d’où les déménagements successifs vécus par ma famille.

[ prise du pouvoir ] [ machiavélisme ] [ orient - occident ]

Commenter

Commentaires: 0

Ajouté à la BD par Le sous-projectionniste

intelligence artificielle

Apprendre l'anglais n'est pas une tâche facile, comme le savent d'innombrables étudiants. Mais lorsque l'étudiant est un ordinateur, une approche fonctionne étonnamment bien : Il suffit d'alimenter un modèle mathématique géant, appelé réseau neuronal, avec des montagnes de textes provenant d'Internet. C'est le principe de fonctionnement des modèles linguistiques génératifs tels que ChatGPT d'OpenAI, dont la capacité à tenir une conversation cohérente (à défaut d'être toujours sincère) sur un large éventail de sujets a surpris les chercheurs et le public au cours de l'année écoulée.

Mais cette approche présente des inconvénients. D'une part, la procédure de "formation" nécessaire pour transformer de vastes archives textuelles en modèles linguistiques de pointe est coûteuse et prend beaucoup de temps. D'autre part, même les personnes qui forment les grands modèles linguistiques ont du mal à comprendre leur fonctionnement interne, ce qui, à son tour, rend difficile la prévision des nombreuses façons dont ils peuvent échouer.

Face à ces difficultés, certains chercheurs ont choisi d'entraîner des modèles plus petits sur des ensembles de données plus restreints, puis d'étudier leur comportement. "C'est comme le séquençage du génome de la drosophile par rapport au séquençage du génome humain", explique Ellie Pavlick, chercheuse sur les modèles de langage à l'université de Brown.

Dans un article récemment publié sur le serveur scientifique arxiv.org, deux chercheurs de Microsoft ont présenté une nouvelle méthode pour former de minuscules modèles de langage : Les élever avec un régime strict d'histoires pour enfants.

RÉSEAUX NEURONAUX

Des chercheurs acquièrent une nouvelle compréhension à partir d'une simple IA

Les chercheurs en apprentissage automatique ont compris cette leçon. GPT-3.5, le grand modèle linguistique qui alimente l'interface ChatGPT, compte près de 200 milliards de paramètres et a été entraîné sur un ensemble de données comprenant des centaines de milliards de mots (OpenAI n'a pas publié les chiffres correspondants pour son successeur, GPT-4). L'entraînement de modèles aussi vastes nécessite généralement au moins 1 000 processeurs spécialisés, appelés GPU, fonctionnant en parallèle pendant des semaines. Seules quelques entreprises peuvent réunir les ressources nécessaires, sans parler de l'entraînement et de la comparaison de différents modèles.

Les deux chercheurs ont montré que des modèles linguistiques des milliers de fois plus petits que les systèmes de pointe actuels apprenaient rapidement à raconter des histoires cohérentes et grammaticalement justes lorsqu'ils étaient formés de cette manière. Leurs résultats indiquent de nouvelles pistes de recherche qui pourraient être utiles pour former des modèles plus importants et comprendre leur comportement.

"J'ai trouvé tout ça très instructif", a déclaré Chandra Bhagavatula, chercheur sur les modèles de langage à l'Allen Institute for Artificial Intelligence de Seattle. "Le concept lui-même est très intéressant.

Il était une fois

Les réseaux neuronaux au cœur des modèles de langage sont des structures mathématiques vaguement inspirées du cerveau humain. Chacun d'entre eux contient de nombreux neurones artificiels disposés en couches, avec des connexions entre les neurones des couches adjacentes. Le comportement du réseau neuronal est régi par la force de ces connexions, appelées paramètres. Dans un modèle linguistique, les paramètres contrôlent les mots que le modèle peut produire ensuite, compte tenu d'une invite initiale et des mots qu'il a déjà générés.

Un modèle ne prend véritablement vie qu'au cours de la formation, lorsqu'il compare de manière répétée ses propres résultats au texte de son ensemble de données de formation et qu'il ajuste ses paramètres afin d'accroître la ressemblance. Un réseau non entraîné avec des paramètres aléatoires est trivialement facile à assembler à partir de quelques lignes de code, mais il ne produira que du charabia. Après l'entraînement, il peut souvent poursuivre de manière plausible un texte peu familier. Les modèles de plus grande taille sont souvent soumis à des réglages plus fins qui leur apprennent à répondre à des questions et à suivre des instructions, mais l'essentiel de la formation consiste à maîtriser la prédiction des mots.

Pour réussir à prédire des mots, un modèle linguistique doit maîtriser de nombreuses compétences différentes. Par exemple, les règles de la grammaire anglaise suggèrent que le mot suivant le mot "going" sera probablement "to", quel que soit le sujet du texte. En outre, un système a besoin de connaissances factuelles pour compléter "la capitale de la France est", et compléter un passage contenant le mot "not" nécessite une connaissance rudimentaire de la logique.

"Le langage brut est très compliqué", explique Timothy Nguyen, chercheur en apprentissage automatique chez DeepMind. "Pour que des capacités linguistiques intéressantes apparaissent, les gens ont eu recours à l'idée que plus il y a de données, mieux c'est".

(photo) Ronen Eldan s'est rendu compte qu'il pouvait utiliser les histoires d'enfants générées par de grands modèles linguistiques pour en entraîner rapidement de plus petits.

Introduction

Ronen Eldan, mathématicien qui a rejoint Microsoft Research en 2022 pour étudier les modèles de langage génératifs, souhaitait développer un moyen moins coûteux et plus rapide d'explorer leurs capacités. Le moyen naturel d'y parvenir était d'utiliser un petit ensemble de données, ce qui signifiait qu'il devait entraîner les modèles à se spécialiser dans une tâche spécifique, afin qu'ils ne s'éparpillent pas. Au départ, il voulait entraîner les modèles à résoudre une certaine catégorie de problèmes mathématiques, mais un après-midi, après avoir passé du temps avec sa fille de 5 ans, il s'est rendu compte que les histoires pour enfants convenaient parfaitement. "L'idée m'est venue littéralement après lui avoir lu une histoire", a-t-il déclaré.

Pour générer des histoires cohérentes pour les enfants, un modèle de langage devrait apprendre des faits sur le monde, suivre les personnages et les événements, et observer les règles de grammaire - des versions plus simples des défis auxquels sont confrontés les grands modèles. Mais les grands modèles formés sur des ensembles de données massives apprennent d'innombrables détails non pertinents en même temps que les règles qui comptent vraiment. Eldan espérait que la brièveté et le vocabulaire limité des histoires pour enfants rendraient l'apprentissage plus gérable pour les petits modèles, ce qui les rendrait à la fois plus faciles à former et plus faciles à comprendre.

Dans le monde des modèles de langage, cependant, le terme "petit" est relatif : Un ensemble de données mille fois plus petit que celui utilisé pour former GPT-3.5 devrait encore contenir des millions d'histoires. "Je ne sais pas combien d'argent vous voulez dépenser, mais je suppose que vous n'allez pas engager des professionnels pour écrire quelques millions de nouvelles", a déclaré M. Nguyen.

Il faudrait un auteur extraordinairement prolifique pour satisfaire des lecteurs aussi voraces, mais Eldan avait quelques candidats en tête. Qui peut mieux écrire pour un public de petits modèles linguistiques que pour de grands modèles ?

Toys stories

Eldan a immédiatement entrepris de créer une bibliothèque d'histoires synthétiques pour enfants générées par de grands modèles linguistiques. Mais il a rapidement découvert que même les modèles de pointe ne sont pas naturellement très créatifs. Si l'on demande à GPT-4 d'écrire des histoires adaptées à des enfants de 4 ans, explique Eldan, "environ un cinquième des histoires concernera des enfants qui vont au parc et qui ont peur des toboggans". C'est apparemment la quintessence des histoires pour enfants d'âge préscolaire, selon l'Internet.

La solution a consisté à ajouter un peu d'aléatoire dans le message. Tout d'abord, Eldan a utilisé le GPT-4 pour générer une liste de 1 500 noms, verbes et adjectifs qu'un enfant de 4 ans pourrait connaître - suffisamment courte pour qu'il puisse facilement la vérifier lui-même. Il a ensuite écrit un programme informatique simple qui demanderait à plusieurs reprises à GPT-3.5 ou à GPT-4 de générer une histoire adaptée à l'âge de l'enfant, comprenant trois mots aléatoires de la liste, ainsi qu'un détail supplémentaire choisi au hasard, comme une fin heureuse ou un rebondissement de l'intrigue. Les histoires obtenues, heureusement, étaient moins axées sur des diapositives effrayantes.

Eldan disposait désormais d'une procédure pour produire des données de formation à la demande, mais il n'avait aucune idée du nombre d'histoires dont il aurait besoin pour former un modèle fonctionnel, ni de la taille de ce modèle. C'est alors qu'il s'est associé à Yuanzhi Li, chercheur en apprentissage automatique chez Microsoft et à l'université Carnegie Mellon, pour essayer différentes possibilités, en tirant parti du fait que les petits modèles peuvent être formés très rapidement. La première étape consistait à décider comment évaluer leurs modèles.

Introduction

Dans la recherche sur les modèles de langage - comme dans toute salle de classe - la notation est un sujet délicat. Il n'existe pas de rubrique parfaite qui englobe tout ce que les chercheurs veulent savoir, et les modèles qui excellent dans certaines tâches échouent souvent de manière spectaculaire dans d'autres. Au fil du temps, les chercheurs ont mis au point divers critères de référence standard basés sur des questions dont les réponses ne sont pas ambiguës, ce qui est une bonne approche si vous essayez d'évaluer des compétences spécifiques. Mais Eldan et Li se sont intéressés à quelque chose de plus nébuleux : quelle doit être la taille réelle des modèles linguistiques si l'on simplifie le langage autant que possible ?

"Pour vérifier directement si le modèle parle anglais, je pense que la seule chose à faire est de laisser le modèle générer de l'anglais de manière ouverte", a déclaré M. Eldan.

Il n'y a que deux façons de mesurer les performances d'un modèle sur des questions aussi qualitatives : S'appuyer sur des évaluateurs humains ou se tourner à nouveau vers le GPT-4. Les deux chercheurs ont opté pour cette dernière solution, laissant les grands modèles à la fois rédiger les manuels et noter les dissertations.

Bhagavatula a déclaré qu'il aurait aimé voir comment les évaluations de GPT-4 se comparaient à celles des correcteurs humains - GPT-4 peut être biaisé en faveur des modèles qu'il a aidé à former, et l'opacité des modèles de langage rend difficile la quantification de tels biais. Mais il ne pense pas que de telles subtilités affecteraient les comparaisons entre différents modèles formés sur des ensembles similaires d'histoires synthétiques - l'objectif principal du travail d'Eldan et Li.

Eldan et Li ont utilisé une procédure en deux étapes pour évaluer chacun de leurs petits modèles après la formation. Tout d'abord, ils ont présenté au petit modèle la première moitié d'une histoire distincte de celles de l'ensemble des données d'apprentissage, de manière à ce qu'il génère une nouvelle fin, en répétant ce processus avec 50 histoires de test différentes. Ensuite, ils ont demandé à GPT-4 d'évaluer chacune des fins du petit modèle en fonction de trois catégories : créativité, grammaire et cohérence avec le début de l'histoire. Ils ont ensuite fait la moyenne des notes obtenues dans chaque catégorie, obtenant ainsi trois notes finales par modèle.

Avec cette procédure en main, Eldan et Li étaient enfin prêts à comparer les différents modèles et à découvrir quels étaient les étudiants les plus brillants.

Résultats des tests

Après quelques explorations préliminaires, les deux chercheurs ont opté pour un ensemble de données de formation contenant environ 2 millions d'histoires. Ils ont ensuite utilisé cet ensemble de données, baptisé TinyStories, pour entraîner des modèles dont la taille varie de 1 million à 30 millions de paramètres, avec un nombre variable de couches. Le travail a été rapide : En utilisant seulement quatre GPU, l'entraînement du plus grand de ces modèles n'a pas pris plus d'une journée.

Les plus petits modèles ont eu du mal. Par exemple, l'une des histoires testées commence par un homme à l'air méchant qui dit à une fille qu'il va lui prendre son chat. Un modèle à un million de paramètres s'est retrouvé bloqué dans une boucle où la fille répète sans cesse à l'homme qu'elle veut être son amie. Mais les modèles plus grands, qui sont encore des milliers de fois plus petits que GPT-3.5, ont obtenu des résultats surprenants. La version à 28 millions de paramètres racontait une histoire cohérente, même si la fin était sinistre : "Katie s'est mise à pleurer, mais l'homme s'en fichait. Il a emporté le chat et Katie n'a plus jamais revu son chat. Fin de l'histoire".

En plus de tester leurs propres modèles, Eldan et Li ont soumis le même défi au GPT-2 d'OpenAI, un modèle de 1,5 milliard de paramètres publié en 2019. Le résultat a été bien pire - avant la fin abrupte de l'histoire, l'homme menace d'emmener la jeune fille au tribunal, en prison, à l'hôpital, à la morgue et enfin au crématorium.

Introduction

Selon M. Nguyen, il est passionnant que des modèles aussi petits soient aussi fluides, mais il n'est peut-être pas surprenant que GPT-2 ait eu du mal à accomplir la tâche : il s'agit d'un modèle plus grand, mais loin de l'état de l'art, et il a été formé sur un ensemble de données très différent. "Un enfant en bas âge qui ne s'entraînerait qu'à des tâches d'enfant en bas âge, comme jouer avec des jouets, obtiendrait de meilleurs résultats que vous ou moi", a-t-il fait remarquer. "Nous ne nous sommes pas spécialisés dans cette chose simple.

Les comparaisons entre les différents modèles de TinyStories ne souffrent pas des mêmes facteurs de confusion. Eldan et Li ont observé que les réseaux comportant moins de couches mais plus de neurones par couche étaient plus performants pour répondre aux questions nécessitant des connaissances factuelles ; inversement, les réseaux comportant plus de couches et moins de neurones par couche étaient plus performants pour garder en mémoire les personnages et les points de l'intrigue situés plus tôt dans l'histoire. Bhagavatula a trouvé ce résultat particulièrement intriguant. S'il peut être reproduit dans des modèles plus vastes, "ce serait un résultat vraiment intéressant qui pourrait découler de ce travail", a-t-il déclaré.

Eldan et Li ont également étudié comment les capacités de leurs petits modèles dépendaient de la durée de la période de formation. Dans tous les cas, les modèles maîtrisaient d'abord la grammaire, puis la cohérence. Pour Eldan, ce schéma illustre comment les différences dans les structures de récompense entraînent des différences dans les schémas d'acquisition du langage entre les réseaux neuronaux et les enfants. Pour les modèles de langage, qui apprennent en prédisant des mots, "l'incitation pour les mots "je veux avoir" est aussi importante que pour les mots "crème glacée"", a-t-il déclaré. Les enfants, en revanche, "ne se soucient pas de savoir s'ils disent 'j'aimerais avoir de la glace' ou simplement 'glace, glace, glace'".

Qualité contre quantité

Eldan et Li espèrent que cette étude incitera d'autres chercheurs à entraîner différents modèles sur l'ensemble des données de TinyStories et à comparer leurs capacités. Mais il est souvent difficile de prédire quelles caractéristiques des petits modèles apparaîtront également dans les plus grands.

"Peut-être que les modèles de vision chez la souris sont de très bons substituts de la vision humaine, mais les modèles de dépression chez la souris sont-ils de bons modèles de la dépression chez l'homme ? a déclaré M. Pavlick. "Pour chaque cas, c'est un peu différent.

Le succès des modèles TinyStories suggère également une leçon plus large. L'approche standard pour compiler des ensembles de données de formation consiste à aspirer des textes sur l'internet, puis à filtrer les déchets. Le texte synthétique généré par des modèles de grande taille pourrait constituer une autre façon d'assembler des ensembles de données de haute qualité qui n'auraient pas besoin d'être aussi volumineux.

"Nous avons de plus en plus de preuves que cette méthode est très efficace, non seulement pour les modèles de la taille de TinyStories, mais aussi pour les modèles plus importants", a déclaré M. Eldan. Ces preuves proviennent d'une paire d'articles de suivi sur les modèles à un milliard de paramètres, rédigés par Eldan, Li et d'autres chercheurs de Microsoft. Dans le premier article, ils ont entraîné un modèle à apprendre le langage de programmation Python en utilisant des extraits de code générés par GPT-3.5 ainsi que du code soigneusement sélectionné sur l'internet. Dans le second, ils ont complété l'ensemble de données d'entraînement par des "manuels" synthétiques couvrant un large éventail de sujets, afin d'entraîner un modèle linguistique à usage général. Lors de leurs tests, les deux modèles ont été comparés favorablement à des modèles plus importants formés sur des ensembles de données plus vastes. Mais l'évaluation des modèles linguistiques est toujours délicate, et l'approche des données d'entraînement synthétiques n'en est qu'à ses balbutiements - d'autres tests indépendants sont nécessaires.

Alors que les modèles linguistiques de pointe deviennent de plus en plus volumineux, les résultats surprenants de leurs petits cousins nous rappellent qu'il y a encore beaucoup de choses que nous ne comprenons pas, même pour les modèles les plus simples. M. Nguyen s'attend à ce que de nombreux autres articles explorent l'approche inaugurée par TinyStories.

"La question est de savoir où et pourquoi la taille a de l'importance", a-t-il déclaré. "Il devrait y avoir une science à ce sujet, et cet article est, je l'espère, le début d'une riche histoire.

Auteur: Internet

Info: https://www.quantamagazine.org/ Ben Brubaker, 5 octobre 2023

[ synthèse ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

big brother consumériste

Nulle part où se cacher : Les collecteurs de données sont venus pour capter votre vie privée - et ils l'ont trouvée

La manière dont vos données sont stockées et partagées évolue et votre activité en ligne peut être utilisée pour vous catégoriser d'une manière qui modifie radicalement votre vie. Il existe des moyens de reprendre le contrôle.

Un vendredi de 2021, je suis entré dans un hôtel d'Exeter, au Royaume-Uni, à 17:57:35. Le lendemain matin, j'ai fait 9 minutes de route pour me rendre à l'hôpital le plus proche. J'y suis resté trois jours. Le trajet de retour, qui dure normalement 1 heure 15 minutes, a duré 1 heure 40 minutes. La raison de cette lenteur : mon tout nouveau bébé dormait à l'arrière.

Ce ne sont pas les détails d'un journal. Il s'agit plutôt de ce que Google sait de la naissance de ma fille, sur la base de mon seul historique de localisation.

Un aperçu des données de ce week-end révèle que ce n'est pas tout ce que les entreprises savent de moi. Netflix se souvient que j'ai regardé toute une série d'émissions de bien-être, dont Gilmore Girls et How to Lose a Guy in 10 Days (Comment perdre un homme en 10 jours). Instagram a enregistré que j'ai "aimé" un post sur l'induction du travail, puis que je ne me suis pas reconnectée pendant une semaine.

Et alors ? Nous savons tous maintenant que nous sommes suivis en ligne et que les données collectées sur nous sont à la fois granulaires et constantes. Peut-être aimez-vous que Netflix et Instagram connaissent si bien vos goûts en matière de cinéma et de mode.

Mais un nombre croissant d'enquêtes et de poursuites judiciaires révèlent un nouveau paysage du suivi en ligne dans lequel la portée des entreprises qui collectent des données est plus insidieuse que beaucoup d'entre nous ne le pensent. En y regardant de plus près, j'ai découvert que mes données personnelles pouvaient avoir une incidence sur tout, depuis mes perspectives d'emploi et mes demandes de prêt jusqu'à mon accès aux soins de santé. En d'autres termes, elles peuvent façonner ma vie quotidienne d'une manière dont je n'avais pas conscience. "Le problème est énorme et il y a toujours de nouvelles horreurs", déclare Reuben Binns, de l'université d'Oxford.

On pourrait vous pardonner de penser qu'avec l'introduction d'une législation comme le règlement général sur la protection des données (RGPD) - des règles de l'Union européenne mises en œuvre en 2018 qui donnent aux gens un meilleur accès aux données que les entreprises détiennent sur eux et limitent ce que les entreprises peuvent en faire - la confidentialité des données n'est plus un vrai problème. Vous pouvez toujours refuser les cookies si vous ne voulez pas être suivi, n'est-ce pas ? Mais lorsque je dis cela à Pam Dixon, du groupe de recherche à but non lucratif World Privacy Forum, elle se met à rire d'incrédulité. "Tu y crois vraiment ?" me dit-elle.

Les gratteurs de données

Des centaines d'amendes ont été infligées pour violation du GDPR, notamment à Google, British Airways et Amazon. Mais les experts en données affirment qu'il ne s'agit là que de la partie émergée de l'iceberg. Une étude réalisée l'année dernière par David Basin de l'ETH Zurich, en Suisse, a révélé que 95 % des sites web pourraient enfreindre les règles du GDPR. Même l'objectif de la législation visant à faciliter la compréhension des données que nous acceptons de fournir n'a pas été atteint. Depuis l'entrée en vigueur de la législation, les recherches montrent que les accords de confidentialité sont devenus plus compliqués, rein de moins. Et si vous pensiez que les bloqueurs de publicité et les réseaux privés virtuels (VPN) - qui masquent l'adresse IP de votre ordinateur - vous protégeaient, détrompez-vous. Bon nombre de ces services vendent également vos données.

Nous commençons à peine à saisir l'ampleur et la complexité du paysage de la traque en ligne. Quelques grands noms - Google, Meta, Amazon et Microsoft - détiennent l'essentiel du pouvoir, explique Isabel Wagner, professeur associé de cybersécurité à l'université de Bâle, en Suisse. Mais derrière ces grands acteurs, un écosystème diversifié de milliers, voire de millions, d'acheteurs, de vendeurs, de serveurs, de traqueurs et d'analyseurs partagent nos données personnelles.

Qu'est-ce que tout cela signifie pour l'utilisateur lambda que je suis ? Pour le savoir, je me suis rendu chez HestiaLabs à Lausanne, en Suisse, une start-up fondée par Paul-Olivier Dehaye, mathématicien et lanceur d'alerte clé dans le scandale de l'utilisation des données de Facebook par la société de conseil politique Cambridge Analytica. Cette société a utilisé des données personnelles pour influencer l'élection de Donald Trump à la présidence des États-Unis en 2016. L'enquête de Dehaye sur Cambridge Analytica a montré de manière frappante à quel point l'influence des entreprises qui achètent et vendent des données est profonde. Il a créé HestiaLabs pour changer cette situation.

(Photo : Votre téléphone suit votre position même si les données mobiles sont désactivées)

Avant d'arriver, j'ai demandé mes données personnelles à diverses entreprises, un processus plus compliqué qu'il ne devrait l'être à l'ère du RGPD. Je rencontre Charles Foucault-Dumas, le chef de projet de HestiaLabs, au siège de l'entreprise - un modeste espace de co-working situé en face de la gare de Lausanne. Nous nous asseyons et téléchargeons mes fichiers dans son portail sur mesure.

Mes données s'étalent devant moi, visualisées sous la forme d'une carte de tous les endroits où je suis allé, de tous les posts que j'ai aimés et de toutes les applications qui ont contacté un annonceur. Dans les lieux que je fréquente régulièrement, comme la crèche de ma fille, des centaines de points de données se transforment en taches semblables à de la peinture. À l'adresse de mon domicile, il y a une énorme cible impossible à manquer. C'est fascinant. Et un peu terrifiant.

L'une des plus grandes surprises est de savoir quelles applications de mon téléphone contactent des entreprises tierces en mon nom. Au cours de la semaine écoulée, c'est un navigateur web que j'utilise parce qu'il se décrit comme "le respect de la vie privée avant tout" qui a été le plus grand contrevenant, en contactant 29 entreprises. Mais pratiquement toutes les applications de mon téléphone, du service d'épicerie au bloc-notes virtuel, étaient occupées à contacter d'autres entreprises pendant que je vaquais à mes occupations.

En règle générale, une entreprise qui souhaite vendre un produit ou un service s'adresse à une agence de publicité, qui se met en relation avec des plates-formes chargées de la diffusion des publicités, qui utilisent des échanges publicitaires, lesquels sont reliés à des plates-formes d'approvisionnement, qui placent les publicités sur les sites web des éditeurs. Chaque fois que vous ouvrez un site web ou que vous survolez momentanément un message sur un média social, cette machine - dont la valeur est estimée à 150 milliards de livres sterling par an - se met en marche.

Que partageaient exactement ces entreprises à mon sujet ? Pour le savoir, il faudrait que je fasse des demandes auprès de chacune d'entre elles. Et même avec celles que j'ai contactées avec l'aide de HestiaLabs, ce n'est pas toujours clair.

Prenons l'exemple d'Instagram. Il m'a fourni des données montrant qu'il a enregistré 333 "intérêts" en mon nom. Certains d'entre eux sont très éloignés de la réalité : le rugby, le festival Burning Man, la promotion immobilière, et même "femme à chats". Lecteur, je n'ai jamais eu de chat. Mais d'autres sont plus précis, et un certain nombre d'entre eux, sans surprise, sont liés au fait que je suis devenue parent, qu'il s'agisse de marques telles que Huggies et Peppa Pig ou de sujets tels que les berceaux et le sevrage pour bébés.

Je me demande comment ces données ont pu affecter non seulement mes achats, mais aussi la vie de ma fille. Son amour pour le cochon rose de dessin animé est-il vraiment organique, ou ces vidéos nous ont-elles été "servies" en raison des informations qu'Instagram a transmises à mon sujet ? Est-ce que les posts sur le sevrage dirigé par les bébés se sont retrouvés partout dans mon fil d'actualité - et ont donc influencé la façon dont ma fille a été initiée à la nourriture - par hasard, ou parce que j'avais été ciblée ? Je n'ai pas accès à cette chaîne de causes et d'effets, et je ne sais pas non plus comment ces divers "intérêts" ont pu me catégoriser pour d'éventuels spécialistes du marketing.

Il est pratiquement impossible de démêler l'écheveau complexe des transactions de données dans l'ombre. Les données personnelles sont souvent reproduites, divisées, puis introduites dans des algorithmes et des systèmes d'apprentissage automatique. En conséquence, explique M. Dixon, même avec une législation comme le GDPR, nous n'avons pas accès à toutes nos données personnelles. "Nous avons affaire à deux strates de données. Il y a celles qui peuvent être trouvées", dit-elle. "Mais il y a une autre strate que vous ne pouvez pas voir, que vous n'avez pas le droit légal de voir - aucun d'entre nous ne l'a."

Profilage personnel

Des rapports récents donnent un aperçu de la situation. En juin, une enquête de The Markup a révélé que ce type de données cachées est utilisé par les publicitaires pour nous classer en fonction de nos convictions politiques, de notre état de santé et de notre profil psychologique. Pourrais-je être considérée comme une "mère accro au portable", une "indulgente", une "facilement dégonflée" ou une "éveillée" ? Je n'en ai aucune idée, mais je sais qu'il s'agit là de catégories utilisées par les plateformes publicitaires en ligne.

Il est troublant de penser que je suis stéréotypée d'une manière inconnue. Une autre partie de moi se demande si cela a vraiment de l'importance. Je comprends l'intérêt d'une publicité qui tient compte de mes préférences, ou de l'ouverture de mon application de cartographie qui met en évidence des restaurants et des musées qui pourraient m'intéresser ou que j'ai déjà visités. Mais croyez-moi, il y a peu de façons de faire grimacer un expert en données plus rapidement qu'avec la désinvolture de ce compromis.

D'une part, l'utilisation de ces données va bien au-delà de la vente de publicité, explique M. Dixon. Quelque chose d'apparemment anodin comme le fait de faire des achats dans des magasins discount (signe d'un revenu inférieur) ou d'acheter des articles de sport (signe que vous faites de l'exercice) peut avoir une incidence sur tout, de l'attrait de votre candidature à l'université au montant de votre assurance maladie. "Il ne s'agit pas d'une simple publicité", précise M. Dixon. "Il s'agit de la vie réelle.

Une législation récente aux États-Unis a contraint certaines de ces entreprises à entrer dans la lumière. Le Vermont's 2018 Data Broker Act, par exemple, a révélé que les courtiers en données enregistrés dans l'État - mais qui sont également actifs ailleurs - vendent des informations personnelles à des propriétaires et des employeurs potentiels, souvent par l'intermédiaire de tierces parties. En juillet, le Bureau américain de protection financière des consommateurs a appris que cette deuxième strate cachée de données comprenait également des informations utilisées pour établir un "score de consommation", employé de la même manière qu'un score de crédit. "Les choses que vous avez faites, les sites web que vous avez visités, les applications que vous utilisez, tout cela peut alimenter des services qui vérifient si vous êtes un locataire convenable ou décident des conditions à vous offrir pour un prêt ou une hypothèque", explique M. Binns.

À HestiaLabs, je me rends compte que j'ai moi aussi été concrètement affectée, non seulement par les publicités que je vois, mais aussi par la façon dont les algorithmes ont digéré mes données. Dans les "inférences" de LinkedIn, je suis identifiée à la fois comme "n'étant pas un leader humain" et "n'étant pas un leader senior". Et ce, bien que j'aie dirigé une équipe de 20 personnes à la BBC et que j'aie été rédacteur en chef de plusieurs sites de la BBC auparavant - des informations que j'ai moi-même introduites dans LinkedIn. Comment cela peut-il affecter mes opportunités de carrière ? Lorsque j'ai posé la question à LinkedIn, un porte-parole m'a répondu que ces déductions n'étaient pas utilisées "de quelque manière que ce soit pour informer les suggestions de recherche d'emploi".

Malgré cela, nous savons, grâce à des poursuites judiciaires, que des données ont été utilisées pour exclure les femmes des annonces d'emploi dans le secteur de la technologie sur Facebook. En conséquence, le propriétaire de la plateforme, Meta, a cessé d'offrir cette option aux annonceurs en 2019. Mais les experts en données affirment qu'il existe de nombreuses solutions de contournement, comme le fait de ne cibler que les personnes ayant des intérêts stéréotypés masculins. "Ces préjudices ne sont pas visibles pour les utilisateurs individuels à ce moment-là. Ils sont souvent très abstraits et peuvent se produire longtemps après", explique M. Wagner.

À mesure que les données collectées sur notre vie quotidienne prolifèrent, la liste des préjudices signalés par les journaux ne cesse de s'allonger. Des applications de suivi de l'ovulation - ainsi que des messages textuels, des courriels et des recherches sur le web - ont été utilisés pour poursuivre des femmes ayant avorté aux États-Unis depuis que l'arrêt Roe v Wade a été annulé l'année dernière. Des prêtres ont été démasqués pour avoir utilisé l'application de rencontres gay Grindr. Un officier militaire russe a même été traqué et tué lors de sa course matinale, prétendument grâce à des données accessibles au public provenant de l'application de fitness Strava. La protection des données est censée prévenir bon nombre de ces préjudices. "Mais il y a manifestement une énorme lacune dans l'application de la loi", déclare M. Binns.

Le problème réside en partie d'un manque de transparence. De nombreuses entreprises s'orientent vers des modèles "préservant la vie privée", qui divisent les points de données d'un utilisateur individuel et les dispersent sur de nombreux serveurs informatiques, ou les cryptent localement. Paradoxalement, il est alors plus difficile d'accéder à ses propres données et d'essayer de comprendre comment elles ont été utilisées.

Pour sa part, M. Dehaye, de HestiaLabs, est convaincu que ces entreprises peuvent et doivent nous rendre le contrôle. "Si vous allez consulter un site web en ce moment même, en quelques centaines de millisecondes, de nombreux acteurs sauront qui vous êtes et sur quel site vous avez mis des chaussures dans un panier d'achat il y a deux semaines. Lorsque l'objectif est de vous montrer une publicité pourrie, ils sont en mesure de résoudre tous ces problèmes", explique-t-il. Mais lorsque vous faites une demande de protection de la vie privée, ils se disent : "Oh, merde, comment on fait ça ?".

Il ajoute : "Mais il y a un moyen d'utiliser cette force du capitalisme qui a résolu un problème dans une industrie de plusieurs milliards de dollars pour vous - pas pour eux".

J'espère qu'il a raison. En marchant dans Lausanne après avoir quitté HestiaLabs, je vois un homme qui s'attarde devant un magasin de couteaux, son téléphone rangé dans sa poche. Une femme élégante porte un sac Zara dans une main, son téléphone dans l'autre. Un homme devant le poste de police parle avec enthousiasme dans son appareil.

Pour moi, et probablement pour eux, ce sont des moments brefs et oubliables. Mais pour les entreprises qui récoltent les données, ce sont des opportunités. Ce sont des signes de dollars. Et ce sont des points de données qui ne disparaîtront peut-être jamais.

Reprendre le contrôle

Grâce aux conseils de M. Dehaye et des autres experts que j'ai interrogés, lorsque je rentre chez moi, je vérifie mes applications et je supprime celles que je n'utilise pas. Je supprime également certaines de celles que j'utilise mais qui sont particulièrement désireuses de contacter des entreprises, en prévoyant de ne les utiliser que sur mon ordinateur portable. (J'ai utilisé une plateforme appelée TC Slim pour me dire quelles entreprises mes applications contactent). J'installe également un nouveau navigateur qui (semble-t-il) accorde la priorité à la protection de la vie privée. Selon M. Wagner, les applications et les navigateurs open source et à but non lucratif peuvent constituer des choix plus sûrs, car ils ne sont guère incités à collecter vos données.

Je commence également à éteindre mon téléphone plus souvent lorsque je ne l'utilise pas. En effet, votre téléphone suit généralement votre position même lorsque les données mobiles et le Wi-Fi sont désactivés ou que le mode avion est activé. De plus, en me connectant à mes préférences Google, je refuse d'enregistrer l'historique de mes positions, même si la nostalgie - pour l'instant - m'empêche de demander que toutes mes données antérieures soient supprimées.

Nous pouvons également réinitialiser notre relation avec le suivi en ligne en changeant notre façon de payer, explique Mme Dixon. Elle suggère d'utiliser plusieurs cartes de crédit et d'être "très prudent" quant au portefeuille numérique que nous utilisons. Pour les achats susceptibles de créer un signal "négatif", comme ceux effectués dans un magasin discount, il est préférable d'utiliser de l'argent liquide, si possible. M. Dixon conseille également de ne pas utiliser d'applications ou de sites web liés à la santé, si possible. "Ce n'est tout simplement pas un espace clair et sûr", dit-elle.

En réalité, quelles que soient les mesures que vous prenez, les entreprises trouveront toujours de nouveaux moyens de contourner le problème. "C'est un jeu où l'on ne peut que perdre", affirme M. Dehaye. C'est pourquoi la solution ne dépend pas des individus. "Il s'agit d'un véritable changement de société.

En réunissant suffisamment de voix individuelles, M. Dehaye pense que nous pouvons changer le système - et que tout commence par le fait que vous demandiez vos données. Dites aux entreprises : "Si vous vous dérobez, notre confiance est perdue"", déclare-t-il. "Et dans ce monde de données, si les gens ne font pas confiance à votre entreprise, vous êtes mort.

Auteur: Ruggeri Amanda

Info: https://blog.shiningscience.com/2023/08/nowhere-to-hide-data-harvesters-came.html, 26 août 2023

[ idiosyncrasie numérique ] [ capitalisme de surveillance ] [ internet marchand ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

physique fondamentale

La "problèmatique de la mesure" en théorie quantique pourrait être une pilule empoisonnée pour la réalité objective

La résolution d'un problème quantique notoire pourrait nécessiter l'abandon de certaines des hypothèses les plus chères à la science concernant le monde physique.

Imaginez qu'un physicien observe un système quantique dont le comportement s'apparente à celui d'une pièce de monnaie : qui peut tomber sur pile ou face. Il effectue le jeu de pile ou face quantique et obtient pile. Pourrait-il être certain que son résultat est un fait objectif, absolu et indiscutable sur le monde ? Si la pièce était simplement du type de celles que nous voyons dans notre expérience quotidienne, le résultat du lancer serait le même pour tout le monde : pile ou face ! Mais comme pour la plupart des choses en physique quantique, le résultat d'un jeu de pile ou face quantique serait un "ça dépend" beaucoup plus compliqué. Il existe des scénarios théoriquement plausibles dans lesquels un autre observateur pourrait trouver que le résultat de la pièce de notre physicien est pile ou face.

Au cœur de cette bizarrerie se trouve ce que l'on appelle le problème de la mesure. La mécanique quantique standard rend compte de ce qui se passe lorsque l'on mesure un système quantique : en substance, la mesure provoque l'"effondrement" aléatoire des multiples états possibles du système en un seul état défini. Mais cette comptabilité ne définit pas ce qui constitue une mesure, d'où le problème de la mesure.

Les tentatives visant à éviter le problème de la mesure, par exemple en envisageant une réalité dans laquelle les états quantiques ne s'effondrent pas du tout, ont conduit les physiciens sur un terrain étrange où les résultats des mesures peuvent être subjectifs. "L'un des principaux aspects du problème de la mesure est l'idée que les événements observés ne sont pas absolus", explique Nicholas Ormrod, de l'université d'Oxford. En bref, c'est la raison pour laquelle notre pile ou face quantique imaginaire pourrait être pile d'un point de vue et face d'un autre.

Mais ce scénario apparemment problématique est-il physiquement plausible ou s'agit-il simplement d'un artefact de notre compréhension incomplète du monde quantique ? Pour répondre à ces questions, il faut mieux comprendre les théories dans lesquelles le problème de la mesure peut se poser. C'est exactement ce qu'Ormrod, Vilasini Venkatesh de l'École polytechnique fédérale de Zurich et Jonathan Barrett d'Oxford ont réussi à faire. Dans une prépublication récente, le trio a prouvé un théorème qui montre pourquoi certaines théories, comme la mécanique quantique, ont un problème de mesure en premier lieu et comment on pourrait développer des théories alternatives pour l'éviter, préservant ainsi l'"absoluité" de tout événement observé. De telles théories banniraient, par exemple, la possibilité qu'une pièce de monnaie soit tirée à pile ou face par un observateur et qu'elle soit tirée à pile ou face par un autre.

Mais leurs travaux montrent également que la préservation d'un tel caractère absolu a un coût que de nombreux physiciens jugeraient prohibitif. "C'est la démonstration qu'il n'existe pas de solution indolore à ce problème", explique M. Ormrod. "Si nous parvenons un jour à retrouver l'absoluité, nous devrons alors renoncer à certains principes physiques qui nous tiennent vraiment à cœur".

L'article d'Ormrod, Venkatesh et Barrett "aborde la question de savoir quelles catégories de théories sont incompatibles avec l'absoluité des événements observés et si l'absoluité peut être maintenue dans certaines théories, en même temps que d'autres propriétés souhaitables", explique Eric Cavalcanti, de l'université Griffith, en Australie. (M. Cavalcanti, le physicien Howard Wiseman et leurs collègues ont défini le terme "absoluité des événements observés" dans des travaux antérieurs qui ont jeté les bases de l'étude d'Ormrod, Venkatesh et Barrett).

S'en tenir à l'absoluité des événements observés pourrait signifier que le monde quantique est encore plus étrange que ce que nous savons.

LE CŒUR DU PROBLÈME

Pour comprendre ce qu'Ormrod, Venkatesh et Barrett ont réalisé, il faut suivre un cours accéléré sur les arcanes des fondations quantiques. Commençons par considérer notre système quantique hypothétique qui, lorsqu'il est observé, peut donner soit pile, soit face.

Dans les manuels de théorie quantique, avant l'effondrement, on dit que le système se trouve dans une superposition de deux états, et cet état quantique est décrit par une construction mathématique appelée fonction d'onde, qui évolue dans le temps et l'espace. Cette évolution est à la fois déterministe et réversible : étant donné une fonction d'onde initiale, on peut prédire ce qu'elle sera à un moment donné, et on peut en principe remonter l'évolution pour retrouver l'état antérieur. La mesure de la fonction d'onde entraîne cependant son effondrement, mathématiquement parlant, de sorte que le système de notre exemple apparaît comme étant soit pile, soit face.

Ce processus d'effondrement est la source obscure du problème de la mesure : il s'agit d'une affaire irréversible et unique, et personne ne sait même ce qui définit le processus ou les limites de la mesure. Qu'est-ce qu'une "mesure" ou, d'ailleurs, un "observateur" ? Ces deux éléments ont-ils des contraintes physiques, telles que des tailles minimales ou maximales ? Doivent-ils également être soumis à divers effets quantiques difficiles à saisir, ou peuvent-ils être considérés comme immunisés contre de telles complications ? Aucune de ces questions n'a de réponse facile et acceptée, mais les théoriciens ne manquent pas de solutions.

Étant donné le système de l'exemple, un modèle qui préserve l'absoluité de l'événement observé - c'est-à-dire que c'est soit pile, soit face pour tous les observateurs - est la théorie de Ghirardi-Rimini-Weber (GRW). Selon cette théorie, les systèmes quantiques peuvent exister dans une superposition d'états jusqu'à ce qu'ils atteignent une taille encore indéterminée, à partir de laquelle la superposition s'effondre spontanément et aléatoirement, indépendamment de l'observateur. Quel que soit le résultat - pile ou face dans notre exemple - il sera valable pour tous les observateurs.

Mais la théorie GRW, qui appartient à une catégorie plus large de théories de "l'effondrement spontané", semble aller à l'encontre d'un principe physique chéri depuis longtemps : la préservation de l'information. Tout comme un livre brûlé pourrait, en principe, être lu en réassemblant ses pages à partir de ses cendres (en ignorant l'émission initiale de rayonnement thermique du livre brûlé, pour des raisons de simplicité), la préservation de l'information implique que l'évolution d'un système quantique dans le temps permette de connaître ses états antérieurs. En postulant un effondrement aléatoire, la théorie GRW détruit la possibilité de savoir ce qui a conduit à l'état d'effondrement, ce qui, selon la plupart des témoignages, signifie que l'information sur le système avant sa transformation est irrémédiablement perdue. "La théorie GRW serait un modèle qui renonce à la préservation de l'information, préservant ainsi l'absoluité des événements", explique M. Venkatesh.

Un contre-exemple qui autorise la non-absoluité des événements observés est l'interprétation de la mécanique quantique selon le principe des "mondes multiples". Selon cette interprétation, la fonction d'onde de notre exemple se ramifiera en de multiples réalités contemporaines, de sorte que dans un "monde", le système sortira pile, tandis que dans un autre, il sortira face. Dans cette conception, il n'y a pas d'effondrement. "La question de savoir ce qui se passe n'est donc pas absolue ; elle est relative à un monde", explique M. Ormrod. Bien entendu, en essayant d'éviter le problème de mesure induit par l'effondrement, l'interprétation des mondes multiples introduit la ramification abrutissante des fonctions d'onde et la prolifération galopante des mondes à chaque bifurcation de la route quantique - un scénario désagréable pour beaucoup.

Néanmoins, l'interprétation des mondes multiples est un exemple de ce que l'on appelle les théories perspectivistes, dans lesquelles le résultat d'une mesure dépend du point de vue de l'observateur.

ASPECTS CRUCIAUX DE LA RÉALITÉ

Pour prouver leur théorème sans s'embourber dans une théorie ou une interprétation particulière, mécanique quantique ou autre, Ormrod, Venkatesh et Barrett se sont concentrés sur les théories perspectivistes qui obéissent à trois propriétés importantes. Une fois encore, il nous faut un peu de courage pour saisir l'importance de ces propriétés et pour apprécier le résultat plutôt profond de la preuve des chercheurs.

La première propriété est appelée nonlocalité de Bell (B). Elle fut identifiée pour la première fois en 1964 par le physicien John Bell dans un théorème éponyme et s'est avérée être un fait empirique incontesté de notre réalité physique. Supposons qu'Alice et Bob aient chacun accès à l'une des deux particules décrites par un état unique. Alice et Bob effectuent des mesures individuelles de leurs particules respectives et le font pour un certain nombre de paires de particules préparées de manière similaire. Alice choisit son type de mesure librement et indépendamment de Bob, et vice versa. Le fait qu'Alice et Bob choisissent leurs paramètres de mesure de leur plein gré est une hypothèse importante. Ensuite, lorsqu'ils compareront leurs résultats, le duo constatera que les résultats de leurs mesures sont corrélés d'une manière qui implique que les états des deux particules sont inséparables : connaître l'état de l'une permet de connaître l'état de l'autre. Les théories capables d'expliquer de telles corrélations sont dites non locales de Bell.

La deuxième propriété est la préservation de l'information (I). Les systèmes quantiques qui présentent une évolution déterministe et réversible satisfont à cette condition. Mais la condition est plus générale. Imaginez que vous portiez aujourd'hui un pull-over vert. Dans une théorie préservant l'information, il devrait toujours être possible, en principe, de retrouver la couleur de votre pull dans dix ans, même si personne ne vous a vu le porter. Mais "si le monde ne préserve pas l'information, il se peut que dans 10 ans, il n'y ait tout simplement aucun moyen de savoir de quelle couleur était le pull que je portais", explique M. Ormrod.

La troisième est une propriété appelée dynamique locale (L). Considérons deux événements dans deux régions de l'espace-temps. S'il existe un cadre de référence dans lequel les deux événements semblent simultanés, on dit que les régions de l'espace sont "séparées comme dans l'espace". La dynamique locale implique que la transformation d'un système dans l'une de ces régions ne peut affecter causalement la transformation d'un système dans l'autre région à une vitesse supérieure à celle de la lumière, et vice versa, une transformation étant toute opération qui prend un ensemble d'états d'entrée et produit un ensemble d'états de sortie. Chaque sous-système subit sa propre transformation, de même que le système dans son ensemble. Si la dynamique est locale, la transformation du système complet peut être décomposée en transformations de ses parties individuelles : la dynamique est dite séparable. "La [contrainte] de la dynamique locale permet de s'assurer que l'on ne simule pas Bell [la non-localité]", explique M. Venkatesh.

Dans la théorie quantique, les transformations peuvent être décomposées en leurs éléments constitutifs. "La théorie quantique est donc dynamiquement séparable", explique M. Ormrod. En revanche, lorsque deux particules partagent un état non local de Bell (c'est-à-dire lorsque deux particules sont intriquées, selon la théorie quantique), on dit que l'état est inséparable des états individuels des deux particules. Si les transformations se comportaient de la même manière, c'est-à-dire si la transformation globale ne pouvait pas être décrite en termes de transformations de sous-systèmes individuels, alors le système entier serait dynamiquement inséparable.

Tous les éléments sont réunis pour comprendre le résultat du trio. Le travail d'Ormrod, Venkatesh et Barrett se résume à une analyse sophistiquée de la manière dont les théories "BIL" (celles qui satisfont aux trois propriétés susmentionnées) traitent une expérience de pensée faussement simple. Imaginons qu'Alice et Bob, chacun dans son propre laboratoire, effectuent une mesure sur l'une des deux particules. Alice et Bob effectuent chacun une mesure, et tous deux effectuent exactement la même mesure. Par exemple, ils peuvent tous deux mesurer le spin de leur particule dans le sens haut-bas.

Charlie et Daniela observent Alice et Bob et leurs laboratoires de l'extérieur. En principe, Charlie et Daniela devraient pouvoir mesurer le spin des mêmes particules, par exemple dans le sens gauche-droite. Dans une théorie préservant l'information, cela devrait être possible.

Prenons l'exemple spécifique de ce qui pourrait se produire dans la théorie quantique standard. Charlie, par exemple, considère Alice, son laboratoire et la mesure qu'elle effectue comme un système soumis à une évolution déterministe et réversible. En supposant qu'il contrôle totalement le système dans son ensemble, Charlie peut inverser le processus de manière à ce que la particule revienne à son état d'origine (comme un livre brûlé qui serait reconstitué à partir de ses cendres). Daniela fait de même avec Bob et son laboratoire. Charlie et Daniela effectuent maintenant chacun une mesure différente sur leurs particules respectives dans le sens gauche-droite.

En utilisant ce scénario, l'équipe a prouvé que les prédictions de toute théorie de la BIL pour les résultats des mesures des quatre observateurs contredisent le caractère absolu des événements observés. En d'autres termes, "toutes les théories de la BIL ont un problème de mesure", explique M. Ormrod.

CHOISISSEZ VOTRE POISON

Les physiciens se trouvent donc dans une impasse désagréable : soit ils acceptent le caractère non absolu des événements observés, soit ils renoncent à l'une des hypothèses de la théorie de la BIL.

Venkatesh pense qu'il y a quelque chose de convaincant dans le fait de renoncer à l'absoluité des événements observés. Après tout, dit-elle, la physique a réussi à passer d'un cadre newtonien rigide à une description einsteinienne de la réalité, plus nuancée et plus fluide. "Nous avons dû ajuster certaines notions de ce que nous pensions être absolu. Pour Newton, l'espace et le temps étaient absolus", explique M. Venkatesh. Mais dans la conception de l'univers d'Albert Einstein, l'espace et le temps ne font qu'un, et cet espace-temps unique n'est pas quelque chose d'absolu mais peut se déformer d'une manière qui ne correspond pas au mode de pensée newtonien.

D'autre part, une théorie perspectiviste qui dépend des observateurs crée ses propres problèmes. En particulier, comment peut-on faire de la science dans les limites d'une théorie où deux observateurs ne peuvent pas se mettre d'accord sur les résultats des mesures ? "Il n'est pas évident que la science puisse fonctionner comme elle est censée le faire si nous ne parvenons pas à des prédictions pour des événements observés que nous considérons comme absolus", explique M. Ormrod.

Donc, si l'on insiste sur le caractère absolu des événements observés, il faut faire un compromis. Ce ne sera pas la non-localité de Bell ou la préservation de l'information : la première repose sur des bases empiriques solides, et la seconde est considérée comme un aspect important de toute théorie de la réalité. L'accent est mis sur la dynamique locale, en particulier sur la séparabilité dynamique.

La séparabilité dynamique est "une sorte d'hypothèse du réductionnisme", explique M. Ormrod. "On peut expliquer les grandes choses en termes de petits morceaux.

Le fait de préserver le caractère absolu des événements observés pourrait signifier que ce réductionnisme ne tient pas : tout comme un état non local de Bell ne peut être réduit à certains états constitutifs, il se peut que la dynamique d'un système soit également holistique, ce qui ajoute un autre type de nonlocalité à l'univers. Il est important de noter que le fait d'y renoncer ne met pas une théorie en porte-à-faux avec les théories de la relativité d'Einstein, tout comme les physiciens ont soutenu que la non-localité de Bell ne nécessite pas d'influences causales superluminales ou non locales, mais simplement des états non séparables.

"Peut-être que la leçon de Bell est que les états des particules distantes sont inextricablement liés, et que la leçon des nouveaux théorèmes est que leur dynamique l'est aussi", ont écrit Ormrod, Venkatesh et Barrett dans leur article.

"J'aime beaucoup l'idée de rejeter la séparabilité dynamique, car si cela fonctionne, alors ... nous aurons le beurre et l'argent du beurre", déclare Ormrod. "Nous pouvons continuer à croire ce que nous considérons comme les choses les plus fondamentales du monde : le fait que la théorie de la relativité est vraie, que l'information est préservée, et ce genre de choses. Mais nous pouvons aussi croire à l'absoluité des événements observés".

Jeffrey Bub, philosophe de la physique et professeur émérite à l'université du Maryland, College Park, est prêt à avaler quelques pilules amères si cela signifie vivre dans un univers objectif. "Je voudrais m'accrocher à l'absoluité des événements observés", déclare-t-il. "Il me semble absurde d'y renoncer simplement à cause du problème de la mesure en mécanique quantique. À cette fin, Bub pense qu'un univers dans lequel les dynamiques ne sont pas séparables n'est pas une si mauvaise idée. "Je pense que je serais provisoirement d'accord avec les auteurs pour dire que la non-séparabilité [dynamique] est l'option la moins désagréable", déclare-t-il.

Le problème est que personne ne sait encore comment construire une théorie qui rejette la séparabilité dynamique - à supposer qu'elle soit possible à construire - tout en conservant les autres propriétés telles que la préservation de l'information et la non-localité de Bell.

UNE NON LOCALITÉ PLUS PROFONDE

Howard Wiseman, de l'université Griffith, qui est considéré comme une figure fondatrice de ces réflexions théoriques, apprécie l'effort d'Ormrod, Venkatesh et Barrett pour prouver un théorème qui s'applique à la mécanique quantique sans lui être spécifique. "C'est bien qu'ils poussent dans cette direction", déclare-t-il. "Nous pouvons dire des choses plus générales sans faire référence à la mécanique quantique.

Il souligne que l'expérience de pensée utilisée dans l'analyse ne demande pas à Alice, Bob, Charlie et Daniela de faire des choix - ils font toujours les mêmes mesures. Par conséquent, les hypothèses utilisées pour prouver le théorème n'incluent pas explicitement une hypothèse sur la liberté de choix, car personne n'exerce un tel choix. Normalement, moins il y a d'hypothèses, plus la preuve est solide, mais ce n'est peut-être pas le cas ici, explique Wiseman. En effet, la première hypothèse, selon laquelle la théorie doit tenir compte de la non-localité de Bell, exige que les agents soient dotés d'un libre arbitre. Tout test empirique de la non-localité de Bell implique qu'Alice et Bob choisissent de leur plein gré les types de mesures qu'ils effectuent. Par conséquent, si une théorie est nonlocale au sens de Bell, elle reconnaît implicitement le libre arbitre des expérimentateurs. "Ce que je soupçonne, c'est qu'ils introduisent subrepticement une hypothèse de libre arbitre", déclare Wiseman.

Cela ne veut pas dire que la preuve est plus faible. Au contraire, elle aurait été plus forte si elle n'avait pas exigé une hypothèse de libre arbitre. En l'occurrence, le libre arbitre reste une exigence. Dans ces conditions, la portée la plus profonde de ce théorème pourrait être que l'univers est non local d'une manière entièrement nouvelle. Si tel est le cas, cette nonlocalité serait égale ou supérieure à la nonlocalité de Bell, dont la compréhension a ouvert la voie aux communications quantiques et à la cryptographie quantique. Personne ne sait ce qu'un nouveau type de nonlocalité - suggéré par la non-séparabilité dynamique - signifierait pour notre compréhension de l'univers.

En fin de compte, seules les expériences permettront de trouver la bonne théorie, et les physiciens quantiques ne peuvent que se préparer à toute éventualité. "Indépendamment de l'opinion personnelle de chacun sur la meilleure [théorie], toutes doivent être explorées", déclare M. Venkatesh. "En fin de compte, nous devrons examiner les expériences que nous pouvons réaliser. Cela pourrait être dans un sens ou dans l'autre, et il est bon de s'y préparer."

Auteur: Internet

Info: https://www.scientificamerican.com, Par Anil Ananthaswamy le 22 mai 2023

[ enchevêtrement quantique ] [ régions de l'espace-temps ] [ monde subatomique ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

homme-machine

Notre cerveau à l’heure des nouvelles lectures

Maryanne Wolf, directrice du Centre de recherche sur la lecture et le langage de l’université Tufts est l’auteur de Proust et le Calmar (en référence à la façon dont ces animaux développent leurs réseaux de neurones, que nous avions déjà évoqué en 2009). Sur la scène des Entretiens du Nouveau Monde industriel au Centre Pompidou, la spécialiste dans le développement de l’enfant est venue évoquer "la modification de notre cerveau-lecteur au 21e siècle"

Comment lisons-nous ?

"Le cerveau humain n’était pas programmé pour être capable de lire. Il était fait pour sentir, parler, entendre, regarder… Mais nous n’étions pas programmés génétiquement pour apprendre à lire". Comme l’explique le neuroscientifique français Stanislas Dehaene (Wikipédia) dans son livre Les neurones de la lecture, nous avons utilisé notre cerveau pour identifier des modèles. C’est l’invention culturelle qui a transformé notre cerveau, qui a relié et connecté nos neurones entre eux, qui leur a appris à travailler en groupes de neurones spécialisés, notamment pour déchiffrer la reconnaissance de formes. La reconnaissance des formes et des modèles a permis la naissance des premiers symboles logographiques, permettant de symboliser ce qu’on voyait qui nous mènera des peintures rupestres aux premières tablettes sumériennes. Avec l’invention de l’alphabet, l’homme inventera le principe que chaque mot est un son et que chaque son peut-être signifié par un symbole. Le cerveau lecteur consiste donc à la fois à être capable de "voir", décoder des informations, des motifs et à les traiter pour pouvoir penser et avoir une réflexion.

Pour autant, le circuit de la lecture n’est pas homogène. Quand on observe à l’imagerie cérébrale un anglais qui lit de l’anglais, un chinois qui lit du chinois ou le Kanji, un Japonais qui lit le Kana japonais, on se rend compte que ces lectures activent des zones sensiblement différentes selon les formes d’écritures. Ce qui signifie qu’il y a plusieurs circuits de lecture dans notre cerveau. Le cerveau est plastique et il se réarrange de multiples façons pour lire, dépendant à la fois du système d’écriture et du médium utilisé. "Nous sommes ce que nous lisons et ce que nous lisons nous façonne" Ce qui explique aussi que chaque enfant qui apprend à lire doit développer son propre circuit de lecture.

Ce qui stimule le plus notre cerveau, selon l’imagerie médicale, c’est d’abord jouer une pièce au piano puis lire un poème très difficile, explique Maryanne Wolf. Car la lecture profonde nécessite une forme de concentration experte. Comme le souligne Proust dans Sur la lecture : "Nous sentons très bien que notre sagesse commence où celle de l’auteur finit, et nous voudrions qu’il nous donnât des réponses, quand tout ce qu’il peut faire est de nous donner des désirs. Et ces désirs, il ne peut les éveiller en nous qu’en nous faisant contempler la beauté suprême à laquelle le dernier effort de son art lui a permis d’atteindre. Mais par une loi singulière et d’ailleurs providentielle de l’optique des esprits (loi qui signifie peut-être que nous ne pouvons recevoir la vérité de personne, et que nous devons la créer nous-mêmes), ce qui est le terme de leur sagesse ne nous apparaît que comme le commencement de la nôtre, de sorte que c’est au moment où ils nous ont dit tout ce qu’ils pouvaient nous dire qu’ils font naître en nous le sentiment qu’ils ne nous ont encore rien dit."

La lenteur, la concentration et le processus cognitif encouragent le cerveau lecteur. La déduction, la pensée analogique, l’analyse critique, la délibération, la perspicacité, l’épiphanie (c’est-à-dire la compréhension soudaine de l’essence et de la signification de quelque chose) et la contemplation sont quelques-unes des merveilleuses conséquences de notre capacité à lire la pensée d’un autre.

Pourquoi la lecture numérique est-elle différente ?

Est-ce que ce que nous savons de notre cerveau lecteur éclaire ce que nous ne savons pas de la lecture à l’heure de la culture numérique ? Quelles sont les implications profondes sur la plasticité de nos circuits de lecture à mesure que nous utilisons des médiums dominés par le numérique ?

En 2008, dans une interview pour Wired, quelques mois avant d’écrire son célèbre article, "Est-ce que Google nous rend idiot ?", Nicholas Carr expliquait : "La chose la plus effrayante dans la vision de Stanley Kubrick n’était pas que les ordinateurs commencent à agir comme les gens, mais que les gens commencent à agir comme des ordinateurs. Nous commençons à traiter l’information comme si nous étions des noeuds, tout est question de vitesse de localisation et de lecture de données. Nous transférons notre intelligence dans la machine, et la machine transfère sa façon de penser en nous."

Les caractéristiques cognitives de la lecture en ligne ne sont pas les mêmes que celle de la lecture profonde, estime Maryanne Wolf. Avec le numérique, notre attention et notre concentration sont partielles, moins soutenues. Notre capacité de lecture se fixe sur l’immédiateté et la vitesse de traitement. Nous privilégions une forme de lecture qui nous permet de faire plusieurs tâches en même temps dans des larges ensembles d’information. Les supports numériques ont tendance à rendre notre lecture physique (tactile, interactions sensorielles…) tandis que le lire nous plonge plutôt dans un processus cognitif profond. Pour la spécialiste, il semble impossible de s’immerger dans l’hypertexte. Reprenant les propos de Carr, "l’écrémage est la nouvelle normalité", assène-t-elle. "Avec le numérique, on scanne, on navigue, on rebondit, on repère. Nous avons tendance à bouger, à cliquer et cela réduit notre attention profonde, notre capacité à avoir une lecture concentrée. Nous avons tendance à porter plus d’attention à l’image. Nous avons tendance à moins internaliser la connaissance et à plus dépendre de sources extérieures."

Les travaux d’imagerie cérébrale sur les effets cognitifs du multitâche montrent que même si on peut apprendre en étant distraits cela modifie notre façon d’apprendre rendant l’apprentissage moins efficace et utile estime le professeur de psychologie et neurobiologie Russ Poldrack. Les facteurs tactiles et matériels ont aussi une importance. On ne peut s’immerger dans l’hypertexte de la même façon qu’on pouvait se perdre dans un livre, estime la spécialiste de la lecture Anne Mangen du Centre sur la lecture de l’université de Stavanger. Plusieurs études ont montré que notre niveau de compréhension entre l’écran et l’imprimé se faisait toujours au détriment du numérique, rappelle Maryanne Wolf. Mais peut-être faudrait-il nuancer les propos de Maryanne Wolf et souligner, comme nous l’avions déjà rappelé lors de la publication de la charge de Nicholas Carr que les les protocoles d’expérimentation des neuroscientifiques défendent souvent des thèses. La science et l’imagerie médicale semblent convoquées pour apporter des preuves. Alors que les différences de protocoles entre une étude l’autre, la petitesse des populations étudiées, nécessiterait beaucoup de prudence dans les conclusions.

Reste que pour comprendre cette différence entre papier et électronique, estime Maryanne Wolf, il nous faut comprendre comment se forme notre capacité de lecture profonde. Est-ce que la lecture superficielle et notre attente continue d’informations externes seront les nouvelles menaces des lectures numériques ? Ces deux risques vont-ils court-circuiter notre "cerveau lecteur" ? Est-ce que la construction de l’imaginaire de l’enfance va être remplacée par celle, externe, que tous les nouveaux supports offrent ? …

"Nous ne reviendrons pas en arrière, nous ne reviendrons pas à un temps prénumérique", insiste Maryanne Wolf. "Ce n’est ni envisageable, ni enviable, ni faisable."

"Mais nous ne devrions pas accepter une embardée vers l’avant sans comprendre ce que le "répertoire cognitif" de notre espèce risque de perdre ou de gagner." "Ce serait une honte si la technologie la plus brillante que nous ayons développée devait finir par menacer le genre d’intelligence qui l’a produite", estime l’historien des technologies Edward Tenner. Et Maryanne Wolf de nous montrer trois enfants assis dans un canapé, avec chacun son ordinateur sur ses genoux. C’est l’image même qui inspire notre peur de demain. Celle-là même qu’évoquait l’anthropologue Stefana Broadbent à Lift 2012. Sauf que l’anthropologue, elle, nous montrait qu’on était là confronté là à une représentation sociale… une interrogation totalement absente du discours alarmiste de Maryanne Wolf, qui compare l’activité cognitive de cerveaux habitués à la lecture traditionnelle, avec celle de cerveaux qui découvrent les modalités du numérique.

Le numérique a bien un défaut majeur, celui d’introduire dans notre rapport culturel même des modalités de distraction infinies. Comme nous le confiait déjà Laurent Cohen en 2009, l’écran ou le papier ne changent rien à la capacité de lecture. Mais c’est le réseau qui pose problème et ce d’autant plus quand il apporte une distraction permanente, permettant toujours de faire autre chose que ce que l’on compte faire.

Si la lecture profonde peut se faire tout autant sur papier qu’à travers le réseau, le principal problème qu’induit le numérique, c’est la possibilité de distraction induite par l’outil lui-même, qui demande, pour y faire face, un contrôle de soi plus exigeant.

Notre avenir cognitif en sursis ?

Alors, comment résoudre ce paradoxe, se demande Maryanne Wolf. Comment pouvons-nous éviter de "court-circuiter" notre capacité à lire en profondeur, tout en acquérant les nouvelles compétences nécessaires pour le 21e siècle ?

Un premier pas peut-être fait en ayant conscience de nos limites, estime Maryanne Wolf. Rappelons-nous que notre cerveau n’a jamais été programmé génétiquement pour lire. Que chaque lecteur doit construire ses propres circuits de lecture. Que nos circuits de lecture sont plastiques et influencés par les médiums et les systèmes d’écriture que nous utilisons. Notre cerveau-lecteur est capable à la fois des plus superficielles et des plus profondes formes de lecture, de ressenti et de pensées.

Nous pouvons deviner que l’accès à l’information ne va cesser d’augmenter. Mais nous ne savons pas si l’accès immédiat à de vastes quantités d’informations va transformer la nature du processus de lecture interne, à savoir la compréhension profonde et l’internalisation de la connaissance.

Pour le dire autrement, notre cerveau est d’une plasticité totale, mais cela ne veut pas dire que nous allons perdre telle ou telle capacité d’attention, alors que celles-ci ont plus que jamais une importance sociale. Pour l’instant, pourrions-nous répondre à Maryanne Wolf, ce que le cerveau lecteur nous a le plus fait perdre, c’est certainement notre capacité à lire les détails du monde naturel que comprenait le chasseur-cueilleur.

Nous ne savons pas si l’accès immédiat à cette quantité croissante d’information externe va nous éloigner du processus de lecture profonde ou au contraire va nous inciter à explorer la signification des choses plus en profondeur, estime Wolf en reconnaissant tout de même, après bien des alertes, l’ignorance des neuroscientifiques en la matière. Bref, nous ne savons pas si les changements qui s’annoncent dans l’intériorisation des connaissances vont se traduire par une altération de nos capacités cognitives, ni dans quel sens ira cette altération.

Si nous ne savons pas tout de notre avenir cognitif, estime Wolf, peut-être pouvons-nous conserver certains objectifs en vue. Que pouvons-nous espérer ? La technologie va bouleverser l’apprentissage, estime Maryanne Wolf en évoquant l’expérimentation qu’elle mène avec le MIT sur le prêt de tablettes auprès d’enfants éthiopiens qui n’ont jamais été alphabétisés et qui montre des jeunes filles capables de retenir l’alphabet qu’elles n’avaient jamais appris. Comment peut-on créer les conditions pour que les nouveaux lecteurs développent une double capacité… savoir à la fois quand il leur faut écrémer l’information et quand il leur faut se concentrer profondément ?

En semblant à la fois croire dans l’apprentissage par les robots, comme le montre l’expérience OLPC en Ethiopie de laquelle elle participe visiblement avec un certain enthousiasme (alors que certains spécialistes de l’éducation ont montré que l’essentielle des applications d’apprentissage de la lecture ne permettaient pas de dépasser le niveau de l’apprentissage de l’alphabet, en tout cas n’étaient pas suffisantes pour apprendre à lire seul) et en n’ayant de cesse de nous mettre en garde sur les risques que le numérique fait porter à la lecture profonde, Maryanne Wolf semble avoir fait un grand écart qui ne nous a pas aidés à y voir plus clair.

Après la langue et le langage : la cognition

Pour l’ingénieur et philosophe Christian Fauré, membre de l’association Ars Industrialis. "l’organologie générale" telle que définit par Ars Industrialis et le philosophe Bernard Stiegler, organisateur de ces rencontres, vise à décrire et analyser une relation entre 3 types d' "organes" qui nous définissent en tant qu’humain : les organes physiologiques (et psychologiques), les organes techniques et les organes sociaux.

"Nos organes physiologiques n’évoluent pas indépendamment de nos organes techniques et sociaux", rappelle Christian Fauré. Dans cette configuration entre 3 organes qui se surdéterminent les uns les autres, le processus d’hominisation semble de plus en plus porté, "transporté" par l’organe technique. Car dans un contexte d’innovation permanente, le processus d’hominisation, ce qui nous transforme en hommes, est de plus en plus indexé par l’évolution de nos organes techniques. La question est de savoir comment nos organes sociaux, psychologiques et physiologiques vont suivre le rythme de cette évolution. A l’époque de l’invention des premiers trains, les gens avaient peur d’y grimper, rappelle le philosophe. On pensait que le corps humain n’était pas fait pour aller à plus de 30 km à l’heure.

L’évolution que nous connaissons se produit via des interfaces entre les différents organes et c’est celles-ci que nous devons comprendre, estime Christian Fauré. Quel est le rôle des organes techniques et quels sont leurs effets sur nos organes sociaux et physiologiques ?L’écriture a longtemps été notre principal organe technique. Parce qu’elle est mnémotechnique, elle garde et conserve la mémoire. Par son statut, par les interfaces de publication, elle rend public pour nous-mêmes et les autres et distingue le domaine privé et le domaine public. Or l’évolution actuelle des interfaces d’écriture réagence sans arrêt la frontière entre le privé et le public. Avec le numérique, les interfaces de lecture et d’écriture ne cessent de générer de la confusion entre destinataire et destinateur, entre ce qui est privé et ce qui est public, une distinction qui est pourtant le fondement même de la démocratie, via l’écriture publique de la loi. Avec le numérique, on ne sait plus précisément qui voit ce que je publie… ni pourquoi on voit les messages d’autrui.

La question qui écrit à qui est devenue abyssale, car, avec le numérique, nous sommes passés de l’écriture avec les machines à l’écriture pour les machines. L’industrie numérique est devenue une industrie de la langue, comme le soulignait Frédéric Kaplan. Et cette industrialisation se fait non plus via des interfaces homme-machine mais via de nouvelles interfaces, produites par et pour les machines, dont la principale est l’API, l’interface de programmation, qui permet aux logiciels de s’interfacer avec d’autres logiciels.

Le nombre d’API publiée entre 2005 et 2012 a connu une croissance exponentielle, comme l’explique ProgrammableWeb qui en tient le décompte. Désormais, plus de 8000 entreprises ont un modèle d’affaire qui passe par les API. "Le web des machines émerge du web des humains. On passe d’un internet des humains opéré par les machines à un internet pour les machines opéré par les machines. L’API est la nouvelle membrane de nos organes techniques qui permet d’opérer automatiquement et industriellement sur les réseaux."

Ecrire directement avec le cerveau

Le monde industriel va déjà plus loin que le langage, rappelle Christian Fauré sur la scène des Entretiens du Nouveau Monde industriel. "Nous n’écrivons plus. Nous écrivons sans écrire, comme le montre Facebook qui informe nos profils et nos réseaux sociaux sans que nous n’ayons plus à écrire sur nos murs. Nos organes numériques nous permettent d’écrire automatiquement, sans nécessiter plus aucune compétence particulière. Et c’est encore plus vrai à l’heure de la captation de données comportementales et corporelles. Nos profils sont renseignés par des cookies que nos appareils techniques écrivent à notre place. Nous nous appareillons de capteurs et d’API "qui font parler nos organes". Les interfaces digitales auxquelles nous nous connectons ne sont plus des claviers ou des écrans tactiles… mais des capteurs et des données." Les appareillages du Quantified Self sont désormais disponibles pour le grand public. La captation des éléments physiologique s’adresse à nos cerveaux, comme l’explique Martin Lindstrom dans Buy.Ology. "Nous n’avons même plus besoin de renseigner quoi que ce soit. Les capteurs le font à notre place. Pire, le neuromarketing semble se désespérer du langage. On nous demande de nous taire. On ne veut pas écouter ce que l’on peut dire ou penser, les données que produisent nos capteurs et nos profils suffisent." A l’image des séries américaines comme Lie to Me ou the Mentalist où les enquêteurs ne s’intéressent plus à ce que vous dites. Ils ne font qu’observer les gens, ils lisent le corps, le cerveau. "L’écriture de soi n’est plus celle de Foucault, les échanges entre lettrés. On peut désormais s’écrire sans savoir écrire. Nous entrons dans une époque d’écriture automatique, qui ne nécessite aucune compétence. Nous n’avons même plus besoin du langage. L’appareillage suffit à réactualiser le connais-toi toi-même !"

Google et Intel notamment investissent le champ des API neuronales et cherchent à créer un interfaçage direct entre le cerveau et le serveur. Le document n’est plus l’interface. Nous sommes l’interface !

"Que deviennent la démocratie et la Res Publica quand les données s’écrivent automatiquement, sans passer par le langage ? Quand la distinction entre le public et le privé disparaît ? Alors que jusqu’à présent, la compétence technique de la lecture et de l’écriture était la condition de la citoyenneté", interroge Christian Fauré.

Les capteurs et les interfaces de programmation ne font pas que nous quantifier, ils nous permettent également d’agir sur notre monde, comme le proposent les premiers jouets basés sur un casque électroencéphalographique (comme Mindflex et Star Wars Science The Force Trainer), casques qui utilisent l’activité électrique du cerveau du joueur pour jouer. Ces jouets sont-ils en train de court-circuiter notre organe physiologique ?

Mais, comme l’a exprimé et écrit Marianne Wolf, nous n’étions pas destinés à écrire. Cela ne nous a pas empêchés de l’apprendre. Nous sommes encore moins nés pour agir sur le réel sans utiliser nos organes et nos membres comme nous le proposent les casques neuronaux.

Quand on regarde les cartographies du cortex somatosensoriel on nous présente généralement une représentation de nous-mêmes selon l’organisation neuronale. Celle-ci déforme notre anatomie pour mettre en évidence les parties de celle-ci les plus sensibles, les plus connectés à notre cerveau. Cette représentation de nous est la même que celle que propose la logique des capteurs. Or, elle nous ressemble bien peu.

(Image extraite de la présentation de Christian Fauré : ressemblons à notre cortex somatosensoriel ?)

Que se passera-t-il demain si nous agissons dans le réel via des casques neuronaux ? La Science Fiction a bien sûr anticipé cela. Dans Planète interdite, le sous-sol de la planète est un vaste data center interfacé avec le cerveau des habitants de la planète qui ne donne sa pleine puissance que pendant le sommeil des habitants. "Ce que nous rappelle toujours la SF c’est que nos pires cauchemars se réalisent quand on interface l’inconscient à la machine, sans passer par la médiation de l’écriture ou du langage. Si la puissance du digital est interfacée et connectée directement aux organes physiologiques sans la médiation de l’écriture et du langage, on imagine alors à quel point les questions technologiques ne sont rien d’autre que des questions éthiques", conclut le philosophe.

Si on ne peut qu’être d’accord avec cette crainte de la modification du cerveau et de la façon même dont on pense via le numérique comme c’était le cas dans nombre d’interventions à cette édition des Entretiens du Nouveau Monde industriel, peut-être est-il plus difficile d’en rester à une dénonciation, comme l’a montré l’ambiguïté du discours de Maryanne Wolf. Si nous avons de tout temps utilisé des organes techniques, c’est dans l’espoir qu’ils nous libèrent, qu’ils nous transforment, qu’ils nous distinguent des autres individus de notre espèce et des autres espèces. Pour répondre à Christian Fauré, on peut remarquer que la SF est riche d’oeuvres qui montrent ou démontrent que l’augmentation de nos capacités par la technique était aussi un moyen pour faire autre chose, pour devenir autre chose, pour avoir plus de puissance sur le monde et sur soi. Il me semble pour ma part qu’il est important de regarder ce que les interfaces neuronales et les capteurs libèrent, permettent. Dans the Mentalist, pour reprendre la référence de Christian Fauré, ce sont les capacités médiumniques extraordinaires de l’enquêteur qui transforme son rapport au monde et aux autres. Si l’interfaçage direct des organes physiologique via des capteurs et des données produit de nouvelles formes de pouvoir, alors il est certain que nous nous en emparerons, pour le meilleur ou pour le pire. On peut légitimement le redouter ou s’en inquiéter, mais ça ne suffira pas à nous en détourner.

Qu’allons-nous apprendre en jouant de l’activité électrique de nos cerveaux ? On peut légitimement se demander ce que cela va détruire… Mais si on ne regarde pas ce que cela peut libérer, on en restera à une dénonciation sans effets.

Auteur: Guillaud Hubert

Info: https://www.lemonde.fr/blog/internetactu/2013/01/11/notre-cerveau-a-lheure-des-nouvelles-lectures/

[ communication ] [ réflexivité ] [ métalangage ] [ secondéités intégrées ] [ prospective ] [ niveaux de lecture ] [ citation s'appliquant à ce logiciel ] [ inversion ] [ triade ]

Commenter

Mis dans la chaine

Commentaires: 0

Ajouté à la BD par miguel