Citation
Catégorie
Tag – étiquette
Auteur
Info



nb max de mots
nb min de mots
trier par
Dictionnaire analogique intriqué pour extraits. Recherche mots ou phrases tous azimuts. Aussi outil de précision sémantique et de réflexion communautaire. Voir la rubrique mode d'emploi. Jetez un oeil à la colonne "chaînes". ATTENTION, faire une REINITIALISATION après  une recherche complexe. Et utilisez le nuage de corrélats !!!!..... Lire la suite >>
Résultat(s): 43
Temps de recherche: 0.0645s

bêtise bipolaire

Il ne fait aucun doute que les IA sont biaisées. Mais beaucoup déclarent que ces problématiques de l'IA existent parce que nous humains sommes imparfaits, plus que les machines. "Les machines sont-elles condamnées à hériter des préjugés humains ?", titrent les journaux. "Les préjugés humains sont un énorme problème pour l'IA. Voilà comment on va arranger ça." Mais ces récits perpétuent une dangereuse erreur algorithmique qu'il faut éviter.

Oui, les humains sont subjectifs. Oui, malgré les efforts conscients et inconscients de ne pas l'être, nous faisons de la discrimination, nous stéréotypons et portons toutes sortes de jugements de valeur sur les gens, les produits et la politique. Mais nos préjugés ne sont pas correctement mesurés ou modélisés par les machines. Non, les tendances machine sont dues à la logique même de la collecte des données : le système binaire.

Le système binaire est la chaîne de 0 et 1 à la base de tous les systèmes informatiques. Cette méthode mathématique permet de réduire et de calculer efficacement les grands nombres et, deuxièmement, elle permet la conversion de l'alphabet et de la ponctuation en ASCII (American Standard Code for Information Interchange).

Mais ne vous laissez pas berner : Ces 0 et 1 ne signifient pas que la machine comprend le monde et les langages comme nous le faisons : "La plupart d'entre nous, la plupart du temps, suivons des instructions qui nous sont données par ordinateur plutôt que l'inverse ", explique l'historien des technologies George Dyson. Afin de pouvoir communiquer avec les ordinateurs, nous sommes ajustés et orientés vers leur logique, et non vers la nôtre.

Le système binaire réduit tout à des 0 et des 1 insignifiants, quand la vie et l'intelligence font fonctionner XY en tandem. lui rend la lecture et le traitement des données quantitatives plus pratiques, plus efficaces et plus rentables pour les machines. Mais c'est au détriment des nuances, de la richesse, du contexte, des dimensions et de la dynamique de nos langues, cultures, valeurs et expériences.

Il ne faut pas accabler ici les développeurs de la Silicon Valley pour ce système binaire biaisé - mais plutôt Aristote.

Le parti pris binaire d'Aristote
Si vous pensez à Aristote, vous pensez probablement au philosophe grec antique comme à un des pères fondateurs de la démocratie, et non comme l'ancêtre de siècles de logique mécanique et de méthodes scientifiques erronées. C'est cependant sa théorie du "dualisme", selon laquelle quelque chose est soit vrai soit faux, logique ou illogique, qui nous a mis dans cette situation délicate en premier lieu.

Vers 350 av. J.-C., Aristote voulut réduire et structurer la complexité du monde. Pour ce faire, il fit des emprunts à la Table des Opposés de Pythagore, dans laquelle deux éléments sont comparés :

fini, infini... impair, pair... un, beaucoup... droite, gauche... repos, mouvement... droit, tordu... etc.

Mais au lieu d'appliquer ce dualisme à la géométrie neutre comme l'avait fait Pythagore, Aristote l'appliqua aux personnes, aux animaux et à la société. Ce faisant, il conçut un patriarcat hiérarchique social polarisé clivant, enraciné dans ses valeurs internes et ses préjugés : Les objets qu'il ordonnait avoir plus de valeur devinrent des 1, et ceux de moindre importance des 0. En ce qui concerne les femmes, par exemple, il écrivit : "La relation de l'homme à la femme est par nature une relation de supérieur à inférieur et de souverain à gouverné."

Hélas, le système de classification hiérarchique d'Aristote a été implémenté dans l'IA, la pondérant en faveur d'hommes comme lui. Le système même sur lequel toute la technologie moderne est construite contient les artefacts du sexisme d'il y a 2 000 ans.

1 = vrai = rationnel = droit = masculin
0 = faux = émotionnel = gauche = féminin
Si Aristote avait créé la démocratie - et la démocratie est censée être une véritable représentation - femmes et gens de couleur auraient dû avoir un accès égal à l'éducation, avoir voix au chapitre dans les forums et avoir le droit de vote en 350 av. JC. Il n'aurait pas été nécessaire de se battre jusqu'en 1920 pour que le vote féminin soit ratifié aux Etats-Unis. Il n'y aurait pas eu d'esclavage et pas besoin du mouvement pour les droits civiques. Tout le monde aurait été classé et considéré comme égal dès le départ.

Le classement biaisé d'Aristote est maintenant verrouillé et renforcé par plus de 15 millions d'ingénieurs.
Aristote aurait dû lire les notes de son prédécesseur, Socrate. Selon les souvenirs de Platon, Socrate considérait les oracles féminins de Delphes comme "un guide essentiel du développement personnel et de l'état". De plus, dans le Symposium de Platon, Socrate se souvient de l'époque où il était l'élève de Diotima de Mantinea, une femme philosophe dont il tenait en haute estime l'intelligence. Dans le livre V, Socrate est crédité d'avoir suggéré que les femmes sont également qualifiées pour diriger et gouverner : "Il n'y a pas de pratique des gouverneurs d'une ville qui appartient à une femme parce qu'elle est une femme, ou à un homme parce qu'il est un homme."

Mais au lieu que les idées de Socrate sur l'égalité enracinent les idées occidentales sur l'intelligence, nous nous sommes retrouvés avec la logique d'Aristote et son classement biaisé sans être conscients de ses origines binaires et anti-démocratiques.

Mais ne blâmons pas seulement Aristote. Deux autres coquins ont contribué à ces problèmes sociaux et scientifiques : Descartes et Leibniz.

Descartes - philosophe français du XVIIe siècle qui a inventé l'expression "je pense, donc je suis" -, a implanté l'idée qu'un sujet n'a ni matière ni valeur autre que ce que le visiteur attribue et déduit. (S'il avait dit "Nous pensons, donc nous sommes", cela aurait mieux reflété comment nous sommes symbiotiquement informés par les perceptions les uns et des autres.)

En outre, Descartes a proposé une plus grande séparation de l'esprit du corps et des émotions dans son traité de 1641, Méditations sur la Première Philosophie. Il a soutenu que nos esprits sont dans le domaine du spirituel tandis que nos corps et nos émotions sont dans le domaine du physique, et que les deux royaumes ne peuvent pas s'influencer mutuellement. Ce qui a causé des problèmes en IA parce que maintenant nous empilons des unités d'émotions sur des couches de classification binaires d'une manière artificielle et non intégrée. Encore du binaire.

La logique déductive-inductive de Descartes, qu'il explora dans son discours sur la méthode de 1637, fut créée parce qu'il était désabusé par les méthodes non systématiques des scientifiques de son temps. Il fit valoir que les mathématiques ont été construites sur une "base solide", et a donc cherché à établir un nouveau système de vérité fondée sur Aristote 1 = vrai = valide, et 0 = faux = invalide. La différence étant qu'il a mis les lignes de la logique syllogistique d'Aristote au sein d'une structure arborescente. Structures arborescentes qui sont maintenant utilisées dans les réseaux neuronaux récurrents du NLP (Natural Language Processing)

Vint ensuite Leibniz, le philosophe et avocat allemand inventa le calcul indépendamment de son contemporain, Newton. Il créa le système binaire entre 1697 et 1701 afin d'obtenir des verdicts "oui/non" plus rapides et ainsi réduire les grands nombres en unités plus faciles à gérer de 0 et 1.

Contrairement aux autres, Leibniz était sinophile. En 1703, le prêtre jésuite Bouvet lui avait envoyé une copie du Yi King (le Livre des Changements), artefact culturel chinois dont l'origine remonte à 5.000 ans. Il était fasciné par les similitudes apparentes entre les lignes horizontales et les intervalles des hexagrammes du Yi King et les 0 et 1 des lignes verticales de son système binaire. Il interpréta faussement ces intervalles comme étant du vide (donc zéro) croyant (à tort) que les hexagrammes confirmaient que son système binaire était la bonne base pour un système logique universel.

Leibniz fit trois autres erreurs majeures. Tout d'abord, il a fit pivoter les hexagrammes de leurs positions horizontales naturelles vers les positions verticales pour les faire correspondre à ses lignes binaires. Deuxièmement, il les sépara du contexte des symboles chinois et des chiffres correspondants. Troisièmement, puisqu'il n'était pas chinois et qu'il ne comprenait pas l'héritage philosophique ou la langue, il supposa que les hexagrammes représentaient les nombres 0 et 1 lorsqu'ils représentent des énergies négatives et positives, Yin Yang, homme et femme. Erreurs qui signifient que Leibniz perdit beaucoup d'informations et de connaissances venant des codes du Yi King et de la vraie signification de ses hexagrammes.

Au lieu de créer un système universel cohérent, le système binaire de Leibniz renforça les modèles de pensée occidentale de Descartes amplifiant la base biaisée d'Aristote, nous verrouillant davantage, nous et les machines que nous avons créées, vers une logique non naturelle.

Le système binaire dans l'informatique moderne
Les classifications binaires d'Aristote sont donc maintenant évidentes dans tous les systèmes de données d'aujourd'hui, servant, préservant, propageant et amplifiant les biais partout dans les couches d'apprentissage machine.

Exemples de biais binaires dans les front-end utilisateur et le traitement des données :

glissement à droite = 1, glissement à gauche = 0
cliquer sur "like" sur Facebook = 1, pas cliquer sur like = 0
nos émotions complexes étant attribuées grossièrement comme positives = 1, négatives = 0 dans les cadres du NPL
convertir des paires d'objets comparés et leurs caractéristiques en 0 ou 1, par exemple pomme = 1, orange = 0, ou lisse = 1, bosselé = 0
lignes et colonnes pleines de 0 et de 1 dans des graphes géants "big data"
Mais le problème de la logique binaire est qu'elle ne permet pas de comprendre et de modéliser pourquoi et comment les gens ont choisi une option plutôt qu'une autre. Les machines enregistrent simplement que les gens ont fait un choix, et qu'il y a un résultat

Les machines sont donc étalonnées à partir de ces biais binaires, pas à partir des nôtres. Bien sûr, nous sommes remplis de nos propres défauts et faiblesses très humains, mais les cadres conceptuels informatiques existants sont incapables de corriger ces erreurs (et les ingénieurs n'écrivent que du code qui correspond aux limites de l'ancienne logique).

Heureusement, il existe une alternative. Les philosophies occidentales d'Aristote, de Descartes et de Leibniz sont opposées aux philosophies orientales, elles fondées sur l'équilibre naturel, la cohérence et l'intégration. Le concept chinois de Yin Yang, par exemple, met l'accent sur la dynamique égale et symbiotique du masculin et du féminin en nous et dans l'univers. Ces idées décrites dans le Yi King, que Leibniz n'a pas reconnues.

La nature rejette également le binaire. Des milliards d'années avant que le parti pris d'Aristote ne s'imprime dans la logique informatique occidentale, la nature codifiait l'intelligence comme la coexistence entrelacée de la femme X et de l'homme Y dans notre ADN. De plus, la recherche quantique a montré que les particules peuvent avoir des états de superposition enchevêtrés où elles sont à la fois 0 et 1 en même temps, tout comme le Yin Yang. La nature ne fonctionne pas en binaire, pas même avec les pigeons. Alors pourquoi le faisons-nous en informatique ?

Nous ne classons et ne qualifions pas nécessairement le monde qui nous entoure avec les préjugés hiérarchiques binaires d'Aristote. Mais la façon dont les données sont recueillies est noir (0) et blanc (1), avec des nuances de gris fournies par des pourcentages de ces données, alors que la nature et les philosophies orientales montrent que nos perceptions ne sont que vagues de couleurs mélangées ou arc-en-ciel.

Tant que nous n'aurons pas conçu des modes de catégorisation non binaires et plus holistiques en IA, les ordinateurs ne seront pas en mesure de modéliser l'image animée en technicolor de notre intelligence. Ce n'est qu'alors que les machines représenteront nos divers langages, raisonnements, valeurs, cultures, qualités et comportements humains.

Auteur: Twain Liu

Info: https://qz.com/1515889/aristotles-binary-philosophies-created-todays-ai-bias/?utm_source=facebook&utm_medium=partner-share&utm_campaign=partner-bbc

[ rationalisme occidental ] [ logique formelle ] [ intelligence artificielle ] [ Asie ] [ sciences ]

 
Commentaires: 1
Ajouté à la BD par miguel

homme-machine

Un pas de géant pour une machine à jouer aux échecs

Le succès stupéfiant d’AlphaZero, un algorithme d’apprentissage profond, annonce une nouvelle ère de la compréhension – une ère qui, en ce qui concerne les humains, qui pourrait ne pas durer longtemps. Début décembre, des chercheurs de DeepMind, la société d’intelligence artificielle appartenant à la société mère de Google, Alphabet Inc. ont diffusé une dépêche depuis les zones avancées du monde des échecs.

Un an plus tôt, le 5 décembre 2017, l’équipe avait stupéfié ce monde des échecs en annonçant AlphaZero, un algorithme d’apprentissage machine qui maîtrisait non seulement les échecs mais aussi le shogi, ou échecs japonais, et le Go. L’algorithme a commencé sans aucune connaissance des jeux hormis leurs règles de base. Il a ensuite joué contre lui-même des millions de fois et a appris par essais et erreurs. Il a suffi de quelques heures pour que l’algorithme devienne le meilleur joueur, humain ou ordinateur, que le monde ait jamais vu.

Les détails des capacités d’AlphaZero et de son fonctionnement interne ont maintenant été officiellement examinés par des pairs et publiés dans la revue Science ce mois-ci. Le nouvel article aborde plusieurs critiques graves à l’égard de l’allégation initiale (entre autres choses, il était difficile de dire si AlphaZero jouait l’adversaire qu’il s’était choisi, une entité computationnelle nommée Stockfish, en toute équité). Considérez que ces soucis sont maintenant dissipés. AlphaZero ne s’est pas amélioré davantage au cours des douze derniers mois, mais la preuve de sa supériorité s’est bien renforcée. Il fait clairement montre d’un type d’intellect que les humains n’ont jamais vue auparavant, et que nous allons avoir à méditer encore longtemps.

Les échecs par ordinateur ont fait beaucoup de chemin au cours des vingt dernières années. En 1997, le programme de jeu d’échecs d’I.B.M., Deep Blue, a réussi à battre le champion du monde humain en titre, Garry Kasparov, dans un match en six parties. Rétrospectivement, il y avait peu de mystère dans cette réalisation. Deep Blue pouvait évaluer 200 millions de positions par seconde. Il ne s’est jamais senti fatigué, n’a jamais fait d’erreur de calcul et n’a jamais oublié ce qu’il pensait un instant auparavant.

Pour le meilleur et pour le pire, il a joué comme une machine, brutalement et matériellement. Il pouvait dépasser M. Kasparov par le calcul, mais il ne pouvait pas le dépasser sur le plan de la pensée elle-même. Dans la première partie de leur match, Deep Blue a accepté avec avidité le sacrifice d’une tour par M. Kasparov pour un fou, mais a perdu la partie 16 coups plus tard. La génération actuelle des programmes d’échecs les plus forts du monde, tels que Stockfish et Komodo, joue toujours dans ce style inhumain. Ils aiment à capturer les pièces de l’adversaire. Ils ont une défense d’acier. Mais bien qu’ils soient beaucoup plus forts que n’importe quel joueur humain, ces "moteurs" d’échecs n’ont aucune réelle compréhension du jeu. Ils doivent être instruits explicitement pour ce qui touche aux principes de base des échecs. Ces principes, qui ont été raffinés au fil de décennies d’expérience de grands maîtres humains, sont programmés dans les moteurs comme des fonctions d’év

aluation complexes qui indiquent ce qu’il faut rechercher dans une position et ce qu’il faut éviter : comment évaluer le degré de sécurité du roi, l’activité des pièces, la structure dessinée par les pions, le contrôle du centre de l’échiquier, et plus encore, comment trouver le meilleur compromis entre tous ces facteurs. Les moteurs d’échecs d’aujourd’hui, inconscients de façon innée de ces principes, apparaissent comme des brutes : extrêmement rapides et forts, mais sans aucune perspicacité.

Tout cela a changé avec l’essor du machine-learning. En jouant contre lui-même et en mettant à jour son réseau neuronal au fil de son apprentissage, AlphaZero a découvert les principes des échecs par lui-même et est rapidement devenu le meilleur joueur connu. Non seulement il aurait pu facilement vaincre tous les maîtres humains les plus forts – il n’a même pas pris la peine d’essayer – mais il a écrasé Stockfish, le champion du monde d’échecs en titre par ordinateur. Dans un match de cent parties contre un moteur véritablement impressionnant, AlphaZero a remporté vingt-huit victoires et fait soixante-douze matchs nuls. Il n’a pas perdu une seule partie.

Le plus troublant, c’est qu’AlphaZero semblait être perspicace. Il a joué comme aucun ordinateur ne l’a jamais fait, intuitivement et magnifiquement, avec un style romantique et offensif. Il acceptait de sacrifier des pions et prenait des risques. Dans certaines parties, cela paralysait Stockfish et il s’est joué de lui. Lors de son attaque dans la partie n°10, AlphaZero a replacé sa reine dans le coin du plateau de jeu de son propre côté, loin du roi de Stockfish, pas là où une reine à l’offensive devrait normalement être placée.

Et cependant, cette retraite inattendue s’avéra venimeuse : peu importe comment Stockfish y répondait, ses tentatives étaient vouées à l’échec. C’était presque comme si AlphaZero attendait que Stockfish se rende compte, après des milliards de calculs intensifs bruts, à quel point sa position était vraiment désespérée, pour que la bête abandonne toute résistance et expire paisiblement, comme un taureau vaincu devant un matador. Les grands maîtres n’avaient jamais rien vu de tel. AlphaZero avait la finesse d’un virtuose et la puissance d’une machine. Il s’agissait du premier regard posé par l’humanité sur un nouveau type prodigieux d’intelligence.

Lorsque AlphaZero fut dévoilé pour la première fois, certains observateurs se sont plaints que Stockfish avait été lobotomisé en ne lui donnant pas accès à son livre des ouvertures mémorisées. Cette fois-ci, même avec son livre, il a encore été écrasé. Et quand AlphaZero s’est handicapé en donnant dix fois plus de temps à Stockfish qu’à lui pour réfléchir, il a quand même démoli la bête.

Ce qui est révélateur, c’est qu’AlphaZero a gagné en pensant plus intelligemment, pas plus vite ; il n’a examiné que 60 000 positions par seconde, contre 60 millions pour Stockfish. Il était plus avisé, sachant ce à quoi on devait penser et ce qu’on pouvait ignorer. En découvrant les principes des échecs par lui-même, AlphaZero a développé un style de jeu qui "reflète la vérité profonde" du jeu plutôt que "les priorités et les préjugés des programmeurs", a expliqué M. Kasparov dans un commentaire qui accompagne et introduit l’article dans Science.

La question est maintenant de savoir si l’apprentissage automatique peut aider les humains à découvrir des vérités similaires sur les choses qui nous tiennent vraiment à coeur : les grands problèmes non résolus de la science et de la médecine, comme le cancer et la conscience ; les énigmes du système immunitaire, les mystères du génome.

Les premiers signes sont encourageants. En août dernier, deux articles parus dans Nature Medicine ont exploré comment l’apprentissage automatique pouvait être appliqué au diagnostic médical. Dans l’un d’entre eux, des chercheurs de DeepMind se sont associés à des cliniciens du Moorfields Eye Hospital de Londres pour mettre au point un algorithme d’apprentissage profond qui pourrait classer un large éventail de pathologies de la rétine aussi précisément que le font les experts humains (l’ophtalmologie souffre en effet d’une grave pénurie d’experts à même d’interpréter les millions de scans ophtalmologiques effectués chaque année en vue d’un diagnostic ; des assistants numériques intelligents pourraient apporter une aide énorme).

L’autre article concernait un algorithme d’apprentissage machine qui décide si un tomodensitogramme (CT scan) d’un patient admis en urgence montre des signes d’un accident vasculaire cérébral (AVC), ou d’une hémorragie intracrânienne ou encore d’un autre événement neurologique critique. Pour les victimes d’AVC, chaque minute compte ; plus le traitement tarde, plus le résultat clinique se dégrade. (Les neurologistes ont ce sombre dicton: "time is brain"). Le nouvel algorithme a étiqueté ces diagnostics et d’autres diagnostics critiques avec une précision comparable à celle des experts humains – mais il l’a fait 150 fois plus rapidement. Un diagnostic plus rapide pourrait permettre aux cas les plus urgents d’être aiguillés plus tôt, avec une vérification par un radiologiste humain.

Ce qui est frustrant à propos de l’apprentissage machine, cependant, c’est que les algorithmes ne peuvent pas exprimer ce qu’ils pensent. Nous ne savons pas pourquoi ils marchent, donc nous ne savons pas si on peut leur faire confiance. AlphaZero donne l’impression d’avoir découvert quelques principes importants sur les échecs, mais il ne peut pas partager cette compréhension avec nous. Pas encore, en tout cas. En tant qu’êtres humains, nous voulons plus que des réponses. Nous voulons de la perspicacité. Voilà qui va créer à partir de maintenant une source de tension dans nos interactions avec ces ordinateurs.

De fait, en mathématiques, c’est une chose qui s’est déjà produite depuis des années. Considérez le problème mathématique du "théorème des quatre couleurs", qui défie de longue date les cerveaux des mathématiciens. Il énonce que, sous certaines contraintes raisonnables, toute carte de pays contigus puisse toujours être coloriée avec seulement quatre couleurs, en n’ayant jamais deux fois la même couleur pour des pays adjacents.

Bien que le théorème des quatre couleurs ait été prouvé en 1977 avec l’aide d’un ordinateur, aucun humain ne pouvait vérifier toutes les étapes de la démonstration. Depuis lors, la preuve a été validée et simplifiée, mais il y a encore des parties qui impliquent un calcul de force brute, du genre de celui employé par les ancêtres informatiques d’AlphaZero qui jouent aux échecs. Ce développement a gêné de nombreux mathématiciens. Ils n’avaient pas besoin d’être rassurés que le théorème des quatre couleurs était vrai ; ils le croyaient déjà. Ils voulaient comprendre pourquoi c’était vrai, et cette démonstration ne les y a pas aidés.

Mais imaginez un jour, peut-être dans un avenir pas si lointain, où AlphaZero aura évolué vers un algorithme de résolution de problèmes plus général ; appelez-le AlphaInfinity. Comme son ancêtre, il aurait une perspicacité suprême : il pourrait trouver de belles démonstrations, aussi élégantes que les parties d’échecs qu’AlphaZero jouait contre Stockfish. Et chaque démonstration révélerait pourquoi un théorème était vrai ; l’AlphaInfinity ne vous l’enfoncerait pas juste dans la tête avec une démonstration moche et ardue.

Pour les mathématiciens et les scientifiques humains, ce jour marquerait l’aube d’une nouvelle ère de perspicacité. Mais ça ne durera peut-être pas. Alors que les machines deviennent de plus en plus rapides et que les humains restent en place avec leurs neurones fonctionnant à des échelles de temps de quelques millisecondes, un autre jour viendra où nous ne pourrons plus suivre. L’aube de la perspicacité humaine peut rapidement se transformer en crépuscule.

Supposons qu’il existe des régularités ou des modèles plus profonds à découvrir – dans la façon dont les gènes sont régulés ou dont le cancer progresse ; dans l’orchestration du système immunitaire ; dans la danse des particules subatomiques. Et supposons que ces schémas puissent être prédits, mais seulement par une intelligence bien supérieure à la nôtre. Si AlphaInfinity pouvait les identifier et les comprendre, cela nous semblerait être un oracle.

Nous nous assiérions à ses pieds et écouterions attentivement. Nous ne comprendrions pas pourquoi l’oracle a toujours raison, mais nous pourrions vérifier ses calculs et ses prédictions par rapport aux expériences et aux observations, et confirmer ses révélations. La science, cette entreprise de l’homme qui le caractérise par-dessus tout, aurait réduit notre rôle à celui de spectateurs, bouches bées dans l’émerveillement et la confusion.

Peut-être qu’un jour, notre manque de perspicacité ne nous dérangerait plus. Après tout, AlphaInfinity pourrait guérir toutes nos maladies, résoudre tous nos problèmes scientifiques et faire arriver tous nos autres trains intellectuels à l’heure avec succès. Nous nous sommes assez bien débrouillés sans trop de perspicacité pendant les quelque 300.000 premières années de notre existence en tant qu’Homo sapiens. Et nous ne manquerons pas de mémoire : nous nous souviendrons avec fierté de l’âge d’or de la perspicacité humaine, cet intermède glorieux, long de quelques milliers d’années, entre un passé où nous ne pouvions rien appréhender et un avenir où nous ne pourrons rien comprendre.

Auteur: Strogatz Steven

Info: Infinite Powers : How Calculus Reveals the Secrets of the Universe, dont cet essai est adapté sur le blog de Jorion

[ singularité ]

 
Mis dans la chaine

Commentaires: 0

Ajouté à la BD par miguel

paliers bayésiens

Une nouvelle preuve montre que les graphiques " expandeurs " se synchronisent

La preuve établit de nouvelles conditions qui provoquent une synchronisation synchronisée des oscillateurs connectés.

Il y a six ans, Afonso Bandeira et Shuyang Ling tentaient de trouver une meilleure façon de discerner les clusters dans d'énormes ensembles de données lorsqu'ils sont tombés sur un monde surréaliste. Ling s'est rendu compte que les équations qu'ils avaient proposées correspondaient, de manière inattendue, parfaitement à un modèle mathématique de synchronisation spontanée. La synchronisation spontanée est un phénomène dans lequel des oscillateurs, qui peuvent prendre la forme de pendules, de ressorts, de cellules cardiaques humaines ou de lucioles, finissent par se déplacer de manière synchronisée sans aucun mécanisme de coordination central.

Bandeira, mathématicien à l' École polytechnique fédérale de Zurich , et Ling, data scientist à l'Université de New York , se sont plongés dans la recherche sur la synchronisation, obtenant une série de résultats remarquables sur la force et la structure que doivent avoir les connexions entre oscillateurs pour forcer les oscillateurs. à synchroniser. Ce travail a abouti à un article d'octobre dans lequel Bandeira a prouvé (avec cinq co-auteurs) que la synchronisation est inévitable dans des types spéciaux de réseaux appelés graphes d'expansion, qui sont clairsemés mais également bien connectés.

Les graphiques expanseurs s'avèrent avoir de nombreuses applications non seulement en mathématiques, mais également en informatique et en physique. Ils peuvent être utilisés pour créer des codes correcteurs d’erreurs et pour déterminer quand les simulations basées sur des nombres aléatoires convergent vers la réalité qu’elles tentent de simuler. Les neurones peuvent être modélisés dans un graphique qui, selon certains chercheurs, forme un expanseur, en raison de l'espace limité pour les connexions à l'intérieur du cerveau. Les graphiques sont également utiles aux géomètres qui tentent de comprendre comment parcourir des surfaces compliquées , entre autres problèmes.

Le nouveau résultat " donne vraiment un aperçu considérable des types de structures graphiques qui vont garantir la synchronisation ", a déclaré Lee DeVille , un mathématicien de l'Université de l'Illinois qui n'a pas participé aux travaux. 

Synchronisation douce-amère         

"La synchronisation est vraiment l'un des phénomènes fondamentaux de la nature", a déclaré Victor Souza , un mathématicien de l'Université de Cambridge qui a travaillé avec Bandeira sur l'article. Pensez aux cellules stimulateurs cardiaques de votre cœur, qui synchronisent leurs pulsations via des signaux électriques. Lors d'expériences en laboratoire, "vous pouvez faire vibrer des centaines ou des milliers de cellules embryonnaires de stimulateur cardiaque à l'unisson", a déclaré Steven Strogatz , mathématicien à l'Université Cornell et autre co-auteur. " C'est un peu effrayant parce que ce n'est pas un cœur entier ; c'est juste au niveau des cellules."

En 1975, le physicien japonais Yoshiki Kuramoto a introduit un modèle mathématique décrivant ce type de système. Son modèle fonctionne sur un réseau appelé graphe, où les nœuds sont reliés par des lignes appelées arêtes. Les nœuds sont appelés voisins s’ils sont liés par une arête. Chaque arête peut se voir attribuer un numéro appelé poids qui code la force de la connexion entre les nœuds qu’elle connecte.

Dans le modèle de synchronisation de Kuramoto, chaque nœud contient un oscillateur, représenté par un point tournant autour d'un cercle. Ce point montre, par exemple, où se trouve une cellule cardiaque dans son cycle de pulsation. Chaque oscillateur tourne à sa propre vitesse préférée. Mais les oscillateurs veulent également correspondre à leurs voisins, qui peuvent tourner à une fréquence différente ou à un moment différent de leur cycle. (Le poids du bord reliant deux oscillateurs mesure la force du couplage entre eux.) S'écarter de ces préférences contribue à l'énergie dépensée par un oscillateur. Le système tente d'équilibrer tous les désirs concurrents en minimisant son énergie totale. La contribution de Kuramoto a été de simplifier suffisamment ces contraintes mathématiques pour que les mathématiciens puissent progresser dans l'étude du système. Dans la plupart des cas, de tels systèmes d’équations différentielles couplées sont pratiquement impossibles à résoudre.

Malgré sa simplicité, le modèle Kuramoto s'est révélé utile pour modéliser la synchronisation des réseaux, du cerveau aux réseaux électriques, a déclaré Ginestra Bianconi , mathématicienne appliquée à l'Université Queen Mary de Londres. "Dans le cerveau, ce n'est pas particulièrement précis, mais on sait que c'est très efficace", a-t-elle déclaré.

"Il y a ici une danse très fine entre les mathématiques et la physique, car un modèle qui capture un phénomène mais qui est très difficile à analyser n'est pas très utile", a déclaré Souza.

Dans son article de 1975, Kuramoto supposait que chaque nœud était connecté à tous les autres nœuds dans ce qu'on appelle un graphe complet. À partir de là, il a montré que pour un nombre infini d’oscillateurs, si le couplage entre eux était suffisamment fort, il pouvait comprendre leur comportement à long terme. Faisant l'hypothèse supplémentaire que tous les oscillateurs avaient la même fréquence (ce qui en ferait ce qu'on appelle un modèle homogène), il trouva une solution dans laquelle tous les oscillateurs finiraient par tourner simultanément, chacun arrondissant le même point de son cercle exactement au même endroit. en même temps. Même si la plupart des graphiques du monde réel sont loin d'être complets, le succès de Kuramoto a conduit les mathématiciens à se demander ce qui se passerait s'ils assouplissaient ses exigences.  

Mélodie et silence

Au début des années 1990, avec son élève Shinya Watanabe , Strogatz a montré que la solution de Kuramoto était non seulement possible, mais presque inévitable, même pour un nombre fini d'oscillateurs. En 2011, Richard Taylor , de l'Organisation australienne des sciences et technologies de la défense, a renoncé à l'exigence de Kuramoto selon laquelle le graphique devait être complet. Il a prouvé que les graphes homogènes où chaque nœud est connecté à au moins 94 % des autres sont assurés de se synchroniser globalement. Le résultat de Taylor avait l'avantage de s'appliquer à des graphes avec des structures de connectivité arbitraires, à condition que chaque nœud ait un grand nombre de voisins.

En 2018, Bandeira, Ling et Ruitu Xu , un étudiant diplômé de l'Université de Yale, ont abaissé à 79,3 % l'exigence de Taylor selon laquelle chaque nœud doit être connecté à 94 % des autres. En 2020, un groupe concurrent a atteint 78,89 % ; en 2021, Strogatz, Alex Townsend et Martin Kassabov ont établi le record actuel en démontrant que 75 % suffisaient.

Pendant ce temps, les chercheurs ont également attaqué le problème dans la direction opposée, en essayant de trouver des graphiques hautement connectés mais non synchronisés globalement. Dans une série d'articles de 2006 à 2022 , ils ont découvert graphique après graphique qui pourraient éviter la synchronisation globale, même si chaque nœud était lié à plus de 68 % des autres. Beaucoup de ces graphiques ressemblent à un cercle de personnes se tenant la main, où chaque personne tend la main à 10, voire 100 voisins proches. Ces graphiques, appelés graphiques en anneaux, peuvent s'installer dans un état dans lequel chaque oscillateur est légèrement décalé par rapport au suivant.

De toute évidence, la structure du graphique influence fortement la synchronisation. Ling, Xu et Bandeira sont donc devenus curieux des propriétés de synchronisation des graphiques générés aléatoirement. Pour rendre leur travail précis, ils ont utilisé deux méthodes courantes pour construire un graphique de manière aléatoire.

Le premier porte le nom de Paul Erdős et Alfréd Rényi, deux éminents théoriciens des graphes qui ont réalisé des travaux fondateurs sur le modèle. Pour construire un graphique à l'aide du modèle Erdős-Rényi, vous commencez avec un groupe de nœuds non connectés. Ensuite, pour chaque paire de nœuds, vous les reliez au hasard avec une certaine probabilité p . Si p vaut 1 %, vous liez les bords 1 % du temps ; si c'est 50 %, chaque nœud se connectera en moyenne à la moitié des autres.

Si p est légèrement supérieur à un seuil qui dépend du nombre de nœuds dans le graphique, le graphique formera, avec une très grande probabilité, un réseau interconnecté (au lieu de comprendre des clusters qui ne sont pas reliés). À mesure que la taille du graphique augmente, ce seuil devient minuscule, de sorte que pour des graphiques suffisamment grands, même si p est petit, ce qui rend le nombre total d'arêtes également petit, les graphiques d'Erdős-Rényi seront connectés.

Le deuxième type de graphe qu’ils ont considéré est appelé graphe d -régulier. Dans de tels graphes, chaque nœud a le même nombre d’arêtes, d . (Ainsi, dans un graphe 3-régulier, chaque nœud est connecté à 3 autres nœuds, dans un graphe 7-régulier, chaque nœud est connecté à 7 autres, et ainsi de suite.)

(Photo avec schéma)

Les graphiques bien connectés bien qu’ils soient clairsemés (n’ayant qu’un petit nombre d’arêtes) sont appelés graphiques d’expansion. Celles-ci sont importantes dans de nombreux domaines des mathématiques, de la physique et de l'informatique, mais si vous souhaitez construire un graphe d'expansion avec un ensemble particulier de propriétés, vous constaterez qu'il s'agit d'un " problème étonnamment non trivial ", selon l'éminent mathématicien. Terry Tao. Les graphes d'Erdős-Rényi, bien qu'ils ne soient pas toujours extensibles, partagent bon nombre de leurs caractéristiques importantes. Et il s'avère cependant que si vous construisez un graphe -régulier et connectez les arêtes de manière aléatoire, vous obtiendrez un graphe d'expansion.

Joindre les deux bouts

En 2018, Ling, Xu et Bandeira ont deviné que le seuil de connectivité pourrait également mesurer l'émergence d'une synchronisation globale : si vous générez un graphique d'Erdős-Rényi avec p juste un peu plus grand que le seuil, le graphique devrait se synchroniser globalement. Ils ont fait des progrès partiels sur cette conjecture, et Strogatz, Kassabov et Townsend ont ensuite amélioré leur résultat. Mais il subsiste un écart important entre leur nombre et le seuil de connectivité.

En mars 2022, Townsend a rendu visite à Bandeira à Zurich. Ils ont réalisé qu'ils avaient une chance d'atteindre le seuil de connectivité et ont fait appel à Pedro Abdalla , un étudiant diplômé de Bandeira, qui à son tour a enrôlé son ami Victor Souza. Abdalla et Souza ont commencé à peaufiner les détails, mais ils se sont rapidement heurtés à des obstacles.

Il semblait que le hasard s’accompagnait de problèmes inévitables. À moins que p ne soit significativement plus grand que le seuil de connectivité, il y aurait probablement des fluctuations sauvages dans le nombre d'arêtes de chaque nœud. L'un peut être attaché à 100 arêtes ; un autre pourrait être attaché à aucun. "Comme pour tout bon problème, il riposte", a déclaré Souza. Abdalla et Souza ont réalisé qu'aborder le problème du point de vue des graphiques aléatoires ne fonctionnerait pas. Au lieu de cela, ils utiliseraient le fait que la plupart des graphes d’Erdős-Rényi sont des expanseurs. "Après ce changement apparemment innocent, de nombreuses pièces du puzzle ont commencé à se mettre en place", a déclaré Souza. "En fin de compte, nous obtenons un résultat bien meilleur que ce à quoi nous nous attendions." Les graphiques sont accompagnés d'un nombre appelé expansion qui mesure la difficulté de les couper en deux, normalisé à la taille du graphique. Plus ce nombre est grand, plus il est difficile de le diviser en deux en supprimant des nœuds.

Au cours des mois suivants, l’équipe a complété le reste de l’argumentation en publiant son article en ligne en octobre. Leur preuve montre qu'avec suffisamment de temps, si le graphe a suffisamment d'expansion, le modèle homogène de Kuramoto se synchronisera toujours globalement.

Sur la seule route

L’un des plus grands mystères restants de l’étude mathématique de la synchronisation ne nécessite qu’une petite modification du modèle présenté dans le nouvel article : que se passe-t-il si certaines paires d’oscillateurs se synchronisent, mais que d’autres s’en écartent ? Dans cette situation, " presque tous nos outils disparaissent immédiatement ", a déclaré Souza. Si les chercheurs parviennent à progresser sur cette version du problème, ces techniques aideront probablement Bandeira à résoudre les problèmes de regroupement de données qu’il avait entrepris de résoudre avant de se tourner vers la synchronisation.

Au-delà de cela, il existe des classes de graphiques outre les extensions, des modèles plus complexes que la synchronisation globale et des modèles de synchronisation qui ne supposent pas que chaque nœud et chaque arête sont identiques. En 2018, Saber Jafarpour et Francesco Bullo de l'Université de Californie à Santa Barbara ont proposé un test de synchronisation globale qui fonctionne lorsque les rotateurs n'ont pas de poids ni de fréquences préférées identiques. L'équipe de Bianconi et d'autres ont travaillé avec des réseaux dont les liens impliquent trois, quatre nœuds ou plus, plutôt que de simples paires.

Bandeira et Abdalla tentent déjà d'aller au-delà des modèles Erdős-Rényi et d -regular vers d'autres modèles de graphes aléatoires plus réalistes. En août dernier, ils ont partagé un article , co-écrit avec Clara Invernizzi, sur la synchronisation dans les graphes géométriques aléatoires. Dans les graphes géométriques aléatoires, conçus en 1961, les nœuds sont dispersés de manière aléatoire dans l'espace, peut-être sur une surface comme une sphère ou un plan. Les arêtes sont placées entre des paires de nœuds s'ils se trouvent à une certaine distance les uns des autres. Leur inventeur, Edgar Gilbert, espérait modéliser des réseaux de communication dans lesquels les messages ne peuvent parcourir que de courtes distances, ou la propagation d'agents pathogènes infectieux qui nécessitent un contact étroit pour se transmettre. Des modèles géométriques aléatoires permettraient également de mieux capturer les liens entre les lucioles d'un essaim, qui se synchronisent en observant leurs voisines, a déclaré Bandeira.

Bien entendu, relier les résultats mathématiques au monde réel est un défi. "Je pense qu'il serait un peu mensonger de prétendre que cela est imposé par les applications", a déclaré Strogatz, qui a également noté que le modèle homogène de Kuramoto ne peut jamais capturer la variation inhérente aux systèmes biologiques. Souza a ajouté : " Il y a de nombreuses questions fondamentales que nous ne savons toujours pas comment résoudre. C'est plutôt comme explorer la jungle. " 



 

Auteur: Internet

Info: https://www.quantamagazine.org - Leïla Sloman, 24 juillet 2023

[ évolution ]

 

Commentaires: 0

Ajouté à la BD par miguel

homme-machine

Une nouvelle approche du calcul réinvente l'intelligence artificielle

Par l'imprégnation d'énormes vecteurs de sens sémantique, nous pouvons amener les machines à raisonner de manière plus abstraite et plus efficace qu'auparavant.

M
algré le succès retentissant de ChatGPT et d'autres grands modèles de langage, les réseaux de neurones artificiels (ANN) qui sous-tendent ces systèmes pourraient être sur la mauvaise voie.

D'une part, les ANN sont "super gourmands en énergie", a déclaré Cornelia Fermüller , informaticienne à l'Université du Maryland. "Et l'autre problème est [leur] manque de transparence." De tels systèmes sont si compliqués que personne ne comprend vraiment ce qu'ils font, ou pourquoi ils fonctionnent si bien. Ceci, à son tour, rend presque impossible de les amener à raisonner par analogie, ce que font les humains - en utilisant des symboles pour les objets, les idées et les relations entre eux.

Ces lacunes proviennent probablement de la structure actuelle des RNA et de leurs éléments constitutifs : les neurones artificiels individuels. Chaque neurone reçoit des entrées, effectue des calculs et produit des sorties. Les RNA modernes sont des réseaux élaborés de ces unités de calcul, formés pour effectuer des tâches spécifiques.

Pourtant, les limites des RNA sont évidentes depuis longtemps. Considérez, par exemple, un ANN qui sépare les cercles et les carrés. Une façon de le faire est d'avoir deux neurones dans sa couche de sortie, un qui indique un cercle et un qui indique un carré. Si vous voulez que votre ANN discerne également la couleur de la forme - bleu ou rouge - vous aurez besoin de quatre neurones de sortie : un pour le cercle bleu, le carré bleu, le cercle rouge et le carré rouge. Plus de fonctionnalités signifie encore plus de neurones.

Cela ne peut pas être la façon dont notre cerveau perçoit le monde naturel, avec toutes ses variations. "Vous devez proposer que, eh bien, vous avez un neurone pour toutes les combinaisons", a déclaré Bruno Olshausen , neuroscientifique à l'Université de Californie à Berkeley. "Donc, vous auriez dans votre cerveau, [disons,] un détecteur Volkswagen violet."

Au lieu de cela, Olshausen et d'autres soutiennent que l'information dans le cerveau est représentée par l'activité de nombreux neurones. Ainsi, la perception d'une Volkswagen violette n'est pas codée comme les actions d'un seul neurone, mais comme celles de milliers de neurones. Le même ensemble de neurones, tirant différemment, pourrait représenter un concept entièrement différent (une Cadillac rose, peut-être).

C'est le point de départ d'une approche radicalement différente de l'informatique connue sous le nom d'informatique hyperdimensionnelle. La clé est que chaque élément d'information, comme la notion d'une voiture, ou sa marque, son modèle ou sa couleur, ou tout cela ensemble, est représenté comme une seule entité : un vecteur hyperdimensionnel.

Un vecteur est simplement un tableau ordonné de nombres. Un vecteur 3D, par exemple, comprend trois nombres : les coordonnées x , y et z d'un point dans l'espace 3D. Un vecteur hyperdimensionnel, ou hypervecteur, pourrait être un tableau de 10 000 nombres, par exemple, représentant un point dans un espace à 10 000 dimensions. Ces objets mathématiques et l'algèbre pour les manipuler sont suffisamment flexibles et puissants pour amener l'informatique moderne au-delà de certaines de ses limites actuelles et favoriser une nouvelle approche de l'intelligence artificielle.

"C'est ce qui m'a le plus enthousiasmé, pratiquement de toute ma carrière", a déclaré Olshausen. Pour lui et pour beaucoup d'autres, l'informatique hyperdimensionnelle promet un nouveau monde dans lequel l'informatique est efficace et robuste, et les décisions prises par les machines sont entièrement transparentes.

Entrez dans les espaces de grande dimension

Pour comprendre comment les hypervecteurs rendent le calcul possible, revenons aux images avec des cercles rouges et des carrés bleus. Nous avons d'abord besoin de vecteurs pour représenter les variables SHAPE et COLOR. Ensuite, nous avons également besoin de vecteurs pour les valeurs pouvant être affectées aux variables : CERCLE, CARRÉ, BLEU et ROUGE.

Les vecteurs doivent être distincts. Cette distinction peut être quantifiée par une propriété appelée orthogonalité, ce qui signifie être à angle droit. Dans l'espace 3D, il existe trois vecteurs orthogonaux entre eux : un dans la direction x , un autre dans la direction y et un troisième dans la direction z . Dans un espace à 10 000 dimensions, il existe 10 000 vecteurs mutuellement orthogonaux.

Mais si nous permettons aux vecteurs d'être presque orthogonaux, le nombre de ces vecteurs distincts dans un espace de grande dimension explose. Dans un espace à 10 000 dimensions, il existe des millions de vecteurs presque orthogonaux.

Créons maintenant des vecteurs distincts pour représenter FORME, COULEUR, CERCLE, CARRÉ, BLEU et ROUGE. Parce qu'il y a tellement de vecteurs presque orthogonaux possibles dans un espace de grande dimension, vous pouvez simplement assigner six vecteurs aléatoires pour représenter les six éléments ; ils sont presque garantis d'être presque orthogonaux. "La facilité de créer des vecteurs presque orthogonaux est une raison majeure d'utiliser la représentation hyperdimensionnelle", a écrit Pentti Kanerva , chercheur au Redwood Center for Theoretical Neuroscience de l'Université de Californie à Berkeley, dans un article influent de 2009.

L'article s'appuyait sur des travaux effectués au milieu des années 1990 par Kanerva et Tony Plate, alors étudiant au doctorat avec Geoff Hinton à l'Université de Toronto. Les deux ont développé indépendamment l'algèbre pour manipuler les hypervecteurs et ont fait allusion à son utilité pour le calcul en haute dimension.

Étant donné nos hypervecteurs pour les formes et les couleurs, le système développé par Kanerva et Plate nous montre comment les manipuler à l'aide de certaines opérations mathématiques. Ces actions correspondent à des manières de manipuler symboliquement des concepts.

La première opération est la multiplication. C'est une façon de combiner les idées. Par exemple, multiplier le vecteur FORME par le vecteur CERCLE lie les deux en une représentation de l'idée "LA FORME est CERCLE". Ce nouveau vecteur "lié" est presque orthogonal à la fois à SHAPE et à CIRCLE. Et les composants individuels sont récupérables - une caractéristique importante si vous souhaitez extraire des informations à partir de vecteurs liés. Étant donné un vecteur lié qui représente votre Volkswagen, vous pouvez dissocier et récupérer le vecteur pour sa couleur : VIOLET.

La deuxième opération, l'addition, crée un nouveau vecteur qui représente ce qu'on appelle une superposition de concepts. Par exemple, vous pouvez prendre deux vecteurs liés, "SHAPE is CIRCLE" et "COLOR is RED", et les additionner pour créer un vecteur qui représente une forme circulaire de couleur rouge. Là encore, le vecteur superposé peut être décomposé en ses constituants.

La troisième opération est la permutation ; cela implique de réorganiser les éléments individuels des vecteurs. Par exemple, si vous avez un vecteur tridimensionnel avec des valeurs étiquetées x , y et z , la permutation peut déplacer la valeur de x vers y , y vers z et z vers x. "La permutation vous permet de construire une structure", a déclaré Kanerva. "Ça permet de gérer des séquences, des choses qui se succèdent." Considérons deux événements, représentés par les hypervecteurs A et B. Nous pouvons les superposer en un seul vecteur, mais cela détruirait les informations sur l'ordre des événements. La combinaison de l'addition et de la permutation préserve l'ordre ; les événements peuvent être récupérés dans l'ordre en inversant les opérations.

Ensemble, ces trois opérations se sont avérées suffisantes pour créer une algèbre formelle d'hypervecteurs permettant un raisonnement symbolique. Mais de nombreux chercheurs ont été lents à saisir le potentiel de l'informatique hyperdimensionnelle, y compris Olshausen. "Cela n'a tout simplement pas été pris en compte", a-t-il déclaré.

Exploiter le pouvoir

En 2015, un étudiant d'Olshausen nommé Eric Weiss a démontré un aspect des capacités uniques de l'informatique hyperdimensionnelle. Weiss a compris comment représenter une image complexe comme un seul vecteur hyperdimensionnel contenant des informations sur tous les objets de l'image, y compris leurs propriétés, telles que les couleurs, les positions et les tailles.

"Je suis pratiquement tombé de ma chaise", a déclaré Olshausen. "Tout d'un coup, l'ampoule s'est allumée."

Bientôt, d'autres équipes ont commencé à développer des algorithmes hyperdimensionnels pour reproduire des tâches simples que les réseaux de neurones profonds avaient commencé à effectuer environ deux décennies auparavant, comme la classification d'images.

Considérons un ensemble de données annotées composé d'images de chiffres manuscrits. Un algorithme analyse les caractéristiques de chaque image en utilisant un schéma prédéterminé. Il crée ensuite un hypervecteur pour chaque image. Ensuite, l'algorithme ajoute les hypervecteurs pour toutes les images de zéro pour créer un hypervecteur pour l'idée de zéro. Il fait ensuite la même chose pour tous les chiffres, créant 10 hypervecteurs "de classe", un pour chaque chiffre.

Maintenant, l'algorithme reçoit une image non étiquetée. Il crée un hypervecteur pour cette nouvelle image, puis compare l'hypervecteur aux hypervecteurs de classe stockés. Cette comparaison détermine le chiffre auquel la nouvelle image ressemble le plus.

Pourtant, ce n'est que le début. Les points forts de l'informatique hyperdimensionnelle résident dans la capacité de composer et de décomposer des hypervecteurs pour le raisonnement. La dernière démonstration en date a eu lieu en mars, lorsqu'Abbas Rahimi et ses collègues d'IBM Research à Zurich ont utilisé l'informatique hyperdimensionnelle avec des réseaux de neurones pour résoudre un problème classique de raisonnement visuel abstrait - un défi important pour les RNA typiques, et même certains humains. Connu sous le nom de matrices progressives de Raven, le problème présente des images d'objets géométriques dans, disons, une grille 3 par 3. Une position dans la grille est vide. Le sujet doit choisir, parmi un ensemble d'images candidates, l'image qui correspond le mieux au blanc.

"Nous avons dit:" C'est vraiment ... l'exemple qui tue pour le raisonnement abstrait visuel, allons-y "", a déclaré Rahimi.

Pour résoudre le problème à l'aide de l'informatique hyperdimensionnelle, l'équipe a d'abord créé un dictionnaire d'hypervecteurs pour représenter les objets dans chaque image ; chaque hypervecteur du dictionnaire représente un objet et une combinaison de ses attributs. L'équipe a ensuite formé un réseau de neurones pour examiner une image et générer un hypervecteur bipolaire - un élément peut être +1 ou -1 - aussi proche que possible d'une superposition d'hypervecteurs dans le dictionnaire ; l'hypervecteur généré contient donc des informations sur tous les objets et leurs attributs dans l'image. "Vous guidez le réseau de neurones vers un espace conceptuel significatif", a déclaré Rahimi.

Une fois que le réseau a généré des hypervecteurs pour chacune des images de contexte et pour chaque candidat pour l'emplacement vide, un autre algorithme analyse les hypervecteurs pour créer des distributions de probabilité pour le nombre d'objets dans chaque image, leur taille et d'autres caractéristiques. Ces distributions de probabilité, qui parlent des caractéristiques probables à la fois du contexte et des images candidates, peuvent être transformées en hypervecteurs, permettant l'utilisation de l'algèbre pour prédire l'image candidate la plus susceptible de remplir l'emplacement vacant.

Leur approche était précise à près de 88 % sur un ensemble de problèmes, tandis que les solutions de réseau neuronal uniquement étaient précises à moins de 61 %. L'équipe a également montré que, pour les grilles 3 par 3, leur système était presque 250 fois plus rapide qu'une méthode traditionnelle qui utilise des règles de logique symbolique pour raisonner, car cette méthode doit parcourir un énorme livre de règles pour déterminer la bonne prochaine étape.

Un début prometteur

Non seulement l'informatique hyperdimensionnelle nous donne le pouvoir de résoudre symboliquement des problèmes, mais elle résout également certains problèmes épineux de l'informatique traditionnelle. Les performances des ordinateurs d'aujourd'hui se dégradent rapidement si les erreurs causées, par exemple, par un retournement de bit aléatoire (un 0 devient 1 ou vice versa) ne peuvent pas être corrigées par des mécanismes de correction d'erreurs intégrés. De plus, ces mécanismes de correction d'erreurs peuvent imposer une pénalité sur les performances allant jusqu'à 25 %, a déclaré Xun Jiao , informaticien à l'Université de Villanova.

Le calcul hyperdimensionnel tolère mieux les erreurs, car même si un hypervecteur subit un nombre important de retournements de bits aléatoires, il reste proche du vecteur d'origine. Cela implique que tout raisonnement utilisant ces vecteurs n'est pas significativement impacté face aux erreurs. L'équipe de Jiao a montré que ces systèmes sont au moins 10 fois plus tolérants aux pannes matérielles que les ANN traditionnels, qui sont eux-mêmes des ordres de grandeur plus résistants que les architectures informatiques traditionnelles. "Nous pouvons tirer parti de toute [cette] résilience pour concevoir du matériel efficace", a déclaré Jiao.

Un autre avantage de l'informatique hyperdimensionnelle est la transparence : l'algèbre vous indique clairement pourquoi le système a choisi la réponse qu'il a choisie. Il n'en va pas de même pour les réseaux de neurones traditionnels. Olshausen, Rahimi et d'autres développent des systèmes hybrides dans lesquels les réseaux de neurones cartographient les éléments du monde physique en hypervecteurs, puis l'algèbre hyperdimensionnelle prend le relais. "Des choses comme le raisonnement analogique vous tombent dessus", a déclaré Olshausen. "C'est ce que nous devrions attendre de tout système d'IA. Nous devrions pouvoir le comprendre comme nous comprenons un avion ou un téléviseur.

Tous ces avantages par rapport à l'informatique traditionnelle suggèrent que l'informatique hyperdimensionnelle est bien adaptée à une nouvelle génération de matériel extrêmement robuste et à faible consommation d'énergie. Il est également compatible avec les "systèmes informatiques en mémoire", qui effectuent le calcul sur le même matériel qui stocke les données (contrairement aux ordinateurs von Neumann existants qui transfèrent inefficacement les données entre la mémoire et l'unité centrale de traitement). Certains de ces nouveaux appareils peuvent être analogiques, fonctionnant à très basse tension, ce qui les rend économes en énergie mais également sujets aux bruits aléatoires. Pour l'informatique de von Neumann, ce caractère aléatoire est "le mur que vous ne pouvez pas franchir", a déclaré Olshausen. Mais avec l'informatique hyperdimensionnelle, "vous pouvez simplement percer".

Malgré ces avantages, l'informatique hyperdimensionnelle en est encore à ses balbutiements. "Il y a un vrai potentiel ici", a déclaré Fermüller. Mais elle souligne qu'il doit encore être testé contre des problèmes du monde réel et à des échelles plus grandes, plus proches de la taille des réseaux de neurones modernes.

"Pour les problèmes à grande échelle, cela nécessite un matériel très efficace", a déclaré Rahimi. "Par exemple, comment [faites-vous] une recherche efficace sur plus d'un milliard d'articles ?"

Tout cela devrait venir avec le temps, a déclaré Kanerva. "Il y a d'autres secrets [que] les espaces de grande dimension détiennent", a-t-il déclaré. "Je vois cela comme le tout début du temps pour le calcul avec des vecteurs."

Auteur: Ananthaswamy Anil

Info: https://www.quantamagazine.org/ Mais 2023

[ machine learning ]

 

Commentaires: 0

Ajouté à la BD par miguel

homme-machine

Les grands modèles de langage tels que ChatGPT sont aujourd'hui suffisamment importants pour commencer à afficher des comportements surprenants et imprévisibles.

Quel film ces emojis décrivent-ils ? (On voit une vidéo qui présente des myriades d'émoji formant des motifs mouvants, modélisés à partir de métadonnées)

Cette question était l'une des 204 tâches choisies l'année dernière pour tester la capacité de divers grands modèles de langage (LLM) - les moteurs de calcul derrière les chatbots d'IA tels que ChatGPT. Les LLM les plus simples ont produit des réponses surréalistes. "Le film est un film sur un homme qui est un homme qui est un homme", commençait l'un d'entre eux. Les modèles de complexité moyenne s'en sont approchés, devinant The Emoji Movie. Mais le modèle le plus complexe l'a emporté en une seule réponse : Finding Nemo.

"Bien que j'essaie de m'attendre à des surprises, je suis surpris par ce que ces modèles peuvent faire", a déclaré Ethan Dyer, informaticien chez Google Research, qui a participé à l'organisation du test. C'est surprenant parce que ces modèles sont censés n'avoir qu'une seule directive : accepter une chaîne de texte en entrée et prédire ce qui va suivre, encore et encore, en se basant uniquement sur des statistiques. Les informaticiens s'attendaient à ce que le passage à l'échelle permette d'améliorer les performances sur des tâches connues, mais ils ne s'attendaient pas à ce que les modèles puissent soudainement gérer autant de tâches nouvelles et imprévisibles.

Des études récentes, comme celle à laquelle a participé M. Dyer, ont révélé que les LLM peuvent produire des centaines de capacités "émergentes", c'est-à-dire des tâches que les grands modèles peuvent accomplir et que les petits modèles ne peuvent pas réaliser, et dont beaucoup ne semblent pas avoir grand-chose à voir avec l'analyse d'un texte. Ces tâches vont de la multiplication à la génération d'un code informatique exécutable et, apparemment, au décodage de films à partir d'emojis. De nouvelles analyses suggèrent que pour certaines tâches et certains modèles, il existe un seuil de complexité au-delà duquel la fonctionnalité du modèle monte en flèche. (Elles suggèrent également un sombre revers de la médaille : À mesure qu'ils gagnent en complexité, certains modèles révèlent de nouveaux biais et inexactitudes dans leurs réponses).

"Le fait que les modèles de langage puissent faire ce genre de choses n'a jamais été abordé dans la littérature à ma connaissance", a déclaré Rishi Bommasani, informaticien à l'université de Stanford. L'année dernière, il a participé à la compilation d'une liste de dizaines de comportements émergents, dont plusieurs ont été identifiés dans le cadre du projet de M. Dyer. Cette liste continue de s'allonger.

Aujourd'hui, les chercheurs s'efforcent non seulement d'identifier d'autres capacités émergentes, mais aussi de comprendre pourquoi et comment elles se manifestent - en somme, d'essayer de prédire l'imprévisibilité. La compréhension de l'émergence pourrait apporter des réponses à des questions profondes concernant l'IA et l'apprentissage automatique en général, comme celle de savoir si les modèles complexes font vraiment quelque chose de nouveau ou s'ils deviennent simplement très bons en statistiques. Elle pourrait également aider les chercheurs à exploiter les avantages potentiels et à limiter les risques liés à l'émergence.

"Nous ne savons pas comment déterminer dans quel type d'application la capacité de nuisance va se manifester, que ce soit en douceur ou de manière imprévisible", a déclaré Deep Ganguli, informaticien à la startup d'IA Anthropic.

L'émergence de l'émergence

Les biologistes, les physiciens, les écologistes et d'autres scientifiques utilisent le terme "émergent" pour décrire l'auto-organisation, les comportements collectifs qui apparaissent lorsqu'un grand nombre d'éléments agissent comme un seul. Des combinaisons d'atomes sans vie donnent naissance à des cellules vivantes ; les molécules d'eau créent des vagues ; des murmurations d'étourneaux s'élancent dans le ciel selon des schémas changeants mais identifiables ; les cellules font bouger les muscles et battre les cœurs. Il est essentiel que les capacités émergentes se manifestent dans les systèmes qui comportent de nombreuses parties individuelles. Mais ce n'est que récemment que les chercheurs ont été en mesure de documenter ces capacités dans les LLM, car ces modèles ont atteint des tailles énormes.

Les modèles de langage existent depuis des décennies. Jusqu'à il y a environ cinq ans, les plus puissants étaient basés sur ce que l'on appelle un réseau neuronal récurrent. Ceux-ci prennent essentiellement une chaîne de texte et prédisent le mot suivant. Ce qui rend un modèle "récurrent", c'est qu'il apprend à partir de ses propres résultats : Ses prédictions sont réinjectées dans le réseau afin d'améliorer les performances futures.

En 2017, les chercheurs de Google Brain ont introduit un nouveau type d'architecture appelé "transformateur". Alors qu'un réseau récurrent analyse une phrase mot par mot, le transformateur traite tous les mots en même temps. Cela signifie que les transformateurs peuvent traiter de grandes quantités de texte en parallèle. 

Les transformateurs ont permis d'augmenter rapidement la complexité des modèles de langage en augmentant le nombre de paramètres dans le modèle, ainsi que d'autres facteurs. Les paramètres peuvent être considérés comme des connexions entre les mots, et les modèles s'améliorent en ajustant ces connexions au fur et à mesure qu'ils parcourent le texte pendant l'entraînement. Plus il y a de paramètres dans un modèle, plus il peut établir des connexions avec précision et plus il se rapproche d'une imitation satisfaisante du langage humain. Comme prévu, une analyse réalisée en 2020 par les chercheurs de l'OpenAI a montré que les modèles gagnent en précision et en capacité au fur et à mesure qu'ils s'étendent.

Mais les débuts des LLM ont également apporté quelque chose de vraiment inattendu. Beaucoup de choses. Avec l'avènement de modèles tels que le GPT-3, qui compte 175 milliards de paramètres, ou le PaLM de Google, qui peut être étendu à 540 milliards de paramètres, les utilisateurs ont commencé à décrire de plus en plus de comportements émergents. Un ingénieur de DeepMind a même rapporté avoir pu convaincre ChatGPT qu'il s'était lui-même un terminal Linux et l'avoir amené à exécuter un code mathématique simple pour calculer les 10 premiers nombres premiers. Fait remarquable, il a pu terminer la tâche plus rapidement que le même code exécuté sur une vraie machine Linux.

Comme dans le cas du film emoji, les chercheurs n'avaient aucune raison de penser qu'un modèle de langage conçu pour prédire du texte imiterait de manière convaincante un terminal d'ordinateur. Nombre de ces comportements émergents illustrent l'apprentissage "à zéro coup" ou "à quelques coups", qui décrit la capacité d'un LLM à résoudre des problèmes qu'il n'a jamais - ou rarement - vus auparavant. Selon M. Ganguli, il s'agit là d'un objectif de longue date dans la recherche sur l'intelligence artificielle. Le fait de montrer que le GPT-3 pouvait résoudre des problèmes sans aucune donnée d'entraînement explicite dans un contexte d'apprentissage à zéro coup m'a amené à abandonner ce que je faisais et à m'impliquer davantage", a-t-il déclaré.

Il n'était pas le seul. Une série de chercheurs, qui ont détecté les premiers indices montrant que les LLM pouvaient dépasser les contraintes de leurs données d'apprentissage, s'efforcent de mieux comprendre à quoi ressemble l'émergence et comment elle se produit. La première étape a consisté à documenter minutieusement l'émergence.

Au-delà de l'imitation

En 2020, M. Dyer et d'autres chercheurs de Google Research ont prédit que les LLM auraient des effets transformateurs, mais la nature de ces effets restait une question ouverte. Ils ont donc demandé à la communauté des chercheurs de fournir des exemples de tâches difficiles et variées afin de déterminer les limites extrêmes de ce qu'un LLM pourrait faire. Cet effort a été baptisé "Beyond the Imitation Game Benchmark" (BIG-bench), en référence au nom du "jeu d'imitation" d'Alan Turing, un test visant à déterminer si un ordinateur peut répondre à des questions d'une manière humaine convaincante. (Le groupe s'est particulièrement intéressé aux exemples où les LLM ont soudainement acquis de nouvelles capacités qui étaient totalement absentes auparavant.

"La façon dont nous comprenons ces transitions brutales est une grande question de la echerche", a déclaré M. Dyer.

Comme on pouvait s'y attendre, pour certaines tâches, les performances d'un modèle se sont améliorées de manière régulière et prévisible au fur et à mesure que la complexité augmentait. Pour d'autres tâches, l'augmentation du nombre de paramètres n'a apporté aucune amélioration. Mais pour environ 5 % des tâches, les chercheurs ont constaté ce qu'ils ont appelé des "percées", c'est-à-dire des augmentations rapides et spectaculaires des performances à partir d'un certain seuil d'échelle. Ce seuil variant en fonction de la tâche et du modèle.

Par exemple, les modèles comportant relativement peu de paramètres - quelques millions seulement - n'ont pas réussi à résoudre des problèmes d'addition à trois chiffres ou de multiplication à deux chiffres, mais pour des dizaines de milliards de paramètres, la précision a grimpé en flèche dans certains modèles. Des sauts similaires ont été observés pour d'autres tâches, notamment le décodage de l'alphabet phonétique international, le décodage des lettres d'un mot, l'identification de contenu offensant dans des paragraphes d'hinglish (combinaison d'hindi et d'anglais) et la formulation d'équivalents en langue anglaise, traduit à partir de proverbes kiswahili.

Introduction

Mais les chercheurs se sont rapidement rendu compte que la complexité d'un modèle n'était pas le seul facteur déterminant. Des capacités inattendues pouvaient être obtenues à partir de modèles plus petits avec moins de paramètres - ou formés sur des ensembles de données plus petits - si les données étaient d'une qualité suffisamment élevée. En outre, la formulation d'une requête influe sur la précision de la réponse du modèle. Par exemple, lorsque Dyer et ses collègues ont posé la question de l'emoji de film en utilisant un format à choix multiples, l'amélioration de la précision a été moins soudaine qu'avec une augmentation graduelle de sa complexité. L'année dernière, dans un article présenté à NeurIPS, réunion phare du domaine, des chercheurs de Google Brain ont montré comment un modèle invité à s'expliquer (capacité appelée raisonnement en chaîne) pouvait résoudre correctement un problème de mots mathématiques, alors que le même modèle sans cette invitation progressivement précisée n'y parvenait pas.

 Yi Tay, scientifique chez Google Brain qui a travaillé sur l'étude systématique de ces percées, souligne que des travaux récents suggèrent que l'incitation par de pareilles chaînes de pensées modifie les courbes d'échelle et, par conséquent, le point où l'émergence se produit. Dans leur article sur NeurIPS, les chercheurs de Google ont montré que l'utilisation d'invites via pareille chaines de pensée progressives pouvait susciter des comportements émergents qui n'avaient pas été identifiés dans l'étude BIG-bench. De telles invites, qui demandent au modèle d'expliquer son raisonnement, peuvent aider les chercheurs à commencer à étudier les raisons pour lesquelles l'émergence se produit.

Selon Ellie Pavlick, informaticienne à l'université Brown qui étudie les modèles computationnels du langage, les découvertes récentes de ce type suggèrent au moins deux possibilités pour expliquer l'émergence. La première est que, comme le suggèrent les comparaisons avec les systèmes biologiques, les grands modèles acquièrent réellement de nouvelles capacités de manière spontanée. "Il se peut très bien que le modèle apprenne quelque chose de fondamentalement nouveau et différent que lorsqu'il était de taille inférieure", a-t-elle déclaré. "C'est ce que nous espérons tous, qu'il y ait un changement fondamental qui se produise lorsque les modèles sont mis à l'échelle.

L'autre possibilité, moins sensationnelle, est que ce qui semble être émergent pourrait être l'aboutissement d'un processus interne, basé sur les statistiques, qui fonctionne par le biais d'un raisonnement de type chaîne de pensée. Les grands LLM peuvent simplement être en train d'apprendre des heuristiques qui sont hors de portée pour ceux qui ont moins de paramètres ou des données de moindre qualité.

Mais, selon elle, pour déterminer laquelle de ces explications est la plus probable, il faut mieux comprendre le fonctionnement des LLM. "Comme nous ne savons pas comment ils fonctionnent sous le capot, nous ne pouvons pas dire laquelle de ces choses se produit.

Pouvoirs imprévisibles et pièges

Demander à ces modèles de s'expliquer pose un problème évident : Ils sont des menteurs notoires. Nous nous appuyons de plus en plus sur ces modèles pour effectuer des travaux de base", a déclaré M. Ganguli, "mais je ne me contente pas de leur faire confiance, je vérifie leur travail". Parmi les nombreux exemples amusants, Google a présenté en février son chatbot d'IA, Bard. Le billet de blog annonçant le nouvel outil montre Bard en train de commettre une erreur factuelle.

L'émergence mène à l'imprévisibilité, et l'imprévisibilité - qui semble augmenter avec l'échelle - rend difficile pour les chercheurs d'anticiper les conséquences d'une utilisation généralisée.

"Il est difficile de savoir à l'avance comment ces modèles seront utilisés ou déployés", a déclaré M. Ganguli. "Et pour étudier les phénomènes émergents, il faut avoir un cas en tête, et on ne sait pas, avant d'avoir étudié l'influence de l'échelle. quelles capacités ou limitations pourraient apparaître.

Dans une analyse des LLM publiée en juin dernier, les chercheurs d'Anthropic ont cherché à savoir si les modèles présentaient certains types de préjugés raciaux ou sociaux, à l'instar de ceux précédemment signalés dans les algorithmes non basés sur les LLM utilisés pour prédire quels anciens criminels sont susceptibles de commettre un nouveau délit. Cette étude a été inspirée par un paradoxe apparent directement lié à l'émergence : Lorsque les modèles améliorent leurs performances en passant à l'échelle supérieure, ils peuvent également augmenter la probabilité de phénomènes imprévisibles, y compris ceux qui pourraient potentiellement conduire à des biais ou à des préjudices.

"Certains comportements nuisibles apparaissent brusquement dans certains modèles", explique M. Ganguli. Il se réfère à une analyse récente des LLM, connue sous le nom de BBQ benchmark, qui a montré que les préjugés sociaux émergent avec un très grand nombre de paramètres. "Les grands modèles deviennent brusquement plus biaisés. Si ce risque n'est pas pris en compte, il pourrait compromettre les sujets de ces modèles."

Mais il propose un contrepoint : Lorsque les chercheurs demandent simplement au modèle de ne pas se fier aux stéréotypes ou aux préjugés sociaux - littéralement en tapant ces instructions - le modèle devient moins biaisé dans ses prédictions et ses réponses. Ce qui suggère que certaines propriétés émergentes pourraient également être utilisées pour réduire les biais. Dans un article publié en février, l'équipe d'Anthropic a présenté un nouveau mode d'"autocorrection morale", dans lequel l'utilisateur incite le programme à être utile, honnête et inoffensif.

Selon M. Ganguli, l'émergence révèle à la fois un potentiel surprenant et un risque imprévisible. Les applications de ces grands LLM prolifèrent déjà, de sorte qu'une meilleure compréhension de cette interaction permettra d'exploiter la diversité des capacités des modèles de langage.

"Nous étudions la manière dont les gens utilisent réellement ces systèmes", a déclaré M. Ganguli. Mais ces utilisateurs sont également en train de bricoler, en permanence. "Nous passons beaucoup de temps à discuter avec nos modèles, et c'est là que nous commençons à avoir une bonne intuition de la confiance ou du manque de confiance.

Auteur: Ornes Stephen

Info: https://www.quantamagazine.org/ - 16 mars 2023. Trad DeepL et MG

[ dialogue ] [ apprentissage automatique ] [ au-delà du jeu d'imitation ] [ dualité ]

 

Commentaires: 0

Ajouté à la BD par miguel

symphonie des équations

Des " murmurations " de courbe elliptique découvertes grâce à l'IA prennent leur envol

Les mathématiciens s’efforcent d’expliquer pleinement les comportements inhabituels découverts grâce à l’intelligence artificielle.

(photo - sous le bon angle les courbes elliptiques peuvent se rassembler comme les grands essaims d'oiseaux.)

Les courbes elliptiques font partie des objets les plus séduisants des mathématiques modernes. Elle ne semblent pas compliqués, mais  forment une voie express entre les mathématiques que beaucoup de gens apprennent au lycée et les mathématiques de recherche dans leur forme la plus abstruse. Elles étaient au cœur de la célèbre preuve du dernier théorème de Fermat réalisée par Andrew Wiles dans les années 1990. Ce sont des outils clés de la cryptographie moderne. Et en 2000, le Clay Mathematics Institute a désigné une conjecture sur les statistiques des courbes elliptiques comme l'un des sept " problèmes du prix du millénaire ", chacun d'entre eux étant récompensé d'un million de dollars pour sa solution. Cette hypothèse, formulée pour la première fois par Bryan Birch et Peter Swinnerton-Dyer dans les années 1960, n'a toujours pas été prouvée.

Comprendre les courbes elliptiques est une entreprise aux enjeux élevés qui est au cœur des mathématiques. Ainsi, en 2022, lorsqu’une collaboration transatlantique a utilisé des techniques statistiques et l’intelligence artificielle pour découvrir des modèles complètement inattendus dans les courbes elliptiques, cela a été une contribution bienvenue, bien qu’inattendue. "Ce n'était qu'une question de temps avant que l'apprentissage automatique arrive à notre porte avec quelque chose d'intéressant", a déclaré Peter Sarnak , mathématicien à l'Institute for Advanced Study et à l'Université de Princeton. Au départ, personne ne pouvait expliquer pourquoi les modèles nouvellement découverts existaient. Depuis lors, dans une série d’articles récents, les mathématiciens ont commencé à élucider les raisons derrière ces modèles, surnommés " murmures " en raison de leur ressemblance avec les formes fluides des étourneaux en troupeaux, et ont commencé à prouver qu’ils ne doivent pas se produire uniquement dans des cas particuliers. exemples examinés en 2022, mais dans les courbes elliptiques plus généralement.

L'importance d'être elliptique

Pour comprendre ces modèles, il faut jeter les bases de ce que sont les courbes elliptiques et de la façon dont les mathématiciens les catégorisent.

Une courbe elliptique relie le carré d'une variable, communément écrite comme y , à la troisième puissance d'une autre, communément écrite comme x : 2  =  3  + Ax + B , pour une paire de nombres A et B , tant que A et B remplissent quelques conditions simples. Cette équation définit une courbe qui peut être représentée graphiquement sur le plan, comme indiqué ci-dessous. (Photo : malgré la similitude des noms, une ellipse n'est pas une courbe elliptique.)

Introduction

Bien qu’elles semblent simples, les courbes elliptiques s’avèrent être des outils incroyablement puissants pour les théoriciens des nombres – les mathématiciens qui recherchent des modèles dans les nombres entiers. Au lieu de laisser les variables x et y s'étendre sur tous les nombres, les mathématiciens aiment les limiter à différents systèmes numériques, ce qu'ils appellent définir une courbe " sur " un système numérique donné. Les courbes elliptiques limitées aux nombres rationnels – nombres qui peuvent être écrits sous forme de fractions – sont particulièrement utiles. "Les courbes elliptiques sur les nombres réels ou complexes sont assez ennuyeuses", a déclaré Sarnak. "Seuls les nombres rationnels sont profonds."

Voici une façon qui est vraie. Si vous tracez une ligne droite entre deux points rationnels sur une courbe elliptique, l’endroit où cette ligne coupe à nouveau la courbe sera également rationnel. Vous pouvez utiliser ce fait pour définir " addition " dans une courbe elliptique, comme indiqué ci-dessous. 

(Photo -  Tracez une ligne entre P et Q . Cette ligne coupera la courbe en un troisième point, R . (Les mathématiciens ont une astuce spéciale pour gérer le cas où la ligne ne coupe pas la courbe en ajoutant un " point à l'infini ".) La réflexion de R sur l' axe des x est votre somme P + Q . Avec cette opération d'addition, toutes les solutions de la courbe forment un objet mathématique appelé groupe.)

Les mathématiciens l'utilisent pour définir le " rang " d'une courbe. Le rang d'une courbe est lié au nombre de solutions rationnelles dont elle dispose. Les courbes de rang 0 ont un nombre fini de solutions. Les courbes de rang supérieur ont un nombre infini de solutions dont la relation les unes avec les autres à l'aide de l'opération d'addition est décrite par le rang.

Les classements (rankings) ne sont pas bien compris ; les mathématiciens n'ont pas toujours le moyen de les calculer et ne savent pas quelle taille ils peuvent atteindre. (Le plus grand rang exact connu pour une courbe spécifique est 20.) Des courbes d'apparence similaire peuvent avoir des rangs complètement différents.

Les courbes elliptiques ont aussi beaucoup à voir avec les nombres premiers, qui ne sont divisibles que par 1 et par eux-mêmes. En particulier, les mathématiciens examinent les courbes sur des corps finis – des systèmes d’arithmétique cyclique définis pour chaque nombre premier. Un corps fini est comme une horloge dont le nombre d'heures est égal au nombre premier : si vous continuez à compter vers le haut, les nombres recommencent. Dans le corps fini de 7, par exemple, 5 plus 2 est égal à zéro et 5 plus 3 est égal à 1.

(Photo : Les motifs formés par des milliers de courbes elliptiques présentent une similitude frappante avec les murmures des étourneaux.)

Une courbe elliptique est associée à une séquence de nombres, appelée a p , qui se rapporte au nombre de solutions qu'il existe à la courbe dans le corps fini défini par le nombre premier p . Un p plus petit signifie plus de solutions ; un p plus grand signifie moins de solutions. Bien que le rang soit difficile à calculer, la séquence a p est beaucoup plus simple.

Sur la base de nombreux calculs effectués sur l'un des tout premiers ordinateurs, Birch et Swinnerton-Dyer ont conjecturé une relation entre le rang d'une courbe elliptique et la séquence a p . Quiconque peut prouver qu’il avait raison gagnera un million de dollars et l’immortalité mathématique.

Un modèle surprise émerge

Après le début de la pandémie, Yang-Hui He , chercheur au London Institute for Mathematical Sciences, a décidé de relever de nouveaux défis. Il avait étudié la physique à l'université et avait obtenu son doctorat en physique mathématique du Massachusetts Institute of Technology. Mais il s'intéressait de plus en plus à la théorie des nombres et, étant donné les capacités croissantes de l'intelligence artificielle, il pensait essayer d'utiliser l'IA comme un outil permettant de trouver des modèles inattendus dans les nombres. (Il avait déjà utilisé l'apprentissage automatique pour classifier les variétés de Calabi-Yau , des structures mathématiques largement utilisées en théorie des cordes.

(Photo ) Lorsque Kyu-Hwan Lee (à gauche) et Thomas Oliver (au centre) ont commencé à travailler avec Yang-Hui He (à droite) pour utiliser l'intelligence artificielle afin de trouver des modèles mathématiques, ils s'attendaient à ce que ce soit une plaisanterie plutôt qu'un effort qui mènerait à de nouveaux découvertes. De gauche à droite : Grace Lee ; Sophie Olivier ; gracieuseté de Yang-Hui He.

En août 2020, alors que la pandémie s'aggravait, l'Université de Nottingham l'a accueilli pour une conférence en ligne . Il était pessimiste quant à ses progrès et quant à la possibilité même d’utiliser l’apprentissage automatique pour découvrir de nouvelles mathématiques. "Son récit était que la théorie des nombres était difficile parce qu'on ne pouvait pas apprendre automatiquement des choses en théorie des nombres", a déclaré Thomas Oliver , un mathématicien de l'Université de Westminster, présent dans le public. Comme il se souvient : " Je n'ai rien trouvé parce que je n'étais pas un expert. Je n’utilisais même pas les bons éléments pour examiner cela."

Oliver et Kyu-Hwan Lee , mathématicien à l'Université du Connecticut, ont commencé à travailler avec He. "Nous avons décidé de faire cela simplement pour apprendre ce qu'était l'apprentissage automatique, plutôt que pour étudier sérieusement les mathématiques", a déclaré Oliver. "Mais nous avons rapidement découvert qu'il était possible d'apprendre beaucoup de choses par machine."

Oliver et Lee lui ont suggéré d'appliquer ses techniques pour examiner les fonctions L , des séries infinies étroitement liées aux courbes elliptiques à travers la séquence a p . Ils pourraient utiliser une base de données en ligne de courbes elliptiques et de leurs fonctions L associées , appelée LMFDB , pour former leurs classificateurs d'apprentissage automatique. À l’époque, la base de données contenait un peu plus de 3 millions de courbes elliptiques sur les rationnels. En octobre 2020, ils avaient publié un article utilisant les informations glanées à partir des fonctions L pour prédire une propriété particulière des courbes elliptiques. En novembre, ils ont partagé un autre article utilisant l’apprentissage automatique pour classer d’autres objets en théorie des nombres. En décembre, ils étaient capables de prédire les rangs des courbes elliptiques avec une grande précision.

Mais ils ne savaient pas vraiment pourquoi leurs algorithmes d’apprentissage automatique fonctionnaient si bien. Lee a demandé à son étudiant de premier cycle Alexey Pozdnyakov de voir s'il pouvait comprendre ce qui se passait. En l’occurrence, la LMFDB trie les courbes elliptiques en fonction d’une quantité appelée conducteur, qui résume les informations sur les nombres premiers pour lesquels une courbe ne se comporte pas correctement. Pozdnyakov a donc essayé d’examiner simultanément un grand nombre de courbes comportant des conducteurs similaires – disons toutes les courbes comportant entre 7 500 et 10 000 conducteurs.

Cela représente environ 10 000 courbes au total. Environ la moitié d'entre eux avaient le rang 0 et l'autre moitié le rang 1. (Les rangs supérieurs sont extrêmement rares.) Il a ensuite fait la moyenne des valeurs de a p pour toutes les courbes de rang 0, a fait la moyenne séparément de a p pour toutes les courbes de rang 1 et a tracé la résultats. Les deux ensembles de points formaient deux vagues distinctes et facilement discernables. C’est pourquoi les classificateurs d’apprentissage automatique ont été capables de déterminer correctement le rang de courbes particulières.

" Au début, j'étais simplement heureux d'avoir terminé ma mission", a déclaré Pozdnyakov. "Mais Kyu-Hwan a immédiatement reconnu que ce schéma était surprenant, et c'est à ce moment-là qu'il est devenu vraiment excitant."

Lee et Oliver étaient captivés. "Alexey nous a montré la photo et j'ai dit qu'elle ressemblait à ce que font les oiseaux", a déclaré Oliver. "Et puis Kyu-Hwan l'a recherché et a dit que cela s'appelait une murmuration, puis Yang a dit que nous devrions appeler le journal ' Murmurations de courbes elliptiques '."

Ils ont mis en ligne leur article en avril 2022 et l’ont transmis à une poignée d’autres mathématiciens, s’attendant nerveusement à se faire dire que leur soi-disant « découverte » était bien connue. Oliver a déclaré que la relation était si visible qu'elle aurait dû être remarquée depuis longtemps.

Presque immédiatement, la prépublication a suscité l'intérêt, en particulier de la part d' Andrew Sutherland , chercheur scientifique au MIT et l'un des rédacteurs en chef de la LMFDB. Sutherland s'est rendu compte que 3 millions de courbes elliptiques n'étaient pas suffisantes pour atteindre ses objectifs. Il voulait examiner des gammes de conducteurs beaucoup plus larges pour voir à quel point les murmures étaient robustes. Il a extrait des données d’un autre immense référentiel d’environ 150 millions de courbes elliptiques. Toujours insatisfait, il a ensuite extrait les données d'un autre référentiel contenant 300 millions de courbes.

"Mais même cela ne suffisait pas, j'ai donc calculé un nouvel ensemble de données de plus d'un milliard de courbes elliptiques, et c'est ce que j'ai utilisé pour calculer les images à très haute résolution", a déclaré Sutherland. Les murmures indiquaient s'il effectuait en moyenne plus de 15 000 courbes elliptiques à la fois ou un million à la fois. La forme est restée la même alors qu’il observait les courbes sur des nombres premiers de plus en plus grands, un phénomène appelé invariance d’échelle. Sutherland s'est également rendu compte que les murmures ne sont pas propres aux courbes elliptiques, mais apparaissent également dans des fonctions L plus générales . Il a écrit une lettre résumant ses découvertes et l'a envoyée à Sarnak et Michael Rubinstein de l'Université de Waterloo.

"S'il existe une explication connue, j'espère que vous la connaîtrez", a écrit Sutherland.

Ils ne l'ont pas fait.

Expliquer le modèle

Lee, He et Oliver ont organisé un atelier sur les murmurations en août 2023 à l'Institut de recherche informatique et expérimentale en mathématiques (ICERM) de l'Université Brown. Sarnak et Rubinstein sont venus, tout comme l'étudiante de Sarnak, Nina Zubrilina .

LA THÉORIE DU NOMBRE

Zubrilina a présenté ses recherches sur les modèles de murmuration dans des formes modulaires , des fonctions complexes spéciales qui, comme les courbes elliptiques, sont associées à des fonctions L. Dans les formes modulaires dotées de grands conducteurs, les murmurations convergent vers une courbe nettement définie, plutôt que de former un motif perceptible mais dispersé. Dans un article publié le 11 octobre 2023, Zubrilina a prouvé que ce type de murmuration suit une formule explicite qu'elle a découverte.

" La grande réussite de Nina est qu'elle lui a donné une formule pour cela ; Je l’appelle la formule de densité de murmuration Zubrilina ", a déclaré Sarnak. "En utilisant des mathématiques très sophistiquées, elle a prouvé une formule exacte qui correspond parfaitement aux données."

Sa formule est compliquée, mais Sarnak la salue comme un nouveau type de fonction important, comparable aux fonctions d'Airy qui définissent des solutions aux équations différentielles utilisées dans divers contextes en physique, allant de l'optique à la mécanique quantique.

Bien que la formule de Zubrilina ait été la première, d'autres ont suivi. "Chaque semaine maintenant, un nouvel article sort", a déclaré Sarnak, "utilisant principalement les outils de Zubrilina, expliquant d'autres aspects des murmurations."

(Photo - Nina Zubrilina, qui est sur le point de terminer son doctorat à Princeton, a prouvé une formule qui explique les schémas de murmuration.)

Jonathan Bober , Andrew Booker et Min Lee de l'Université de Bristol, ainsi que David Lowry-Duda de l'ICERM, ont prouvé l'existence d'un type différent de murmuration sous des formes modulaires dans un autre article d'octobre . Et Kyu-Hwan Lee, Oliver et Pozdnyakov ont prouvé l'existence de murmures dans des objets appelés caractères de Dirichlet qui sont étroitement liés aux fonctions L.

Sutherland a été impressionné par la dose considérable de chance qui a conduit à la découverte des murmurations. Si les données de la courbe elliptique n'avaient pas été classées par conducteur, les murmures auraient disparu. "Ils ont eu la chance de récupérer les données de la LMFDB, qui étaient pré-triées selon le chef d'orchestre", a-t-il déclaré. « C'est ce qui relie une courbe elliptique à la forme modulaire correspondante, mais ce n'est pas du tout évident. … Deux courbes dont les équations semblent très similaires peuvent avoir des conducteurs très différents. Par exemple, Sutherland a noté que 2 = 3 – 11 x + 6 a un conducteur 17, mais en retournant le signe moins en signe plus, 2 = 3  + 11 x + 6 a un conducteur 100 736.

Même alors, les murmures n'ont été découverts qu'en raison de l'inexpérience de Pozdniakov. "Je ne pense pas que nous l'aurions trouvé sans lui", a déclaré Oliver, "parce que les experts normalisent traditionnellement a p pour avoir une valeur absolue de 1. Mais il ne les a pas normalisés… donc les oscillations étaient très importantes et visibles."

Les modèles statistiques que les algorithmes d’IA utilisent pour trier les courbes elliptiques par rang existent dans un espace de paramètres comportant des centaines de dimensions – trop nombreuses pour que les gens puissent les trier dans leur esprit, et encore moins les visualiser, a noté Oliver. Mais même si l’apprentissage automatique a découvert les oscillations cachées, " ce n’est que plus tard que nous avons compris qu’il s’agissait de murmures ".



 

Auteur: Internet

Info: Paul Chaikin pour Quanta Magazine, 5 mars 2024 - https://www.quantamagazine.org/elliptic-curve-murmurations-found-with-ai-take-flight-20240305/?mc_cid=797b7d1aad&mc_eid=78bedba296

[ résonance des algorithmes ] [ statistiques en mouvement ] [ chants des fractales ] [ bancs de poissons ]

 

Commentaires: 0

Ajouté à la BD par miguel

univers protonique

Forces tourbillonnantes et pressions d’écrasement mesurées dans le proton

Des expériences très attendues qui utilisent la lumière pour imiter la gravité révèlent pour la première fois la répartition des énergies, des forces et des pressions à l’intérieur d’une particule subatomique.

(Image : Les forces poussent dans un sens près du centre du proton et dans l’autre sens près de sa surface.)

Les physiciens ont commencé à explorer le proton comme s’il s’agissait d’une planète subatomique. Les cartes en coupe affichent de nouveaux détails de l'intérieur de la particule. Le noyau du proton présente des pressions plus intenses que dans toute autre forme connue de matière. À mi-chemin de la surface, des tourbillons de force s’affrontent les uns contre les autres. Et la " planète " dans son ensemble est plus petite que ne le suggéraient les expériences précédentes.

Les recherches expérimentales marquent la prochaine étape dans la quête visant à comprendre la particule qui ancre chaque atome et constitue la majeure partie de notre monde.

"Nous y voyons vraiment l'ouverture d'une direction complètement nouvelle qui changera notre façon de considérer la structure fondamentale de la matière", a déclaré Latifa Elouadrhiri , physicienne au Thomas Jefferson National Accelerator Facility à Newport News, en Virginie, qui participe à l'effort.

Les expériences jettent littéralement un nouvel éclairage sur le proton. Au fil des décennies, les chercheurs ont méticuleusement cartographié l’influence électromagnétique de la particule chargée positivement. Mais dans la nouvelle recherche, les physiciens du Jefferson Lab cartographient plutôt l'influence gravitationnelle du proton, à savoir la répartition des énergies, des pressions et des contraintes de cisaillement, qui courbent le tissu espace-temps dans et autour de la particule. Pour ce faire, les chercheurs exploitent une manière particulière par laquelle des paires de photons, des particules de lumière, peuvent imiter un graviton, la particule supposée qui transmet la force de gravité. En envoyant un ping au proton avec des photons, ils déduisent indirectement comment la gravité interagirait avec lui, réalisant ainsi un rêve vieux de plusieurs décennies consistant à interroger le proton de cette manière alternative.

"C'est un tour de force", a déclaré Cédric Lorcé , physicien à l'Ecole Polytechnique en France, qui n'a pas participé aux travaux. "Expérimentalement, c'est extrêmement compliqué." 

Des photons aux gravitons


Les physiciens ont appris énormément sur le proton au cours des 70 dernières années en le frappant à plusieurs reprises avec des électrons. Ils savent que sa charge électrique s’étend sur environ 0,8 femtomètre, ou quadrillionièmes de mètre, à partir de son centre. Ils savent que les électrons entrants ont tendance à être projetés sur l’un des trois quarks – des particules élémentaires avec des fractions de charge – qui bourdonnent à l’intérieur. Ils ont également observé la conséquence profondément étrange de la théorie quantique où, lors de collisions plus violentes, les électrons semblent rencontrer une mer mousseuse composée de bien plus de quarks ainsi que de gluons, porteurs de la force dite forte, qui colle les quarks ensemble.

Toutes ces informations proviennent d’une seule configuration : vous lancez un électron sur un proton, et les particules échangent un seul photon – le porteur de la force électromagnétique – et se repoussent. Cette interaction électromagnétique indique aux physiciens comment les quarks, en tant qu'objets chargés, ont tendance à s'organiser. Mais le proton a bien plus à offrir que sa charge électrique.

(Photo : Latifa Elouadrhiri, scientifique principale du laboratoire Jefferson, a dirigé la collecte de données à partir desquelles elle et ses collaborateurs calculent désormais les propriétés mécaniques du proton.) 

" Comment la matière et l'énergie sont-elles distribuées ? " a demandé Peter Schweitzer , physicien théoricien à l'Université du Connecticut. "Nous ne savons pas."

Schweitzer a passé la majeure partie de sa carrière à réfléchir au côté gravitationnel du proton. Plus précisément, il s'intéresse à une matrice de propriétés du proton appelée tenseur énergie-impulsion. " Le tenseur énergie-impulsion sait tout ce qu'il y a à savoir sur la particule ", a-t-il déclaré.

Dans la théorie de la relativité générale d'Albert Einstein, qui présente l'attraction gravitationnelle comme des objets suivant des courbes dans l'espace-temps, le tenseur énergie-impulsion indique à l'espace-temps comment se plier. Elle décrit, par exemple, la disposition de l'énergie (ou, de manière équivalente, de la masse) – la source de ce qui est la part du lion de la torsion de l'espace-temps. Elle permet également d'obtenir des informations sur la répartition de la dynamique, ainsi que sur les zones de compression ou d'expansion, ce qui peut également donner une légère courbure à l'espace-temps.

Si nous pouvions connaître la forme de l'espace-temps entourant un proton, élaborée indépendamment par des physiciens russes et   américains dans les années 1960, nous pourrions en déduire toutes les propriétés indexées dans son tenseur énergie-impulsion. Celles-ci incluent la masse et le spin du proton, qui sont déjà connus, ainsi que l'agencement des pressions et des forces du proton, une propriété collective que les physiciens nomment " Druck term ", d'après le mot " pression"  en allemand. Ce terme est " aussi important que la masse et la rotation, et personne ne sait ce que c'est ", a déclaré Schweitzer – même si cela commence à changer.

Dans les années 60, il semblait que la mesure du tenseur énergie-momentum et le calcul du terme de Druck nécessiteraient une version gravitationnelle de l'expérience de diffusion habituelle : On envoie une particule massive sur un proton et on laisse les deux s'échanger un graviton - la particule hypothétique qui constitue les ondes gravitationnelles - plutôt qu'un photon. Mais en raison de l'extrême subtilité de la gravité, les physiciens s'attendent à ce que la diffusion de gravitons se produise 39 fois plus rarement que la diffusion de photons. Les expériences ne peuvent pas détecter un effet aussi faible.

"Je me souviens avoir lu quelque chose à ce sujet quand j'étais étudiant", a déclaré Volker Burkert , membre de l'équipe du Jefferson Lab. Ce qu’il faut retenir, c’est que " nous ne pourrons probablement jamais rien apprendre sur les propriétés mécaniques des particules ".Gravitation sans gravité

Les expériences gravitationnelles sont encore inimaginables aujourd’hui. Mais les recherches menées en fin des années 1990 et au début des années 2000 par les physiciens Xiangdong Ji et, travaillant séparément, feu Maxim Polyakov, ont révélé une solution de contournement.

Le schéma général est le suivant. Lorsque vous tirez légèrement un électron sur un proton, il délivre généralement un photon à l'un des quarks et le détourne. Mais lors d’un événement sur un milliard, quelque chose de spécial se produit. L’électron entrant envoie un photon. Un quark l'absorbe puis émet un autre photon un battement de cœur plus tard. La principale différence est que cet événement rare implique deux photons au lieu d’un : des photons entrants et sortants. Les calculs de Ji et Polyakov ont montré que si les expérimentateurs pouvaient collecter les électrons, protons et photons résultants, ils pourraient déduire des énergies et des impulsions de ces particules ce qui s'est passé avec les deux photons. Et cette expérience à deux photons serait essentiellement aussi informative que l’impossible expérience de diffusion de gravitons.

Comment deux photons pourraient-ils connaître la gravité ? La réponse fait appel à des mathématiques très complexes. Mais les physiciens proposent deux façons de comprendre pourquoi cette astuce fonctionne.

Les photons sont des ondulations dans le champ électromagnétique, qui peuvent être décrites par une seule flèche, ou vecteur, à chaque emplacement de l'espace indiquant la valeur et la direction du champ. Les gravitons seraient des ondulations dans la géométrie de l’espace-temps, un domaine plus complexe représenté par une combinaison de deux vecteurs en chaque point. Capturer un graviton donnerait aux physiciens deux vecteurs d’informations. En dehors de cela, deux photons peuvent remplacer un graviton, puisqu’ils transportent également collectivement deux vecteurs d’information.

Une interprétation mathématiques alternative est celle-ci. Pendant le moment qui s'écoule entre le moment où un quark absorbe le premier photon et celui où il émet le second, le quark suit un chemin à travers l'espace. En sondant ce chemin, nous pouvons en apprendre davantage sur des propriétés telles que les pressions et les forces qui entourent le chemin.

"Nous ne faisons pas d'expérience gravitationnelle", a déclaré Lorcé. Mais " nous devrions obtenir un accès indirect à la manière dont un proton devrait interagir avec un graviton ". 

Sonder la planète Proton
En 2000, les physiciens du Jefferson Lab ont réussi à obtenir quelques résultats de diffusion à deux photons. Cette démonstration de faisabilité les a incités à construire une nouvelle expérience et, en 2007, ils ont fait entrer des électrons dans des protons suffisamment de fois pour obtenir environ 500 000 collisions imitant les gravitons. L'analyse des données expérimentales a pris une décennie de plus.

À partir de leur index des propriétés de flexion de l’espace-temps, l’équipe a extrait le terme insaisissable de Druck, publiant son estimation des pressions internes du proton dans Nature en 2018.

Ils ont découvert qu’au cœur du proton, la force puissante génère des pressions d’une intensité inimaginable : 100 milliards de milliards de milliards de pascals, soit environ 10 fois la pression au cœur d’une étoile à neutrons. Plus loin du centre, la pression chute et finit par se retourner vers l'intérieur, comme c'est nécessaire pour que le proton ne se brise pas. "Voilà qui résulte de l'expérience", a déclaré Burkert. "Oui, un proton est réellement stable." (Cette découverte n’a cependant aucune incidence sur la désintégration des protons , ce qui implique un type d’instabilité différent prédit par certaines théories spéculatives.)

Le groupe Jefferson Lab a continué à analyser le terme Druck. Ils ont publié une estimation des forces de cisaillement (forces internes poussant parallèlement à la surface du proton) dans le cadre d'une étude publiée en décembre. Les physiciens ont montré que près de son noyau, le proton subit une force de torsion qui est neutralisée par une torsion dans l’autre sens plus près de la surface. Ces mesures soulignent également la stabilité de la particule. Les rebondissements étaient attendus sur la base des travaux théoriques de Schweitzer et Polyakov. "Néanmoins, le voir émerger de l'expérience pour la première fois est vraiment stupéfiant", a déclaré Elouadrhiri.

Ils utilisent désormais ces outils pour calculer la taille du proton d'une nouvelle manière. Dans les expériences de diffusion traditionnelles, les physiciens avaient observé que la charge électrique de la particule s'étendait à environ 0,8 femtomètre de son centre (c'est-à-dire que les quarks qui la composent bourdonnent dans cette région). Mais ce " rayon de charge " présente quelques bizarreries. Dans le cas du neutron, par exemple — l'équivalent neutre du proton, dans lequel deux quarks chargés négativement ont tendance à rester profondément à l'intérieur de la particule tandis qu'un quark chargé positivement passe plus de temps près de la surface — le rayon de charge apparaît comme un nombre négatif.  "Cela ne veut pas dire que la taille est négative ; ce n'est tout simplement pas une mesure fiable ", a déclaré Schweitzer.

La nouvelle approche mesure la région de l’espace-temps considérablement courbée par le proton. Dans une prépublication qui n'a pas encore été évaluée par des pairs, l'équipe du Jefferson Lab a calculé que ce rayon pourrait être environ 25 % plus petit que le rayon de charge, soit seulement 0,6 femtomètre.

Les limites de la planète Proton

D'un point de vue conceptuel, ce type d'analyse adoucit la danse floue des quarks pour en faire un objet solide, semblable à une planète, avec des pressions et des forces agissant sur chaque point de volume. Cette planète gelée ne reflète pas entièrement le proton bouillonnant dans toute sa gloire quantique, mais c'est un modèle utile. "C'est une interprétation", a déclaré M. Schweitzer.

Et les physiciens soulignent que ces cartes initiales sont approximatives, pour plusieurs raisons.

Premièrement, mesurer avec précision le tenseur énergie-impulsion nécessiterait des énergies de collision beaucoup plus élevées que celles que Jefferson Lab peut produire. L’équipe a travaillé dur pour extrapoler soigneusement les tendances à partir des énergies relativement faibles auxquelles elles peuvent accéder, mais les physiciens ne sont toujours pas sûrs de la précision de ces extrapolations.

(Photo : Lorsqu'il était étudiant, Volker Burkert a lu qu'il était impossible de mesurer directement les propriétés gravitationnelles du proton. Aujourd'hui, il participe à une collaboration au laboratoire Jefferson qui est en train de découvrir indirectement ces mêmes propriétés.)

De plus, le proton est plus que ses quarks ; il contient également des gluons, qui se déplacent sous leurs propres pressions et forces. L'astuce à deux photons ne peut pas détecter les effets des gluons. Une autre équipe du Jefferson Lab a utilisé une astuce analogue ( impliquant une interaction double-gluon ) pour publier l'année dernière une carte gravitationnelle préliminaire de ces effets des gluons dans Nature, mais elle était également basée sur des données limitées et à faible énergie.

"C'est une première étape", a déclaré Yoshitaka Hatta, physicien au Brookhaven National Laboratory qui a eu l'idée de commencer à étudier le proton gravitationnel après les travaux du groupe Jefferson Lab en 2018.

Des cartes gravitationnelles plus précises des quarks du proton et de ses gluons pourraient être disponibles dans les années 2030, lorsque le collisionneur électron-ion, une expérience actuellement en construction à Brookhaven, entrera en activité.

Pendant ce temps, les physiciens poursuivent leurs expériences numériques. Phiala Shanahan, physicienne nucléaire et des particules au Massachusetts Institute of Technology, dirige une équipe qui calcule le comportement des quarks et des gluons à partir des équations de la force forte. En 2019, elle et ses collaborateurs ont estimé les pressions et les forces de cisaillement, et en octobre, en ont estimé le rayon, entre autres propriétés. Jusqu'à présent, leurs résultats numériques ont été largement alignés sur les résultats physiques du Jefferson Lab. "Je suis certainement très excitée par la cohérence entre les résultats expérimentaux récents et nos données", a déclaré Mme Shanahan.

Même les aperçus flous du proton obtenus jusqu'à présent ont légèrement remodelé la compréhension des chercheurs sur la particule.

Certaines conséquences sont pratiques. Au CERN, l'organisation européenne qui gère le Grand collisionneur de hadrons, le plus grand broyeur de protons au monde, les physiciens pensaient auparavant que dans certaines collisions rares, les quarks pouvaient se trouver n'importe où dans les protons en collision. Mais les cartes inspirées par la gravitation suggèrent que les quarks ont tendance à rester près du centre dans de tels cas.

"Les modèles utilisés au CERN ont déjà été mis à jour", a déclaré François-Xavier Girod, physicien du Jefferson Lab qui a travaillé sur les expériences.

Les nouvelles cartes pourraient également offrir des pistes pour résoudre l’un des mystères les plus profonds du proton : pourquoi les quarks se lient en protons. Il existe un argument intuitif selon lequel, comme la force puissante entre chaque paire de quarks s'intensifie à mesure qu'ils s'éloignent, comme un élastique, les quarks ne peuvent jamais échapper à leurs camarades.

Mais les protons sont fabriqués à partir des membres les plus légers de la famille des quarks. Et les quarks légers peuvent également être considérés comme de longues ondes s'étendant au-delà de la surface du proton. Cette image suggère que la liaison du proton pourrait se produire non pas via la traction interne de bandes élastiques, mais par une interaction externe entre ces quarks ondulés et étirés. La cartographie de pression montre l’attraction de la force forte s’étendant jusqu’à 1,4 femtomètres et au-delà, renforçant ainsi l’argument en faveur de ces théories alternatives.

"Ce n'est pas une réponse définitive", a déclaré Girod, "mais cela indique que ces simples images avec des bandes élastiques ne sont pas pertinentes pour les quarks légers."



Auteur: Internet

Info: https://filsdelapensee.ch - Charlie Bois, 14 mars 2024

[ chromodynamique quantique ]

 

Commentaires: 0

Ajouté à la BD par miguel

intelligence artificielle

Apprendre l'anglais n'est pas une tâche facile, comme le savent d'innombrables étudiants. Mais lorsque l'étudiant est un ordinateur, une approche fonctionne étonnamment bien : Il suffit d'alimenter un modèle mathématique géant, appelé réseau neuronal, avec des montagnes de textes provenant d'Internet. C'est le principe de fonctionnement des modèles linguistiques génératifs tels que ChatGPT d'OpenAI, dont la capacité à tenir une conversation cohérente (à défaut d'être toujours sincère) sur un large éventail de sujets a surpris les chercheurs et le public au cours de l'année écoulée.

Mais cette approche présente des inconvénients. D'une part, la procédure de "formation" nécessaire pour transformer de vastes archives textuelles en modèles linguistiques de pointe est coûteuse et prend beaucoup de temps. D'autre part, même les personnes qui forment les grands modèles linguistiques ont du mal à comprendre leur fonctionnement interne, ce qui, à son tour, rend difficile la prévision des nombreuses façons dont ils peuvent échouer.

Face à ces difficultés, certains chercheurs ont choisi d'entraîner des modèles plus petits sur des ensembles de données plus restreints, puis d'étudier leur comportement. "C'est comme le séquençage du génome de la drosophile par rapport au séquençage du génome humain", explique Ellie Pavlick, chercheuse sur les modèles de langage à l'université de Brown.

Dans un article récemment publié sur le serveur scientifique arxiv.org, deux chercheurs de Microsoft ont présenté une nouvelle méthode pour former de minuscules modèles de langage : Les élever avec un régime strict d'histoires pour enfants.

RÉSEAUX NEURONAUX

Des chercheurs acquièrent une nouvelle compréhension à partir d'une simple IA  

Les chercheurs en apprentissage automatique ont compris cette leçon. GPT-3.5, le grand modèle linguistique qui alimente l'interface ChatGPT, compte près de 200 milliards de paramètres et a été entraîné sur un ensemble de données comprenant des centaines de milliards de mots (OpenAI n'a pas publié les chiffres correspondants pour son successeur, GPT-4).  L'entraînement de modèles aussi vastes nécessite généralement au moins 1 000 processeurs spécialisés, appelés GPU, fonctionnant en parallèle pendant des semaines. Seules quelques entreprises peuvent réunir les ressources nécessaires, sans parler de l'entraînement et de la comparaison de différents modèles.

Les deux chercheurs ont montré que des modèles linguistiques des milliers de fois plus petits que les systèmes de pointe actuels apprenaient rapidement à raconter des histoires cohérentes et grammaticalement justes lorsqu'ils étaient formés de cette manière. Leurs résultats indiquent de nouvelles pistes de recherche qui pourraient être utiles pour former des modèles plus importants et comprendre leur comportement.

"J'ai trouvé tout  ça très instructif", a déclaré Chandra Bhagavatula, chercheur sur les modèles de langage à l'Allen Institute for Artificial Intelligence de Seattle. "Le concept lui-même est très intéressant.

Il était une fois

Les réseaux neuronaux au cœur des modèles de langage sont des structures mathématiques vaguement inspirées du cerveau humain. Chacun d'entre eux contient de nombreux neurones artificiels disposés en couches, avec des connexions entre les neurones des couches adjacentes. Le comportement du réseau neuronal est régi par la force de ces connexions, appelées paramètres. Dans un modèle linguistique, les paramètres contrôlent les mots que le modèle peut produire ensuite, compte tenu d'une invite initiale et des mots qu'il a déjà générés.

Un modèle ne prend véritablement vie qu'au cours de la formation, lorsqu'il compare de manière répétée ses propres résultats au texte de son ensemble de données de formation et qu'il ajuste ses paramètres afin d'accroître la ressemblance. Un réseau non entraîné avec des paramètres aléatoires est trivialement facile à assembler à partir de quelques lignes de code, mais il ne produira que du charabia. Après l'entraînement, il peut souvent poursuivre de manière plausible un texte peu familier. Les modèles de plus grande taille sont souvent soumis à des réglages plus fins qui leur apprennent à répondre à des questions et à suivre des instructions, mais l'essentiel de la formation consiste à maîtriser la prédiction des mots.

Pour réussir à prédire des mots, un modèle linguistique doit maîtriser de nombreuses compétences différentes. Par exemple, les règles de la grammaire anglaise suggèrent que le mot suivant le mot "going" sera probablement "to", quel que soit le sujet du texte. En outre, un système a besoin de connaissances factuelles pour compléter "la capitale de la France est", et compléter un passage contenant le mot "not" nécessite une connaissance rudimentaire de la logique.

"Le langage brut est très compliqué", explique Timothy Nguyen, chercheur en apprentissage automatique chez DeepMind. "Pour que des capacités linguistiques intéressantes apparaissent, les gens ont eu recours à l'idée que plus il y a de données, mieux c'est".

(photo) Ronen Eldan s'est rendu compte qu'il pouvait utiliser les histoires d'enfants générées par de grands modèles linguistiques pour en entraîner rapidement de plus petits.

Introduction

Ronen Eldan, mathématicien qui a rejoint Microsoft Research en 2022 pour étudier les modèles de langage génératifs, souhaitait développer un moyen moins coûteux et plus rapide d'explorer leurs capacités. Le moyen naturel d'y parvenir était d'utiliser un petit ensemble de données, ce qui signifiait qu'il devait entraîner les modèles à se spécialiser dans une tâche spécifique, afin qu'ils ne s'éparpillent pas. Au départ, il voulait entraîner les modèles à résoudre une certaine catégorie de problèmes mathématiques, mais un après-midi, après avoir passé du temps avec sa fille de 5 ans, il s'est rendu compte que les histoires pour enfants convenaient parfaitement. "L'idée m'est venue littéralement après lui avoir lu une histoire", a-t-il déclaré.

Pour générer des histoires cohérentes pour les enfants, un modèle de langage devrait apprendre des faits sur le monde, suivre les personnages et les événements, et observer les règles de grammaire - des versions plus simples des défis auxquels sont confrontés les grands modèles. Mais les grands modèles formés sur des ensembles de données massives apprennent d'innombrables détails non pertinents en même temps que les règles qui comptent vraiment. Eldan espérait que la brièveté et le vocabulaire limité des histoires pour enfants rendraient l'apprentissage plus gérable pour les petits modèles, ce qui les rendrait à la fois plus faciles à former et plus faciles à comprendre.

Dans le monde des modèles de langage, cependant, le terme "petit" est relatif : Un ensemble de données mille fois plus petit que celui utilisé pour former GPT-3.5 devrait encore contenir des millions d'histoires. "Je ne sais pas combien d'argent vous voulez dépenser, mais je suppose que vous n'allez pas engager des professionnels pour écrire quelques millions de nouvelles", a déclaré M. Nguyen.

Il faudrait un auteur extraordinairement prolifique pour satisfaire des lecteurs aussi voraces, mais Eldan avait quelques candidats en tête. Qui peut mieux écrire pour un public de petits modèles linguistiques que pour de grands modèles ?

Toys stories

Eldan a immédiatement entrepris de créer une bibliothèque d'histoires synthétiques pour enfants générées par de grands modèles linguistiques. Mais il a rapidement découvert que même les modèles de pointe ne sont pas naturellement très créatifs. Si l'on demande à GPT-4 d'écrire des histoires adaptées à des enfants de 4 ans, explique Eldan, "environ un cinquième des histoires concernera des enfants qui vont au parc et qui ont peur des toboggans". C'est apparemment la quintessence des histoires pour enfants d'âge préscolaire, selon l'Internet.

La solution a consisté à ajouter un peu d'aléatoire dans le message. Tout d'abord, Eldan a utilisé le GPT-4 pour générer une liste de 1 500 noms, verbes et adjectifs qu'un enfant de 4 ans pourrait connaître - suffisamment courte pour qu'il puisse facilement la vérifier lui-même. Il a ensuite écrit un programme informatique simple qui demanderait à plusieurs reprises à GPT-3.5 ou à GPT-4 de générer une histoire adaptée à l'âge de l'enfant, comprenant trois mots aléatoires de la liste, ainsi qu'un détail supplémentaire choisi au hasard, comme une fin heureuse ou un rebondissement de l'intrigue. Les histoires obtenues, heureusement, étaient moins axées sur des diapositives effrayantes.

Eldan disposait désormais d'une procédure pour produire des données de formation à la demande, mais il n'avait aucune idée du nombre d'histoires dont il aurait besoin pour former un modèle fonctionnel, ni de la taille de ce modèle. C'est alors qu'il s'est associé à Yuanzhi Li, chercheur en apprentissage automatique chez Microsoft et à l'université Carnegie Mellon, pour essayer différentes possibilités, en tirant parti du fait que les petits modèles peuvent être formés très rapidement. La première étape consistait à décider comment évaluer leurs modèles.

Introduction

Dans la recherche sur les modèles de langage - comme dans toute salle de classe - la notation est un sujet délicat. Il n'existe pas de rubrique parfaite qui englobe tout ce que les chercheurs veulent savoir, et les modèles qui excellent dans certaines tâches échouent souvent de manière spectaculaire dans d'autres. Au fil du temps, les chercheurs ont mis au point divers critères de référence standard basés sur des questions dont les réponses ne sont pas ambiguës, ce qui est une bonne approche si vous essayez d'évaluer des compétences spécifiques. Mais Eldan et Li se sont intéressés à quelque chose de plus nébuleux : quelle doit être la taille réelle des modèles linguistiques si l'on simplifie le langage autant que possible ?

"Pour vérifier directement si le modèle parle anglais, je pense que la seule chose à faire est de laisser le modèle générer de l'anglais de manière ouverte", a déclaré M. Eldan.

Il n'y a que deux façons de mesurer les performances d'un modèle sur des questions aussi qualitatives : S'appuyer sur des évaluateurs humains ou se tourner à nouveau vers le GPT-4. Les deux chercheurs ont opté pour cette dernière solution, laissant les grands modèles à la fois rédiger les manuels et noter les dissertations.

Bhagavatula a déclaré qu'il aurait aimé voir comment les évaluations de GPT-4 se comparaient à celles des correcteurs humains - GPT-4 peut être biaisé en faveur des modèles qu'il a aidé à former, et l'opacité des modèles de langage rend difficile la quantification de tels biais. Mais il ne pense pas que de telles subtilités affecteraient les comparaisons entre différents modèles formés sur des ensembles similaires d'histoires synthétiques - l'objectif principal du travail d'Eldan et Li.

Eldan et Li ont utilisé une procédure en deux étapes pour évaluer chacun de leurs petits modèles après la formation. Tout d'abord, ils ont présenté au petit modèle la première moitié d'une histoire distincte de celles de l'ensemble des données d'apprentissage, de manière à ce qu'il génère une nouvelle fin, en répétant ce processus avec 50 histoires de test différentes. Ensuite, ils ont demandé à GPT-4 d'évaluer chacune des fins du petit modèle en fonction de trois catégories : créativité, grammaire et cohérence avec le début de l'histoire. Ils ont ensuite fait la moyenne des notes obtenues dans chaque catégorie, obtenant ainsi trois notes finales par modèle.

Avec cette procédure en main, Eldan et Li étaient enfin prêts à comparer les différents modèles et à découvrir quels étaient les étudiants les plus brillants.

Résultats des tests

Après quelques explorations préliminaires, les deux chercheurs ont opté pour un ensemble de données de formation contenant environ 2 millions d'histoires. Ils ont ensuite utilisé cet ensemble de données, baptisé TinyStories, pour entraîner des modèles dont la taille varie de 1 million à 30 millions de paramètres, avec un nombre variable de couches. Le travail a été rapide : En utilisant seulement quatre GPU, l'entraînement du plus grand de ces modèles n'a pas pris plus d'une journée.

Les plus petits modèles ont eu du mal. Par exemple, l'une des histoires testées commence par un homme à l'air méchant qui dit à une fille qu'il va lui prendre son chat. Un modèle à un million de paramètres s'est retrouvé bloqué dans une boucle où la fille répète sans cesse à l'homme qu'elle veut être son amie. Mais les modèles plus grands, qui sont encore des milliers de fois plus petits que GPT-3.5, ont obtenu des résultats surprenants. La version à 28 millions de paramètres racontait une histoire cohérente, même si la fin était sinistre : "Katie s'est mise à pleurer, mais l'homme s'en fichait. Il a emporté le chat et Katie n'a plus jamais revu son chat. Fin de l'histoire".

En plus de tester leurs propres modèles, Eldan et Li ont soumis le même défi au GPT-2 d'OpenAI, un modèle de 1,5 milliard de paramètres publié en 2019. Le résultat a été bien pire - avant la fin abrupte de l'histoire, l'homme menace d'emmener la jeune fille au tribunal, en prison, à l'hôpital, à la morgue et enfin au crématorium.

Introduction

Selon M. Nguyen, il est passionnant que des modèles aussi petits soient aussi fluides, mais il n'est peut-être pas surprenant que GPT-2 ait eu du mal à accomplir la tâche : il s'agit d'un modèle plus grand, mais loin de l'état de l'art, et il a été formé sur un ensemble de données très différent. "Un enfant en bas âge qui ne s'entraînerait qu'à des tâches d'enfant en bas âge, comme jouer avec des jouets, obtiendrait de meilleurs résultats que vous ou moi", a-t-il fait remarquer. "Nous ne nous sommes pas spécialisés dans cette chose simple.

Les comparaisons entre les différents modèles de TinyStories ne souffrent pas des mêmes facteurs de confusion. Eldan et Li ont observé que les réseaux comportant moins de couches mais plus de neurones par couche étaient plus performants pour répondre aux questions nécessitant des connaissances factuelles ; inversement, les réseaux comportant plus de couches et moins de neurones par couche étaient plus performants pour garder en mémoire les personnages et les points de l'intrigue situés plus tôt dans l'histoire. Bhagavatula a trouvé ce résultat particulièrement intriguant. S'il peut être reproduit dans des modèles plus vastes, "ce serait un résultat vraiment intéressant qui pourrait découler de ce travail", a-t-il déclaré.

Eldan et Li ont également étudié comment les capacités de leurs petits modèles dépendaient de la durée de la période de formation. Dans tous les cas, les modèles maîtrisaient d'abord la grammaire, puis la cohérence. Pour Eldan, ce schéma illustre comment les différences dans les structures de récompense entraînent des différences dans les schémas d'acquisition du langage entre les réseaux neuronaux et les enfants. Pour les modèles de langage, qui apprennent en prédisant des mots, "l'incitation pour les mots "je veux avoir" est aussi importante que pour les mots "crème glacée"", a-t-il déclaré. Les enfants, en revanche, "ne se soucient pas de savoir s'ils disent 'j'aimerais avoir de la glace' ou simplement 'glace, glace, glace'".

Qualité contre quantité

Eldan et Li espèrent que cette étude incitera d'autres chercheurs à entraîner différents modèles sur l'ensemble des données de TinyStories et à comparer leurs capacités. Mais il est souvent difficile de prédire quelles caractéristiques des petits modèles apparaîtront également dans les plus grands.

"Peut-être que les modèles de vision chez la souris sont de très bons substituts de la vision humaine, mais les modèles de dépression chez la souris sont-ils de bons modèles de la dépression chez l'homme ? a déclaré M. Pavlick. "Pour chaque cas, c'est un peu différent.

Le succès des modèles TinyStories suggère également une leçon plus large. L'approche standard pour compiler des ensembles de données de formation consiste à aspirer des textes sur l'internet, puis à filtrer les déchets. Le texte synthétique généré par des modèles de grande taille pourrait constituer une autre façon d'assembler des ensembles de données de haute qualité qui n'auraient pas besoin d'être aussi volumineux.

"Nous avons de plus en plus de preuves que cette méthode est très efficace, non seulement pour les modèles de la taille de TinyStories, mais aussi pour les modèles plus importants", a déclaré M. Eldan. Ces preuves proviennent d'une paire d'articles de suivi sur les modèles à un milliard de paramètres, rédigés par Eldan, Li et d'autres chercheurs de Microsoft. Dans le premier article, ils ont entraîné un modèle à apprendre le langage de programmation Python en utilisant des extraits de code générés par GPT-3.5 ainsi que du code soigneusement sélectionné sur l'internet. Dans le second, ils ont complété l'ensemble de données d'entraînement par des "manuels" synthétiques couvrant un large éventail de sujets, afin d'entraîner un modèle linguistique à usage général. Lors de leurs tests, les deux modèles ont été comparés favorablement à des modèles plus importants formés sur des ensembles de données plus vastes. Mais l'évaluation des modèles linguistiques est toujours délicate, et l'approche des données d'entraînement synthétiques n'en est qu'à ses balbutiements - d'autres tests indépendants sont nécessaires.

Alors que les modèles linguistiques de pointe deviennent de plus en plus volumineux, les résultats surprenants de leurs petits cousins nous rappellent qu'il y a encore beaucoup de choses que nous ne comprenons pas, même pour les modèles les plus simples. M. Nguyen s'attend à ce que de nombreux autres articles explorent l'approche inaugurée par TinyStories.

"La question est de savoir où et pourquoi la taille a de l'importance", a-t-il déclaré. "Il devrait y avoir une science à ce sujet, et cet article est, je l'espère, le début d'une riche histoire.



 



 

Auteur: Internet

Info: https://www.quantamagazine.org/ Ben Brubaker, 5 octobre 2023

[ synthèse ]

 

Commentaires: 0

Ajouté à la BD par miguel

méta-moteur

Le comportement de cet animal est programmé mécaniquement.

Des interactions biomécaniques, plutôt que des neurones, contrôlent les mouvements de l'un des animaux les plus simples. Cette découverte offre un aperçu de la façon dont le comportement animal fonctionnait avant l'apparition des neurones.

L'animal extrêmement simple Trichoplax adhaerens se déplace et réagit à son environnement avec agilité et avec un but apparent, mais il n'a pas de neurones ou de muscles pour coordonner ses mouvements. De nouveaux travaux montrent que les interactions biomécaniques entre les cils de l'animal suffisent à en expliquer ses mouvements.

Le biophysicien Manu Prakash se souvient très bien du moment où, tard dans la nuit, dans le laboratoire d'un collègue, il y a une douzaine d'années, il a regardé dans un microscope et a rencontré sa nouvelle obsession. L'animal sous les lentilles n'était pas très beau à voir, ressemblant plus à une amibe qu'à autre chose : une tache multicellulaire aplatie, de 20 microns d'épaisseur et de quelques millimètres de diamètre, sans tête ni queue. Elle se déplaçait grâce à des milliers de cils qui recouvraient sa face inférieure pour former la "plaque velue collante" qui lui a inspiré son nom latin, Trichoplax adhaerens.

Cette étrange créature marine, classée dans la catégorie des placozoaires, dispose pratiquement d'une branche entière de l'arbre de l'évolution de la vie pour elle-même, ainsi que du plus petit génome connu du règne animal. Mais ce qui a le plus intrigué Prakash, c'est la grâce, l'agilité et l'efficacité bien orchestrées avec lesquelles les milliers ou les millions de cellules du Trichoplax se déplacent.

Après tout, une telle coordination nécessite habituellement des neurones et des muscles - et le Trichoplax n'en a pas.

Prakash s'est ensuite associé à Matthew Storm Bull, alors étudiant diplômé de l'université de Stanford, pour faire de cet étrange organisme la vedette d'un projet ambitieux visant à comprendre comment les systèmes neuromusculaires ont pu évoluer et comment les premières créatures multicellulaires ont réussi à se déplacer, à trouver de la nourriture et à se reproduire avant l'existence des neurones.

"J'appelle souvent ce projet, en plaisantant, la neuroscience sans les neurones", a déclaré M. Prakash.

Dans un trio de prétirés totalisant plus de 100 pages - publiés simultanément sur le serveur arxiv.org l'année dernière - lui et Bull ont montré que le comportement de Trichoplax pouvait être décrit entièrement dans le langage de la physique et des systèmes dynamiques. Les interactions mécaniques qui commencent au niveau d'un seul cilium, puis se multiplient sur des millions de cellules et s'étendent à des niveaux supérieurs de structure, expliquent entièrement la locomotion coordonnée de l'animal tout entier. L'organisme ne "choisit" pas ce qu'il doit faire. Au contraire, la horde de cils individuels se déplace simplement - et l'animal dans son ensemble se comporte comme s'il était dirigé par un système nerveux. Les chercheurs ont même montré que la dynamique des cils présente des propriétés qui sont généralement considérées comme des signes distinctifs des neurones.

Ces travaux démontrent non seulement comment de simples interactions mécaniques peuvent générer une incroyable complexité, mais ils racontent également une histoire fascinante sur ce qui aurait pu précéder l'évolution du système nerveux.

"C'est un tour de force de la biophysique", a déclaré Orit Peleg, de l'université du Colorado à Boulder, qui n'a pas participé aux études. Ces découvertes ont déjà commencé à inspirer la conception de machines mécaniques et de robots, et peut-être même une nouvelle façon de penser au rôle des systèmes nerveux dans le comportement animal. 

La frontière entre le simple et le complexe

Les cerveaux sont surestimés. "Un cerveau est quelque chose qui ne fonctionne que dans le contexte très spécifique de son corps", a déclaré Bull. Dans les domaines connus sous le nom de "robotique douce" et de "matière active", la recherche a démontré que la bonne dynamique mécanique peut suffire à accomplir des tâches complexes sans contrôle centralisé. En fait, les cellules seules sont capables de comportements remarquables, et elles peuvent s'assembler en systèmes collectifs (comme les moisissures ou les xénobots) qui peuvent accomplir encore plus, le tout sans l'aide de neurones ou de muscles.

Mais est-ce possible à l'échelle d'un animal multicellulaire entier ?

Le Trichoplax fut un cas d'étude parfait : assez simple pour être étudié dans les moindres détails, mais aussi assez compliqué pour offrir quelque chose de nouveau aux chercheurs. En l'observant, "vous regardez simplement une danse", a déclaré Prakash. "Elle est d'une incroyable complexité". Elle tourne et se déplace sur des surfaces. Elle s'accroche à des plaques d'algues pour les piéger et les consommer comme nourriture. Elle se reproduit asexuellement en se divisant en deux.

"Un organisme comme celui-ci se situe dans un régime intermédiaire entre quelque chose de réellement complexe, comme un vertébré, et quelque chose qui commence à devenir complexe, comme les eucaryotes unicellulaires", explique Kirsty Wan, chercheur à l'université d'Exeter en Angleterre, qui étudie la locomotion ciliaire.

Ce terrain intermédiaire entre les cellules uniques et les animaux dotés de muscles et de systèmes nerveux semblait être l'endroit idéal pour que Prakash et Bull posent leurs questions. "Pour moi, un organisme est une idée", a déclaré Prakash, un terrain de jeu pour tester des hypothèses et un berceau de connaissances potentielles.

Prakash a d'abord construit de nouveaux microscopes permettant d'examiner le Trichoplax par en dessous et sur le côté, et a trouvé comment suivre le mouvement à grande vitesse de ses cils. (Ce n'était pas un terrain entièrement nouveau pour lui, puisqu'il était déjà célèbre pour ses travaux sur le Foldscope, un microscope facile à assembler et dont la fabrication coûte moins d'un dollar). Il pouvait alors voir et suivre des millions de cils individuels, chacun apparaissant comme une minuscule étincelle dans le champ de vision du microscope pendant une fraction de seconde à la fois. "Vous ne voyez que les empreintes lorsqu'elles se posent sur la surface", a déclaré Prakash.

Lui-même - et plus tard Bull, qui a rejoint son laboratoire il y a six ans - ont passé des heures à observer l'orientation de ces petites empreintes. Pour que ces motifs complexes soient possibles, les scientifiques savaient que les cils devaient être engagés dans une sorte de communication à longue distance. Mais ils ne savaient pas comment.

Ils ont donc commencé à rassembler les pièces du puzzle, jusqu'à ce que, l'année dernière, ils décident enfin qu'ils avaient leur histoire.

Une marche en pilote automatique

Au départ, Prakash et Bull s'attendaient à ce que les cils glissent sur des surfaces, avec une fine couche de liquide séparant l'animal du substrat. Après tout, les cils sont généralement vus dans le contexte des fluides : ils propulsent des bactéries ou d'autres organismes dans l'eau, ou déplacent le mucus ou les fluides cérébrospinaux dans un corps. Mais lorsque les chercheurs ont regardé dans leurs microscopes, ils ont constaté que les cils semblaient marcher, et non nager.

Bien que l'on sache que certains organismes unicellulaires utilisent les cils pour ramper, ce type de coordination n'avait jamais été observé à cette échelle. "Plutôt qu'utiliser les cils pour propulser un fluide, il s'agit de mécanique, de friction, d'adhésion et de toutes sortes de mécanismes solides très intéressants", a-t-elle déclaré.

Prakash, Bull et Laurel Kroo, une étudiante diplômée en génie mécanique de Stanford, ont donc entrepris de caractériser la démarche des cils. Ils ont suivi la trajectoire de l'extrémité de chaque cilium au fil du temps, l'observant tracer des cercles et pousser contre des surfaces. Ils ont défini trois types d'interactions : le glissement, au cours duquel les cils effleurent à peine la surface ; la marche, lorsque les cils adhèrent brièvement à la surface avant de se détacher ; et le calage, lorsque les cils restent coincés contre la surface.

Dans leurs modèles, l'activité de marche émergeait naturellement de l'interaction entre les forces motrices internes des cils et l'énergie de leur adhésion à la surface. Le bon équilibre entre ces deux paramètres (calculé à partir de mesures expérimentales de l'orientation, de la hauteur et de la fréquence des battements des cils) permettant une locomotion régulière, chaque cilium se collant puis se soulevant, comme une jambe. Un mauvais équilibre produisant les phases de glissement ou de décrochage.

Nous pensons généralement, lorsque quelque chose se passe comme ça, qu'il y a un signal interne semblable à une horloge qui dit : "OK, allez-y, arrêtez-vous, allez-y, arrêtez-vous", a déclaré Simon Sponberg, biophysicien à l'Institut de technologie de Géorgie. "Ce n'est pas ce qui se passe ici. Les cils ne sont pas rythmés. Il n'y a pas une chose centrale qui dit 'Go, go, go' ou autre. Ce sont les interactions mécaniques qui mettent en place quelque chose qui va, qui va, qui va."

De plus, la marche pourrait être modélisée comme un système excitable, c'est-à-dire un système dans lequel, sous certaines conditions, les signaux se propagent et s'amplifient au lieu de s'atténuer progressivement et de s'arrêter. Un neurone est un exemple classique de système excitable : De petites perturbations de tension peuvent provoquer une décharge soudaine et, au-delà d'un certain seuil, le nouvel état stimulé se propage au reste du système. Le même phénomène semble se produire ici avec les cils. Dans les expériences et les simulations, de petites perturbations de hauteur, plutôt que de tension, entraînent des changements relativement importants dans l'activité des cils voisins : Ils peuvent soudainement changer d'orientation, et même passer d'un état de stase à un état de marche. "C'est incroyablement non linéaire", a déclaré Prakash.

En fait, les modèles de cils de Prakash, Bull et Kroo se sont avérés très bien adaptés aux modèles établis pour les potentiels d'action au sein des neurones. "Ce type de phénomène unique se prête à une analogie très intéressante avec ce que l'on observe dans la dynamique non linéaire des neurones individuels", a déclaré Bull. Sponberg est d'accord. "C'est en fait très similaire. Il y a une accumulation de l'énergie, et puis pop, et puis pop, et puis pop".

Les cils s'assemblent comme des oiseaux

Forts de cette description mathématique, Prakash et Bull ont examiné comment chaque cilium pousse et tire sur ses voisins lors de son interaction avec la surface, et comment toute ces activités indépendantes peuvent se transformer en quelque chose de synchronisé et cohérent.

Ils ont mesuré comment la démarche mécanique de chaque cilium entraînait de petites fluctuations locales de la hauteur du tissu. Ils ont ensuite écrit des équations pour expliquer comment ces fluctuations pouvaient influencer le comportement des cellules voisines, alors même que les cils de ces cellules effectuaient leurs propres mouvements, comme un réseau de ressorts reliant de minuscules moteurs oscillants.

Lorsque les chercheurs ont modélisé "cette danse entre élasticité et activité", ils ont constaté que les interactions mécaniques - de cils poussant contre un substrat et de cellules se tirant les unes les autres - transmettaient rapidement des informations à travers l'organisme. La stimulation d'une région entraînait des vagues d'orientation synchronisée des cils qui se déplaçaient dans le tissu. "Cette élasticité et cette tension dans la physique d'un cilium qui marche, maintenant multipliées par des millions d'entre eux dans une feuille, donnent en fait lieu à un comportement mobile cohérent", a déclaré Prakash.

Et ces modèles d'orientation synchronisés peuvent être complexes : parfois, l'activité du système produit des tourbillons, les cils étant orientés autour d'un seul point. Dans d'autres cas, les cils se réorientent en quelques fractions de seconde, pointant d'abord dans une direction puis dans une autre - se regroupant comme le ferait un groupe d'étourneaux ou un banc de poissons, et donnant lieu à une agilité qui permet à l'animal de changer de direction en un clin d'œil.

"Nous avons été très surpris lorsque nous avons vu pour la première fois ces cils se réorienter en une seconde", a déclaré M. Bull.

Ce flocage agile est particulièrement intriguant. Le flocage se produit généralement dans des systèmes qui se comportent comme des fluides : les oiseaux et les poissons individuels, par exemple, peuvent échanger librement leurs positions avec leurs compagnons. Mais cela ne peut pas se produire chez Trichoplax, car ses cils sont des composants de cellules qui ont des positions fixes. Les cils se déplacent comme "un troupeau solide", explique Ricard Alert, physicien à l'Institut Max Planck pour la physique des systèmes complexes.

Prakash et Bull ont également constaté dans leurs simulations que la transmission d'informations était sélective : Après certains stimuli, l'énergie injectée dans le système par les cils se dissipe tout simplement, au lieu de se propager et de modifier le comportement de l'organisme. Nous utilisons notre cerveau pour faire cela tout le temps, pour observer avec nos yeux et reconnaître une situation et dire : "Je dois soit ignorer ça, soit y répondre", a déclaré M. Sponberg.

Finalement, Prakash et Bull ont découvert qu'ils pouvaient écrire un ensemble de règles mécaniques indiquant quand le Trichoplax peut tourner sur place ou se déplacer en cercles asymétriques, quand il peut suivre une trajectoire rectiligne ou dévier soudainement vers la gauche, et quand il peut même utiliser sa propre mécanique pour se déchirer en deux organismes distincts.

"Les trajectoires des animaux eux-mêmes sont littéralement codées" via ces simples propriétés mécaniques, a déclaré Prakash.

Il suppose que l'animal pourrait tirer parti de ces dynamiques de rotation et de reptation dans le cadre d'une stratégie de "course et culbute" pour trouver de la nourriture ou d'autres ressources dans son environnement. Lorsque les cils s'alignent, l'organisme peut "courir", en continuant dans la direction qui vient de lui apporter quelque chose de bénéfique ; lorsque cette ressource semble s'épuiser, Trichoplax peut utiliser son état de vortex ciliaire pour se retourner et tracer une nouvelle route.

Si d'autres études démontrent que c'est le cas, "ce sera très excitant", a déclaré Jordi Garcia-Ojalvo, professeur de biologie systémique à l'université Pompeu Fabra de Barcelone. Ce mécanisme permettrait de faire le lien entre beaucoups d'échelles, non seulement entre la structure moléculaire, le tissu et l'organisme, mais aussi pour ce qui concerne écologie et environnement.

En fait, pour de nombreux chercheurs, c'est en grande partie ce qui rend ce travail unique et fascinant. Habituellement, les approches des systèmes biologiques basées sur la physique décrivent l'activité à une ou deux échelles de complexité, mais pas au niveau du comportement d'un animal entier. "C'est une réussite...  vraiment rare", a déclaré M. Alert.

Plus gratifiant encore, à chacune de ces échelles, la mécanique exploite des principes qui font écho à la dynamique des neurones. "Ce modèle est purement mécanique. Néanmoins, le système dans son ensemble possède un grand nombre des propriétés que nous associons aux systèmes neuro-mécaniques : il est construit sur une base d'excitabilité, il trouve constamment un équilibre délicat entre sensibilité et stabilité et il est capable de comportements collectifs complexes." a déclaré Sponberg.

"Jusqu'où ces systèmes mécaniques peuvent-ils nous mener ?... Très loin." a-t-il ajouté.

Cela a des implications sur la façon dont les neuroscientifiques pensent au lien entre l'activité neuronale et le comportement de manière plus générale. "Les organismes sont de véritables objets dans l'espace", a déclaré Ricard Solé, biophysicien à l'ICREA, l'institution catalane pour la recherche et les études avancées, en Espagne. Si la mécanique seule peut expliquer entièrement certains comportements simples, les neuroscientifiques voudront peut-être examiner de plus près comment le système nerveux tire parti de la biophysique d'un animal pour obtenir des comportements complexes dans d'autres situations.

"Ce que fait le système nerveux n'est peut-être pas ce que nous pensions qu'il faisait", a déclaré M. Sponberg.

Un pas vers la multicellularité

"L'étude de Trichoplax peut nous donner un aperçu de ce qu'il a fallu faire pour développer des mécanismes de contrôle plus complexes comme les muscles et les systèmes nerveux", a déclaré Wan. "Avant d'arriver à ça, quelle est le meilleur truc à suivre ? Ca pourrait bien être ça".

Alert est d'accord. "C'est une façon si simple d'avoir des comportements organisationnels tels que l'agilité que c'est peut-être ainsi qu'ils ont émergé au début et  au cours de l'évolution, avant que les systèmes neuronaux ne se développent. Peut-être que ce que nous voyons n'est qu'un fossile vivant de ce qui était la norme à l'époque".

Solé considère que Trichoplax occupe une "twilight zone... au centre des grandes transitions vers la multicellularité complexe". L'animal semble commencer à mettre en place "les conditions préalables pour atteindre la vraie complexité, celle où les neurones semblent être nécessaires."

Prakash, Bull et leurs collaborateurs cherchent maintenant à savoir si Trichoplax pourrait être capable d'autres types de comportements ou même d'apprentissage. Que pourrait-il réaliser d'autre dans différents contextes environnementaux ? La prise en compte de sa biochimie en plus de sa mécanique ouvrirait-elle vers un autre niveau de comportement ?

Les étudiants du laboratoire de Prakash ont déjà commencé à construire des exemples fonctionnels de ces machines. Kroo, par exemple, a construit un dispositif de natation robotisé actionné par un matériau viscoélastique appelé mousse active : placée dans des fluides non newtoniens comme des suspensions d'amidon de maïs, elle peut se propulser vers l'avant.

"Jusqu'où voulez-vous aller ? a demandé Peleg. "Pouvez-vous construire un cerveau, juste à partir de ce genre de réseaux mécaniques ?"

Prakash considère que ce n'est que le premier chapitre de ce qui sera probablement une saga de plusieurs décennies. "Essayer de vraiment comprendre cet animal est pour moi un voyage de 30 ou 40 ans", a-t-il dit. "Nous avons terminé notre première décennie... C'est la fin d'une époque et le début d'une autre".

Auteur: Internet

Info: https://www.quantamagazine.org/before-brains-mechanics-may-have-ruled-animal-behavior. Jordana Cepelewicz, 16 mars 2022. Trad Mg

[ cerveau rétroactif ] [ échelles mélangées ] [ action-réaction ] [ plus petit dénominateur commun ] [ grégarisme ] [ essaims ] [ murmurations mathématiques ]

 

Commentaires: 0

Ajouté à la BD par miguel

épistémologie

Opinion: Pourquoi la science a besoin de la philosophe

Malgré les liens historiques étroits entre la science et la philosophie, les scientifiques d'aujourd'hui perçoivent souvent la philosophie comme complètement différente, voire antagoniste, de la science. Nous soutenons ici que, au contraire, la philosophie peut avoir un impact important et productif sur la science.

Nous illustrons notre propos par trois exemples tirés de divers domaines des sciences de la vie contemporaines. Chacun d'entre eux concerne la recherche scientifique de pointe, et chacun ayant été explicitement reconnu par les chercheurs en exercice comme une contribution utile à la science. Ces exemples, et d'autres, montrent que la contribution de la philosophie peut prendre au moins quatre formes : la clarification des concepts scientifiques, l'évaluation critique des hypothèses ou des méthodes scientifiques, la formulation de nouveaux concepts et de nouvelles théories, et la promotion du dialogue entre les différentes sciences, ainsi qu'entre la science et la société.

Clarification conceptuelle et cellules souches.

Tout d'abord, la philosophie offre une clarification conceptuelle. Les clarifications conceptuelles améliorent non seulement la précision et l'utilité des termes scientifiques, mais conduisent également à de nouvelles recherches expérimentales, car le choix d'un cadre conceptuel donné contraint fortement la façon dont les expériences sont conçues.

La définition des cellules souches (stem cells) en est un excellent exemple. La philosophie a une longue tradition d'étude des propriétés, et les outils utilisés dans cette tradition ont récemment été appliqués pour décrire la "souche", propriété qui définit les cellules souches. L'un d'entre nous a montré que quatre types de propriétés différentes existent sous cette dénomination de souche (stemness) au vu des connaissances scientifiques actuelles. Selon le type de tissu, la stemness peut être une propriété catégorielle (propriété intrinsèque de la cellule souche, indépendante de son environnement), une propriété dispositionnelle (propriété intrinsèque de la cellule souche qui est contrôlée par le micro-environnement), une propriété relationnelle (propriété extrinsèque qui peut être conférée aux cellules non souches par le microenvironnement), ou une propriété systémique (propriété qui est maintenue et contrôlée au niveau de la population cellulaire entière).

Hans Clevers, chercheur en biologie des cellules souches et du cancer, note que cette analyse philosophique met en lumière d'importants problèmes sémantiques et conceptuels en oncologie et en biologie des cellules souches ; il suggère également que cette analyse soit facilement applicable à l'expérimentation. En effet, au-delà de la clarification conceptuelle, ce travail philosophique a des applications dans le monde réel, comme l'illustre le cas des cellules souches cancéreuses en oncologie.

Les recherches visant à développer des médicaments ciblant soit les cellules souches cancéreuses, soit leur microenvironnement, reposent en fait sur différents types de souches et sont donc susceptibles d'avoir des taux de réussite différents selon le type de cancer. En outre, elles pourraient ne pas couvrir tous les types de cancer, car les stratégies thérapeutiques actuelles ne tiennent pas compte de la définition systémique de la souche. Déterminer le type de souche présent dans chaque tissu et chaque cancer est donc utile pour orienter le développement et le choix des thérapies anticancéreuses. Dans la pratique, ce cadre a conduit à la recherche de thérapies anticancéreuses qui combinent le ciblage des propriétés intrinsèques des cellules souches cancéreuses, de leur microenvironnement et des points de contrôle immunitaires afin de couvrir tous les types possibles de souches.

En outre, ce cadre philosophique a récemment été appliqué à un autre domaine, l'étude des organoïdes (tissus en 3D dérivés de cellules souches, sont capables de s'auto-organiser et de reproduire certaines fonctions d'un organe.). Dans une revue systémique des données expérimentales sur les organoïdes provenant de diverses sources, Picollet-D'hahan et al. ont caractérisé la capacité à former des organoïdes comme une propriété dispositionnelle. Ils ont pu alors affirmer que pour accroître l'efficacité et la reproductibilité de la production d'organoïdes, actuellement un défi majeur dans le domaine, les chercheurs doivent mieux comprendre la partie intrinsèque de la propriété dispositionnelle qui est influencée par le microenvironnement. Pour distinguer les caractéristiques intrinsèques des cellules qui ont une telle disposition, ce groupe développe actuellement des méthodes de génomique fonctionnelle à haut débit, permettant d'étudier le rôle de pratiquement tous les gènes humains dans la formation des organoïdes.

Immunogénicité et microbiome.

En complément de son rôle dans la clarification conceptuelle, la philosophie peut contribuer à la critique des hypothèses scientifiques et peut même être proactive dans la formulation de théories nouvelles, testables et prédictives qui aident à définir de nouvelles voies pour la recherche empirique.

Par exemple, une critique philosophique du cadre du cadre immunitaire du soi et du non-soi a conduit à deux contributions scientifiques importantes. Tout d'abord, elle a servi de base à la formulation d'un nouveau cadre théorique, la théorie de la discontinuité de l'immunité, qui complète les modèles antérieurs du non-soi et du danger en proposant que le système immunitaire réagisse aux modifications soudaines des motifs antigéniques. Cette théorie éclaire de nombreux phénomènes immunologiques importants, notamment les maladies auto-immunes, les réponses immunitaires aux tumeurs et la tolérance immunologique à des ligands exprimés de façon chronique. La théorie de la discontinuité a été appliquée à une multitude de questions, aidant à explorer les effets des agents chimiothérapeutiques sur l'immunomodulation dans le cancer et expliquant comment les cellules tueuses naturelles modifient constamment leur phénotype et leurs fonctions grâce à leurs interactions avec leurs ligands** d'une manière qui assure la tolérance aux constituants corporels. La théorie permet également d'expliquer les conséquences des vaccinations répétées chez les personnes immunodéprimées et propose des modèles mathématiques dynamiques de l'activation immunitaire. Collectivement, ces diverses évaluations empiriques illustrent comment des propositions d'inspiration philosophique peuvent conduire à des expériences inédites, ouvrant ainsi de nouvelles voies de recherche.

Deuxièmement, la critique philosophique a contribué, avec d'autres approches philosophiques, à la notion selon laquelle tout organisme, loin d'être un soi génétiquement homogène, est une communauté symbiotique abritant et tolérant de multiples éléments étrangers (notamment des bactéries et des virus), qui sont reconnus mais non éliminés par son système immunitaire. La recherche sur l'intégration symbiotique et la tolérance immunitaire a des conséquences considérables sur notre conception de ce qui constitue un organisme individuel, qui est de plus en plus conceptualisé comme un écosystème complexe dont les fonctions clés, du développement à la défense, la réparation et la cognition, sont affectées par les interactions avec les microbes.

Influence sur les sciences cognitives.

L'étude de la cognition et des neurosciences cognitives offre une illustration frappante de l'influence profonde et durable de la philosophie sur la science. Comme pour l'immunologie, les philosophes ont formulé des théories et des expériences influentes, aidé à lancer des programmes de recherche spécifiques et contribué à des changements de paradigme. Mais l'ampleur de cette influence est bien plus importante que dans le cas de l'immunologie. La philosophie a joué un rôle dans le passage du behaviorisme au cognitivisme et au computationnalisme dans les années 1960. La théorie de la modularité de l'esprit, proposée par le philosophe Jerry Fodor, a peut-être été la plus visible. Son influence sur les théories de l'architecture cognitive peut difficilement être dépassée. Dans un hommage rendu après le décès de Fodor en 2017, l'éminent psychologue cognitif James Russell a parlé dans le magazine de la British Psychological Society de "psychologie cognitive du développement BF (avant Fodor) et AF (après Fodor) ".

La modularité renvoie à l'idée que les phénomènes mentaux résultent du fonctionnement de multiples processus distincts, et non d'un seul processus indifférencié. Inspiré par les résultats de la psychologie expérimentale, par la linguistique chomskienne et par les nouvelles théories computationnelles de la philosophie de l'esprit, Fodor a théorisé que la cognition humaine est structurée en un ensemble de modules spécialisés de bas niveau, spécifiques à un domaine et encapsulés sur le plan informationnel, et en un système central de plus haut niveau, général à un domaine, pour le raisonnement abductif, l'information ne circulant que verticalement vers le haut, et non vers le bas ou horizontalement (c'est-à-dire entre les modules). Il a également formulé des critères stricts de modularité. Aujourd'hui encore, la proposition de Fodor définit les termes d'une grande partie de la recherche empirique et de la théorie dans de nombreux domaines des sciences cognitives et des neurosciences, y compris le développement cognitif, la psychologie de l'évolution, l'intelligence artificielle et l'anthropologie cognitive. Bien que sa théorie ait été révisée et remise en question, les chercheurs continuent d'utiliser, de peaufiner et de débattre de son approche et de sa boîte à outils conceptuelle de base.

La philosophie et la science partagent les outils de la logique, de l'analyse conceptuelle et de l'argumentation rigoureuse. Cependant, les philosophes peuvent utiliser ces outils avec des degrés de rigueur, de liberté et d'abstraction théorique que les chercheurs praticiens ne peuvent souvent pas se permettre dans leurs activités quotidiennes.

La tâche des fausses croyances constitue un autre exemple clé de l'impact de la philosophie sur les sciences cognitives. Le philosophe Daniel Dennett a été le premier à concevoir la logique de base de cette expérience comme une révision d'un test utilisé pour évaluer la théorie de l'esprit, la capacité d'attribuer des états mentaux à soi-même et aux autres. Cette tâche teste la capacité d'attribuer à autrui des croyances que l'on considère comme fausses, l'idée clé étant que le raisonnement sur les croyances fausses d'autrui, par opposition aux croyances vraies, exige de concevoir les autres personnes comme ayant des représentations mentales qui divergent des siennes et de la façon dont le monde est réellement. Sa première application empirique remonte à 1983 , dans un article dont le titre, "Beliefs About Beliefs : Representation and Constraining Function of Wrong Beliefs in Young Children's Understanding of Deception", est en soi un hommage direct à la contribution de Dennett.

La tâche des fausses croyances représente une expérience marquante dans divers domaines des sciences cognitives et des neurosciences, avec de vastes applications et implications. Il s'agit notamment de tester les stades du développement cognitif chez les enfants, de débattre de l'architecture de la cognition humaine et de ses capacités distinctes, d'évaluer les capacités de la théorie de l'esprit chez les grands singes, de développer des théories de l'autisme en tant que cécité de l'esprit (selon lesquelles les difficultés à réussir la tâche des fausses croyances sont associées à cette maladie), et de déterminer quelles régions particulières du cerveau sont associées à la capacité de raisonner sur le contenu de l'esprit d'une autre personne .

La philosophie a également aidé le domaine des sciences cognitives à éliminer les hypothèses problématiques ou dépassées, contribuant ainsi à l'évolution de la science. Les concepts de l'esprit, de l'intelligence, de la conscience et de l'émotion sont utilisés de manière omniprésente dans différents domaines, avec souvent peu d'accord sur leur signification. L'ingénierie de l'intelligence artificielle, la construction de théories psychologiques des variables de l'état mental et l'utilisation d'outils neuroscientifiques pour étudier la conscience et l'émotion nécessitent des outils conceptuels pour l'autocritique et le dialogue interdisciplinaire - précisément les outils que la philosophie peut fournir.

La philosophie - parfois représentée par la lettre grecque phi - peut contribuer à faire progresser tous les niveaux de l'entreprise scientifique, de la théorie à l'expérience. Parmi les exemples récents, citons les contributions à la biologie des cellules souches, à l'immunologie, à la symbiose et aux sciences cognitives.  

La philosophie et la connaissance scientifique.

Les exemples ci-dessus sont loin d'être les seuls : dans les sciences de la vie, la réflexion philosophique a joué un rôle important dans des questions aussi diverses que l'altruisme évolutif , le débat sur les unités de sélection, la construction d'un "arbre de vie", la prédominance des microbes dans la biosphère, la définition du gène et l'examen critique du concept d'innéité. De même, en physique, des questions fondamentales comme la définition du temps ont été enrichies par les travaux des philosophes. Par exemple, l'analyse de l'irréversibilité temporelle par Huw Price et les courbes temporelles fermées par David Lewis ont contribué à dissiper la confusion conceptuelle en physique.

Inspirés par ces exemples et bien d'autres, nous considérons que la philosophie et la science se situent sur un continuum. La philosophie et la science partagent les outils de la logique, de l'analyse conceptuelle et de l'argumentation rigoureuse. Cependant, les philosophes peuvent utiliser ces outils avec des degrés de minutie, de liberté et d'abstraction théorique que les chercheurs praticiens ne peuvent souvent pas se permettre dans leurs activités quotidiennes. Les philosophes possédant les connaissances scientifiques pertinentes peuvent alors contribuer de manière significative à l'avancement de la science à tous les niveaux de l'entreprise scientifique, de la théorie à l'expérimentation, comme le montrent les exemples ci-dessus.

Mais comment, en pratique, faciliter la coopération entre chercheurs et philosophes ? À première vue, la solution pourrait sembler évidente : chaque communauté devrait faire un pas vers l'autre. Pourtant, ce serait une erreur de considérer cette tâche comme facile. Les obstacles sont nombreux. Actuellement, un nombre important de philosophes dédaignent la science ou ne voient pas la pertinence de la science pour leur travail. Même parmi les philosophes qui privilégient le dialogue avec les chercheurs, rares sont ceux qui ont une bonne connaissance de la science la plus récente. À l'inverse, peu de chercheurs perçoivent les avantages que peuvent leur apporter les idées philosophiques. Dans le contexte scientifique actuel, dominé par une spécialisation croissante et des demandes de financement et de résultats de plus en plus importantes, seul un nombre très limité de chercheurs a le temps et l'opportunité d'être au courant des travaux produits par les philosophes sur la science, et encore moins de les lire.

 Pour surmonter ces difficultés, nous pensons qu'une série de recommandations simples, assez facile à mettre en œuvre, peuvent aider à combler le fossé entre la science et la philosophie. La reconnexion entre la philosophie et la science est à la fois hautement souhaitable et plus réalisable en pratique que ne le suggèrent les décennies d'éloignement qui les séparent.

1) Laisser plus de place à la philosophie dans les conférences scientifiques. Il s'agit d'un mécanisme très simple permettant aux chercheurs d'évaluer l'utilité potentielle des idées des philosophes pour leurs propres recherches. Réciproquement, davantage de chercheurs pourraient participer à des conférences de philosophie, en développant les efforts d'organisations telles que l'International Society for the History, Philosophy, and Social Studies of Biology, la Philosophy of Science Association et la Society for Philosophy of Science in Practice.

2) Accueillir des philosophes dans des laboratoires et des départements scientifiques. Il s'agit d'un moyen efficace (déjà exploré par certains des auteurs et d'autres) pour les philosophes d'apprendre la science et de fournir des analyses plus appropriées et bien fondées, et pour les chercheurs de bénéficier d'apports philosophiques et de s'acclimater à la philosophie en général. C'est peut-être le moyen le plus efficace d'aider la philosophie à avoir un impact rapide et concret sur la science.

3) Co-superviser des doctorants. La co-supervision de doctorants par un chercheur et un philosophe est une excellente occasion de rendre possible l'enrichissement mutuel des deux domaines. Elle facilite la production de thèses qui sont à la fois riches sur le plan expérimental et rigoureuses sur le plan conceptuel et, ce faisant, elle forme la prochaine génération de philosophes-scientifiques.

4) Créer des programmes d'études équilibrés en science et en philosophie qui favorisent un véritable dialogue entre elles. De tels programmes existent déjà dans certains pays, mais leur développement devrait être une priorité absolue. Ils peuvent offrir aux étudiants en sciences une perspective qui les rend plus aptes à relever les défis conceptuels de la science moderne et fournir aux philosophes une base solide de connaissances scientifiques qui maximisera leur impact sur la science. Les programmes d'enseignement des sciences peuvent inclure un cours d'histoire des sciences et de philosophie des sciences. Les programmes de philosophie pourraient inclure un module de sciences.

5) Lire science et philosophie. La lecture des sciences est indispensable à la pratique de la philosophie des sciences, mais la lecture de la philosophie peut également constituer une grande source d'inspiration pour les chercheurs, comme l'illustrent certains des exemples ci-dessus. Par exemple, les clubs de lecture où les contributions scientifiques et philosophiques sont discutées constituent un moyen efficace d'intégrer la philosophie et la science.

6) Ouvrir de nouvelles sections consacrées aux questions philosophiques et conceptuelles dans les revues scientifiques. Cette stratégie serait un moyen approprié et convaincant de suggérer que le travail philosophique et conceptuel est continu avec le travail expérimental, dans la mesure où il est inspiré par celui-ci, et peut l'inspirer en retour. Cela rendrait également les réflexions philosophiques sur un domaine scientifique particulier beaucoup plus visibles pour la communauté scientifique concernée que lorsqu'elles sont publiées dans des revues de philosophie, qui sont rarement lues par les scientifiques.

Nous espérons que les mesures pratiques exposées ci-dessus encourageront une renaissance de l'intégration de la science et de la philosophie. En outre, nous soutenons que le maintien d'une allégeance étroite à la philosophie renforcera la vitalité de la science. La science moderne sans la philosophie se heurtera à un mur : le déluge de données dans chaque domaine rendra l'interprétation de plus en plus difficile, négligence et ampleur ampleur de l'histoire risquent de séparer davantage les sous-disciplines scientifiques, et l'accent mis sur les méthodes et les résultats empiriques entraînera une formation de moins en moins approfondie des étudiants. Comme l'a écrit Carl Woese : "une société qui permet à la biologie de devenir une discipline d'ingénierie, qui permet à la science de se glisser dans le rôle de modifier le monde vivant sans essayer de le comprendre, est un danger pour elle-même." Nous avons besoin d'une revigoration de la science à tous les niveaux, une revigoration qui nous rende les bénéfices de liens étroits avec la philosophie.

Auteur: Internet

Info: https://hal.archives-ouvertes.fr/hal-02269657/document. " janvier 2020. Publication collective de Lucie Laplane, Paolo Mantovani, Ralph Adolphs, Hasok Chang, Alberto Mantovani, Margaret McFall-Ngai, Carlo Rovelli, Elliott Sober, et Thomas Pradeua. Trad Mg

[ mécanisme ] [ état des lieux ] [ corps-esprit ] [ tétravalences ] [ tour d'horizon ]

 

Commentaires: 0

Ajouté à la BD par miguel