Citation
Catégorie
Tag – étiquette
Auteur
Info



nb max de mots
nb min de mots
trier par
Dictionnaire analogique intriqué pour extraits. Recherche mots ou phrases tous azimuts. Aussi outil de précision sémantique et de réflexion communautaire. Voir la rubrique mode d'emploi. Jetez un oeil à la colonne "chaînes". ATTENTION, faire une REINITIALISATION après  une recherche complexe. Et utilisez le nuage de corrélats !!!!..... Lire la suite >>
Résultat(s): 443
Temps de recherche: 0.0559s

littérature

Les 19 lois du bon polar, selon Borges.

Le grand écrivain argentin s'était amusé à codifier la narration policière. En partenariat avec le magazine BoOks.

Dans son article "Lois de la narration policière" (1), de 1933, Jorge Luis Borges propose quelques règles élémentaires, ou "commandements", pour le récit policier classique. Ces conventions, comme il le remarque avec esprit, "ne visent pas à éluder les difficultés, mais plutôt à les imposer". Borges énonce explicitement les six règles suivantes:

1 : Une limite facultative de ses personnages

Les personnages doivent être peu nombreux et bien définis, de façon que lecteur puisse les connaître et les distinguer. "La téméraire infraction à cette loi est responsable de la confusion et de l'ennui fastidieux de tous les films policiers."

2 : Exposition de toutes les données du problème

On doit mettre toutes les cartes sur la table, sans as sortis de la manche à la dernière minute. À partir d'un certain point, le lecteur devra disposer de toutes les pistes nécessaires pour trouver lui-même la solution. "L'infraction répétée de cette deuxième loi est le défaut préféré de Conan Doyle. Il s'agit parfois de quelques imperceptibles particules de cendre, ramassées dans le dos du lecteur par ce privilégié d'Holmes. Parfois l'escamotage est plus grave. Il s'agit du coupable, terriblement démasqué au dernier moment, qui s'avère être un inconnu : une insipide et maladroite interpolation."

3 : Avare économie de moyens

Qu'un personnage se dédouble, on peut l'admettre, dit Borges. Mais que deux individus en contrefassent un troisième pour lui conférer un don d'ubiquité "court le risque incontestable de paraître une surcharge". La solution doit être la plus claire et nette possible, sans lourdeurs techniques, artifices improbables ou déploiements accablants de mouvements et de détails. La solution doit aussi pouvoir se déduire des ressources déjà mises en jeu, comme réorganisation des éléments connus.

4 : Primauté du comment sur le qui

Le véritable mystère d'un bon whodunit(2) n'est pas le nom de celui qui a commis le crime, mais ce que sera le nouvel ordre logique, plus subtil, la vérité souterraine qui éclaire le récit d'un nouveau jour.

5 : Pudeur de la mort

À la différence des thrillers du cinéma contemporain, où l'imagination cherche à concevoir des crimes de plus en plus sanglants et des cadavres de plus en plus choquants, dans le récit policier classique, la mort est comme une ouverture au jeu d'échecs et n'a pas en soi beaucoup d'importance. "Les pompes de la mort n'ont pas leur place dans la narration policière dont les muses glaciales sont l'hygiène, l'imposture et l'ordre", écrit Borges.

On trouve une transgression exemplaire de cette loi dans "le Noël d'Hercule Poirot"(3), d'Agatha Christie. Ce roman, comme on le comprend dans la dédicace, est conçu comme un défi, son beau-frère lui ayant reproché d'éviter le sang dans ses crimes. "Vous y déploriez que mes meurtres deviennent trop épurés - exsangues, pour parler net. Vous y réclamiez un de ces bons vieux meurtres bien saignants. Un meurtre qui, sans l'ombre d'un doute, en soit bien un." Le plus remarquable est peut-être que, dans ce crime esthétiquement opposé aux précédents, Agatha Christie reste elle-même: le cri terrifiant, la scène brutale du meurtre, le sang abondamment répandu sont des clés de l'élucidation finale.

6 : Nécessité et merveilleux dans la solution

"La première implique que le problème soit un problème précis susceptible d'une seule réponse, l'autre requiert que cette réponse puisse émerveiller le lecteur." Cette sensation de merveilleux, précise Borges, ne doit pas faire appel au surnaturel. La solution d'une énigme policière doit être comme la démonstration d'un théorème complexe: difficile à imaginer à partir des prémisses, mais dont la nécessité s'impose par la rigueur d'une explication parfaitement logique. En plus de ces six axiomes déclarés, Borges en postule indirectement certains autres dans son article: Le véritable récit policier repousse - ai-je besoin de le préciser - avec le même dédain les risques physiques et la justice distributive. Il fait abstraction, avec sérénité, des cachots, des escaliers secrets, des remords, de la voltige, des barbes postiches, de l'escrime, des chauves-souris, de Charles Baudelaire et même du hasard. Il découle de ce passage trois règles supplémentaires :

7 : Dédain des risques physiques

Dans ce dédain des risques physiques réside l'une des principales différences avec le roman noir ou le thriller cinématographique. Borges observe que, dans les premiers exemples du genre, "l'histoire se limite à la discussion et à la résolution abstraite d'un crime, parfois à cent lieues de l'événement ou bien éloignée dans le temps". Isidro Parodi, le détective qu'il imagina avec Bioy Casares, résout les énigmes alors qu'il est enfermé dans une prison. Dans les aventures de Sherlock Holmes comme dans celles d'Hercule Poirot, la vie du détective est parfois en danger imminent, mais ces risques sont éphémères et ne constituent jamais la matière narrative principale, sauf peut-être dans leurs dernières enquêtes. C. Auguste Dupin, la vieille Miss Marple, le père Brown et Perry Mason(4) sont tous des exemples de détectives à l'abri des risques physiques.

8 : Renoncement aux considérations ou jugements moraux

Sur la question de la "justice distributive", "la Huella del crimen" de Raúl Waleis, premier roman policier argentin (il date de 1877 et a été récemment réédité - (5)), avait l'intention déclarée de favoriser une nouvelle législation, à travers l'exposé d'une affaire mettant en évidence une faille dans la justice: "Le droit est la source où je puiserai mes arguments. Les mauvaises lois doivent être dénoncées pour les effets que produit leur application. Je crée le drame auquel j'applique la loi en vigueur. Ses conséquences fatales prouveront la nécessité de la réformer. " Les enquêtes de Perry Mason et les récits de Chesterton témoignaient peut-être d'un certain attachement aux canons de la justice et aux considérations morales sur les innocents et les coupables.

9 : Rejet du hasard

À cet égard, citons les intéressantes réflexions de Patricia Highsmith, qui ne craint pas de mettre à l'épreuve la crédulité du lecteur: " J'aime beaucoup qu'il y ait dans l'intrigue des coïncidences et des situations presque (mais pas entièrement) incroyables comme par exemple le plan audacieux qu'un homme propose à un autre qu'il connaît depuis deux heures à peine dans "L'Inconnu du Nord-Express". [...] L'idéal est que les événements prennent une tournure inattendue, en gardant une certaine consonance avec le caractère des personnages. La crédulité du lecteur, son sens de la logique - qui est très élastique -, peut être étirée au maximum, mais il ne faut pas la rompre " ("L'Art du suspense" (6), chap. 5). Le hasard peut survenir dans la narration comme ellipse, tout comme, dans les comédies, on accepte qu'une porte s'ouvre pour laisser sortir un personnage et qu'un autre apparaisse aussitôt. Ou comme le catalyseur d'une circonstance propice à l'accomplissement d'un crime quand le mobile n'est pas très affirmé. C'est ce qui arrive, par exemple, avec l'apparition d'un parent éloigné, dans "Paiement différé" (7) de Cecil Scott Forester. En revanche, le hasard ne devrait pas jouer un rôle décisif dans l'explication finale. À noter que, dans la nouvelle de Borges "la Mort et la Boussole", c'est un accident fortuit, une mort inattendue, qui donne à l'assassin l'idée de la série de meurtres qu'il va commettre. D'autres règles peuvent encore être tirées de l'article de Borges :

10 : Méfiance ou rejet des procédures de l'investigation policière

"Les démarches quotidiennes des investigations policières - empreintes digitales, torture et délation - sembleraient ici des solécismes." L'enquête policière appartient à l'ordre prosaïque des faits et du bon sens. C'est ce qui établit la différence entre le plan de l'enquête officielle de la justice et l'enquête parallèle, de l'ordre de la fiction - à l'écart des critères et des paramètres usuels -, que mène le détective. Dans "la Mort et la Boussole", ironiquement, le policier et le détective ont tous deux raison, mais chacun à sa manière.

11 : L'assassin doit appartenir à la distribution initiale des personnages

"Dans les récits honnêtes, écrit Borges, le criminel est l'une des personnes qui figurent dès le début."

12 : La solution doit éviter le recours au surnaturel, qui ne peut être invoqué que comme une conjecture transitoire à écarter

La réponse doit émerveiller le lecteur "sans faire appel bien sûr au surnaturel, dont l'usage dans ce genre de fiction est un alanguissement et une félonie. Chesterton réalise toujours le tour de force de proposer une explication surnaturelle et de la remplacer ensuite, sans perdre au change, par une autre, toute naturelle."

13 : La solution ne peut comporter des éléments inconnus du lecteur

"Sont également prohibés [...] les élixirs d'origine inconnue." Voici donc les règles énoncées par Borges dans son article. Nous pourrions en rajouter quelques autres :

14 : Omission de la vie privée du détective et de ses aventures sentimentales ou sexuelles

Règle enfreinte dans tous les films policiers, où immanquablement l'enquêteur divorce, mène une existence malheureuse et a une liaison avec l'actrice principale.

15 : Dans le cas d'un double ou triple dénouement, il doit y avoir une progression, chaque fin surpassant la précédente en ingéniosité et en rigueur

Comme dans la règle des trois adjectifs que mentionne Proust à propos des salons de la bonne société française, le troisième est tenu de surpasser les deux premiers.

16 : Le meurtrier ne peut être le majordome (à moins d'être dans un congrès de majordomes)

L'assassin ne peut être un personnage trop secondaire, maintenu en permanence caché, comme une carte que l'on garde pour la fin.

17 : L'assassin ne peut être l'immigré ou le fanatique religieux ou le suspect d'extrémisme politique

Règle toujours soigneusement respectée par Agatha Christie. Les mobiles du meurtre doivent être intimes et le meurtrier doit appartenir au noyau dur de l'histoire. Cette règle est négligée de manière particulièrement décevante dans "Meurtriers sans visage", de Henning Mankell.

18 : L'assassin ne doit pas être le narrateur

Règle admirablement transgressée par Agatha Christie dans "le Meurtre de Roger Ackroyd" et, de manière plus prévisible, par Tchekhov dans "la Confession".

19 : L'assassin ne doit pas être l'enquêteur

Règle non respectée par Agatha Christie dans "le Noël d'Hercule Poirot" et par Juan José Saer dans "l'Enquête". Pourrait-on encore allonger cette liste ? Assurément. Mais cela créerait peut-être une fausse illusion, l'illusion que le genre peut être circonscrit et réduit à un formalisme d'axiomes, à une liste de règles et de procédés. Une illusion symétrique et tout aussi erronée - bien que prisée dans les tables rondes, car elle permet la pose iconoclaste et les métaphores guerrières - veut que le genre doit être dynamité, qu'il faut faire voler en éclats toutes les règles, que les lois sont faites pour être violées. Quiconque s'y est essayé sait en tout cas qu'il est difficile, sinon impossible, de se défaire de toutes à la fois, et qu'il y a dans le genre policier une tension extraordinaire entre ce qui a déjà été dit, entre la rhétorique accumulée dans des milliers de romans, et ce qui reste encore à dire, à la limite des règles. Les lois sont, en ce sens, comme une barrière que l'astuce et la créativité doivent franchir. Dans une des très rares occasions où Borges conçoit un projet de roman (dans l'article "è vero, ma non troppo", paru en 1938 dans la revue "El Hogar") ce n'est pas un hasard s'il choisit, entre tous les genres littéraires, le roman policier. Le sien serait, dit-il, "un peu hétérodoxe". Et il souligne que c'est là un point important, car "le genre policier, comme tous les genres, vit de l'incessante et délicate infraction à ses lois". Oui, la délicate infraction à ses lois.

Auteur: Martinez Guillermo

Info: Texte paru dans le quotidien argentin La Nación, le 15 août 2009, traduit de l'espagnol par François Gaudry

[ recettes ] [ écriture ]

 

Commentaires: 0

homme-machine

Un pas de géant pour une machine à jouer aux échecs

Le succès stupéfiant d’AlphaZero, un algorithme d’apprentissage profond, annonce une nouvelle ère de la compréhension – une ère qui, en ce qui concerne les humains, qui pourrait ne pas durer longtemps. Début décembre, des chercheurs de DeepMind, la société d’intelligence artificielle appartenant à la société mère de Google, Alphabet Inc. ont diffusé une dépêche depuis les zones avancées du monde des échecs.

Un an plus tôt, le 5 décembre 2017, l’équipe avait stupéfié ce monde des échecs en annonçant AlphaZero, un algorithme d’apprentissage machine qui maîtrisait non seulement les échecs mais aussi le shogi, ou échecs japonais, et le Go. L’algorithme a commencé sans aucune connaissance des jeux hormis leurs règles de base. Il a ensuite joué contre lui-même des millions de fois et a appris par essais et erreurs. Il a suffi de quelques heures pour que l’algorithme devienne le meilleur joueur, humain ou ordinateur, que le monde ait jamais vu.

Les détails des capacités d’AlphaZero et de son fonctionnement interne ont maintenant été officiellement examinés par des pairs et publiés dans la revue Science ce mois-ci. Le nouvel article aborde plusieurs critiques graves à l’égard de l’allégation initiale (entre autres choses, il était difficile de dire si AlphaZero jouait l’adversaire qu’il s’était choisi, une entité computationnelle nommée Stockfish, en toute équité). Considérez que ces soucis sont maintenant dissipés. AlphaZero ne s’est pas amélioré davantage au cours des douze derniers mois, mais la preuve de sa supériorité s’est bien renforcée. Il fait clairement montre d’un type d’intellect que les humains n’ont jamais vue auparavant, et que nous allons avoir à méditer encore longtemps.

Les échecs par ordinateur ont fait beaucoup de chemin au cours des vingt dernières années. En 1997, le programme de jeu d’échecs d’I.B.M., Deep Blue, a réussi à battre le champion du monde humain en titre, Garry Kasparov, dans un match en six parties. Rétrospectivement, il y avait peu de mystère dans cette réalisation. Deep Blue pouvait évaluer 200 millions de positions par seconde. Il ne s’est jamais senti fatigué, n’a jamais fait d’erreur de calcul et n’a jamais oublié ce qu’il pensait un instant auparavant.

Pour le meilleur et pour le pire, il a joué comme une machine, brutalement et matériellement. Il pouvait dépasser M. Kasparov par le calcul, mais il ne pouvait pas le dépasser sur le plan de la pensée elle-même. Dans la première partie de leur match, Deep Blue a accepté avec avidité le sacrifice d’une tour par M. Kasparov pour un fou, mais a perdu la partie 16 coups plus tard. La génération actuelle des programmes d’échecs les plus forts du monde, tels que Stockfish et Komodo, joue toujours dans ce style inhumain. Ils aiment à capturer les pièces de l’adversaire. Ils ont une défense d’acier. Mais bien qu’ils soient beaucoup plus forts que n’importe quel joueur humain, ces "moteurs" d’échecs n’ont aucune réelle compréhension du jeu. Ils doivent être instruits explicitement pour ce qui touche aux principes de base des échecs. Ces principes, qui ont été raffinés au fil de décennies d’expérience de grands maîtres humains, sont programmés dans les moteurs comme des fonctions d’év

aluation complexes qui indiquent ce qu’il faut rechercher dans une position et ce qu’il faut éviter : comment évaluer le degré de sécurité du roi, l’activité des pièces, la structure dessinée par les pions, le contrôle du centre de l’échiquier, et plus encore, comment trouver le meilleur compromis entre tous ces facteurs. Les moteurs d’échecs d’aujourd’hui, inconscients de façon innée de ces principes, apparaissent comme des brutes : extrêmement rapides et forts, mais sans aucune perspicacité.

Tout cela a changé avec l’essor du machine-learning. En jouant contre lui-même et en mettant à jour son réseau neuronal au fil de son apprentissage, AlphaZero a découvert les principes des échecs par lui-même et est rapidement devenu le meilleur joueur connu. Non seulement il aurait pu facilement vaincre tous les maîtres humains les plus forts – il n’a même pas pris la peine d’essayer – mais il a écrasé Stockfish, le champion du monde d’échecs en titre par ordinateur. Dans un match de cent parties contre un moteur véritablement impressionnant, AlphaZero a remporté vingt-huit victoires et fait soixante-douze matchs nuls. Il n’a pas perdu une seule partie.

Le plus troublant, c’est qu’AlphaZero semblait être perspicace. Il a joué comme aucun ordinateur ne l’a jamais fait, intuitivement et magnifiquement, avec un style romantique et offensif. Il acceptait de sacrifier des pions et prenait des risques. Dans certaines parties, cela paralysait Stockfish et il s’est joué de lui. Lors de son attaque dans la partie n°10, AlphaZero a replacé sa reine dans le coin du plateau de jeu de son propre côté, loin du roi de Stockfish, pas là où une reine à l’offensive devrait normalement être placée.

Et cependant, cette retraite inattendue s’avéra venimeuse : peu importe comment Stockfish y répondait, ses tentatives étaient vouées à l’échec. C’était presque comme si AlphaZero attendait que Stockfish se rende compte, après des milliards de calculs intensifs bruts, à quel point sa position était vraiment désespérée, pour que la bête abandonne toute résistance et expire paisiblement, comme un taureau vaincu devant un matador. Les grands maîtres n’avaient jamais rien vu de tel. AlphaZero avait la finesse d’un virtuose et la puissance d’une machine. Il s’agissait du premier regard posé par l’humanité sur un nouveau type prodigieux d’intelligence.

Lorsque AlphaZero fut dévoilé pour la première fois, certains observateurs se sont plaints que Stockfish avait été lobotomisé en ne lui donnant pas accès à son livre des ouvertures mémorisées. Cette fois-ci, même avec son livre, il a encore été écrasé. Et quand AlphaZero s’est handicapé en donnant dix fois plus de temps à Stockfish qu’à lui pour réfléchir, il a quand même démoli la bête.

Ce qui est révélateur, c’est qu’AlphaZero a gagné en pensant plus intelligemment, pas plus vite ; il n’a examiné que 60 000 positions par seconde, contre 60 millions pour Stockfish. Il était plus avisé, sachant ce à quoi on devait penser et ce qu’on pouvait ignorer. En découvrant les principes des échecs par lui-même, AlphaZero a développé un style de jeu qui "reflète la vérité profonde" du jeu plutôt que "les priorités et les préjugés des programmeurs", a expliqué M. Kasparov dans un commentaire qui accompagne et introduit l’article dans Science.

La question est maintenant de savoir si l’apprentissage automatique peut aider les humains à découvrir des vérités similaires sur les choses qui nous tiennent vraiment à coeur : les grands problèmes non résolus de la science et de la médecine, comme le cancer et la conscience ; les énigmes du système immunitaire, les mystères du génome.

Les premiers signes sont encourageants. En août dernier, deux articles parus dans Nature Medicine ont exploré comment l’apprentissage automatique pouvait être appliqué au diagnostic médical. Dans l’un d’entre eux, des chercheurs de DeepMind se sont associés à des cliniciens du Moorfields Eye Hospital de Londres pour mettre au point un algorithme d’apprentissage profond qui pourrait classer un large éventail de pathologies de la rétine aussi précisément que le font les experts humains (l’ophtalmologie souffre en effet d’une grave pénurie d’experts à même d’interpréter les millions de scans ophtalmologiques effectués chaque année en vue d’un diagnostic ; des assistants numériques intelligents pourraient apporter une aide énorme).

L’autre article concernait un algorithme d’apprentissage machine qui décide si un tomodensitogramme (CT scan) d’un patient admis en urgence montre des signes d’un accident vasculaire cérébral (AVC), ou d’une hémorragie intracrânienne ou encore d’un autre événement neurologique critique. Pour les victimes d’AVC, chaque minute compte ; plus le traitement tarde, plus le résultat clinique se dégrade. (Les neurologistes ont ce sombre dicton: "time is brain"). Le nouvel algorithme a étiqueté ces diagnostics et d’autres diagnostics critiques avec une précision comparable à celle des experts humains – mais il l’a fait 150 fois plus rapidement. Un diagnostic plus rapide pourrait permettre aux cas les plus urgents d’être aiguillés plus tôt, avec une vérification par un radiologiste humain.

Ce qui est frustrant à propos de l’apprentissage machine, cependant, c’est que les algorithmes ne peuvent pas exprimer ce qu’ils pensent. Nous ne savons pas pourquoi ils marchent, donc nous ne savons pas si on peut leur faire confiance. AlphaZero donne l’impression d’avoir découvert quelques principes importants sur les échecs, mais il ne peut pas partager cette compréhension avec nous. Pas encore, en tout cas. En tant qu’êtres humains, nous voulons plus que des réponses. Nous voulons de la perspicacité. Voilà qui va créer à partir de maintenant une source de tension dans nos interactions avec ces ordinateurs.

De fait, en mathématiques, c’est une chose qui s’est déjà produite depuis des années. Considérez le problème mathématique du "théorème des quatre couleurs", qui défie de longue date les cerveaux des mathématiciens. Il énonce que, sous certaines contraintes raisonnables, toute carte de pays contigus puisse toujours être coloriée avec seulement quatre couleurs, en n’ayant jamais deux fois la même couleur pour des pays adjacents.

Bien que le théorème des quatre couleurs ait été prouvé en 1977 avec l’aide d’un ordinateur, aucun humain ne pouvait vérifier toutes les étapes de la démonstration. Depuis lors, la preuve a été validée et simplifiée, mais il y a encore des parties qui impliquent un calcul de force brute, du genre de celui employé par les ancêtres informatiques d’AlphaZero qui jouent aux échecs. Ce développement a gêné de nombreux mathématiciens. Ils n’avaient pas besoin d’être rassurés que le théorème des quatre couleurs était vrai ; ils le croyaient déjà. Ils voulaient comprendre pourquoi c’était vrai, et cette démonstration ne les y a pas aidés.

Mais imaginez un jour, peut-être dans un avenir pas si lointain, où AlphaZero aura évolué vers un algorithme de résolution de problèmes plus général ; appelez-le AlphaInfinity. Comme son ancêtre, il aurait une perspicacité suprême : il pourrait trouver de belles démonstrations, aussi élégantes que les parties d’échecs qu’AlphaZero jouait contre Stockfish. Et chaque démonstration révélerait pourquoi un théorème était vrai ; l’AlphaInfinity ne vous l’enfoncerait pas juste dans la tête avec une démonstration moche et ardue.

Pour les mathématiciens et les scientifiques humains, ce jour marquerait l’aube d’une nouvelle ère de perspicacité. Mais ça ne durera peut-être pas. Alors que les machines deviennent de plus en plus rapides et que les humains restent en place avec leurs neurones fonctionnant à des échelles de temps de quelques millisecondes, un autre jour viendra où nous ne pourrons plus suivre. L’aube de la perspicacité humaine peut rapidement se transformer en crépuscule.

Supposons qu’il existe des régularités ou des modèles plus profonds à découvrir – dans la façon dont les gènes sont régulés ou dont le cancer progresse ; dans l’orchestration du système immunitaire ; dans la danse des particules subatomiques. Et supposons que ces schémas puissent être prédits, mais seulement par une intelligence bien supérieure à la nôtre. Si AlphaInfinity pouvait les identifier et les comprendre, cela nous semblerait être un oracle.

Nous nous assiérions à ses pieds et écouterions attentivement. Nous ne comprendrions pas pourquoi l’oracle a toujours raison, mais nous pourrions vérifier ses calculs et ses prédictions par rapport aux expériences et aux observations, et confirmer ses révélations. La science, cette entreprise de l’homme qui le caractérise par-dessus tout, aurait réduit notre rôle à celui de spectateurs, bouches bées dans l’émerveillement et la confusion.

Peut-être qu’un jour, notre manque de perspicacité ne nous dérangerait plus. Après tout, AlphaInfinity pourrait guérir toutes nos maladies, résoudre tous nos problèmes scientifiques et faire arriver tous nos autres trains intellectuels à l’heure avec succès. Nous nous sommes assez bien débrouillés sans trop de perspicacité pendant les quelque 300.000 premières années de notre existence en tant qu’Homo sapiens. Et nous ne manquerons pas de mémoire : nous nous souviendrons avec fierté de l’âge d’or de la perspicacité humaine, cet intermède glorieux, long de quelques milliers d’années, entre un passé où nous ne pouvions rien appréhender et un avenir où nous ne pourrons rien comprendre.

Auteur: Strogatz Steven

Info: Infinite Powers : How Calculus Reveals the Secrets of the Universe, dont cet essai est adapté sur le blog de Jorion

[ singularité ]

 
Mis dans la chaine

Commentaires: 0

Ajouté à la BD par miguel

homme-machine

La théorie des jeux peut rendre l'IA plus correcte et plus efficace

Les chercheurs s’appuient sur des idées issues de la théorie des jeux pour améliorer les grands modèles de langage et les rendre plus cohérents.

Imaginez que vous ayez un ami qui donne des réponses différentes à la même question, selon la façon dont vous la posez. " Quelle est la capitale du Pérou ? "  btiendrait une réponse : " Lima est-elle la capitale du Pérou ? " en obtiendrait un autre. Vous seriez probablement un peu inquiet au sujet des facultés mentales de votre ami et vous auriez certainement du mal à faire confiance à ses réponses.

C'est exactement ce qui se passe avec de nombreux grands modèles de langage (LLM), les outils d'apprentissage automatique ultra-puissants qui alimentent ChatGPT et d'autres merveilles de l'intelligence artificielle. Une question générative, ouverte, donne une réponse, et une question discriminante, qui implique de devoir choisir entre des options, en donne souvent une différente. "Il y a un décalage lorsque la même question est formulée différemment", a déclaré Athul Paul Jacob , doctorant au Massachusetts Institute of Technology.

Pour rendre les réponses d'un modèle de langage plus cohérentes - et rendre le modèle globalement plus fiable - Jacob et ses collègues ont conçu un jeu dans lequel les deux modes du modèle sont amenés à trouver une réponse sur laquelle ils peuvent s'entendre. Surnommée le jeu du consensus , cette procédure simple oppose un LLM à lui-même, en utilisant les outils de la théorie des jeux pour améliorer la précision et la cohérence interne du modèle.

"Les recherches explorant l'autocohérence au sein de ces modèles ont été très limitées", a déclaré Shayegan Omidshafiei , directeur scientifique de la société de robotique Field AI. "Cet article est l'un des premiers à aborder ce problème, de manière intelligente et systématique, en créant un jeu permettant au modèle de langage de jouer avec lui-même."

"C'est un travail vraiment passionnant", a ajouté Ahmad Beirami, chercheur scientifique chez Google Research. Pendant des décennies, a-t-il déclaré, les modèles linguistiques ont généré des réponses aux invites de la même manière. "Avec leur idée novatrice consistant à intégrer un jeu dans ce processus, les chercheurs du MIT ont introduit un paradigme totalement différent, qui peut potentiellement conduire à une multitude de nouvelles applications."

Mettre le jeu au travail

Ce nouveau travail, qui utilise les jeux pour améliorer l'IA, contraste avec les approches précédentes, qui mesuraient le succès d'un programme d'IA via sa maîtrise des jeux. En 1997, par exemple, l'ordinateur Deep Blue d'IBM a battu le grand maître d'échecs Garry Kasparov – une étape importante pour les machines dites pensantes. Dix-neuf ans plus tard, un programme de Google DeepMind nommé AlphaGo a remporté quatre matchs sur cinq contre l'ancien champion de Go Lee Sedol, révélant ainsi une autre arène dans laquelle les humains ne régnaient plus en maître. Les machines ont également surpassé les humains dans les jeux de dames, le poker à deux joueurs et d’autres jeux à somme nulle, dans lesquels la victoire d’un joueur condamne invariablement l’autre.

Le jeu de la diplomatie, un jeu favori de politiciens comme John F. Kennedy et Henry Kissinger, posait un défi bien plus grand aux chercheurs en IA. Au lieu de seulement deux adversaires, le jeu met en scène sept joueurs dont les motivations peuvent être difficiles à lire. Pour gagner, un joueur doit négocier et conclure des accords de coopération que n'importe qui peut rompre à tout moment. La diplomatie est tellement complexe qu'un groupe de Meta s'est félicité qu'en 2022, son programme d'IA Cicero ait développé un « jeu de niveau humain » sur une période de 40 parties. Bien qu'il n'ait pas vaincu le champion du monde, Cicero s'est suffisamment bien comporté pour se classer dans les 10 % les plus performants face à des participants humains.

Au cours du projet, Jacob — membre de l'équipe Meta — a été frappé par le fait que Cicéron s'appuyait sur un modèle de langage pour générer son dialogue avec les autres joueurs. Il a senti un potentiel inexploité. L'objectif de l'équipe, a-t-il déclaré, " était de créer le meilleur modèle de langage possible pour jouer à ce jeu ". Mais qu'en serait-il s’ils se concentraient plutôt sur la création du meilleur jeu possible pour améliorer les performances des grands modèles de langage ?

Interactions consensuelles

En 2023, Jacob a commencé à approfondir cette question au MIT, en travaillant avec Yikang Shen, Gabriele Farina et son conseiller Jacob Andreas sur ce qui allait devenir le jeu du consensus. L'idée centrale est venue d'imaginer une conversation entre deux personnes comme un jeu coopératif, où le succès se concrétise lorsqu'un auditeur comprend ce que l'orateur essaie de transmettre. En particulier, le jeu de consensus est conçu pour aligner les deux systèmes du modèle linguistique : le générateur, qui gère les questions génératives, et le discriminateur, qui gère les questions discriminatives.

Après quelques mois d’arrêts et de redémarrages, l’équipe a transposé ce principe dans un jeu complet. Tout d'abord, le générateur reçoit une question. Cela peut provenir d’un humain, ou d’une liste préexistante. Par exemple, " Où est né Barack Obama ? " Le générateur obtient ensuite des réponses de candidats, disons Honolulu, Chicago et Nairobi. Encore une fois, ces options peuvent provenir d'un humain, d'une liste ou d'une recherche effectuée par le modèle de langage lui-même.

Mais avant de répondre, il est également indiqué au générateur s'il doit répondre correctement ou incorrectement à la question, en fonction des résultats d'un pile ou face équitable.

Si c'est face, alors la machine tente de répondre correctement. Le générateur envoie la question initiale, accompagnée de la réponse choisie, au discriminateur. Si le discriminateur détermine que le générateur a intentionnellement envoyé la bonne réponse, chacun obtient un point, en guise d'incitation.

Si la pièce tombe sur pile, le générateur envoie ce qu’il pense être la mauvaise réponse. Si le discriminateur décide qu’on lui a délibérément donné la mauvaise réponse, ils marquent à nouveau tous les deux un point. L’idée ici est d’encourager l’accord. " C'est comme apprendre un tour à un chien ", a expliqué Jacob. " On lui donne une friandise lorsqu'ils fait la bonne chose. "

Le générateur et le discriminateur commencent également doté chacun de  quelques " croyances " initiales. Credo sous forme d'une distribution de probabilité liée aux différents choix. Par exemple, le générateur peut croire, sur la base des informations qu'il a glanées sur Internet, qu'il y a 80 % de chances qu'Obama soit né à Honolulu, 10 % de chances qu'il soit né à Chicago, 5 % de chances qu'il soit né à Nairobi et 5 % de chances qu'il soit ailleurs. Le discriminateur peut commencer avec une distribution différente. Si les deux " acteurs " sont toujours récompensés après être parvenus à un accord, ils se voient également retirer des points s'ils s'écartent trop de leurs convictions initiales. Cet arrangement encourage les joueurs à intégrer leur connaissance du monde – toujours tirée d'Internet – dans leurs réponses, ce qui devrait rendre le modèle plus précis. Sans ce prérequis ils pourraient s’entendre sur une réponse totalement fausse comme celle de Delhi, mais accumuler quand même des points.

Pour chaque question, les deux systèmes jouent environ 1 000 parties l'un contre l'autre. Au cours de ces nombreuses itérations, chaque camp apprend les croyances de l'autre et modifie ses stratégies en conséquence.

Finalement, le générateur et le discriminateur commencent à être davantage d’accord à mesure qu’ils s’installent dans ce qu’on appelle l’équilibre de Nash. C’est sans doute le concept central de la théorie des jeux. Cela représente une sorte d’équilibre dans un jeu – le point auquel aucun joueur ne peut améliorer ses résultats personnels en changeant de stratégie. Au jeu du chifoumi, par exemple, les joueurs obtiennent de meilleurs résultats lorsqu'ils choisissent chacune des trois options exactement un tiers du temps, et ils obtiendront invariablement de moins bons résultats avec toute autre tactique.

Dans le jeu du consensus, cela peut se jouer de plusieurs manières. Le discriminateur pourrait observer qu'il marque un point lorsqu'il dit " correct " chaque fois que le générateur envoie le mot " Honolulu " pour le lieu de naissance d'Obama. Le générateur et le discriminateur apprendront, après avoir joué plusieurs fois, qu'ils seront récompensés s'ils continuent de le faire, et qu'aucun d'eux n'aura aucune motivation pour faire autre chose... consensus qui représente l'un des nombreux exemples possibles d'équilibre de Nash pour cette question. Le groupe du MIT s'est également appuyé sur une forme modifiée d'équilibre de Nash qui intègre les croyances antérieures des joueurs, ce qui permet de maintenir leurs réponses ancrées dans la réalité.

L'effet net, ont observé les chercheurs, est de rendre le modèle linguistique jouant ce jeu plus précis et plus susceptible de donner la même réponse, quelle que soit la façon dont la question est posée. Pour tester les effets du jeu du consensus, l'équipe a essayé une série de questions standard sur divers modèles de langage de taille modérée comportant de 7 milliards à 13 milliards de paramètres. Ces modèles ont systématiquement obtenu un pourcentage plus élevé de réponses correctes que les modèles qui n'avaient pas joué, même ceux de taille beaucoup plus importante, comportant jusqu'à 540 milliards de paramètres. La participation au jeu a également amélioré la cohérence interne d'un modèle.

En principe, n'importe quel LLM pourrait gagner à jouer contre lui-même, et 1 000 tours ne prendraient que quelques millisecondes sur un ordinateur portable standard. "Un avantage appréciable de l'approche globale", a déclaré Omidshafiei, "est qu'elle est très légère sur le plan informatique, n'impliquant aucune formation ni modification du modèle de langage de base."

Jouer à des jeux avec le langage

Après ce premier succès, Jacob étudie désormais d’autres moyens d’intégrer la théorie des jeux dans la recherche LLM. Les résultats préliminaires ont montré qu’un LLM déjà solide peut encore s’améliorer en jouant à un jeu différent – ​​provisoirement appelé jeu d’ensemble – avec un nombre arbitraire de modèles plus petits. Le LLM principal aurait au moins un modèle plus petit servant d’allié et au moins un modèle plus petit jouant un rôle antagoniste. Si l'on demande au LLM primaire de nommer le président des États-Unis, il obtient un point chaque fois qu'il choisit la même réponse que son allié, et il obtient également un point lorsqu'il choisit une réponse différente de celle de son adversaire. Ces interactions avec des modèles beaucoup plus petits peuvent non seulement améliorer les performances d'un LLM, suggèrent les tests, mais peuvent le faire sans formation supplémentaire ni modification des paramètres.

Et ce n'est que le début. Étant donné qu'une variété de situations peuvent être considérées comme des jeux, les outils de la théorie des jeux peuvent être mis en œuvre dans divers contextes du monde réel, a déclaré Ian Gemp , chercheur scientifique chez Google DeepMind. Dans un article de février 2024 , lui et ses collègues se sont concentrés sur des scénarios de négociation qui nécessitent des échanges plus élaborés que de simples questions et réponses. "L'objectif principal de ce projet est de rendre les modèles linguistiques plus stratégiques", a-t-il déclaré.

Un exemple dont il a parlé lors d'une conférence universitaire est le processus d'examen des articles en vue de leur acceptation par une revue ou une conférence, en particulier après que la soumission initiale ait reçu une évaluation sévère. Étant donné que les modèles linguistiques attribuent des probabilités à différentes réponses, les chercheurs peuvent construire des arbres de jeu similaires à ceux conçus pour les jeux de poker, qui tracent les choix disponibles et leurs conséquences possibles. "Une fois que vous avez fait cela, vous pouvez commencer à calculer les équilibres de Nash, puis classer un certain nombre de réfutations", a déclaré Gemp. Le modèle vous dit essentiellement : c'est ce que nous pensons que vous devriez répondre.

Grâce aux connaissances de la théorie des jeux, les modèles de langage seront capables de gérer des interactions encore plus sophistiquées, plutôt que de se limiter à des problèmes de type questions-réponses. "Le gros gain à venir réside dans les conversations plus longues", a déclaré Andreas. "La prochaine étape consiste à faire interagir une IA avec une personne, et pas seulement avec un autre modèle de langage."

Jacob considère le travail de DeepMind comme complémentaire aux jeux de consensus et d'ensemble. " À un niveau élevé, ces deux méthodes combinent des modèles de langage et la théorie des jeux ", a-t-il déclaré, même si les objectifs sont quelque peu différents. Alors que le groupe Gemp transforme des situations courantes dans un format de jeu pour aider à la prise de décision stratégique, Jacob a déclaré : " nous utilisons ce que nous savons de la théorie des jeux pour améliorer les modèles de langage dans les tâches générales. "

À l’heure actuelle, ces efforts représentent " deux branches du même arbre ", a déclaré Jacob : deux manières différentes d’améliorer le fonctionnement des modèles de langage. " Je pense personnellement  que dans un an ou deux, ces deux branches convergeront. " 

Auteur: Internet

Info: https://www.quantamagazine.org/ - Steve Nadis, 9 mai 2024

[ maïeutique machine-machine ] [ discussion IA - FLP ]

 
Commentaires: 1
Ajouté à la BD par miguel

paliers bayésiens

Une nouvelle preuve montre que les graphiques " expandeurs " se synchronisent

La preuve établit de nouvelles conditions qui provoquent une synchronisation synchronisée des oscillateurs connectés.

Il y a six ans, Afonso Bandeira et Shuyang Ling tentaient de trouver une meilleure façon de discerner les clusters dans d'énormes ensembles de données lorsqu'ils sont tombés sur un monde surréaliste. Ling s'est rendu compte que les équations qu'ils avaient proposées correspondaient, de manière inattendue, parfaitement à un modèle mathématique de synchronisation spontanée. La synchronisation spontanée est un phénomène dans lequel des oscillateurs, qui peuvent prendre la forme de pendules, de ressorts, de cellules cardiaques humaines ou de lucioles, finissent par se déplacer de manière synchronisée sans aucun mécanisme de coordination central.

Bandeira, mathématicien à l' École polytechnique fédérale de Zurich , et Ling, data scientist à l'Université de New York , se sont plongés dans la recherche sur la synchronisation, obtenant une série de résultats remarquables sur la force et la structure que doivent avoir les connexions entre oscillateurs pour forcer les oscillateurs. à synchroniser. Ce travail a abouti à un article d'octobre dans lequel Bandeira a prouvé (avec cinq co-auteurs) que la synchronisation est inévitable dans des types spéciaux de réseaux appelés graphes d'expansion, qui sont clairsemés mais également bien connectés.

Les graphiques expanseurs s'avèrent avoir de nombreuses applications non seulement en mathématiques, mais également en informatique et en physique. Ils peuvent être utilisés pour créer des codes correcteurs d’erreurs et pour déterminer quand les simulations basées sur des nombres aléatoires convergent vers la réalité qu’elles tentent de simuler. Les neurones peuvent être modélisés dans un graphique qui, selon certains chercheurs, forme un expanseur, en raison de l'espace limité pour les connexions à l'intérieur du cerveau. Les graphiques sont également utiles aux géomètres qui tentent de comprendre comment parcourir des surfaces compliquées , entre autres problèmes.

Le nouveau résultat " donne vraiment un aperçu considérable des types de structures graphiques qui vont garantir la synchronisation ", a déclaré Lee DeVille , un mathématicien de l'Université de l'Illinois qui n'a pas participé aux travaux. 

Synchronisation douce-amère         

"La synchronisation est vraiment l'un des phénomènes fondamentaux de la nature", a déclaré Victor Souza , un mathématicien de l'Université de Cambridge qui a travaillé avec Bandeira sur l'article. Pensez aux cellules stimulateurs cardiaques de votre cœur, qui synchronisent leurs pulsations via des signaux électriques. Lors d'expériences en laboratoire, "vous pouvez faire vibrer des centaines ou des milliers de cellules embryonnaires de stimulateur cardiaque à l'unisson", a déclaré Steven Strogatz , mathématicien à l'Université Cornell et autre co-auteur. " C'est un peu effrayant parce que ce n'est pas un cœur entier ; c'est juste au niveau des cellules."

En 1975, le physicien japonais Yoshiki Kuramoto a introduit un modèle mathématique décrivant ce type de système. Son modèle fonctionne sur un réseau appelé graphe, où les nœuds sont reliés par des lignes appelées arêtes. Les nœuds sont appelés voisins s’ils sont liés par une arête. Chaque arête peut se voir attribuer un numéro appelé poids qui code la force de la connexion entre les nœuds qu’elle connecte.

Dans le modèle de synchronisation de Kuramoto, chaque nœud contient un oscillateur, représenté par un point tournant autour d'un cercle. Ce point montre, par exemple, où se trouve une cellule cardiaque dans son cycle de pulsation. Chaque oscillateur tourne à sa propre vitesse préférée. Mais les oscillateurs veulent également correspondre à leurs voisins, qui peuvent tourner à une fréquence différente ou à un moment différent de leur cycle. (Le poids du bord reliant deux oscillateurs mesure la force du couplage entre eux.) S'écarter de ces préférences contribue à l'énergie dépensée par un oscillateur. Le système tente d'équilibrer tous les désirs concurrents en minimisant son énergie totale. La contribution de Kuramoto a été de simplifier suffisamment ces contraintes mathématiques pour que les mathématiciens puissent progresser dans l'étude du système. Dans la plupart des cas, de tels systèmes d’équations différentielles couplées sont pratiquement impossibles à résoudre.

Malgré sa simplicité, le modèle Kuramoto s'est révélé utile pour modéliser la synchronisation des réseaux, du cerveau aux réseaux électriques, a déclaré Ginestra Bianconi , mathématicienne appliquée à l'Université Queen Mary de Londres. "Dans le cerveau, ce n'est pas particulièrement précis, mais on sait que c'est très efficace", a-t-elle déclaré.

"Il y a ici une danse très fine entre les mathématiques et la physique, car un modèle qui capture un phénomène mais qui est très difficile à analyser n'est pas très utile", a déclaré Souza.

Dans son article de 1975, Kuramoto supposait que chaque nœud était connecté à tous les autres nœuds dans ce qu'on appelle un graphe complet. À partir de là, il a montré que pour un nombre infini d’oscillateurs, si le couplage entre eux était suffisamment fort, il pouvait comprendre leur comportement à long terme. Faisant l'hypothèse supplémentaire que tous les oscillateurs avaient la même fréquence (ce qui en ferait ce qu'on appelle un modèle homogène), il trouva une solution dans laquelle tous les oscillateurs finiraient par tourner simultanément, chacun arrondissant le même point de son cercle exactement au même endroit. en même temps. Même si la plupart des graphiques du monde réel sont loin d'être complets, le succès de Kuramoto a conduit les mathématiciens à se demander ce qui se passerait s'ils assouplissaient ses exigences.  

Mélodie et silence

Au début des années 1990, avec son élève Shinya Watanabe , Strogatz a montré que la solution de Kuramoto était non seulement possible, mais presque inévitable, même pour un nombre fini d'oscillateurs. En 2011, Richard Taylor , de l'Organisation australienne des sciences et technologies de la défense, a renoncé à l'exigence de Kuramoto selon laquelle le graphique devait être complet. Il a prouvé que les graphes homogènes où chaque nœud est connecté à au moins 94 % des autres sont assurés de se synchroniser globalement. Le résultat de Taylor avait l'avantage de s'appliquer à des graphes avec des structures de connectivité arbitraires, à condition que chaque nœud ait un grand nombre de voisins.

En 2018, Bandeira, Ling et Ruitu Xu , un étudiant diplômé de l'Université de Yale, ont abaissé à 79,3 % l'exigence de Taylor selon laquelle chaque nœud doit être connecté à 94 % des autres. En 2020, un groupe concurrent a atteint 78,89 % ; en 2021, Strogatz, Alex Townsend et Martin Kassabov ont établi le record actuel en démontrant que 75 % suffisaient.

Pendant ce temps, les chercheurs ont également attaqué le problème dans la direction opposée, en essayant de trouver des graphiques hautement connectés mais non synchronisés globalement. Dans une série d'articles de 2006 à 2022 , ils ont découvert graphique après graphique qui pourraient éviter la synchronisation globale, même si chaque nœud était lié à plus de 68 % des autres. Beaucoup de ces graphiques ressemblent à un cercle de personnes se tenant la main, où chaque personne tend la main à 10, voire 100 voisins proches. Ces graphiques, appelés graphiques en anneaux, peuvent s'installer dans un état dans lequel chaque oscillateur est légèrement décalé par rapport au suivant.

De toute évidence, la structure du graphique influence fortement la synchronisation. Ling, Xu et Bandeira sont donc devenus curieux des propriétés de synchronisation des graphiques générés aléatoirement. Pour rendre leur travail précis, ils ont utilisé deux méthodes courantes pour construire un graphique de manière aléatoire.

Le premier porte le nom de Paul Erdős et Alfréd Rényi, deux éminents théoriciens des graphes qui ont réalisé des travaux fondateurs sur le modèle. Pour construire un graphique à l'aide du modèle Erdős-Rényi, vous commencez avec un groupe de nœuds non connectés. Ensuite, pour chaque paire de nœuds, vous les reliez au hasard avec une certaine probabilité p . Si p vaut 1 %, vous liez les bords 1 % du temps ; si c'est 50 %, chaque nœud se connectera en moyenne à la moitié des autres.

Si p est légèrement supérieur à un seuil qui dépend du nombre de nœuds dans le graphique, le graphique formera, avec une très grande probabilité, un réseau interconnecté (au lieu de comprendre des clusters qui ne sont pas reliés). À mesure que la taille du graphique augmente, ce seuil devient minuscule, de sorte que pour des graphiques suffisamment grands, même si p est petit, ce qui rend le nombre total d'arêtes également petit, les graphiques d'Erdős-Rényi seront connectés.

Le deuxième type de graphe qu’ils ont considéré est appelé graphe d -régulier. Dans de tels graphes, chaque nœud a le même nombre d’arêtes, d . (Ainsi, dans un graphe 3-régulier, chaque nœud est connecté à 3 autres nœuds, dans un graphe 7-régulier, chaque nœud est connecté à 7 autres, et ainsi de suite.)

(Photo avec schéma)

Les graphiques bien connectés bien qu’ils soient clairsemés (n’ayant qu’un petit nombre d’arêtes) sont appelés graphiques d’expansion. Celles-ci sont importantes dans de nombreux domaines des mathématiques, de la physique et de l'informatique, mais si vous souhaitez construire un graphe d'expansion avec un ensemble particulier de propriétés, vous constaterez qu'il s'agit d'un " problème étonnamment non trivial ", selon l'éminent mathématicien. Terry Tao. Les graphes d'Erdős-Rényi, bien qu'ils ne soient pas toujours extensibles, partagent bon nombre de leurs caractéristiques importantes. Et il s'avère cependant que si vous construisez un graphe -régulier et connectez les arêtes de manière aléatoire, vous obtiendrez un graphe d'expansion.

Joindre les deux bouts

En 2018, Ling, Xu et Bandeira ont deviné que le seuil de connectivité pourrait également mesurer l'émergence d'une synchronisation globale : si vous générez un graphique d'Erdős-Rényi avec p juste un peu plus grand que le seuil, le graphique devrait se synchroniser globalement. Ils ont fait des progrès partiels sur cette conjecture, et Strogatz, Kassabov et Townsend ont ensuite amélioré leur résultat. Mais il subsiste un écart important entre leur nombre et le seuil de connectivité.

En mars 2022, Townsend a rendu visite à Bandeira à Zurich. Ils ont réalisé qu'ils avaient une chance d'atteindre le seuil de connectivité et ont fait appel à Pedro Abdalla , un étudiant diplômé de Bandeira, qui à son tour a enrôlé son ami Victor Souza. Abdalla et Souza ont commencé à peaufiner les détails, mais ils se sont rapidement heurtés à des obstacles.

Il semblait que le hasard s’accompagnait de problèmes inévitables. À moins que p ne soit significativement plus grand que le seuil de connectivité, il y aurait probablement des fluctuations sauvages dans le nombre d'arêtes de chaque nœud. L'un peut être attaché à 100 arêtes ; un autre pourrait être attaché à aucun. "Comme pour tout bon problème, il riposte", a déclaré Souza. Abdalla et Souza ont réalisé qu'aborder le problème du point de vue des graphiques aléatoires ne fonctionnerait pas. Au lieu de cela, ils utiliseraient le fait que la plupart des graphes d’Erdős-Rényi sont des expanseurs. "Après ce changement apparemment innocent, de nombreuses pièces du puzzle ont commencé à se mettre en place", a déclaré Souza. "En fin de compte, nous obtenons un résultat bien meilleur que ce à quoi nous nous attendions." Les graphiques sont accompagnés d'un nombre appelé expansion qui mesure la difficulté de les couper en deux, normalisé à la taille du graphique. Plus ce nombre est grand, plus il est difficile de le diviser en deux en supprimant des nœuds.

Au cours des mois suivants, l’équipe a complété le reste de l’argumentation en publiant son article en ligne en octobre. Leur preuve montre qu'avec suffisamment de temps, si le graphe a suffisamment d'expansion, le modèle homogène de Kuramoto se synchronisera toujours globalement.

Sur la seule route

L’un des plus grands mystères restants de l’étude mathématique de la synchronisation ne nécessite qu’une petite modification du modèle présenté dans le nouvel article : que se passe-t-il si certaines paires d’oscillateurs se synchronisent, mais que d’autres s’en écartent ? Dans cette situation, " presque tous nos outils disparaissent immédiatement ", a déclaré Souza. Si les chercheurs parviennent à progresser sur cette version du problème, ces techniques aideront probablement Bandeira à résoudre les problèmes de regroupement de données qu’il avait entrepris de résoudre avant de se tourner vers la synchronisation.

Au-delà de cela, il existe des classes de graphiques outre les extensions, des modèles plus complexes que la synchronisation globale et des modèles de synchronisation qui ne supposent pas que chaque nœud et chaque arête sont identiques. En 2018, Saber Jafarpour et Francesco Bullo de l'Université de Californie à Santa Barbara ont proposé un test de synchronisation globale qui fonctionne lorsque les rotateurs n'ont pas de poids ni de fréquences préférées identiques. L'équipe de Bianconi et d'autres ont travaillé avec des réseaux dont les liens impliquent trois, quatre nœuds ou plus, plutôt que de simples paires.

Bandeira et Abdalla tentent déjà d'aller au-delà des modèles Erdős-Rényi et d -regular vers d'autres modèles de graphes aléatoires plus réalistes. En août dernier, ils ont partagé un article , co-écrit avec Clara Invernizzi, sur la synchronisation dans les graphes géométriques aléatoires. Dans les graphes géométriques aléatoires, conçus en 1961, les nœuds sont dispersés de manière aléatoire dans l'espace, peut-être sur une surface comme une sphère ou un plan. Les arêtes sont placées entre des paires de nœuds s'ils se trouvent à une certaine distance les uns des autres. Leur inventeur, Edgar Gilbert, espérait modéliser des réseaux de communication dans lesquels les messages ne peuvent parcourir que de courtes distances, ou la propagation d'agents pathogènes infectieux qui nécessitent un contact étroit pour se transmettre. Des modèles géométriques aléatoires permettraient également de mieux capturer les liens entre les lucioles d'un essaim, qui se synchronisent en observant leurs voisines, a déclaré Bandeira.

Bien entendu, relier les résultats mathématiques au monde réel est un défi. "Je pense qu'il serait un peu mensonger de prétendre que cela est imposé par les applications", a déclaré Strogatz, qui a également noté que le modèle homogène de Kuramoto ne peut jamais capturer la variation inhérente aux systèmes biologiques. Souza a ajouté : " Il y a de nombreuses questions fondamentales que nous ne savons toujours pas comment résoudre. C'est plutôt comme explorer la jungle. " 



 

Auteur: Internet

Info: https://www.quantamagazine.org - Leïla Sloman, 24 juillet 2023

[ évolution ]

 

Commentaires: 0

Ajouté à la BD par miguel

homme-machine

Comment l'IA comprend des trucs que personne ne lui lui a appris

Les chercheurs peinent à comprendre comment les modèles d'Intelligence artificielle, formés pour perroquetter les textes sur Internet, peuvent effectuer des tâches avancées comme coder, jouer à des jeux ou essayer de rompre un mariage.

Personne ne sait encore comment ChatGPT et ses cousins ​​de l'intelligence artificielle vont transformer le monde, en partie parce que personne ne sait vraiment ce qui se passe à l'intérieur. Certaines des capacités de ces systèmes vont bien au-delà de ce pour quoi ils ont été formés, et même leurs inventeurs ne savent pas pourquoi. Un nombre croissant de tests suggèrent que ces systèmes d'IA développent des modèles internes du monde réel, tout comme notre propre cerveau le fait, bien que la technique des machines soit différente.

"Tout ce que nous voulons faire avec ces systèmes pour les rendre meilleurs ou plus sûrs ou quelque chose comme ça me semble une chose ridicule à demander  si nous ne comprenons pas comment ils fonctionnent", déclare Ellie Pavlick de l'Université Brown,  un des chercheurs travaillant à combler ce vide explicatif.

À un certain niveau, elle et ses collègues comprennent parfaitement le GPT (abréviation de generative pretrained transformer) et d'autres grands modèles de langage, ou LLM. Des modèles qui reposent sur un système d'apprentissage automatique appelé réseau de neurones. De tels réseaux ont une structure vaguement calquée sur les neurones connectés du cerveau humain. Le code de ces programmes est relativement simple et ne remplit que quelques pages. Il met en place un algorithme d'autocorrection, qui choisit le mot le plus susceptible de compléter un passage sur la base d'une analyse statistique laborieuse de centaines de gigaoctets de texte Internet. D'autres algorithmes auto-apprenants supplémentaire garantissant que le système présente ses résultats sous forme de dialogue. En ce sens, il ne fait que régurgiter ce qu'il a appris, c'est un "perroquet stochastique", selon les mots d'Emily Bender, linguiste à l'Université de Washington. Mais les LLM ont également réussi à réussir l'examen pour devenir avocat, à expliquer le boson de Higgs en pentamètre iambique (forme de poésie contrainte) ou à tenter de rompre le mariage d'un utilisateurs. Peu de gens s'attendaient à ce qu'un algorithme d'autocorrection assez simple acquière des capacités aussi larges.

Le fait que GPT et d'autres systèmes d'IA effectuent des tâches pour lesquelles ils n'ont pas été formés, leur donnant des "capacités émergentes", a surpris même les chercheurs qui étaient généralement sceptiques quant au battage médiatique sur les LLM. "Je ne sais pas comment ils le font ou s'ils pourraient le faire plus généralement comme le font les humains, mais tout ça mes au défi mes pensées sur le sujet", déclare Melanie Mitchell, chercheuse en IA à l'Institut Santa Fe.

"C'est certainement bien plus qu'un perroquet stochastique, qui auto-construit sans aucun doute une certaine représentation du monde, bien que je ne pense pas que ce soit  vraiment de la façon dont les humains construisent un modèle de monde interne", déclare Yoshua Bengio, chercheur en intelligence artificielle à l'université de Montréal.

Lors d'une conférence à l'Université de New York en mars, le philosophe Raphaël Millière de l'Université de Columbia a offert un autre exemple à couper le souffle de ce que les LLM peuvent faire. Les modèles avaient déjà démontré leur capacité à écrire du code informatique, ce qui est impressionnant mais pas trop surprenant car il y a tellement de code à imiter sur Internet. Millière est allé plus loin en montrant que le GPT peut aussi réaliser du code. Le philosophe a tapé un programme pour calculer le 83e nombre de la suite de Fibonacci. "Il s'agit d'un raisonnement en plusieurs étapes d'un très haut niveau", explique-t-il. Et le robot a réussi. Cependant, lorsque Millière a demandé directement le 83e nombre de Fibonacci, GPT s'est trompé, ce qui suggère que le système ne se contentait pas de répéter ce qui se disait sur l'internet. Ce qui suggère que le système ne se contente pas de répéter ce qui se dit sur Internet, mais qu'il effectue ses propres calculs pour parvenir à la bonne réponse.

Bien qu'un LLM tourne sur un ordinateur, il n'en n'est pas un lui-même. Il lui manque des éléments de calcul essentiels, comme sa propre mémoire vive. Reconnaissant tacitement que GPT seul ne devrait pas être capable d'exécuter du code, son inventeur, la société technologique OpenAI, a depuis introduit un plug-in spécialisé -  outil que ChatGPT peut utiliser pour répondre à une requête - qui remédie à cela. Mais ce plug-in n'a pas été utilisé dans la démonstration de Millière. Au lieu de cela, ce dernier suppose plutôt que la machine a improvisé une mémoire en exploitant ses mécanismes d'interprétation des mots en fonction de leur contexte -  situation similaire à la façon dont la nature réaffecte des capacités existantes à de nouvelles fonctions.

Cette capacité impromptue démontre que les LLM développent une complexité interne qui va bien au-delà d'une analyse statistique superficielle. Les chercheurs constatent que ces systèmes semblent parvenir à une véritable compréhension de ce qu'ils ont appris. Dans une étude présentée la semaine dernière à la Conférence internationale sur les représentations de l'apprentissage (ICLR), le doctorant Kenneth Li de l'Université de Harvard et ses collègues chercheurs en intelligence artificielle, Aspen K. Hopkins du Massachusetts Institute of Technology, David Bau de la Northeastern University et Fernanda Viégas , Hanspeter Pfister et Martin Wattenberg, tous à Harvard, ont créé leur propre copie plus petite du réseau neuronal GPT afin de pouvoir étudier son fonctionnement interne. Ils l'ont entraîné sur des millions de matchs du jeu de société Othello en alimentant de longues séquences de mouvements sous forme de texte. Leur modèle est devenu un joueur presque parfait.

Pour étudier comment le réseau de neurones encodait les informations, ils ont adopté une technique que Bengio et Guillaume Alain, également de l'Université de Montréal, ont imaginée en 2016. Ils ont créé un réseau de "sondes" miniatures pour analyser le réseau principal couche par couche. Li compare cette approche aux méthodes des neurosciences. "C'est comme lorsque nous plaçons une sonde électrique dans le cerveau humain", dit-il. Dans le cas de l'IA, la sonde a montré que son "activité neuronale" correspondait à la représentation d'un plateau de jeu d'Othello, bien que sous une forme alambiquée. Pour confirmer ce résultat, les chercheurs ont inversé la sonde afin d'implanter des informations dans le réseau, par exemple en remplaçant l'un des marqueurs noirs du jeu par un marqueur blanc. "En fait, nous piratons le cerveau de ces modèles de langage", explique Li. Le réseau a ajusté ses mouvements en conséquence. Les chercheurs ont conclu qu'il jouait à Othello à peu près comme un humain : en gardant un plateau de jeu dans son "esprit" et en utilisant ce modèle pour évaluer les mouvements. Li pense que le système apprend cette compétence parce qu'il s'agit de la description la plus simple et efficace de ses données pour l'apprentissage. "Si l'on vous donne un grand nombre de scripts de jeu, essayer de comprendre la règle qui les sous-tend est le meilleur moyen de les comprimer", ajoute-t-il.

Cette capacité à déduire la structure du monde extérieur ne se limite pas à de simples mouvements de jeu ; il apparaît également dans le dialogue. Belinda Li (aucun lien avec Kenneth Li), Maxwell Nye et Jacob Andreas, tous au MIT, ont étudié des réseaux qui jouaient à un jeu d'aventure textuel. Ils ont introduit des phrases telles que "La clé est dans le coeur du trésor", suivies de "Tu prends la clé". À l'aide d'une sonde, ils ont constaté que les réseaux encodaient en eux-mêmes des variables correspondant à "coeur" et "Tu", chacune avec la propriété de posséder ou non une clé, et mettaient à jour ces variables phrase par phrase. Le système n'a aucun moyen indépendant de savoir ce qu'est une boîte ou une clé, mais il a acquis les concepts dont il avait besoin pour cette tâche."

"Une représentation de cette situation est donc enfouie dans le modèle", explique Belinda Li.

Les chercheurs s'émerveillent de voir à quel point les LLM sont capables d'apprendre du texte. Par exemple, Pavlick et sa doctorante d'alors, l'étudiante Roma Patel, ont découvert que ces réseaux absorbent les descriptions de couleur du texte Internet et construisent des représentations internes de la couleur. Lorsqu'ils voient le mot "rouge", ils le traitent non seulement comme un symbole abstrait, mais comme un concept qui a une certaine relation avec le marron, le cramoisi, le fuchsia, la rouille, etc. Démontrer cela fut quelque peu délicat. Au lieu d'insérer une sonde dans un réseau, les chercheurs ont étudié sa réponse à une série d'invites textuelles. Pour vérifier si le systhème ne faisait pas simplement écho à des relations de couleur tirées de références en ligne, ils ont essayé de le désorienter en lui disant que le rouge est en fait du vert - comme dans la vieille expérience de pensée philosophique où le rouge d'une personne correspond au vert d'une autre. Plutôt que répéter une réponse incorrecte, les évaluations de couleur du système ont évolué de manière appropriée afin de maintenir les relations correctes.

Reprenant l'idée que pour remplir sa fonction d'autocorrection, le système recherche la logique sous-jacente de ses données d'apprentissage, le chercheur en apprentissage automatique Sébastien Bubeck de Microsoft Research suggère que plus la gamme de données est large, plus les règles du système faire émerger sont générales. "Peut-être que nous nous constatons un tel bond en avant parce que nous avons atteint une diversité de données suffisamment importante pour que le seul principe sous-jacent à toutes ces données qui demeure est que des êtres intelligents les ont produites... Ainsi la seule façon pour le modèle d'expliquer toutes ces données est de devenir intelligent lui-même".

En plus d'extraire le sens sous-jacent du langage, les LLM sont capables d'apprendre en temps réel. Dans le domaine de l'IA, le terme "apprentissage" est généralement réservé au processus informatique intensif dans lequel les développeurs exposent le réseau neuronal à des gigaoctets de données et ajustent petit à petit ses connexions internes. Lorsque vous tapez une requête dans ChatGPT, le réseau devrait être en quelque sorte figé et, contrairement à l'homme, ne devrait pas continuer à apprendre. Il fut donc surprenant de constater que les LLM apprennent effectivement à partir des invites de leurs utilisateurs, une capacité connue sous le nom d'"apprentissage en contexte". "Il s'agit d'un type d'apprentissage différent dont on ne soupçonnait pas l'existence auparavant", explique Ben Goertzel, fondateur de la société d'IA SingularityNET.

Un exemple de la façon dont un LLM apprend vient de la façon dont les humains interagissent avec les chatbots tels que ChatGPT. Vous pouvez donner au système des exemples de la façon dont vous voulez qu'il réponde, et il obéira. Ses sorties sont déterminées par les derniers milliers de mots qu'il a vus. Ce qu'il fait, étant donné ces mots, est prescrit par ses connexions internes fixes - mais la séquence de mots offre néanmoins une certaine adaptabilité. Certaines personnes utilisent le jailbreak à des fins sommaires, mais d'autres l'utilisent pour obtenir des réponses plus créatives. "Il répondra mieux aux questions scientifiques, je dirais, si vous posez directement la question, sans invite spéciale de jailbreak, explique William Hahn, codirecteur du laboratoire de perception de la machine et de robotique cognitive à la Florida Atlantic University. "Sans il sera un meilleur universitaire." (Comme son nom l'indique une invite jailbreak -prison cassée-, invite à  moins délimiter-verrouiller les fonctions de recherche et donc à les ouvrir, avec les risques que ça implique) .

Un autre type d'apprentissage en contexte se produit via l'incitation à la "chaîne de pensée", ce qui signifie qu'on demande au réseau d'épeler chaque étape de son raisonnement - manière de faire qui permet de mieux résoudre les problèmes de logique ou d'arithmétique en passant par plusieurs étapes. (Ce qui rend l'exemple de Millière si surprenant  puisque le réseau a trouvé le nombre de Fibonacci sans un tel encadrement.)

En 2022, une équipe de Google Research et de l'École polytechnique fédérale de Zurich - Johannes von Oswald, Eyvind Niklasson, Ettore Randazzo, João Sacramento, Alexander Mordvintsev, Andrey Zhmoginov et Max Vladymyrov - a montré que l'apprentissage en contexte suit la même procédure de calcul de base que l'apprentissage standard, connue sous le nom de descente de gradient". 

Cette procédure n'était pas programmée ; le système l'a découvert sans aide. "C'est probablement une compétence acquise", déclare Blaise Agüera y Arcas, vice-président de Google Research. De fait il pense que les LLM peuvent avoir d'autres capacités latentes que personne n'a encore découvertes. "Chaque fois que nous testons une nouvelle capacité que nous pouvons quantifier, nous la trouvons", dit-il.

Bien que les LLM aient suffisamment d'angles morts et autres défauts pour ne pas être qualifiés d'intelligence générale artificielle, ou AGI - terme désignant une machine qui atteint l'ingéniosité du cerveau animal - ces capacités émergentes suggèrent à certains chercheurs que les entreprises technologiques sont plus proches de l'AGI que même les optimistes ne l'avaient deviné. "Ce sont des preuves indirectes que nous en sommes probablement pas si loin", a déclaré Goertzel en mars lors d'une conférence sur le deep learning à la Florida Atlantic University. Les plug-ins d'OpenAI ont donné à ChatGPT une architecture modulaire un peu comme celle du cerveau humain. "La combinaison de GPT-4 [la dernière version du LLM qui alimente ChatGPT] avec divers plug-ins pourrait être une voie vers une spécialisation des fonctions semblable à celle de l'homme", déclare Anna Ivanova, chercheuse au M.I.T.

Dans le même temps, les chercheurs s'inquiètent de voir leur capacité à étudier ces systèmes s'amenuiser. OpenAI n'a pas divulgué les détails de la conception et de l'entraînement de GPT-4, en partie du à la concurrence avec Google et d'autres entreprises, sans parler des autres pays. "Il y aura probablement moins de recherche ouverte de la part de l'industrie, et les choses seront plus cloisonnées et organisées autour de la construction de produits", déclare Dan Roberts, physicien théoricien au M.I.T., qui applique les techniques de sa profession à la compréhension de l'IA.

Ce manque de transparence ne nuit pas seulement aux chercheurs, il entrave également les efforts qui visent à comprendre les répercussions sociales de l'adoption précipitée de la technologie de l'IA. "La transparence de ces modèles est la chose la plus importante pour garantir la sécurité", affirme M. Mitchell.

Auteur: Musser Georges

Info: https://www.scientificamerican.com,  11 mai 2023. *algorithme d'optimisation utilisé dans l'apprentissage automatique et les problèmes d'optimisation. Il vise à minimiser ou à maximiser une fonction en ajustant ses paramètres de manière itérative. L'algorithme part des valeurs initiales des paramètres et calcule le gradient de la fonction au point actuel. Les paramètres sont ensuite mis à jour dans la direction du gradient négatif (pour la minimisation) ou positif (pour la maximisation), multiplié par un taux d'apprentissage. Ce processus est répété jusqu'à ce qu'un critère d'arrêt soit rempli. La descente de gradient est largement utilisée dans la formation des modèles d'apprentissage automatique pour trouver les valeurs optimales des paramètres qui minimisent la différence entre les résultats prédits et les résultats réels. Trad et adaptation Mg

[ singularité technologique ] [ versatilité sémantique ]

 

Commentaires: 0

Ajouté à la BD par miguel

homme-machine

Une nouvelle approche du calcul réinvente l'intelligence artificielle

Par l'imprégnation d'énormes vecteurs de sens sémantique, nous pouvons amener les machines à raisonner de manière plus abstraite et plus efficace qu'auparavant.

M
algré le succès retentissant de ChatGPT et d'autres grands modèles de langage, les réseaux de neurones artificiels (ANN) qui sous-tendent ces systèmes pourraient être sur la mauvaise voie.

D'une part, les ANN sont "super gourmands en énergie", a déclaré Cornelia Fermüller , informaticienne à l'Université du Maryland. "Et l'autre problème est [leur] manque de transparence." De tels systèmes sont si compliqués que personne ne comprend vraiment ce qu'ils font, ou pourquoi ils fonctionnent si bien. Ceci, à son tour, rend presque impossible de les amener à raisonner par analogie, ce que font les humains - en utilisant des symboles pour les objets, les idées et les relations entre eux.

Ces lacunes proviennent probablement de la structure actuelle des RNA et de leurs éléments constitutifs : les neurones artificiels individuels. Chaque neurone reçoit des entrées, effectue des calculs et produit des sorties. Les RNA modernes sont des réseaux élaborés de ces unités de calcul, formés pour effectuer des tâches spécifiques.

Pourtant, les limites des RNA sont évidentes depuis longtemps. Considérez, par exemple, un ANN qui sépare les cercles et les carrés. Une façon de le faire est d'avoir deux neurones dans sa couche de sortie, un qui indique un cercle et un qui indique un carré. Si vous voulez que votre ANN discerne également la couleur de la forme - bleu ou rouge - vous aurez besoin de quatre neurones de sortie : un pour le cercle bleu, le carré bleu, le cercle rouge et le carré rouge. Plus de fonctionnalités signifie encore plus de neurones.

Cela ne peut pas être la façon dont notre cerveau perçoit le monde naturel, avec toutes ses variations. "Vous devez proposer que, eh bien, vous avez un neurone pour toutes les combinaisons", a déclaré Bruno Olshausen , neuroscientifique à l'Université de Californie à Berkeley. "Donc, vous auriez dans votre cerveau, [disons,] un détecteur Volkswagen violet."

Au lieu de cela, Olshausen et d'autres soutiennent que l'information dans le cerveau est représentée par l'activité de nombreux neurones. Ainsi, la perception d'une Volkswagen violette n'est pas codée comme les actions d'un seul neurone, mais comme celles de milliers de neurones. Le même ensemble de neurones, tirant différemment, pourrait représenter un concept entièrement différent (une Cadillac rose, peut-être).

C'est le point de départ d'une approche radicalement différente de l'informatique connue sous le nom d'informatique hyperdimensionnelle. La clé est que chaque élément d'information, comme la notion d'une voiture, ou sa marque, son modèle ou sa couleur, ou tout cela ensemble, est représenté comme une seule entité : un vecteur hyperdimensionnel.

Un vecteur est simplement un tableau ordonné de nombres. Un vecteur 3D, par exemple, comprend trois nombres : les coordonnées x , y et z d'un point dans l'espace 3D. Un vecteur hyperdimensionnel, ou hypervecteur, pourrait être un tableau de 10 000 nombres, par exemple, représentant un point dans un espace à 10 000 dimensions. Ces objets mathématiques et l'algèbre pour les manipuler sont suffisamment flexibles et puissants pour amener l'informatique moderne au-delà de certaines de ses limites actuelles et favoriser une nouvelle approche de l'intelligence artificielle.

"C'est ce qui m'a le plus enthousiasmé, pratiquement de toute ma carrière", a déclaré Olshausen. Pour lui et pour beaucoup d'autres, l'informatique hyperdimensionnelle promet un nouveau monde dans lequel l'informatique est efficace et robuste, et les décisions prises par les machines sont entièrement transparentes.

Entrez dans les espaces de grande dimension

Pour comprendre comment les hypervecteurs rendent le calcul possible, revenons aux images avec des cercles rouges et des carrés bleus. Nous avons d'abord besoin de vecteurs pour représenter les variables SHAPE et COLOR. Ensuite, nous avons également besoin de vecteurs pour les valeurs pouvant être affectées aux variables : CERCLE, CARRÉ, BLEU et ROUGE.

Les vecteurs doivent être distincts. Cette distinction peut être quantifiée par une propriété appelée orthogonalité, ce qui signifie être à angle droit. Dans l'espace 3D, il existe trois vecteurs orthogonaux entre eux : un dans la direction x , un autre dans la direction y et un troisième dans la direction z . Dans un espace à 10 000 dimensions, il existe 10 000 vecteurs mutuellement orthogonaux.

Mais si nous permettons aux vecteurs d'être presque orthogonaux, le nombre de ces vecteurs distincts dans un espace de grande dimension explose. Dans un espace à 10 000 dimensions, il existe des millions de vecteurs presque orthogonaux.

Créons maintenant des vecteurs distincts pour représenter FORME, COULEUR, CERCLE, CARRÉ, BLEU et ROUGE. Parce qu'il y a tellement de vecteurs presque orthogonaux possibles dans un espace de grande dimension, vous pouvez simplement assigner six vecteurs aléatoires pour représenter les six éléments ; ils sont presque garantis d'être presque orthogonaux. "La facilité de créer des vecteurs presque orthogonaux est une raison majeure d'utiliser la représentation hyperdimensionnelle", a écrit Pentti Kanerva , chercheur au Redwood Center for Theoretical Neuroscience de l'Université de Californie à Berkeley, dans un article influent de 2009.

L'article s'appuyait sur des travaux effectués au milieu des années 1990 par Kanerva et Tony Plate, alors étudiant au doctorat avec Geoff Hinton à l'Université de Toronto. Les deux ont développé indépendamment l'algèbre pour manipuler les hypervecteurs et ont fait allusion à son utilité pour le calcul en haute dimension.

Étant donné nos hypervecteurs pour les formes et les couleurs, le système développé par Kanerva et Plate nous montre comment les manipuler à l'aide de certaines opérations mathématiques. Ces actions correspondent à des manières de manipuler symboliquement des concepts.

La première opération est la multiplication. C'est une façon de combiner les idées. Par exemple, multiplier le vecteur FORME par le vecteur CERCLE lie les deux en une représentation de l'idée "LA FORME est CERCLE". Ce nouveau vecteur "lié" est presque orthogonal à la fois à SHAPE et à CIRCLE. Et les composants individuels sont récupérables - une caractéristique importante si vous souhaitez extraire des informations à partir de vecteurs liés. Étant donné un vecteur lié qui représente votre Volkswagen, vous pouvez dissocier et récupérer le vecteur pour sa couleur : VIOLET.

La deuxième opération, l'addition, crée un nouveau vecteur qui représente ce qu'on appelle une superposition de concepts. Par exemple, vous pouvez prendre deux vecteurs liés, "SHAPE is CIRCLE" et "COLOR is RED", et les additionner pour créer un vecteur qui représente une forme circulaire de couleur rouge. Là encore, le vecteur superposé peut être décomposé en ses constituants.

La troisième opération est la permutation ; cela implique de réorganiser les éléments individuels des vecteurs. Par exemple, si vous avez un vecteur tridimensionnel avec des valeurs étiquetées x , y et z , la permutation peut déplacer la valeur de x vers y , y vers z et z vers x. "La permutation vous permet de construire une structure", a déclaré Kanerva. "Ça permet de gérer des séquences, des choses qui se succèdent." Considérons deux événements, représentés par les hypervecteurs A et B. Nous pouvons les superposer en un seul vecteur, mais cela détruirait les informations sur l'ordre des événements. La combinaison de l'addition et de la permutation préserve l'ordre ; les événements peuvent être récupérés dans l'ordre en inversant les opérations.

Ensemble, ces trois opérations se sont avérées suffisantes pour créer une algèbre formelle d'hypervecteurs permettant un raisonnement symbolique. Mais de nombreux chercheurs ont été lents à saisir le potentiel de l'informatique hyperdimensionnelle, y compris Olshausen. "Cela n'a tout simplement pas été pris en compte", a-t-il déclaré.

Exploiter le pouvoir

En 2015, un étudiant d'Olshausen nommé Eric Weiss a démontré un aspect des capacités uniques de l'informatique hyperdimensionnelle. Weiss a compris comment représenter une image complexe comme un seul vecteur hyperdimensionnel contenant des informations sur tous les objets de l'image, y compris leurs propriétés, telles que les couleurs, les positions et les tailles.

"Je suis pratiquement tombé de ma chaise", a déclaré Olshausen. "Tout d'un coup, l'ampoule s'est allumée."

Bientôt, d'autres équipes ont commencé à développer des algorithmes hyperdimensionnels pour reproduire des tâches simples que les réseaux de neurones profonds avaient commencé à effectuer environ deux décennies auparavant, comme la classification d'images.

Considérons un ensemble de données annotées composé d'images de chiffres manuscrits. Un algorithme analyse les caractéristiques de chaque image en utilisant un schéma prédéterminé. Il crée ensuite un hypervecteur pour chaque image. Ensuite, l'algorithme ajoute les hypervecteurs pour toutes les images de zéro pour créer un hypervecteur pour l'idée de zéro. Il fait ensuite la même chose pour tous les chiffres, créant 10 hypervecteurs "de classe", un pour chaque chiffre.

Maintenant, l'algorithme reçoit une image non étiquetée. Il crée un hypervecteur pour cette nouvelle image, puis compare l'hypervecteur aux hypervecteurs de classe stockés. Cette comparaison détermine le chiffre auquel la nouvelle image ressemble le plus.

Pourtant, ce n'est que le début. Les points forts de l'informatique hyperdimensionnelle résident dans la capacité de composer et de décomposer des hypervecteurs pour le raisonnement. La dernière démonstration en date a eu lieu en mars, lorsqu'Abbas Rahimi et ses collègues d'IBM Research à Zurich ont utilisé l'informatique hyperdimensionnelle avec des réseaux de neurones pour résoudre un problème classique de raisonnement visuel abstrait - un défi important pour les RNA typiques, et même certains humains. Connu sous le nom de matrices progressives de Raven, le problème présente des images d'objets géométriques dans, disons, une grille 3 par 3. Une position dans la grille est vide. Le sujet doit choisir, parmi un ensemble d'images candidates, l'image qui correspond le mieux au blanc.

"Nous avons dit:" C'est vraiment ... l'exemple qui tue pour le raisonnement abstrait visuel, allons-y "", a déclaré Rahimi.

Pour résoudre le problème à l'aide de l'informatique hyperdimensionnelle, l'équipe a d'abord créé un dictionnaire d'hypervecteurs pour représenter les objets dans chaque image ; chaque hypervecteur du dictionnaire représente un objet et une combinaison de ses attributs. L'équipe a ensuite formé un réseau de neurones pour examiner une image et générer un hypervecteur bipolaire - un élément peut être +1 ou -1 - aussi proche que possible d'une superposition d'hypervecteurs dans le dictionnaire ; l'hypervecteur généré contient donc des informations sur tous les objets et leurs attributs dans l'image. "Vous guidez le réseau de neurones vers un espace conceptuel significatif", a déclaré Rahimi.

Une fois que le réseau a généré des hypervecteurs pour chacune des images de contexte et pour chaque candidat pour l'emplacement vide, un autre algorithme analyse les hypervecteurs pour créer des distributions de probabilité pour le nombre d'objets dans chaque image, leur taille et d'autres caractéristiques. Ces distributions de probabilité, qui parlent des caractéristiques probables à la fois du contexte et des images candidates, peuvent être transformées en hypervecteurs, permettant l'utilisation de l'algèbre pour prédire l'image candidate la plus susceptible de remplir l'emplacement vacant.

Leur approche était précise à près de 88 % sur un ensemble de problèmes, tandis que les solutions de réseau neuronal uniquement étaient précises à moins de 61 %. L'équipe a également montré que, pour les grilles 3 par 3, leur système était presque 250 fois plus rapide qu'une méthode traditionnelle qui utilise des règles de logique symbolique pour raisonner, car cette méthode doit parcourir un énorme livre de règles pour déterminer la bonne prochaine étape.

Un début prometteur

Non seulement l'informatique hyperdimensionnelle nous donne le pouvoir de résoudre symboliquement des problèmes, mais elle résout également certains problèmes épineux de l'informatique traditionnelle. Les performances des ordinateurs d'aujourd'hui se dégradent rapidement si les erreurs causées, par exemple, par un retournement de bit aléatoire (un 0 devient 1 ou vice versa) ne peuvent pas être corrigées par des mécanismes de correction d'erreurs intégrés. De plus, ces mécanismes de correction d'erreurs peuvent imposer une pénalité sur les performances allant jusqu'à 25 %, a déclaré Xun Jiao , informaticien à l'Université de Villanova.

Le calcul hyperdimensionnel tolère mieux les erreurs, car même si un hypervecteur subit un nombre important de retournements de bits aléatoires, il reste proche du vecteur d'origine. Cela implique que tout raisonnement utilisant ces vecteurs n'est pas significativement impacté face aux erreurs. L'équipe de Jiao a montré que ces systèmes sont au moins 10 fois plus tolérants aux pannes matérielles que les ANN traditionnels, qui sont eux-mêmes des ordres de grandeur plus résistants que les architectures informatiques traditionnelles. "Nous pouvons tirer parti de toute [cette] résilience pour concevoir du matériel efficace", a déclaré Jiao.

Un autre avantage de l'informatique hyperdimensionnelle est la transparence : l'algèbre vous indique clairement pourquoi le système a choisi la réponse qu'il a choisie. Il n'en va pas de même pour les réseaux de neurones traditionnels. Olshausen, Rahimi et d'autres développent des systèmes hybrides dans lesquels les réseaux de neurones cartographient les éléments du monde physique en hypervecteurs, puis l'algèbre hyperdimensionnelle prend le relais. "Des choses comme le raisonnement analogique vous tombent dessus", a déclaré Olshausen. "C'est ce que nous devrions attendre de tout système d'IA. Nous devrions pouvoir le comprendre comme nous comprenons un avion ou un téléviseur.

Tous ces avantages par rapport à l'informatique traditionnelle suggèrent que l'informatique hyperdimensionnelle est bien adaptée à une nouvelle génération de matériel extrêmement robuste et à faible consommation d'énergie. Il est également compatible avec les "systèmes informatiques en mémoire", qui effectuent le calcul sur le même matériel qui stocke les données (contrairement aux ordinateurs von Neumann existants qui transfèrent inefficacement les données entre la mémoire et l'unité centrale de traitement). Certains de ces nouveaux appareils peuvent être analogiques, fonctionnant à très basse tension, ce qui les rend économes en énergie mais également sujets aux bruits aléatoires. Pour l'informatique de von Neumann, ce caractère aléatoire est "le mur que vous ne pouvez pas franchir", a déclaré Olshausen. Mais avec l'informatique hyperdimensionnelle, "vous pouvez simplement percer".

Malgré ces avantages, l'informatique hyperdimensionnelle en est encore à ses balbutiements. "Il y a un vrai potentiel ici", a déclaré Fermüller. Mais elle souligne qu'il doit encore être testé contre des problèmes du monde réel et à des échelles plus grandes, plus proches de la taille des réseaux de neurones modernes.

"Pour les problèmes à grande échelle, cela nécessite un matériel très efficace", a déclaré Rahimi. "Par exemple, comment [faites-vous] une recherche efficace sur plus d'un milliard d'articles ?"

Tout cela devrait venir avec le temps, a déclaré Kanerva. "Il y a d'autres secrets [que] les espaces de grande dimension détiennent", a-t-il déclaré. "Je vois cela comme le tout début du temps pour le calcul avec des vecteurs."

Auteur: Ananthaswamy Anil

Info: https://www.quantamagazine.org/ Mais 2023

[ machine learning ]

 

Commentaires: 0

Ajouté à la BD par miguel

création

Créativité: 18 choses que les gens créatifs font différemment des autres
La créativité opère de manière mystérieuse et souvent paradoxale. La pensée créative est une caractéristique stable qui définit certaines personnalités, mais elle peut aussi changer en fonction du contexte. On a souvent l'impression que l'inspiration et les idées naissent de nulle part et qu'elles disparaissent au moment où on a le plus besoin d'elles. La pensée créative nécessite une cognition complexe qui est néanmoins complètement différente du processus de réflexion.
La neuroscience nous propose une image très complexe de la créativité. Tels que les scientifiques le comprennent aujourd'hui, la créativité est bien plus complexe que la distinction entre les parties droite et gauche du cerveau nous aurait laissé penser (en théorie, le cerveau gauche serait rationnel et analytique tandis que le cerveau droit serait créatif et émotionnel). En fait, on pense que la créativité implique un certain nombre de processus cognitifs, de voies neuronales et d'émotions, et nous ne nous représentons pas encore totalement comment l'imagination fonctionne.
Psychologiquement parlant, les types de personnalités créatives sont difficiles à repérer, car elles sont en général complexes, paradoxales et qu'elles ont tendance à éviter l'habitude ou la routine. Le stéréotype de l'"artiste torturé" n'est pas infondé - les artistes peuvent vraiment être des personnes encore plus compliquées. Une étude a montré que la créativité implique qu'une multitude de traits, de comportements et d'influences sociales soient rassemblées en une seule et unique personne.
"C'est vraiment difficile pour les personnes créatives de se connaître, car le moi créatif est plus complexe que le moi non-créatif", a déclaré Scott Barry Kaufman, un psychologue de l'Université de New York qui a passé des années à faire des recherches sur la créativité, au Huffington Post. "Les choses qui ressortent le plus sont les paradoxes du moi créatif... Les personnes imaginatives ont des esprits plus désordonnés."
S'il n'existe pas de profil créatif "typique ", on trouve cependant des caractéristiques et des comportements révélateurs chez les personnes extrêmement créatives. Voici 18 choses qu'elles font différemment.
1) Ils rêvassent
Les personnes créatives le savent bien, malgré ce que leurs professeurs ont pu leur dire: rêvasser n'est pas une perte de temps.
Selon Kaufman et la psychologue Rebecca L. McMillan, co-auteurs d'un article intitulé "Ode à la rêverie positive constructive", laisser son esprit vagabonder peut faciliter le processus de "l'incubation créative". Et bien sûr, nous savons par expérience que nos meilleures idées ont souvent l'air de sortir de nulle part, quand nous avons l'esprit ailleurs.
Bien que rêvasser semble être un acte irréfléchi, une étude parue en 2012 suggérait que cela pourrait en fait nécessiter une grande activité du cerveau - rêvasser peut entraîner des connexions et des idées soudaines parce que cette activité est liée à notre capacité à retenir une information en période de distraction. Les neuroscientifiques ont aussi découvert que rêvasser implique les mêmes processus cognitifs que ceux associés à l'imagination et la créativité.
2) Ils observent tout ce qui est autour d'eux
Le monde appartient aux personnes créatives - elles voient des possibilités partout et recueillent constamment des informations qui deviennent un prétexte à l'expression créative. Comme disait Henry James, "rien n'est perdu chez un écrivain".
L'écrivain Joan Didion avait toujours un petit cahier sur elle, et elle écrivait ses observations sur les gens et les événements qui pourraient à terme lui permettre de mieux comprendre les complexités et les contradictions de son propre esprit:
"Quand nous enregistrons ce que nous voyons autour de nous, que ce soit scrupuleusement ou non, le dénominateur commun de tout ce que nous voyons est toujours, effrontément, l'implacable 'Je'", écrivait Didion dans son essai On Keeping A Notebook.
3) Ils travaillent aux heures qui les arrangent
Beaucoup de grands artistes affirment qu'ils travaillent mieux soit très tôt le matin soit tard le soir. Vladimir Nabokov commençait à écrire dès qu'il se levait, à 6 ou 7 heures du matin, et Frank Lloyd Wright avait l'habitude de se réveiller à 3 ou 4 heures du matin et de travailler pendant quelques heures avant de se recoucher. Quel que soit le moment de la journée, les individus très créatifs finissent souvent par trouver à quelle heure leur esprit se met en route, et organisent leurs journées en fonction de cela.
4) Ils prennent le temps d'être seuls
"Afin d'être ouverts à la créativité, nous devons avoir la capacité d'un usage constructif de la solitude. Nous devons dépasser la peur d'être seul", a écrit le psychologue existentiel américain Rollo May.
Les artistes et les personnes créatives sont souvent caractérisées comme des personnes solitaires, et bien que ce ne soit pas forcément le cas, la solitude peut être le secret qui leur permet de produire leurs plus belles oeuvres. Pour Kaufman, ceci est en lien avec le fait de rêvasser - nous avons besoin de moments de solitude, simplement pour permettre à nos esprits de vagabonder.
"Vous devez rester en connexion avec ce monologue intérieur afin de pouvoir l'exprimer", affirme-t-il. "Il est difficile de trouver cette voix créatrice en vous si vous ne restez pas en connexion avec vous-même et que vous ne réfléchissez pas à ce que vous êtes."
5) Ils contournent les obstacles de la vie.
Une grande partie des histoires et des chansons les plus emblématiques ont été inspirées par des douleurs poignantes et des chagrins déchirants - et le seul réconfort que l'on peut trouver dans ces épreuves, c'est qu'elles ont sans doute été à l'origine de créations artistiques majeures. Un nouveau domaine de psychologie appelé la croissance post-traumatique suggère que beaucoup de gens sont capables de transformer leurs épreuves et les traumatismes de leur enfance en un développement créatif important. Précisément, les chercheurs montrent que le traumatisme peut aider les gens à développer les domaines des relations interpersonnelles, de la spiritualité, de l'appréciation de la vie, ou encore de la force personnelle, et - ce qui importe le plus pour la créativité - leur permettre d'entrevoir de nouvelles possibilités de vie.
"Beaucoup de gens sont capables d'utiliser cela comme un moteur qui leur permet d'imaginer des perspectives différentes de la réalité", assure Kaufman. "Ce qu'il se passe, c'est que leur vision du monde comme étant un lieu sûr a été brisée à un moment de leur vie, les forçant à aller aux extrémités et voir les choses sous un nouveau jour - et cela favorise la créativité."
6) Ils sont à la recherche de nouvelles expériences
Les personnes créatives adorent s'exposer à de nouvelles expériences ou sensations et à de nouveaux états d'esprit - et cette ouverture est un indicateur important de la production créatrice.
"L'ouverture à l'expérience est toujours l'indicateur le plus fort de la réalisation créative", explique Kaufman. "Cela comprend beaucoup de facettes différentes, mais elles sont toutes reliées entre elles : la curiosité intellectuelle, la recherche du frisson, l'ouverture aux émotions, l'ouverture au fantasme. Ce qui les rassemble, c'est la quête d'une exploration cognitive et comportementale du monde, aussi bien votre monde intérieur et votre monde extérieur."
7) Ils "échouent"
La persévérance est presque une condition préalable au succès créatif, selon Kaufman. Faire un travail créatif est souvent décrit comme un processus qui consiste à échouer à maintes reprises jusqu'à ce que vous trouviez quelque chose qui convienne, et les personnes créatives - du moins celles qui réussissent - apprennent à ne pas considérer l'échec comme quelque chose de personnel. "Les personnes créatives échouent et celles qui sont vraiment douées échouent souvent", a écrit Steven Kotler, un contributeur de Forbes, dans un article sur le génie créatif d'Einstein.
8) Ils posent les bonnes questions
Les personnes créatives ont une curiosité insatiable - ils choisissent généralement de vivre la vie examinée, et même quand ils vieillissent, ils maintiennent une curiosité au sujet de la vie. Que ce soit au cours d'une conversation passionnée ou d'un moment de rêvasserie solitaire, les personnes créatives regardent le monde qui les entoure et veulent savoir pourquoi, et comment, les choses sont ainsi.
9) Ils observent les gens
Observateurs de nature et curieux d'en savoir plus sur la vie des autres, les personnes créatives aiment souvent observer les gens - et leurs meilleures idées peuvent provenir de cette activité.
"Marcel Proust a passé une grande partie de sa vie à observer les gens, et il écrivait ses observations qui ressortaient finalement dans ses livres", affirme Kaufman. "Pour beaucoup d'écrivains, observer les gens est très important ... Ils sont de très bons observateurs de la nature humaine."
10) Ils prennent des risques
Prendre des risques fait partie du travail créatif, et beaucoup de personnes créatives adorent prendre des risques dans de différents aspects de leurs vies.
"Il y a une connexion sérieuse et profonde entre la prise de risques et la créativité, qui est rarement prise en compte", a écrit Steven Kotler pour Forbes. "La créativité est l'action de produire quelque chose à partir de rien. Cela nécessite de rendre public ces paris que l'on a d'abord fait dans sa tête. Ce n'est pas un travail pour les timides. Du temps perdu, une réputation salie, de l'argent mal dépensé - tout cela découle d'une créativité qui est allée de travers."
11) Pour eux, tout devient une occasion de s'exprimer
Nietzsche estimait que la vie et le monde devraient être vus comme des oeuvres d'arts. Les personnes créatives ont peut-être plus tendance à voir le monde de cette façon, et à chercher constamment des occasions de s'exprimer dans la vie de tous les jours.
"L'expression créative est de l'expression individuelle", affirme Kaufman. "La créativité n'est rien de plus qu'une expression individuelle de vos besoins, de vos désirs et de votre singularité."
12) Ils réalisent leurs vraies passions
Les personnes créatives ont tendance à être intrinsèquement motivés - c'est-à-dire que leur motivation à agir vient d'un désir interne, plutôt que d'un désir de reconnaissance extérieure ou de récompense.
Les psychologues ont démontré que les personnes créatives trouvent leur énergie dans les activités difficiles, signe de leur motivation intrinsèque, et les chercheurs suggèrent que le fait de simplement penser à des raisons intrinsèques lorsqu'on fait une activité peut suffire à booster la créativité.
"Les créateurs éminents choisissent et deviennent passionnément impliqués dans des problèmes difficiles et risqués qui leur procure une sensation de pouvoir découlant de leur capacité à utiliser leurs talents", écrivent M.A. Collins and T.M. Amabile dans The Handbook of Creativity.
13) Ils sortent de leur propre tête
Kaufman soutient que l'autre objectif de la rêvasserie est de nous aider à sortir de nos propres perspectives limitées et d'explorer d'autres façons de penser, qui peuvent être un atout important pour le travail créatif.
"Rêvasser nous permet d'oublier le présent", explique Kaufman. "Le réseau cérébral associé à la rêvasserie est le même réseau cérébral qui est associé à la théorie de l'esprit - j'aime l'appeler 'le réseau cérébral de l'imagination' - cela vous permet d'imaginer votre futur, mais cela vous permet aussi d'imaginer ce qu'un autre est en train de penser."
Les chercheurs suggèrent aussi que provoquer la "distance psychologique" - c'est-à-dire, réfléchir à une question comme si elle était irréelle ou inconnue, ou alors sous la perspective d'une autre personne - peut stimuler la pensée créative.
14) Ils perdent la notion du temps.
Les personnes créatives se rendent compte que lorsqu'elles écrivent, dansent, peignent ou s'expriment d'une autre manière, elles entrent "dans la zone", c'est-à-dire "en transe", ce qui peut les aider à créer à un grand niveau. La transe est un état mental qui se produit quand un individu dépasse la pensée consciente pour atteindre un état plus intense de concentration facile et de sérénité. Quand une personne est dans cet état, elle ne craint quasiment aucune pression interne ou externe ni les distractions qui pourraient gêner sa performance.
Vous entrez en transe quand vous pratiquez une activité dans laquelle vous êtes bon mais qui vous met aussi au défi - comme tout projet créatif.
"[Les personnes créatives] ont trouvé la chose qu'ils aiment, mais ils ont aussi acquis la compétence qui leur permet d'entrer en transe", explique Kaufman. "L'état de transe nécessite une concordance entre votre compétence et la tâche ou l'activité dans laquelle vous vous êtes lancé."
15) Ils s'entourent de beauté.
Les personnes créatives ont tendance à avoir d'excellents goûts: ils aiment donc être entourés de beauté. Une étude récemment publiée dans le journal Psychologie de l'esthétique, créativité, et les arts montre que les musiciens - que ce soit des musiciens d'orchestre, des professeurs de musique ou des solistes - ont une haute sensibilité et une haute réceptivité à la beauté artistique.
16) Ils relient les points.
Si une chose distingue les personnes très créatives des autres, c'est bien la capacité d'entrevoir des possibilités là où les autres n'en voient pas - ou, dans d'autres termes, la vision. Beaucoup de grands artistes et d'écrivains ont déclaré que la créativité est simplement la capacité à relier des points que les autres n'auraient jamais pensé à relier.
Selon les dires de Steve Jobs:
"La créativité, c'est simplement établir des connexions entre les choses. Quand vous demandez aux personnes créatives comment elles ont réalisé telle ou telle chose, elles se sentent un peu coupables parce qu'elles ne l'ont pas vraiment réalisé, elles ont juste vu quelque chose. Cela leur a sauté aux yeux, tout simplement parce qu'elles sont capables de faire le lien entre les différences expériences qu'elles ont eu et de synthétiser les nouvelles choses.
17) Elles font bouger les choses.
La diversité des expériences, plus que n'importe quoi d'autre, est essentielle à la créativité, selon Kaufman. Les personnes créatives aiment faire bouger les choses, vivre de nouvelles choses, et surtout éviter tout ce qui rend la vie plus monotone ou ordinaire.
"Les personnes créatives ont une plus grande diversité d'expériences, et l'habitude est l'ennemi de la diversité des expériences", affirme Kaufman.
18) Ils consacrent du temps à la méditation.
Les personnes créatives saisissent la valeur d'un esprit clair et concentré - parce que leur travail en dépend. Beaucoup d'artistes, d'entrepreneurs, d'écrivains et autres créateurs, tels que David Lynch, se sont tournés vers la méditation afin d'avoir accès à leur état d'esprit le plus créatif.
Et la science soutient l'hypothèse qui affirme que la méditation peut réellement stimuler votre force intellectuelle de différentes manières. Une étude hollandaise parue en 2012 montrait que certaines techniques de méditation peuvent encourager la pensée créative. Et les pratiques de méditation ont aussi un impact sur la mémoire, la concentration et le bien-être émotionnel. Elles permettent aussi de réduire le stress et l'anxiété, et d'améliorer la clarté d'esprit - et ainsi conduire à de meilleures pensées créatives.

Auteur: Gregoire Carolyn

Info: The Huffington Post mars 2014

[ égoïsme ]

 

Commentaires: 0

bio-évolution

La "tectonique" des chromosomes révèle les secrets de l'évolution des premiers animaux

De grands blocs de gènes conservés au cours de centaines de millions d'années d'évolution permettent de comprendre comment les premiers chromosomes animaux sont apparus.

De nouvelles recherches ont montré que des blocs de gènes liés peuvent conserver leur intégrité et être suivis au cours de l'évolution. Cette découverte est à la base de ce que l'on appelle la tectonique des génomes (photo).

Les chromosomes, ces faisceaux d'ADN qui se mettent en scène dans le ballet mitotique de la division cellulaire, jouent un rôle de premier plan dans la vie complexe. Mais la question de savoir comment les chromosomes sont apparus et ont évolué a longtemps été d'une difficulté décourageante. C'est dû en partie au manque d'informations génomiques au niveau des chromosomes et en partie au fait que l'on soupçonne que des siècles de changements évolutifs ont fait disparaître tout indice sur cette histoire ancienne.

Dans un article paru dans Science Advances, une équipe internationale de chercheurs dirigée par Daniel Rokhsar, professeur de sciences biologiques à l'université de Californie à Berkeley, a suivi les changements survenus dans les chromosomes il y a 800 millions d'années.  Ils ont identifié 29 grands blocs de gènes qui sont restés identifiables lors de leur passage dans trois des plus anciennes subdivisions de la vie animale multicellulaire. En utilisant ces blocs comme marqueurs, les scientifiques ont pu déterminer comment les chromosomes se sont fusionnés et recombinés au fur et à mesure que ces premiers groupes d'animaux devenaient distincts.

Les chercheurs appellent cette approche "tectonique du génome". De la même manière que les géologues utilisent leur compréhension de la tectonique des plaques pour comprendre l'apparition et le mouvement des continents, ces biologistes reconstituent comment diverses duplications, fusions et translocations génomiques ont créé les chromosomes que nous voyons aujourd'hui.

Ces travaux annoncent une nouvelle ère de la génomique comparative : Auparavant, les chercheurs étudiaient des collections de gènes de différentes lignées et décrivaient les changements une paire de bases à la fois. Aujourd'hui, grâce à la multiplication des assemblages de chromosomes, les chercheurs peuvent retracer l'évolution de chromosomes entiers jusqu'à leur origine. Ils peuvent ensuite utiliser ces informations pour faire des prédictions statistiques et tester rigoureusement des hypothèses sur la façon dont les groupes d'organismes sont liés.

Il y a deux ans, à l'aide de méthodes novatrices similaires, M. Rokhsar et ses collègues ont résolu un mystère de longue date concernant la chronologie des duplications du génome qui ont accompagné l'apparition des vertébrés à mâchoires. Mais l'importance de cette approche n'est pas purement rétrospective. En faisant ces découvertes, les chercheurs apprennent les règles algébriques simples qui régissent ce qui se passe lorsque les chromosomes échangent des parties d'eux-mêmes. Ces informations peuvent orienter les futures études génomiques et aider les biologistes à prédire ce qu'ils trouveront dans les génomes des espèces qui n'ont pas encore été séquencées.

"Nous commençons à avoir une vision plus large de l'évolution des chromosomes dans l'arbre de la vie", a déclaré Paulyn Cartwright, professeur d'écologie et de biologie évolutive à l'université du Kansas. Selon elle, les scientifiques peuvent désormais tirer des conclusions sur le contenu des chromosomes des tout premiers animaux. Ils peuvent également examiner comment les différents contenus des chromosomes ont changé ou sont restés les mêmes - et pourquoi - à mesure que les animaux se sont diversifiés. "Nous ne pouvions vraiment pas faire cela avant de disposer de ces génomes de haute qualité". 

Ce que partagent les anciens génomes

Dans l'étude publiée aujourd'hui, Rokhsar et une grande équipe internationale de collaborateurs ont produit le premier assemblage de haute qualité, au niveau des chromosomes, du génome de l'hydre, qu'ils décrivent comme un modèle de "vénérable cnidaire". En le comparant à d'autres génomes animaux disponibles, ils ont découvert des groupes de gènes liés hautement conservés. Bien que l'ordre des gènes au sein d'un bloc soit souvent modifié, les blocs eux-mêmes sont restés stables sur de longues périodes d'évolution.

Lorsque les scientifiques ont commencé à séquencer les génomes animaux il y a une vingtaine d'années, beaucoup d'entre eux n'étaient pas convaincus que des groupes de gènes liés entre eux sur les chromosomes pouvaient rester stables et reconnaissables au cours des éons, et encore moins qu'il serait possible de suivre le passage de ces blocs de gènes à travers pratiquement toutes les lignées animales.

Les animaux ont divergé de leurs parents unicellulaires il y a 600 ou 700 millions d'années, et "être capable de reconnaître les morceaux de chromosomes qui sont encore conservés après cette période de temps est étonnant", a déclaré Jordi Paps, un biologiste de l'évolution à l'Université de Bristol au Royaume-Uni.

"Avant de disposer de ces données sur les chromosomes entiers, nous examinions de petits fragments de chromosomes et nous observions de nombreux réarrangements", a déclaré M. Cartwright. "Nous supposions donc qu'il n'y avait pas de conservation, car les gènes eux-mêmes dans une région du chromosome changent de position assez fréquemment."

Pourtant, bien que l'ordre des gènes soit fréquemment remanié le long des chromosomes, Rokhsar a eu l'intuition, grâce à ses études antérieures sur les génomes animaux, qu'il y avait une relative stabilité dans les gènes apparaissant ensemble. "Si vous comparez une anémone de mer ou une éponge à un être humain, le fait que les gènes se trouvent sur le même morceau d'ADN semble être conservé", explique Rokhsar. "Et le modèle suggérait que des chromosomes entiers étaient également conservés". Mais cette notion n'a pu être testée que récemment, lorsque suffisamment d'informations génomiques à l'échelle du chromosome sur divers groupes d'animaux sont devenues disponibles.

Inertie génomique

Mais pourquoi des blocs de gènes restent-ils liés entre eux ? Selon Harris Lewin, professeur d'évolution et d'écologie à l'université de Californie à Davis, qui étudie l'évolution des génomes de mammifères, une des explications de ce phénomène, appelé synténie, est liée à la fonction des gènes. Il peut être plus efficace pour les gènes qui fonctionnent ensemble d'être physiquement situés ensemble ; ainsi, lorsqu'une cellule a besoin de transcrire des gènes, elle n'a pas à coordonner la transcription à partir de plusieurs endroits sur différents chromosomes. 

Ceci explique probablement la conservation de certains ensembles de gènes dont l'agencement est crucial : les gènes Hox qui établissent les plans corporels des animaux, par exemple, doivent être placés dans un ordre spécifique pour établir correctement le schéma corporel. Mais ces gènes étroitement liés se trouvent dans un morceau d'ADN relativement court. M. Rokhsar dit qu'il ne connaît aucune corrélation fonctionnelle s'étendant sur un chromosome entier qui pourrait expliquer leurs résultats.

(Ici une image décrit les différents types de fusion de chromosomes et l'effet de chacun sur l'ordre des gènes qu'ils contiennent.)

C'est pourquoi Rokhsar est sceptique quant à une explication fonctionnelle. Elle est séduisante ("Ce serait le résultat le plus cool, d'une certaine manière", dit-il) mais peut-être aussi inutile car, à moins qu'un réarrangement chromosomique ne présente un avantage fonctionnel important, il est intrinsèquement difficile pour ce réarrangement de se propager. Et les réarrangements ne sont généralement pas avantageux : Au cours de la méiose et de la formation des gamètes, tous les chromosomes doivent s'apparier avec un partenaire correspondant. Sans partenaire, un chromosome de taille inhabituelle ne pourra pas faire partie d'un gamète viable, et il a donc peu de chances de se retrouver dans la génération suivante. De petites mutations qui remanient l'ordre des gènes à l'intérieur des chromosomes peuvent encore se produire ("Il y a probablement une petite marge d'erreur en termes de réarrangements mineurs, de sorte qu'ils peuvent encore se reconnaître", a déclaré Cartwright). Mais les chromosomes brisés ou fusionnés ont tendance à être des impasses.

Peut-être que dans des groupes comme les mammifères, qui ont des populations de petite taille, un réarrangement pourrait se propager de façon aléatoire par ce qu'on appelle la dérive génétique, suggère Rokhsar. Mais dans les grandes populations qui se mélangent librement, comme celles des invertébrés marins qui pondent des centaines ou des milliers d'œufs, "il est vraiment difficile pour l'un des nouveaux réarrangements de s'imposer", a-t-il déclaré. "Ce n'est pas qu'ils ne sont pas tentés. C'est juste qu'ils ne parviennent jamais à s'imposer dans l'évolution."

Par conséquent, les gènes ont tendance à rester bloqués sur un seul chromosome. "Les processus par lesquels ils se déplacent sont tout simplement lents, sur une échelle de 500 millions d'années", déclare Rokhsar. "Même s'il s'est écoulé énormément de temps, ce n'est toujours pas assez long pour qu'ils puissent se développer".

( une image avec affichage de données montre comment des blocs de gènes ont eu tendance à rester ensemble même lorsqu'ils se déplaçaient vers différents chromosomes dans l'évolution de cinq premières espèces animales.)

L'équipe de Rokhsar a toutefois constaté que lorsque ces rares fusions de chromosomes se produisaient, elles laissaient une signature claire : Après une fusion, les gènes des deux blocs s'entremêlent et sont réorganisés car des "mutations d'inversion" s'y sont accumulées au fil du temps. En conséquence, les gènes des deux blocs se sont mélangés comme du lait versé dans une tasse de thé, pour ne plus jamais être séparés. "Il y a un mouvement entropique vers le mélange qui ne peut être annulé", affirme Rokhsar.

Et parce que les processus de fusion, de mélange et de duplication de blocs génétiques sont si rares, irréversibles et spécifiques, ils sont traçables : Il est très improbable qu'un chromosome se fracture deux fois au même endroit, puis fusionne et se mélange avec un autre bloc génétique de la même manière.

Les signatures de ces événements dans les chromosomes représentent donc un nouvel ensemble de caractéristiques dérivées que les biologistes peuvent utiliser pour tester des hypothèses sur la façon dont les espèces sont liées. Si deux lignées partagent un mélange de deux blocs de gènes, le mélange s'est très probablement produit chez leur ancêtre commun. Si des lignées ont deux ensembles de mêmes blocs de gènes, une duplication du génome a probablement eu lieu chez leur ancêtre commun. Cela fait des syntéries un "outil très, très puissant", a déclaré Oleg Simakov, génomiste à l'université de Vienne et premier auteur des articles. 

Empreintes digitales d'événements évolutifs

"L'un des aspects que je préfère dans notre étude est que nous faisons des prédictions sur ce à quoi il faut s'attendre au sein des génomes qui n'ont pas encore été séquencés", a écrit Rokhsar dans un courriel adressé à Quanta. Par exemple, son équipe a découvert que divers invertébrés classés comme spiraliens partagent tous quatre schémas spécifiques de fusion avec mélange, ce qui implique que les événements de fusion se sont produits chez leur ancêtre commun. "Il s'ensuit que tous les spiraliens devraient présenter ces schémas de fusion avec mélange de modèles", écrit Rokhsar. "Si l'on trouve ne serait-ce qu'un seul spiralien dépourvu de ces motifs, alors l'hypothèse peut être rejetée !".

Et d'ajouter : "On n'a pas souvent l'occasion de faire ce genre de grandes déclarations sur l'histoire de l'évolution."

Dans leur nouvel article Science Advances, Simakov, Rokhsar et leurs collègues ont utilisé l'approche tectonique pour en savoir plus sur l'émergence de certains des premiers groupes d'animaux il y a environ 800 millions d'années. En examinant le large éventail de vie animale représenté par les éponges, les cnidaires (tels que les hydres, les méduses et les coraux) et les bilatériens (animaux à symétrie bilatérale), les chercheurs ont trouvé 27 blocs de gènes hautement conservés parmi leurs chromosomes.

Ensuite, en utilisant les règles de fusion chromosomique et génétique qu'ils avaient identifiées, les chercheurs ont reconstitué les événements de mélange au niveau des chromosomes qui ont accompagné l'évolution de ces trois lignées à partir d'un ancêtre commun. Ils ont montré que les chromosomes des éponges, des cnidaires et des bilatériens représentent tous des manières distinctes de combiner des éléments du génome ancestral.

(Pour expliquer les 2 paragraphes précédents une image avec 3 schémas montre la fusion des chromosomes au début de l'évolution pou arriver au 27 blocs de gènes)

Une découverte stimulante qui a été faite est que certains des blocs de gènes liés semblent également présents dans les génomes de certaines créatures unicellulaires comme les choanoflagellés, les plus proches parents des animaux multicellulaires. Chez les animaux multicellulaires, l'un de ces blocs contient un ensemble diversifié de gènes homéobox qui guident le développement de la structure générale de leur corps. Cela suggère que l'un des tout premiers événements de l'émergence des animaux multicellulaires a été l'expansion et la diversification de ces gènes importants. "Ces anciennes unités de liaison fournissent un cadre pour comprendre l'évolution des gènes et des génomes chez les animaux", notent les scientifiques dans leur article.

Leur approche permet de distinguer de subtiles et importantes différences au niveau des événements chromosomiques. Par exemple, dans leur article de 2020, les chercheurs ont déduit que le génome des vertébrés avait subi une duplication au cours de la période cambrienne, avant que l'évolution ne sépare les poissons sans mâchoire des poissons avec mâchoire. Ils ont ensuite trouvé des preuves que deux poissons à mâchoires se sont hybridés plus tard et ont subi une deuxième duplication de leur génome ; cet hybride est devenu l'ancêtre de tous les poissons osseux.

John Postlethwait, génomicien à l'université de l'Oregon, souligne l'importance de la méthode d'analyse de l'équipe. "Ils ont adopté une approche statistique, et ne se sont pas contentés de dire : "Eh bien, il me semble que telle et telle chose s'est produite", a-t-il déclaré. "C'est une partie vraiment importante de leur méthodologie, non seulement parce qu'ils avaient accès à des génomes de meilleure qualité, mais aussi parce qu'ils ont adopté cette approche quantitative et qu'ils ont réellement testé ces hypothèses."

Ces études ne marquent que le début de ce que la tectonique des génomes et  ce que les syntagmes génétiques peuvent nous apprendre. Dans des prépublications récentes partagées sur biorxiv.org, l'équipe de Rokhsar a reconstitué l'évolution des chromosomes de grenouilles, et une équipe européenne s'est penchée sur l'évolution des chromosomes des poissons téléostéens. Une étude parue dans Current Biology a révélé une "inversion massive du génome" à l'origine de la coexistence de formes divergentes chez la caille commune, ce qui laisse entrevoir certaines des conséquences fonctionnelles du réarrangement des chromosomes.

L'hypothèse selon laquelle le mélange de ces groupes de liaisons génétiques pourrait être lié à la diversification des lignées et à l'innovation évolutive au cours des 500 derniers millions d'années est alléchante. Les réarrangements chromosomiques peuvent conduire à des incompatibilités d'accouplement qui pourraient provoquer la scission en deux d'une lignée. Il est également possible qu'un gène atterrissant dans un nouveau voisinage ait conduit à des innovations dans la régulation des gènes. "Peut-être que ce fut l'une des forces motrices de la diversification des animaux", a déclaré Simakov.

"C'est la grande question", a déclaré Lewin. "Il s'agit de véritables bouleversements tectoniques dans le génome, et il est peu probable qu'ils soient sans conséquence".

Auteur: Internet

Info: https://www.quantamagazine.org/secrets-of-early-animal-evolution-revealed-by-chromosome-tectonics-20220202.Viviane Callier 2 février 2022

[ méta-moteurs ] [ néo-phylogénie ]

 

Commentaires: 0

Ajouté à la BD par miguel

psychosomatique

Nous avons 2 cerveaux.

On se demande souvent pourquoi les gens ont des "boules" dans l'estomac avant d'aller sur scène ? Ou pourquoi un entretien d'emploi imminent peut causer des crampes intestinales ? Ainsi que : pourquoi les antidépresseur qui visent le cerveau causent la nausée ou un bouleversement abdominal chez des millions de personnes qui prennent de telles drogues ?

Les scientifiques disent que la raison de ces réactions est que notre corps a deux cerveaux : le familier, dans le crâne et, moins connus, mais extrêmement importants un autre dans l'intestin humain- Tout comme des jumeaux siamois, les deux cerveaux sont reliés ensemble ; quand l'un est affecté, l'autre aussi. Le cerveau de l'intestin, connu sous le nom de système nerveux entérique, est situé dans les gaines du tissu qui tapissent l'oesophage, l'estomac, le petit intestin et le colon. Si on le considère comme une simple entité, c'est un réseau de neurones, de neurotransmetteurs et de protéines qui zappent des messages entre eux, soutiennent des cellules comme celles du cerveau proprement dit et offrent des circuits complexes qui lui permettent d'agir indépendamment, d'apprendre, de se rappeler et, selon le dicton, de produire des sensations dans les intestins.

Le cerveau de l'intestin joue un rôle important dans le bonheur et la misère humains. Mais peu de gens savent qu'il existe indique le Dr. Michael Gershon, professeur d'anatomie et de biologie des cellules au centre médical presbytérien de Colombia à New York. Pendant des années, on a dit aux gens qui ont des ulcères, des problèmes pour avaler ou des douleurs abdominales chroniques que leurs problèmes étaient imaginaires ou, émotifs, c'est à dire simplement dans leurs têtes. Ces gens ont donc faits la navette entre divers psychiatres pour le traitement. Les médecins avaient raison en attribuant ces problèmes au cerveau dit le DR. Gershon, mais ils blâment le faux. Beaucoup de désordres gastro-intestinaux, comme le syndrome d'entrailles irritable proviennent des problèmes dans le propre cerveau de l'intestin, affirme-t'il. Les symptômes provenant des deux cerveaux - tendent à être confus : " Comme le cerveau peut déranger l'intestin, l'intestin peut également déranger le cerveau... si tu es enchaîné aux toilette avec un serre joint, tu seras aussi affecté."

Les détails de la façon dont le système nerveux entérique reflète le système nerveux central ont émergé ces dernières années, dit le Dr. Gershon, et c'est considéré comme un nouveau champ d'investigation appelé neuro-gastro-enterologie par la médecine. Ainsi, presque chaque substance qui aide à faire fonctionner et à commander le cerveau a donné des résultat dans l'intestin, dit Gershon. Les neurotransmetteurs principaux comme la sérotonine, dopamine, glutamate, nopépinéphrine et l'oxyde nitrique sont là. Deux douzaine de petites protéines cervicales, appelées les neuropeptides, sont dans l'intestin, comme les cellules principales du système immunitaire. Les Enkephalins, une classe d'opiacés normaux du corps, sont dans l'intestin et, constatation qui laisse les chercheurs perplexe, l'intestin est une riche source de benzodiazépines - la famille des produits chimiques psycho-actifs qui inclut des drogues toujours populaires telles que le Valium et le Xanax.

En termes évolutionnistes, il est assez clair que le corps a deux cerveaux, dit le Dr. David Wingate, professeur de science gastro-intestinale à l'université de Londres et conseiller à l'hôpital royal de Londres. Les premiers systèmes nerveux étaient des animaux non tubulaires qui collaient aux roches et attendaient le passage de nourriture. Le système limbique est souvent désignée sous le nom de "cerveau reptilien". Alors que la vie évoluait, les animaux ont eu besoin d'un cerveau plus complexe pour trouver la nourriture et un partenaire sexuel et ainsi ont développé un système nerveux central. Mais le système nerveux de l'intestin était trop important pour l'intégrer à cette nouvelle tête, même avec de longs raccordements sur tout le corps. Un rejeton à toujours besoin de manger et digérer de la nourriture à la naissance. Par conséquent, la nature semble avoir préservé le système nerveux entérique en tant que circuit indépendant.

Chez de plus grands animaux, il est simplement relié de manière vague au système nerveux central et peut la plupart du temps fonctionner seul, sans instructions de l'extérieur. C'est en effet l'image vue par les biologistes développementalistes. Une motte de tissus appelée la "crête neurale" se forme tôt dans l'embryogenese dit le DR.Gershon. Une section se transforme en système nerveux central. Un autre morceau émigre pour devenir le système nerveux entérique. Et postérieurieurement seulement les deux systèmes nerveux seront relié par l'intermédiaire d'une sorte de câble appelé le nerf "vagus". Jusque à relativement récemment, les gens ont pensé que les muscles et les nerfs sensoriels de l'intestin étaient câblés directement au cerveau et que le cerveau commandait l'intestin par deux voies qui augmentaient ou diminuaient les taux de l'activité. L'intestin étant un simple tube avec des réflexes. L'ennui est que personne ne pris la peine de compter les fibres de nerf dans l'intestin. Quand on l'a fait on fut étonné de constater que l'intestin contient 100 millions de neurones - plus que la moelle épinière.

Pourtant le conduit vagus n'envoie qu'environ deux mille fibres de nerf vers l'intestin. Le cerveau envoie des signaux à l'intestin en parlant à un nombre restreint de'"neurones de commande", qui envoient à leur tour des signaux aux neurones internes de l'intestin qui diffusent les messages. Les neurones et les inter neurones de commande sont dispersées dans deux couches de tissu intestinal appelées le plexus myenteric et le plexus subrmuscosal. ("le plexus solaire" est en fait un terme de boxe qui se réfère simplement aux nerfs de l'abdomen.) Ces neurones commandent et contrôlent le modèle de l'activité de l'intestin. Le nerf vagus modifie seulement le volume en changeant le taux de mise à feu. Les plexus contiennent également les cellules gliales qui nourrissent les neurones, les cellules pylônes impliquées dans des immuno-réactions, et "une barrière de sang cervical " qui maintient ces substances nocives loin des neurones importants. Ils ont des sondes pour les protéines de sucre, d'acidité et d'autres facteurs chimiques qui pourraient aider à surveiller le progrès de la digestion, déterminant comment l'intestin mélange et propulse son contenu. "Ce n'est pas une voie simple", Y sont employés des circuits intégrés complexes, pas différents du cerveau." Le cerveau de l'intestin et le cerveau de la tête agissent de la même manière quand ils sont privés d'informations venant du monde extérieur.

Pendant le sommeil, le cerveau de la tête produit des cycles de 90-minutes de sommeil lent, ponctué par des périodes de sommeil avec des mouvement d'oeil rapide (REM) où les rêves se produisent. Pendant la nuit, quand il n'a aucune nourriture, le cerveau de l'intestin produit des cycles 90-minute de lentes vagues de contractions des muscles, ponctuées par de courts gerbes de mouvements rapides des muscles, dit le Dr. Wingate. Les deux cerveaux peuvent donc s'influencer dans cet état. On a trouvé des patients présentant des problèmes d'entrailles ayant un sommeil REM anormal. Ce qui n'est pas contradictoire avec la sagesse folklorique qui voudrait que l'indigestion pousse au cauchemar. Alors que la lumière se fait sur les connexions entre les deux cerveaux, les chercheurs commencent à comprendre pourquoi les gens agissent et se sentent de telle manière.

Quand le cerveau central rencontre une situation effrayante, il libère les hormones d'effort qui préparent le corps combattre ou à se sauver dit le DR.Gershon. L'estomac contient beaucoup de nerfs sensoriels qui sont stimulés par cette montée chimique subite - ainsi surviennent les ballonnements. Sur le champ de bataille, le cerveau de la tête indique au cerveau d'intestin arrêter dit le DR.Gershon " Effrayé un animal en train de courir ne cesse pas de déféquer ". La crainte fait aussi que le nerf vagus au "monte le volume" des circuits de sérotonine dans l'intestin. Ainsi, trop stimulé, l'intestin impulse des vitesse élevés et, souvent, de la diarrhée. De même, des gens s'étouffent avec l'émotion. Quand des nerfs dans l'oesophage sont fortement stimulés, les gens peuvent éprouver des problèmes d'ingestion. Même le prétendu " Moment de Maalox " d'efficacité publicitaire peut être expliqué par les deux cerveaux agissant en interaction, dit le Dr. Jackie D. Wood, président du département de physiologie à l'université de l'Etat de l'Ohio à Columbus. Les signaux d'effort du cerveau de la tête peuvent changer la fonction de nerf entre l'estomac et l'oesophage, ayant pour résultat la brûlure d'estomac.

Dans les cas d'efforts extrême. le cerveau dominant semble protéger l'intestin en envoyant des signaux aux cellules pylônes immunologiques dans le plexus. Les cellules pylônes sécrètent l'histamine, la prostaglandine et d'autres agents qui aident à produire l'inflammation. "C'est protecteur. Si un animal est en danger et sujet au trauma, la substance sale dans les intestins est seulement à quelques cellules du reste du corps. En enflammant l'intestin, le cerveau amorce l'intestin pour la surveillance. Si la barrière se casse, l'intestin est prêt à faire les réparations ". Dit le DR. Wood. Malheureusement, ces produits chimiques libérés causent également la diarrhée et les crampes. Ceci explique également beaucoup d'interactions.."quand tu prends une drogue pour avoir des effets psychiques sur le cerveau, il est très probable que tu auras aussi des effets sur l'intestin. Réciproquement, les drogues développées pour le cerveau ont des utilisations pour l'intestin.

Par exemple, l'intestin est chargé avec la sérotonine des neurotransmetteur. Quand des récepteurs de pression de la doublure de l'intestin sont stimulés, la sérotonine est libérée et commence le mouvement réflexe du péristaltisme. Maintenant un quart des personnes prenant du Prozac ou des antidépresseur semblables ont des problèmes gastro- intestinaux comme la nausée, diarrhée et constipation. Ces drogues agissent sur la sérotonine, empêchant sa prise par les cellules cible de sorte qu'elle demeure plus abondante dans le système nerveux central. Dans une étude le DR.Gershon et ses collègues expliquent les effets secondaires du Prozac sur l'intestin. Ils ont monté une section de colon du cobaye sur un stand et ont mis un petit granule à l'extrémité de la "bouche". Le colon isolé fouette le granule vers le bas vers l'extrémité "anale" de la colonne, juste comme il le ferai à l'intérieur de l'animal. Quand les chercheurs ont mis un peu de Prozac dans le colon, le granule " y est entré dans la haute vitesse". La drogue a doublé la vitesse à laquelle le granule a traversé le colon, ce qui expliqueraient pourquoi certains ont la diarrhée. Le Prozac a été parfois utilisé à petites doses pour traiter la constipation chronique, a il ajouté. Mais quand les chercheurs ont augmenté la quantité de Prozac dans le colon du cobaye, le granule a cessé de se déplacer. Le DR Gershon dit que c'est pourquoi certains deviennent constipé avec cette drogue. Et parce que les nerfs sensoriels stimulés par Prozac peuvent également causer la nausée. Certains antibiotiques comme la crythromycine agissent sur des récepteurs d'intestin et produisent des oscillations. Certaines ont alors des crampes et des nausées. Des drogues comme la morphine et l'héroïne s'attachent aux récepteurs des opiacé de l'intestin, produisant la constipation. En effet, les deux cerveaux peuvent être intoxiqués aux opiacés. Les victimes des maladies d'Alzheimer et de Parkinson souffrent de constipation. Les nerfs dans leur intestin sont aussi malades que les cellules de nerf dans leurs cerveaux. Juste comme le cerveau central affecte l'intestin, le cerveau de l'intestin peut parler à la tête. La plupart des sensations d'intestin qui entrent dans la part consciente sont des choses négatives comme la douleur et le ballonnement.

Les gens ne s'attendent pas à sentir "du bon" venant de l'intestin... mais cela ne signifie pas que de tels signaux sont absents. Par conséquent, il y a la question intrigante : pourquoi l'intestin produit-il de la benzodiazépine ? Le cerveau humain contient des récepteurs pour la benzodiazépine, une drogue qui soulage l'inquiétude, suggérant que le corps produise sa propre source interne de la drogue, dit le Dr. Anthony Basile, neurochimiste au laboratoire de neurologie aux instituts nationaux de la santé a Bethesda. Il y a plusieurs années, dit-il, un scientifique italien a fait une découverte plus effrayante. Les patients présentant un disfonctionnement du foie tombèrent dans un coma profond. Le coma put être renversé, en quelques minutes, en donnant aux patients une drogue qui bloque la benzodiazépine. Quand le foie s'arrête, les substances habituellement neutralisées par le foie vont au cerveau. Certaines sont mauvaises, comme l'ammoniaque et les mercaptans, qui sont "les composés puants que les putois pulvérisent pour se défendre ". Mais une série de composés est également identique à la benzodiazépine. " Nous ne savons pas s'ils viennent de l'intestin lui-même, de bactéries dans l'intestin ou de la nourriture". dit. Le Dr Basile. Mais quand le foie s'arrête la benzodiazépine de l'intestin va directement au cerveau, mettant le patient dans le coma.

L'intérêt pour de telles interactions entre le cerveau d'intestin et celui de tête est énorme... Par exemple, beaucoup de personnes sont allergiques à certaines nourritures, comme les mollusques et les crustacés. C'est parce que les cellules pylônes dans l'intestin deviennent mystérieusement sensibilisées aux antigènes de la nourriture. La prochaine fois que l'antigène apparaît dans l'intestin ; les cellules pylônes appellent un programme, libérant des modulateurs chimiques, qui essaye d'éliminer la menace. La personne allergique se retrouve donc avec de la diarrhée et des crampes. Beaucoup de maladies auto-immunes comme la maladie de Krohn et les colites ulcérative peuvent impliquer le cerveau de l'intestin. Les conséquences peuvent être horribles, comme dans la maladie de Chagas, qui est provoquée par un parasite trouvé en Amérique du sud. Les infectés développent une réponse auto-immune des neurones de leur intestin. Leurs systèmes immunitaires détruit alors lentement leurs propres neurones intestinales. Quand assez de neurones sont mortes, les intestins éclatent littéralement.

Restent ces questions : Est ce que le cerveau de l'intestin apprend ? Pense - il pour lui-même ? L'intestin humain a été longtemps vu comme le réceptacle des bons et des mauvais sentiments. Des états peut-être émotifs du cerveau de la tête sont reflétés dans le cerveau de l'intestin, ou sont-ils ressentis que par ceux qui prêtent l'attention à elles. Le cerveau de l'intestin prend la forme de deux réseaux de raccordements neuraux dans la doublure de l'appareil gastro-intestinal, appelée le plexus myenteric et le plexus subrnucosal. Les nerfs sont fortement reliés ensemble et ont une influence directe sur des choses comme la vitesse de la digestion, le mouvement et des sécrétions de la muqueuses "comme-des-doigts" qui ligne les intestins et les contractions des différents genres de muscle dans les parois de l'intestin. Autoroute cerveau intestin à 2 voies : RUE Bidirectionnelle : L'intestin a son propre esprit, le système nerveux entérique. Juste comme le cerveau dans la tête, disent les chercheurs. Ce système envoie et reçoit des impulsions, enregistre, fait des expériences et répond aux émotions. Ses cellules nerveuse sont baignées et influencées par les mêmes neurotransmetteurs. L'intestin peut déranger le cerveau juste comme le cerveau peut déranger l'intestin. Diagramme des parois du petit intestin : un plan de coupe montre deux réseaux de nerfs qui composent le système nerveux entérique, ou "cerveau dans l'intestin". Le premier réseau, appelé le plexus submucosal, est juste sous la doublure muqueuse. le second, le plexus myenteric, se trouve entre les deux manteaux de muscle.

Auteur: Blakeslee Sandra

Info: New York Times 23 Janvier 1996

[ dyspepsie ] [ tourista ]

 

Commentaires: 0

homme-machine

Les grands modèles de langage tels que ChatGPT sont aujourd'hui suffisamment importants pour commencer à afficher des comportements surprenants et imprévisibles.

Quel film ces emojis décrivent-ils ? (On voit une vidéo qui présente des myriades d'émoji formant des motifs mouvants, modélisés à partir de métadonnées)

Cette question était l'une des 204 tâches choisies l'année dernière pour tester la capacité de divers grands modèles de langage (LLM) - les moteurs de calcul derrière les chatbots d'IA tels que ChatGPT. Les LLM les plus simples ont produit des réponses surréalistes. "Le film est un film sur un homme qui est un homme qui est un homme", commençait l'un d'entre eux. Les modèles de complexité moyenne s'en sont approchés, devinant The Emoji Movie. Mais le modèle le plus complexe l'a emporté en une seule réponse : Finding Nemo.

"Bien que j'essaie de m'attendre à des surprises, je suis surpris par ce que ces modèles peuvent faire", a déclaré Ethan Dyer, informaticien chez Google Research, qui a participé à l'organisation du test. C'est surprenant parce que ces modèles sont censés n'avoir qu'une seule directive : accepter une chaîne de texte en entrée et prédire ce qui va suivre, encore et encore, en se basant uniquement sur des statistiques. Les informaticiens s'attendaient à ce que le passage à l'échelle permette d'améliorer les performances sur des tâches connues, mais ils ne s'attendaient pas à ce que les modèles puissent soudainement gérer autant de tâches nouvelles et imprévisibles.

Des études récentes, comme celle à laquelle a participé M. Dyer, ont révélé que les LLM peuvent produire des centaines de capacités "émergentes", c'est-à-dire des tâches que les grands modèles peuvent accomplir et que les petits modèles ne peuvent pas réaliser, et dont beaucoup ne semblent pas avoir grand-chose à voir avec l'analyse d'un texte. Ces tâches vont de la multiplication à la génération d'un code informatique exécutable et, apparemment, au décodage de films à partir d'emojis. De nouvelles analyses suggèrent que pour certaines tâches et certains modèles, il existe un seuil de complexité au-delà duquel la fonctionnalité du modèle monte en flèche. (Elles suggèrent également un sombre revers de la médaille : À mesure qu'ils gagnent en complexité, certains modèles révèlent de nouveaux biais et inexactitudes dans leurs réponses).

"Le fait que les modèles de langage puissent faire ce genre de choses n'a jamais été abordé dans la littérature à ma connaissance", a déclaré Rishi Bommasani, informaticien à l'université de Stanford. L'année dernière, il a participé à la compilation d'une liste de dizaines de comportements émergents, dont plusieurs ont été identifiés dans le cadre du projet de M. Dyer. Cette liste continue de s'allonger.

Aujourd'hui, les chercheurs s'efforcent non seulement d'identifier d'autres capacités émergentes, mais aussi de comprendre pourquoi et comment elles se manifestent - en somme, d'essayer de prédire l'imprévisibilité. La compréhension de l'émergence pourrait apporter des réponses à des questions profondes concernant l'IA et l'apprentissage automatique en général, comme celle de savoir si les modèles complexes font vraiment quelque chose de nouveau ou s'ils deviennent simplement très bons en statistiques. Elle pourrait également aider les chercheurs à exploiter les avantages potentiels et à limiter les risques liés à l'émergence.

"Nous ne savons pas comment déterminer dans quel type d'application la capacité de nuisance va se manifester, que ce soit en douceur ou de manière imprévisible", a déclaré Deep Ganguli, informaticien à la startup d'IA Anthropic.

L'émergence de l'émergence

Les biologistes, les physiciens, les écologistes et d'autres scientifiques utilisent le terme "émergent" pour décrire l'auto-organisation, les comportements collectifs qui apparaissent lorsqu'un grand nombre d'éléments agissent comme un seul. Des combinaisons d'atomes sans vie donnent naissance à des cellules vivantes ; les molécules d'eau créent des vagues ; des murmurations d'étourneaux s'élancent dans le ciel selon des schémas changeants mais identifiables ; les cellules font bouger les muscles et battre les cœurs. Il est essentiel que les capacités émergentes se manifestent dans les systèmes qui comportent de nombreuses parties individuelles. Mais ce n'est que récemment que les chercheurs ont été en mesure de documenter ces capacités dans les LLM, car ces modèles ont atteint des tailles énormes.

Les modèles de langage existent depuis des décennies. Jusqu'à il y a environ cinq ans, les plus puissants étaient basés sur ce que l'on appelle un réseau neuronal récurrent. Ceux-ci prennent essentiellement une chaîne de texte et prédisent le mot suivant. Ce qui rend un modèle "récurrent", c'est qu'il apprend à partir de ses propres résultats : Ses prédictions sont réinjectées dans le réseau afin d'améliorer les performances futures.

En 2017, les chercheurs de Google Brain ont introduit un nouveau type d'architecture appelé "transformateur". Alors qu'un réseau récurrent analyse une phrase mot par mot, le transformateur traite tous les mots en même temps. Cela signifie que les transformateurs peuvent traiter de grandes quantités de texte en parallèle. 

Les transformateurs ont permis d'augmenter rapidement la complexité des modèles de langage en augmentant le nombre de paramètres dans le modèle, ainsi que d'autres facteurs. Les paramètres peuvent être considérés comme des connexions entre les mots, et les modèles s'améliorent en ajustant ces connexions au fur et à mesure qu'ils parcourent le texte pendant l'entraînement. Plus il y a de paramètres dans un modèle, plus il peut établir des connexions avec précision et plus il se rapproche d'une imitation satisfaisante du langage humain. Comme prévu, une analyse réalisée en 2020 par les chercheurs de l'OpenAI a montré que les modèles gagnent en précision et en capacité au fur et à mesure qu'ils s'étendent.

Mais les débuts des LLM ont également apporté quelque chose de vraiment inattendu. Beaucoup de choses. Avec l'avènement de modèles tels que le GPT-3, qui compte 175 milliards de paramètres, ou le PaLM de Google, qui peut être étendu à 540 milliards de paramètres, les utilisateurs ont commencé à décrire de plus en plus de comportements émergents. Un ingénieur de DeepMind a même rapporté avoir pu convaincre ChatGPT qu'il s'était lui-même un terminal Linux et l'avoir amené à exécuter un code mathématique simple pour calculer les 10 premiers nombres premiers. Fait remarquable, il a pu terminer la tâche plus rapidement que le même code exécuté sur une vraie machine Linux.

Comme dans le cas du film emoji, les chercheurs n'avaient aucune raison de penser qu'un modèle de langage conçu pour prédire du texte imiterait de manière convaincante un terminal d'ordinateur. Nombre de ces comportements émergents illustrent l'apprentissage "à zéro coup" ou "à quelques coups", qui décrit la capacité d'un LLM à résoudre des problèmes qu'il n'a jamais - ou rarement - vus auparavant. Selon M. Ganguli, il s'agit là d'un objectif de longue date dans la recherche sur l'intelligence artificielle. Le fait de montrer que le GPT-3 pouvait résoudre des problèmes sans aucune donnée d'entraînement explicite dans un contexte d'apprentissage à zéro coup m'a amené à abandonner ce que je faisais et à m'impliquer davantage", a-t-il déclaré.

Il n'était pas le seul. Une série de chercheurs, qui ont détecté les premiers indices montrant que les LLM pouvaient dépasser les contraintes de leurs données d'apprentissage, s'efforcent de mieux comprendre à quoi ressemble l'émergence et comment elle se produit. La première étape a consisté à documenter minutieusement l'émergence.

Au-delà de l'imitation

En 2020, M. Dyer et d'autres chercheurs de Google Research ont prédit que les LLM auraient des effets transformateurs, mais la nature de ces effets restait une question ouverte. Ils ont donc demandé à la communauté des chercheurs de fournir des exemples de tâches difficiles et variées afin de déterminer les limites extrêmes de ce qu'un LLM pourrait faire. Cet effort a été baptisé "Beyond the Imitation Game Benchmark" (BIG-bench), en référence au nom du "jeu d'imitation" d'Alan Turing, un test visant à déterminer si un ordinateur peut répondre à des questions d'une manière humaine convaincante. (Le groupe s'est particulièrement intéressé aux exemples où les LLM ont soudainement acquis de nouvelles capacités qui étaient totalement absentes auparavant.

"La façon dont nous comprenons ces transitions brutales est une grande question de la echerche", a déclaré M. Dyer.

Comme on pouvait s'y attendre, pour certaines tâches, les performances d'un modèle se sont améliorées de manière régulière et prévisible au fur et à mesure que la complexité augmentait. Pour d'autres tâches, l'augmentation du nombre de paramètres n'a apporté aucune amélioration. Mais pour environ 5 % des tâches, les chercheurs ont constaté ce qu'ils ont appelé des "percées", c'est-à-dire des augmentations rapides et spectaculaires des performances à partir d'un certain seuil d'échelle. Ce seuil variant en fonction de la tâche et du modèle.

Par exemple, les modèles comportant relativement peu de paramètres - quelques millions seulement - n'ont pas réussi à résoudre des problèmes d'addition à trois chiffres ou de multiplication à deux chiffres, mais pour des dizaines de milliards de paramètres, la précision a grimpé en flèche dans certains modèles. Des sauts similaires ont été observés pour d'autres tâches, notamment le décodage de l'alphabet phonétique international, le décodage des lettres d'un mot, l'identification de contenu offensant dans des paragraphes d'hinglish (combinaison d'hindi et d'anglais) et la formulation d'équivalents en langue anglaise, traduit à partir de proverbes kiswahili.

Introduction

Mais les chercheurs se sont rapidement rendu compte que la complexité d'un modèle n'était pas le seul facteur déterminant. Des capacités inattendues pouvaient être obtenues à partir de modèles plus petits avec moins de paramètres - ou formés sur des ensembles de données plus petits - si les données étaient d'une qualité suffisamment élevée. En outre, la formulation d'une requête influe sur la précision de la réponse du modèle. Par exemple, lorsque Dyer et ses collègues ont posé la question de l'emoji de film en utilisant un format à choix multiples, l'amélioration de la précision a été moins soudaine qu'avec une augmentation graduelle de sa complexité. L'année dernière, dans un article présenté à NeurIPS, réunion phare du domaine, des chercheurs de Google Brain ont montré comment un modèle invité à s'expliquer (capacité appelée raisonnement en chaîne) pouvait résoudre correctement un problème de mots mathématiques, alors que le même modèle sans cette invitation progressivement précisée n'y parvenait pas.

 Yi Tay, scientifique chez Google Brain qui a travaillé sur l'étude systématique de ces percées, souligne que des travaux récents suggèrent que l'incitation par de pareilles chaînes de pensées modifie les courbes d'échelle et, par conséquent, le point où l'émergence se produit. Dans leur article sur NeurIPS, les chercheurs de Google ont montré que l'utilisation d'invites via pareille chaines de pensée progressives pouvait susciter des comportements émergents qui n'avaient pas été identifiés dans l'étude BIG-bench. De telles invites, qui demandent au modèle d'expliquer son raisonnement, peuvent aider les chercheurs à commencer à étudier les raisons pour lesquelles l'émergence se produit.

Selon Ellie Pavlick, informaticienne à l'université Brown qui étudie les modèles computationnels du langage, les découvertes récentes de ce type suggèrent au moins deux possibilités pour expliquer l'émergence. La première est que, comme le suggèrent les comparaisons avec les systèmes biologiques, les grands modèles acquièrent réellement de nouvelles capacités de manière spontanée. "Il se peut très bien que le modèle apprenne quelque chose de fondamentalement nouveau et différent que lorsqu'il était de taille inférieure", a-t-elle déclaré. "C'est ce que nous espérons tous, qu'il y ait un changement fondamental qui se produise lorsque les modèles sont mis à l'échelle.

L'autre possibilité, moins sensationnelle, est que ce qui semble être émergent pourrait être l'aboutissement d'un processus interne, basé sur les statistiques, qui fonctionne par le biais d'un raisonnement de type chaîne de pensée. Les grands LLM peuvent simplement être en train d'apprendre des heuristiques qui sont hors de portée pour ceux qui ont moins de paramètres ou des données de moindre qualité.

Mais, selon elle, pour déterminer laquelle de ces explications est la plus probable, il faut mieux comprendre le fonctionnement des LLM. "Comme nous ne savons pas comment ils fonctionnent sous le capot, nous ne pouvons pas dire laquelle de ces choses se produit.

Pouvoirs imprévisibles et pièges

Demander à ces modèles de s'expliquer pose un problème évident : Ils sont des menteurs notoires. Nous nous appuyons de plus en plus sur ces modèles pour effectuer des travaux de base", a déclaré M. Ganguli, "mais je ne me contente pas de leur faire confiance, je vérifie leur travail". Parmi les nombreux exemples amusants, Google a présenté en février son chatbot d'IA, Bard. Le billet de blog annonçant le nouvel outil montre Bard en train de commettre une erreur factuelle.

L'émergence mène à l'imprévisibilité, et l'imprévisibilité - qui semble augmenter avec l'échelle - rend difficile pour les chercheurs d'anticiper les conséquences d'une utilisation généralisée.

"Il est difficile de savoir à l'avance comment ces modèles seront utilisés ou déployés", a déclaré M. Ganguli. "Et pour étudier les phénomènes émergents, il faut avoir un cas en tête, et on ne sait pas, avant d'avoir étudié l'influence de l'échelle. quelles capacités ou limitations pourraient apparaître.

Dans une analyse des LLM publiée en juin dernier, les chercheurs d'Anthropic ont cherché à savoir si les modèles présentaient certains types de préjugés raciaux ou sociaux, à l'instar de ceux précédemment signalés dans les algorithmes non basés sur les LLM utilisés pour prédire quels anciens criminels sont susceptibles de commettre un nouveau délit. Cette étude a été inspirée par un paradoxe apparent directement lié à l'émergence : Lorsque les modèles améliorent leurs performances en passant à l'échelle supérieure, ils peuvent également augmenter la probabilité de phénomènes imprévisibles, y compris ceux qui pourraient potentiellement conduire à des biais ou à des préjudices.

"Certains comportements nuisibles apparaissent brusquement dans certains modèles", explique M. Ganguli. Il se réfère à une analyse récente des LLM, connue sous le nom de BBQ benchmark, qui a montré que les préjugés sociaux émergent avec un très grand nombre de paramètres. "Les grands modèles deviennent brusquement plus biaisés. Si ce risque n'est pas pris en compte, il pourrait compromettre les sujets de ces modèles."

Mais il propose un contrepoint : Lorsque les chercheurs demandent simplement au modèle de ne pas se fier aux stéréotypes ou aux préjugés sociaux - littéralement en tapant ces instructions - le modèle devient moins biaisé dans ses prédictions et ses réponses. Ce qui suggère que certaines propriétés émergentes pourraient également être utilisées pour réduire les biais. Dans un article publié en février, l'équipe d'Anthropic a présenté un nouveau mode d'"autocorrection morale", dans lequel l'utilisateur incite le programme à être utile, honnête et inoffensif.

Selon M. Ganguli, l'émergence révèle à la fois un potentiel surprenant et un risque imprévisible. Les applications de ces grands LLM prolifèrent déjà, de sorte qu'une meilleure compréhension de cette interaction permettra d'exploiter la diversité des capacités des modèles de langage.

"Nous étudions la manière dont les gens utilisent réellement ces systèmes", a déclaré M. Ganguli. Mais ces utilisateurs sont également en train de bricoler, en permanence. "Nous passons beaucoup de temps à discuter avec nos modèles, et c'est là que nous commençons à avoir une bonne intuition de la confiance ou du manque de confiance.

Auteur: Ornes Stephen

Info: https://www.quantamagazine.org/ - 16 mars 2023. Trad DeepL et MG

[ dialogue ] [ apprentissage automatique ] [ au-delà du jeu d'imitation ] [ dualité ]

 

Commentaires: 0

Ajouté à la BD par miguel