Citation
Catégorie
Tag – étiquette
Auteur
Info



nb max de mots
nb min de mots
trier par
Dictionnaire analogique intriqué pour extraits. Recherche mots ou phrases tous azimuts. Aussi outil de précision sémantique et de réflexion communautaire. Voir la rubrique mode d'emploi. Jetez un oeil à la colonne "chaînes". ATTENTION, faire une REINITIALISATION après  une recherche complexe. Et utilisez le nuage de corrélats !!!!..... Lire la suite >>
Résultat(s): 93
Temps de recherche: 0.0489s

homme-machine

Chat GPT ou le perroquet grammairien

L’irruption des IA conversationnelles dans la sphère publique a conféré une pertinence supplémentaire aux débats sur le langage humain et sur ce qu’on appelle parler. Notamment, les IA redonnent naissance à un débat ancien sur la grammaire générative et sur l’innéisme des facultés langagières. Mais les grands modèles de langage et les IA neuronales nous offrent peut-être l’occasion d’étendre le domaine de la réflexion sur l’architecture des systèmes possibles de cognition, de communication et d’interaction, et considérant aussi la façon dont les animaux communiquent.

a capacité de ChatGPT à produire des textes en réponse à n’importe quelle requête a immédiatement attiré l’attention plus ou moins inquiète d’un grand nombre de personnes, les unes animées par une force de curiosité ou de fascination, et les autres, par un intérêt professionnel.

L’intérêt professionnel scientifique que les spécialistes du langage humain peuvent trouver aux Large Language Models ne date pas d’hier : à bien des égards, des outils de traduction automatique comme DeepL posaient déjà des questions fondamentales en des termes assez proches. Mais l’irruption des IA conversationnelles dans la sphère publique a conféré une pertinence supplémentaire aux débats sur ce que les Large Language Models sont susceptibles de nous dire sur le langage humain et sur ce qu’on appelle parler.

L’outil de traduction DeepL (ou les versions récentes de Google Translate) ainsi que les grands modèles de langage reposent sur des techniques d’" apprentissage profond " issues de l’approche " neuronale " de l’Intelligence Artificielle : on travaille ici sur des modèles d’IA qui organisent des entités d’information minimales en les connectant par réseaux ; ces réseaux de connexion sont entraînés sur des jeux de données considérables, permettant aux liaisons " neuronales " de se renforcer en proportion des probabilités de connexion observées dans le jeu de données réelles – c’est ce rôle crucial de l’entraînement sur un grand jeu de données qui vaut aux grands modèles de langage le sobriquet de " perroquets stochastiques ". Ces mécanismes probabilistes sont ce qui permet aussi à l’IA de gagner en fiabilité et en précision au fil de l’usage. Ce modèle est qualifié de " neuronal " car initialement inspiré du fonctionnement des réseaux synaptiques. Dans le cas de données langagières, à partir d’une requête elle-même formulée en langue naturelle, cette technique permet aux agents conversationnels ou aux traducteurs neuronaux de produire très rapidement des textes généralement idiomatiques, qui pour des humains attesteraient d’un bon apprentissage de la langue.

IA neuronales et acquisition du langage humain

Au-delà de l’analogie " neuronale ", ce mécanisme d’entraînement et les résultats qu’il produit reproduisent les théories de l’acquisition du langage fondées sur l’interaction avec le milieu. Selon ces modèles, généralement qualifiés de comportementalistes ou behavioristes car étroitement associés aux théories psychologiques du même nom, l’enfant acquiert le langage par l’exposition aux stimuli linguistiques environnants et par l’interaction (d’abord tâtonnante, puis assurée) avec les autres. Progressivement, la prononciation s’aligne sur la norme majoritaire dans l’environnement individuel de la personne apprenante ; le vocabulaire s’élargit en fonction des stimuli ; l’enfant s’approprie des structures grammaticales de plus en plus contextes ; et en milieu bilingue, les enfants apprennent peu à peu à discriminer les deux ou plusieurs systèmes auxquels ils sont exposés. Cette conception essentiellement probabiliste de l’acquisition va assez spontanément de pair avec des théories grammaticales prenant comme point de départ l’existence de patrons (" constructions ") dont la combinatoire constitue le système. Dans une telle perspective, il n’est pas pertinent qu’un outil comme ChatGPT ne soit pas capable de référer, ou plus exactement qu’il renvoie d’office à un monde possible stochastiquement moyen qui ne coïncide pas forcément avec le monde réel. Cela ne change rien au fait que ChatGPT, DeepL ou autres maîtrisent le langage et que leur production dans une langue puisse être qualifiée de langage : ChatGPT parle.

Mais ce point de vue repose en réalité sur un certain nombre de prémisses en théorie de l’acquisition, et fait intervenir un clivage lancinant au sein des sciences du langage. L’actualité de ces dernières années et surtout de ces derniers mois autour des IA neuronales et génératives redonne à ce clivage une acuité particulière, ainsi qu’une pertinence nouvelle pour l’appréhension de ces outils qui transforment notre rapport au texte et au discours. La polémique, comme souvent (trop souvent ?) quand il est question de théorie du langage et des langues, se cristallise – en partie abusivement – autour de la figure de Noam Chomsky et de la famille de pensée linguistique très hétérogène qui se revendique de son œuvre, généralement qualifiée de " grammaire générative " même si le pluriel (les grammaires génératives) serait plus approprié.

IA générative contre grammaire générative

Chomsky est à la fois l’enfant du structuralisme dans sa variante états-unienne et celui de la philosophie logique rationaliste d’inspiration allemande et autrichienne implantée sur les campus américains après 1933. Chomsky est attaché à une conception forte de la logique mathématisée, perçue comme un outil d’appréhension des lois universelles de la pensée humaine, que la science du langage doit contribuer à éclairer. Ce parti-pris que Chomsky qualifiera lui-même de " cartésien " le conduit à fonder sa linguistique sur quelques postulats psychologiques et philosophiques, dont le plus important est l’innéisme, avec son corollaire, l’universalisme. Selon Chomsky et les courants de la psychologie cognitive influencée par lui, la faculté de langage s’appuie sur un substrat génétique commun à toute l’espèce humaine, qui s’exprime à la fois par un " instinct de langage " mais aussi par l’existence d’invariants grammaticaux, identifiables (via un certain niveau d’abstraction) dans toutes les langues du monde.

La nature de ces universaux fluctue énormément selon quelle période et quelle école du " générativisme " on étudie, et ce double postulat radicalement innéiste et universaliste reste très disputé aujourd’hui. Ces controverses mettent notamment en jeu des conceptions très différentes de l’acquisition du langage et des langues. Le moment fondateur de la théorie chomskyste de l’acquisition dans son lien avec la définition même de la faculté de langage est un violent compte-rendu critique de Verbal Behavior, un ouvrage de synthèse des théories comportementalistes en acquisition du langage signé par le psychologue B.F. Skinner. Dans ce compte-rendu publié en 1959, Chomsky élabore des arguments qui restent structurants jusqu’à aujourd’hui et qui définissent le clivage entre l’innéisme radical et des théories fondées sur l’acquisition progressive du langage par exposition à des stimuli environnementaux. C’est ce clivage qui préside aux polémiques entre linguistes et psycholinguistes confrontés aux Large Language Models.

On comprend dès lors que Noam Chomsky et deux collègues issus de la tradition générativiste, Ian Roberts, professeur de linguistique à Cambridge, et Jeffrey Watumull, chercheur en intelligence artificielle, soient intervenus dans le New York Times dès le 8 mars 2023 pour exposer un point de vue extrêmement critique intitulée " La fausse promesse de ChatGPT ". En laissant ici de côté les arguments éthiques utilisés dans leur tribune, on retiendra surtout l’affirmation selon laquelle la production de ChatGPT en langue naturelle ne pourrait pas être qualifiée de " langage " ; ChatGPT, selon eux, ne parle pas, car ChatGPT ne peut pas avoir acquis la faculté de langage. La raison en est simple : si les Grands Modèles de Langage reposent intégralement sur un modèle behaviouriste de l’acquisition, dès lors que ce modèle, selon eux, est réfuté depuis soixante ans, alors ce que font les Grands Modèles de Langage ne peut être qualifié de " langage ".

Chomsky, trop têtu pour qu’on lui parle ?

Le point de vue de Chomsky, Roberts et Watumull a été instantanément tourné en ridicule du fait d’un choix d’exemple particulièrement malheureux : les trois auteurs avançaient en effet que certaines constructions syntaxiques complexes, impliquant (dans le cadre générativiste, du moins) un certain nombre d’opérations sur plusieurs niveaux, ne peuvent être acquises sur la base de l’exposition à des stimuli environnementaux, car la fréquence relativement faible de ces phénomènes échouerait à contrebalancer des analogies formelles superficielles avec d’autres tournures au sens radicalement différent. Dans la tribune au New York Times, l’exemple pris est l’anglais John is too stubborn to talk to, " John est trop entêté pour qu’on lui parle ", mais en anglais on a littéralement " trop têtu pour parler à " ; la préposition isolée (ou " échouée ") en position finale est le signe qu’un constituant a été supprimé et doit être reconstitué aux vues de la structure syntaxique d’ensemble. Ici, " John est trop têtu pour qu’on parle à [John] " : le complément supprimé en anglais l’a été parce qu’il est identique au sujet de la phrase.

Ce type d’opérations impliquant la reconstruction d’un complément d’objet supprimé car identique au sujet du verbe principal revient dans la plupart des articles de polémique de Chomsky contre la psychologie behaviouriste et contre Skinner dans les années 1950 et 1960. On retrouve même l’exemple exact de 2023 dans un texte du début des années 1980. C’est en réalité un exemple-type au service de l’argument selon lequel l’existence d’opérations minimales universelles prévues par les mécanismes cérébraux humains est nécessaire pour l’acquisition complète du langage. Il a presque valeur de shibboleth permettant de séparer les innéistes et les comportementalistes. Il est donc logique que Chomsky, Roberts et Watumull avancent un tel exemple pour énoncer que le modèle probabiliste de l’IA neuronale est voué à échouer à acquérir complètement le langage.

On l’aura deviné : il suffit de demander à ChatGPT de paraphraser cette phrase pour obtenir un résultat suggérant que l’agent conversationnel a parfaitement " compris " le stimulus. DeepL, quand on lui demande de traduire cette phrase en français, donne deux solutions : " John est trop têtu pour qu’on lui parle " en solution préférée et " John est trop têtu pour parler avec lui " en solution de remplacement. Hors contexte, donc sans qu’on sache qui est " lui ", cette seconde solution n’est guère satisfaisante. La première, en revanche, fait totalement l’affaire.

Le détour par DeepL nous montre toutefois la limite de ce petit test qui a pourtant réfuté Chomsky, Roberts et Watumull : comprendre, ici, ne veut rien dire d’autre que " fournir une paraphrase équivalente ", dans la même langue (dans le cas de l’objection qui a immédiatement été faite aux trois auteurs) ou dans une autre (avec DeepL), le problème étant que les deux équivalents fournis par DeepL ne sont justement pas équivalents entre eux, puisque l’un est non-ambigu référentiellement et correct, tandis que l’autre est potentiellement ambigu référentiellement, selon comment on comprend " lui ". Or l’argument de Chomsky, Roberts et Watumull est justement celui de l’opacité du complément d’objet… Les trois auteurs ont bien sûr été pris à défaut ; reste que le test employé, précisément parce qu’il est typiquement behaviouriste (observer extérieurement l’adéquation d’une réaction à un stimulus), laisse ouverte une question de taille et pourtant peu présente dans les discussions entre linguistes : y a-t-il une sémantique des énoncés produits par ChatGPT, et si oui, laquelle ? Chomsky et ses co-auteurs ne disent pas que ChatGPT " comprend " ou " ne comprend pas " le stimulus, mais qu’il en " prédit le sens " (bien ou mal). La question de la référence, présente dans la discussion philosophique sur ChatGPT mais peu mise en avant dans le débat linguistique, n’est pas si loin.

Syntaxe et sémantique de ChatGPT

ChatGPT a une syntaxe et une sémantique : sa syntaxe est homologue aux modèles proposés pour le langage naturel invoquant des patrons formels quantitativement observables. Dans ce champ des " grammaires de construction ", le recours aux données quantitatives est aujourd’hui standard, en particulier en utilisant les ressources fournies par les " grand corpus " de plusieurs dizaines de millions voire milliards de mots (quinze milliards de mots pour le corpus TenTen francophone, cinquante-deux milliards pour son équivalent anglophone). D’un certain point de vue, ChatGPT ne fait que répéter la démarche des modèles constructionalistes les plus radicaux, qui partent de co-occurrences statistiques dans les grands corpus pour isoler des patrons, et il la reproduit en sens inverse, en produisant des données à partir de ces patrons.

Corrélativement, ChatGPT a aussi une sémantique, puisque ces théories de la syntaxe sont majoritairement adossées à des modèles sémantiques dits " des cadres " (frame semantics), dont l’un des inspirateurs n’est autre que Marvin Minsky, pionnier de l’intelligence artificielle s’il en est : la circulation entre linguistique et intelligence artificielle s’inscrit donc sur le temps long et n’est pas unilatérale. Là encore, la question est plutôt celle de la référence : la sémantique en question est très largement notionnelle et ne permet de construire un énoncé susceptible d’être vrai ou faux qu’en l’actualisant par des opérations de repérage (ne serait-ce que temporel) impliquant de saturer grammaticalement ou contextuellement un certain nombre de variables " déictiques ", c’est-à-dire qui ne se chargent de sens que mises en relation à un moi-ici-maintenant dans le discours.

On touche ici à un problème transversal aux clivages dessinés précédemment : les modèles " constructionnalistes " sont plus enclins à ménager des places à la variation contextuelle, mais sous la forme de variables situationnelles dont l’intégration à la description ne fait pas consensus ; les grammaires génératives ont très longtemps évacué ces questions hors de leur sphère d’intérêt, mais les considérations pragmatiques y fleurissent depuis une vingtaine d’années, au prix d’une convocation croissante du moi-ici-maintenant dans l’analyse grammaticale, du moins dans certains courants. De ce fait, l’inscription ou non des enjeux référentiels et déictiques dans la définition même du langage comme faculté humaine représente un clivage en grande partie indépendant de celui qui prévaut en matière de théorie de l’acquisition.

À l’école du perroquet

La bonne question, en tout cas la plus féconde pour la comparaison entre les productions langagières humaines et les productions des grands modèles de langage, n’est sans doute pas de savoir si " ChatGPT parle " ni si les performances de l’IA neuronale valident ou invalident en bloc tel ou tel cadre théorique. Une piste plus intéressante, du point de vue de l’étude de la cognition et du langage humains, consiste à comparer ces productions sur plusieurs niveaux : les mécanismes d’acquisition ; les régularités sémantiques dans leur diversité, sans les réduire aux questions de référence et faisant par exemple intervenir la conceptualisation métaphorique des entités et situations désignées ; la capacité à naviguer entre les registres et les variétés d’une même langue, qui fait partie intégrante de la maîtrise d’un système ; l’adaptation à des ontologies spécifiques ou à des contraintes communicatives circonstancielles… La formule du " perroquet stochastique ", prise au pied de la lettre, indique un modèle de ce que peut être une comparaison scientifique du langage des IA et du langage humain.

Il existe en effet depuis plusieurs décennies maintenant une linguistique, une psycholinguistique et une pragmatique de la communication animale, qui inclut des recherches comparant l’humain et l’animal. Les progrès de l’étude de la communication animale ont permis d’affiner la compréhension de la faculté de langage, des modules qui la composent, de ses prérequis cognitifs et physiologiques. Ces travaux ne nous disent pas si " les animaux parlent ", pas plus qu’ils ne nous disent si la communication des corbeaux est plus proche de celle des humains que celle des perroquets. En revanche ils nous disent comment diverses caractéristiques éthologiques, génétiques et cognitives sont distribuées entre espèces et comment leur agencement produit des modes de communication spécifiques. Ces travaux nous renseignent, en nous offrant un terrain d’expérimentation inédit, sur ce qui fait toujours système et sur ce qui peut être disjoint dans la faculté de langage. Loin des " fausses promesses ", les grands modèles de langage et les IA neuronales nous offrent peut-être l’occasion d’étendre le domaine de la réflexion sur l’architecture des systèmes possibles de cognition, de communication et d’interaction. 



 

Auteur: Modicom Pierre-Yves

Info: https://aoc.media/ 14 nov 2023

[ onomasiologie bayésienne ] [ sémiose homme-animal ] [ machine-homme ] [ tiercités hors-sol ] [ signes fixés externalisables ]

 

Commentaires: 0

Ajouté à la BD par miguel

symphonie des équations

Des " murmurations " de courbe elliptique découvertes grâce à l'IA prennent leur envol

Les mathématiciens s’efforcent d’expliquer pleinement les comportements inhabituels découverts grâce à l’intelligence artificielle.

(photo - sous le bon angle les courbes elliptiques peuvent se rassembler comme les grands essaims d'oiseaux.)

Les courbes elliptiques font partie des objets les plus séduisants des mathématiques modernes. Elle ne semblent pas compliqués, mais  forment une voie express entre les mathématiques que beaucoup de gens apprennent au lycée et les mathématiques de recherche dans leur forme la plus abstruse. Elles étaient au cœur de la célèbre preuve du dernier théorème de Fermat réalisée par Andrew Wiles dans les années 1990. Ce sont des outils clés de la cryptographie moderne. Et en 2000, le Clay Mathematics Institute a désigné une conjecture sur les statistiques des courbes elliptiques comme l'un des sept " problèmes du prix du millénaire ", chacun d'entre eux étant récompensé d'un million de dollars pour sa solution. Cette hypothèse, formulée pour la première fois par Bryan Birch et Peter Swinnerton-Dyer dans les années 1960, n'a toujours pas été prouvée.

Comprendre les courbes elliptiques est une entreprise aux enjeux élevés qui est au cœur des mathématiques. Ainsi, en 2022, lorsqu’une collaboration transatlantique a utilisé des techniques statistiques et l’intelligence artificielle pour découvrir des modèles complètement inattendus dans les courbes elliptiques, cela a été une contribution bienvenue, bien qu’inattendue. "Ce n'était qu'une question de temps avant que l'apprentissage automatique arrive à notre porte avec quelque chose d'intéressant", a déclaré Peter Sarnak , mathématicien à l'Institute for Advanced Study et à l'Université de Princeton. Au départ, personne ne pouvait expliquer pourquoi les modèles nouvellement découverts existaient. Depuis lors, dans une série d’articles récents, les mathématiciens ont commencé à élucider les raisons derrière ces modèles, surnommés " murmures " en raison de leur ressemblance avec les formes fluides des étourneaux en troupeaux, et ont commencé à prouver qu’ils ne doivent pas se produire uniquement dans des cas particuliers. exemples examinés en 2022, mais dans les courbes elliptiques plus généralement.

L'importance d'être elliptique

Pour comprendre ces modèles, il faut jeter les bases de ce que sont les courbes elliptiques et de la façon dont les mathématiciens les catégorisent.

Une courbe elliptique relie le carré d'une variable, communément écrite comme y , à la troisième puissance d'une autre, communément écrite comme x : 2  =  3  + Ax + B , pour une paire de nombres A et B , tant que A et B remplissent quelques conditions simples. Cette équation définit une courbe qui peut être représentée graphiquement sur le plan, comme indiqué ci-dessous. (Photo : malgré la similitude des noms, une ellipse n'est pas une courbe elliptique.)

Introduction

Bien qu’elles semblent simples, les courbes elliptiques s’avèrent être des outils incroyablement puissants pour les théoriciens des nombres – les mathématiciens qui recherchent des modèles dans les nombres entiers. Au lieu de laisser les variables x et y s'étendre sur tous les nombres, les mathématiciens aiment les limiter à différents systèmes numériques, ce qu'ils appellent définir une courbe " sur " un système numérique donné. Les courbes elliptiques limitées aux nombres rationnels – nombres qui peuvent être écrits sous forme de fractions – sont particulièrement utiles. "Les courbes elliptiques sur les nombres réels ou complexes sont assez ennuyeuses", a déclaré Sarnak. "Seuls les nombres rationnels sont profonds."

Voici une façon qui est vraie. Si vous tracez une ligne droite entre deux points rationnels sur une courbe elliptique, l’endroit où cette ligne coupe à nouveau la courbe sera également rationnel. Vous pouvez utiliser ce fait pour définir " addition " dans une courbe elliptique, comme indiqué ci-dessous. 

(Photo -  Tracez une ligne entre P et Q . Cette ligne coupera la courbe en un troisième point, R . (Les mathématiciens ont une astuce spéciale pour gérer le cas où la ligne ne coupe pas la courbe en ajoutant un " point à l'infini ".) La réflexion de R sur l' axe des x est votre somme P + Q . Avec cette opération d'addition, toutes les solutions de la courbe forment un objet mathématique appelé groupe.)

Les mathématiciens l'utilisent pour définir le " rang " d'une courbe. Le rang d'une courbe est lié au nombre de solutions rationnelles dont elle dispose. Les courbes de rang 0 ont un nombre fini de solutions. Les courbes de rang supérieur ont un nombre infini de solutions dont la relation les unes avec les autres à l'aide de l'opération d'addition est décrite par le rang.

Les classements (rankings) ne sont pas bien compris ; les mathématiciens n'ont pas toujours le moyen de les calculer et ne savent pas quelle taille ils peuvent atteindre. (Le plus grand rang exact connu pour une courbe spécifique est 20.) Des courbes d'apparence similaire peuvent avoir des rangs complètement différents.

Les courbes elliptiques ont aussi beaucoup à voir avec les nombres premiers, qui ne sont divisibles que par 1 et par eux-mêmes. En particulier, les mathématiciens examinent les courbes sur des corps finis – des systèmes d’arithmétique cyclique définis pour chaque nombre premier. Un corps fini est comme une horloge dont le nombre d'heures est égal au nombre premier : si vous continuez à compter vers le haut, les nombres recommencent. Dans le corps fini de 7, par exemple, 5 plus 2 est égal à zéro et 5 plus 3 est égal à 1.

(Photo : Les motifs formés par des milliers de courbes elliptiques présentent une similitude frappante avec les murmures des étourneaux.)

Une courbe elliptique est associée à une séquence de nombres, appelée a p , qui se rapporte au nombre de solutions qu'il existe à la courbe dans le corps fini défini par le nombre premier p . Un p plus petit signifie plus de solutions ; un p plus grand signifie moins de solutions. Bien que le rang soit difficile à calculer, la séquence a p est beaucoup plus simple.

Sur la base de nombreux calculs effectués sur l'un des tout premiers ordinateurs, Birch et Swinnerton-Dyer ont conjecturé une relation entre le rang d'une courbe elliptique et la séquence a p . Quiconque peut prouver qu’il avait raison gagnera un million de dollars et l’immortalité mathématique.

Un modèle surprise émerge

Après le début de la pandémie, Yang-Hui He , chercheur au London Institute for Mathematical Sciences, a décidé de relever de nouveaux défis. Il avait étudié la physique à l'université et avait obtenu son doctorat en physique mathématique du Massachusetts Institute of Technology. Mais il s'intéressait de plus en plus à la théorie des nombres et, étant donné les capacités croissantes de l'intelligence artificielle, il pensait essayer d'utiliser l'IA comme un outil permettant de trouver des modèles inattendus dans les nombres. (Il avait déjà utilisé l'apprentissage automatique pour classifier les variétés de Calabi-Yau , des structures mathématiques largement utilisées en théorie des cordes.

(Photo ) Lorsque Kyu-Hwan Lee (à gauche) et Thomas Oliver (au centre) ont commencé à travailler avec Yang-Hui He (à droite) pour utiliser l'intelligence artificielle afin de trouver des modèles mathématiques, ils s'attendaient à ce que ce soit une plaisanterie plutôt qu'un effort qui mènerait à de nouveaux découvertes. De gauche à droite : Grace Lee ; Sophie Olivier ; gracieuseté de Yang-Hui He.

En août 2020, alors que la pandémie s'aggravait, l'Université de Nottingham l'a accueilli pour une conférence en ligne . Il était pessimiste quant à ses progrès et quant à la possibilité même d’utiliser l’apprentissage automatique pour découvrir de nouvelles mathématiques. "Son récit était que la théorie des nombres était difficile parce qu'on ne pouvait pas apprendre automatiquement des choses en théorie des nombres", a déclaré Thomas Oliver , un mathématicien de l'Université de Westminster, présent dans le public. Comme il se souvient : " Je n'ai rien trouvé parce que je n'étais pas un expert. Je n’utilisais même pas les bons éléments pour examiner cela."

Oliver et Kyu-Hwan Lee , mathématicien à l'Université du Connecticut, ont commencé à travailler avec He. "Nous avons décidé de faire cela simplement pour apprendre ce qu'était l'apprentissage automatique, plutôt que pour étudier sérieusement les mathématiques", a déclaré Oliver. "Mais nous avons rapidement découvert qu'il était possible d'apprendre beaucoup de choses par machine."

Oliver et Lee lui ont suggéré d'appliquer ses techniques pour examiner les fonctions L , des séries infinies étroitement liées aux courbes elliptiques à travers la séquence a p . Ils pourraient utiliser une base de données en ligne de courbes elliptiques et de leurs fonctions L associées , appelée LMFDB , pour former leurs classificateurs d'apprentissage automatique. À l’époque, la base de données contenait un peu plus de 3 millions de courbes elliptiques sur les rationnels. En octobre 2020, ils avaient publié un article utilisant les informations glanées à partir des fonctions L pour prédire une propriété particulière des courbes elliptiques. En novembre, ils ont partagé un autre article utilisant l’apprentissage automatique pour classer d’autres objets en théorie des nombres. En décembre, ils étaient capables de prédire les rangs des courbes elliptiques avec une grande précision.

Mais ils ne savaient pas vraiment pourquoi leurs algorithmes d’apprentissage automatique fonctionnaient si bien. Lee a demandé à son étudiant de premier cycle Alexey Pozdnyakov de voir s'il pouvait comprendre ce qui se passait. En l’occurrence, la LMFDB trie les courbes elliptiques en fonction d’une quantité appelée conducteur, qui résume les informations sur les nombres premiers pour lesquels une courbe ne se comporte pas correctement. Pozdnyakov a donc essayé d’examiner simultanément un grand nombre de courbes comportant des conducteurs similaires – disons toutes les courbes comportant entre 7 500 et 10 000 conducteurs.

Cela représente environ 10 000 courbes au total. Environ la moitié d'entre eux avaient le rang 0 et l'autre moitié le rang 1. (Les rangs supérieurs sont extrêmement rares.) Il a ensuite fait la moyenne des valeurs de a p pour toutes les courbes de rang 0, a fait la moyenne séparément de a p pour toutes les courbes de rang 1 et a tracé la résultats. Les deux ensembles de points formaient deux vagues distinctes et facilement discernables. C’est pourquoi les classificateurs d’apprentissage automatique ont été capables de déterminer correctement le rang de courbes particulières.

" Au début, j'étais simplement heureux d'avoir terminé ma mission", a déclaré Pozdnyakov. "Mais Kyu-Hwan a immédiatement reconnu que ce schéma était surprenant, et c'est à ce moment-là qu'il est devenu vraiment excitant."

Lee et Oliver étaient captivés. "Alexey nous a montré la photo et j'ai dit qu'elle ressemblait à ce que font les oiseaux", a déclaré Oliver. "Et puis Kyu-Hwan l'a recherché et a dit que cela s'appelait une murmuration, puis Yang a dit que nous devrions appeler le journal ' Murmurations de courbes elliptiques '."

Ils ont mis en ligne leur article en avril 2022 et l’ont transmis à une poignée d’autres mathématiciens, s’attendant nerveusement à se faire dire que leur soi-disant « découverte » était bien connue. Oliver a déclaré que la relation était si visible qu'elle aurait dû être remarquée depuis longtemps.

Presque immédiatement, la prépublication a suscité l'intérêt, en particulier de la part d' Andrew Sutherland , chercheur scientifique au MIT et l'un des rédacteurs en chef de la LMFDB. Sutherland s'est rendu compte que 3 millions de courbes elliptiques n'étaient pas suffisantes pour atteindre ses objectifs. Il voulait examiner des gammes de conducteurs beaucoup plus larges pour voir à quel point les murmures étaient robustes. Il a extrait des données d’un autre immense référentiel d’environ 150 millions de courbes elliptiques. Toujours insatisfait, il a ensuite extrait les données d'un autre référentiel contenant 300 millions de courbes.

"Mais même cela ne suffisait pas, j'ai donc calculé un nouvel ensemble de données de plus d'un milliard de courbes elliptiques, et c'est ce que j'ai utilisé pour calculer les images à très haute résolution", a déclaré Sutherland. Les murmures indiquaient s'il effectuait en moyenne plus de 15 000 courbes elliptiques à la fois ou un million à la fois. La forme est restée la même alors qu’il observait les courbes sur des nombres premiers de plus en plus grands, un phénomène appelé invariance d’échelle. Sutherland s'est également rendu compte que les murmures ne sont pas propres aux courbes elliptiques, mais apparaissent également dans des fonctions L plus générales . Il a écrit une lettre résumant ses découvertes et l'a envoyée à Sarnak et Michael Rubinstein de l'Université de Waterloo.

"S'il existe une explication connue, j'espère que vous la connaîtrez", a écrit Sutherland.

Ils ne l'ont pas fait.

Expliquer le modèle

Lee, He et Oliver ont organisé un atelier sur les murmurations en août 2023 à l'Institut de recherche informatique et expérimentale en mathématiques (ICERM) de l'Université Brown. Sarnak et Rubinstein sont venus, tout comme l'étudiante de Sarnak, Nina Zubrilina .

LA THÉORIE DU NOMBRE

Zubrilina a présenté ses recherches sur les modèles de murmuration dans des formes modulaires , des fonctions complexes spéciales qui, comme les courbes elliptiques, sont associées à des fonctions L. Dans les formes modulaires dotées de grands conducteurs, les murmurations convergent vers une courbe nettement définie, plutôt que de former un motif perceptible mais dispersé. Dans un article publié le 11 octobre 2023, Zubrilina a prouvé que ce type de murmuration suit une formule explicite qu'elle a découverte.

" La grande réussite de Nina est qu'elle lui a donné une formule pour cela ; Je l’appelle la formule de densité de murmuration Zubrilina ", a déclaré Sarnak. "En utilisant des mathématiques très sophistiquées, elle a prouvé une formule exacte qui correspond parfaitement aux données."

Sa formule est compliquée, mais Sarnak la salue comme un nouveau type de fonction important, comparable aux fonctions d'Airy qui définissent des solutions aux équations différentielles utilisées dans divers contextes en physique, allant de l'optique à la mécanique quantique.

Bien que la formule de Zubrilina ait été la première, d'autres ont suivi. "Chaque semaine maintenant, un nouvel article sort", a déclaré Sarnak, "utilisant principalement les outils de Zubrilina, expliquant d'autres aspects des murmurations."

(Photo - Nina Zubrilina, qui est sur le point de terminer son doctorat à Princeton, a prouvé une formule qui explique les schémas de murmuration.)

Jonathan Bober , Andrew Booker et Min Lee de l'Université de Bristol, ainsi que David Lowry-Duda de l'ICERM, ont prouvé l'existence d'un type différent de murmuration sous des formes modulaires dans un autre article d'octobre . Et Kyu-Hwan Lee, Oliver et Pozdnyakov ont prouvé l'existence de murmures dans des objets appelés caractères de Dirichlet qui sont étroitement liés aux fonctions L.

Sutherland a été impressionné par la dose considérable de chance qui a conduit à la découverte des murmurations. Si les données de la courbe elliptique n'avaient pas été classées par conducteur, les murmures auraient disparu. "Ils ont eu la chance de récupérer les données de la LMFDB, qui étaient pré-triées selon le chef d'orchestre", a-t-il déclaré. « C'est ce qui relie une courbe elliptique à la forme modulaire correspondante, mais ce n'est pas du tout évident. … Deux courbes dont les équations semblent très similaires peuvent avoir des conducteurs très différents. Par exemple, Sutherland a noté que 2 = 3 – 11 x + 6 a un conducteur 17, mais en retournant le signe moins en signe plus, 2 = 3  + 11 x + 6 a un conducteur 100 736.

Même alors, les murmures n'ont été découverts qu'en raison de l'inexpérience de Pozdniakov. "Je ne pense pas que nous l'aurions trouvé sans lui", a déclaré Oliver, "parce que les experts normalisent traditionnellement a p pour avoir une valeur absolue de 1. Mais il ne les a pas normalisés… donc les oscillations étaient très importantes et visibles."

Les modèles statistiques que les algorithmes d’IA utilisent pour trier les courbes elliptiques par rang existent dans un espace de paramètres comportant des centaines de dimensions – trop nombreuses pour que les gens puissent les trier dans leur esprit, et encore moins les visualiser, a noté Oliver. Mais même si l’apprentissage automatique a découvert les oscillations cachées, " ce n’est que plus tard que nous avons compris qu’il s’agissait de murmures ".



 

Auteur: Internet

Info: Paul Chaikin pour Quanta Magazine, 5 mars 2024 - https://www.quantamagazine.org/elliptic-curve-murmurations-found-with-ai-take-flight-20240305/?mc_cid=797b7d1aad&mc_eid=78bedba296

[ résonance des algorithmes ] [ statistiques en mouvement ] [ chants des fractales ] [ bancs de poissons ]

 

Commentaires: 0

Ajouté à la BD par miguel

auto-programmation

Pieuvres et calmars modifient et corrigent (édit en anglais) leur ARN, tout en laissant l'ADN intact. Des changements qui pourraient expliquer l'intelligence et la flexibilité des céphalopodes dépourvus de coquille

De nombreux écrivains se plaignent lorsqu'un rédacteur  vient éditer et donc modifier leur article, mais les conséquences de la modification d'un seul mot ne sont généralement pas si graves.

Ce n'est pas le cas des instructions génétiques pour la fabrication des protéines. Même une petite modification peut empêcher une protéine de faire son travail correctement, ce qui peut avoir des conséquences mortelles. Ce n'est qu'occasionnellement qu'un changement est bénéfique. Il semble plus sage de conserver les instructions génétiques telles qu'elles sont écrites. À moins d'être une pieuvre.

Les pieuvres sont comme des extraterrestres qui vivent parmi nous : elles font beaucoup de choses différemment des animaux terrestres ou même des autres créatures marines. Leurs tentacules flexibles goûtent ce qu'ils touchent et ont leur esprit propre. Les yeux des pieuvres sont daltoniens, mais leur peau peut détecter la lumière par elle-même. Les pieuvres sont des maîtres du déguisement, changeant de couleur et de texture de peau pour se fondre dans leur environnement ou effrayer leurs rivaux. Et plus que la plupart des créatures, les pieuvres font gicler l'équivalent moléculaire de l'encre rouge sur leurs instructions génétiques avec un abandon stupéfiant, comme un rédacteur en chef déchaîné.

Ces modifications-éditions concernent l'ARN, molécule utilisée pour traduire les informations du plan génétique stocké dans l'ADN, tout en laissant l'ADN intact.

Les scientifiques ne savent pas encore avec certitude pourquoi les pieuvres et d'autres céphalopodes sans carapace, comme les calmars et les seiches, sont des modificateurs aussi prolifiques. Les chercheurs se demandent si cette forme d'édition génétique a donné aux céphalopodes une longueur d'avance sur le plan de l'évolution (ou un tentacule) ou si cette capacité n'est qu'un accident parfois utile. Les scientifiques étudient également les conséquences que les modifications de l'ARN peuvent avoir dans diverses conditions. Certaines données suggèrent que l'édition pourrait donner aux céphalopodes une partie de leur intelligence, mais au prix d'un ralentissement de l'évolution de leur ADN.

"Ces animaux sont tout simplement magiques", déclare Caroline Albertin, biologiste spécialiste du développement comparatif au Marine Biological Laboratory de Woods Hole (Massachusetts). "Ils ont toutes sortes de solutions différentes pour vivre dans le monde d'où ils viennent. L'édition de l'ARN pourrait contribuer à donner à ces créatures un grand nombre de solutions aux problèmes qu'elles peuvent rencontrer.

(vidéo - Contrairement à d'autres animaux à symétrie bilatérale, les pieuvres ne rampent pas dans une direction prédéterminée. Des vidéos de pieuvres en train de ramper montrent qu'elles peuvent se déplacer dans n'importe quelle direction par rapport à leur corps, et qu'elles changent de direction de rampe sans avoir à tourner leur corps. Dans le clip, la flèche verte indique l'orientation du corps de la pieuvre et la flèche bleue indique la direction dans laquelle elle rampe.)

Le dogme central de la biologie moléculaire veut que les instructions pour construire un organisme soient contenues dans l'ADN. Les cellules copient ces instructions dans des ARN messagers, ou ARNm. Ensuite, des machines cellulaires appelées ribosomes lisent les ARNm pour construire des protéines en enchaînant des acides aminés. La plupart du temps, la composition de la protéine est conforme au modèle d'ADN pour la séquence d'acides aminés de la protéine.

Mais l'édition de l'ARN peut entraîner des divergences par rapport aux instructions de l'ADN, créant ainsi des protéines dont les acides aminés sont différents de ceux spécifiés par l'ADN.

L'édition modifie chimiquement l'un des quatre éléments constitutifs de l'ARN, ou bases. Ces bases sont souvent désignées par les premières lettres de leur nom : A, C, G et U, pour adénine, cytosine, guanine et uracile (la version ARN de la base ADN thymine). Dans une molécule d'ARN, les bases sont liées à des sucres ; l'unité adénine-sucre, par exemple, est appelée adénosine.

Il existe de nombreuses façons d'éditer des lettres d'ARN. Les céphalopodes excellent dans un type d'édition connu sous le nom d'édition de l'adénosine à l'inosine, ou A-to-I. Cela se produit lorsqu'une enzyme appelée ADAR2 enlève un atome d'azote et deux atomes d'hydrogène de l'adénosine (le A). Ce pelage chimique transforme l'adénosine en inosine (I).

 Les ribosomes lisent l'inosine comme une guanine au lieu d'une adénine. Parfois, ce changement n'a aucun effet sur la chaîne d'acides aminés de la protéine résultante. Mais dans certains cas, la présence d'un G à la place d'un A entraîne l'insertion d'un acide aminé différent dans la protéine. Ce type d'édition de l'ARN modifiant la protéine est appelé recodage de l'ARN.

Les céphalopodes à corps mou ont adopté le recodage de l'ARN à bras-le-corps, alors que même les espèces étroitement apparentées sont plus hésitantes à accepter les réécritures, explique Albertin. "Les autres mollusques ne semblent pas le faire dans la même mesure.

L'édition de l'ARN ne se limite pas aux créatures des profondeurs. Presque tous les organismes multicellulaires possèdent une ou plusieurs enzymes d'édition de l'ARN appelées enzymes ADAR, abréviation de "adénosine désaminase agissant sur l'ARN", explique Joshua Rosenthal, neurobiologiste moléculaire au Marine Biological Laboratory.

Les céphalopodes possèdent deux enzymes ADAR. L'homme possède également des versions de ces enzymes. "Dans notre cerveau, nous modifions une tonne d'ARN. Nous le faisons beaucoup", explique Rosenthal. Au cours de la dernière décennie, les scientifiques ont découvert des millions d'endroits dans les ARN humains où se produit l'édition.

Mais ces modifications changent rarement les acides aminés d'une protéine. Par exemple, Eli Eisenberg, de l'université de Tel Aviv, et ses collègues ont identifié plus de 4,6 millions de sites d'édition dans les ARN humains. Parmi ceux-ci, seuls 1 517 recodent les protéines, ont rapporté les chercheurs l'année dernière dans Nature Communications. Parmi ces sites de recodage, jusqu'à 835 sont partagés avec d'autres mammifères, ce qui suggère que les forces de l'évolution ont préservé l'édition à ces endroits.

(Encadré :  Comment fonctionne l'édition de l'ARN ?

Dans une forme courante d'édition de l'ARN, une adénosine devient une inosine par une réaction qui supprime un groupe aminé et le remplace par un oxygène (flèches). L'illustration montre une enzyme ADAR se fixant à un ARN double brin au niveau du "domaine de liaison de l'ARNdb". La région de l'enzyme qui interagit pour provoquer la réaction, le "domaine de la désaminase", est positionnée près de l'adénosine qui deviendra une inosine.)

Les céphalopodes portent le recodage de l'ARN à un tout autre niveau, dit Albertin. L'encornet rouge (Doryteuthis pealeii) possède 57 108 sites de recodage, ont rapporté Rosenthal, Eisenberg et leurs collègues en 2015 dans eLife. Depuis, les chercheurs ont examiné plusieurs espèces de pieuvres, de calmars et de seiches, et ont à chaque fois trouvé des dizaines de milliers de sites de recodage.

Les céphalopodes à corps mou, ou coléoïdes, pourraient avoir plus de possibilités d'édition que les autres animaux en raison de l'emplacement d'au moins une des enzymes ADAR, ADAR2, dans la cellule. La plupart des animaux éditent les ARN dans le noyau - le compartiment où l'ADN est stocké et copié en ARN - avant d'envoyer les messages à la rencontre des ribosomes. Mais chez les céphalopodes, les enzymes se trouvent également dans le cytoplasme, l'organe gélatineux des cellules, ont découvert Rosenthal et ses collègues (SN : 4/25/20, p. 10).

Le fait d'avoir des enzymes d'édition dans deux endroits différents n'explique pas complètement pourquoi le recodage de l'ARN chez les céphalopodes dépasse de loin celui des humains et d'autres animaux. Cela n'explique pas non plus les schémas d'édition que les scientifiques ont découverts.

L'édition de l'ARN amènerait de la flexibilité aux céphalopodes

L'édition n'est pas une proposition "tout ou rien". Il est rare que toutes les copies d'un ARN dans une cellule soient modifiées. Il est beaucoup plus fréquent qu'un certain pourcentage d'ARN soit édité tandis que le reste conserve son information originale. Le pourcentage, ou fréquence, de l'édition peut varier considérablement d'un ARN à l'autre ou d'une cellule ou d'un tissu à l'autre, et peut dépendre de la température de l'eau ou d'autres conditions. Chez le calmar à nageoires longues, la plupart des sites d'édition de l'ARN étaient édités 2 % ou moins du temps, ont rapporté Albertin et ses collègues l'année dernière dans Nature Communications. Mais les chercheurs ont également trouvé plus de 205 000 sites qui étaient modifiés 25 % du temps ou plus.

Dans la majeure partie du corps d'un céphalopode, l'édition de l'ARN n'affecte pas souvent la composition des protéines. Mais dans le système nerveux, c'est une autre histoire. Dans le système nerveux du calmar à nageoires longues, 70 % des modifications apportées aux ARN producteurs de protéines recodent ces dernières. Dans le système nerveux de la pieuvre californienne à deux points (Octopus bimaculoides), les ARN sont recodés trois à six fois plus souvent que dans d'autres organes ou tissus.

(Photo -  L'encornet rouge recode l'ARN à plus de 50 000 endroits. Le recodage de l'ARN pourrait aider le calmar à réagir avec plus de souplesse à son environnement, mais on ne sait pas encore si le recodage a une valeur évolutive. Certains ARNm possèdent plusieurs sites d'édition qui modifient les acides aminés des protéines codées par les ARNm. Dans le système nerveux de l'encornet rouge, par exemple, 27 % des ARNm ont trois sites de recodage ou plus. Certains contiennent 10 sites ou plus. La combinaison de ces sites d'édition pourrait entraîner la fabrication de plusieurs versions d'une protéine dans une cellule.)

Le fait de disposer d'un large choix de protéines pourrait donner aux céphalopodes "plus de souplesse pour réagir à l'environnement", explique M. Albertin, "ou leur permettre de trouver diverses solutions au problème qui se pose à eux". Dans le système nerveux, l'édition de l'ARN pourrait contribuer à la flexibilité de la pensée, ce qui pourrait expliquer pourquoi les pieuvres peuvent déverrouiller des cages ou utiliser des outils, pensent certains chercheurs. L'édition pourrait être un moyen facile de créer une ou plusieurs versions d'une protéine dans le système nerveux et des versions différentes dans le reste du corps, explique Albertin.

Lorsque l'homme et d'autres vertébrés ont des versions différentes d'une protéine, c'est souvent parce qu'ils possèdent plusieurs copies d'un gène. Doubler, tripler ou quadrupler les copies d'un gène "permet de créer tout un terrain de jeu génétique pour permettre aux gènes de s'activer et d'accomplir différentes fonctions", explique M. Albertin. Mais les céphalopodes ont tendance à ne pas dupliquer les gènes. Leurs innovations proviennent plutôt de l'édition.

Et il y a beaucoup de place pour l'innovation. Chez le calmar, les ARNm servant à construire la protéine alpha-spectrine comportent 242 sites de recodage. Toutes les combinaisons de sites modifiés et non modifiés pourraient théoriquement créer jusqu'à 7 x 1072 formes de la protéine, rapportent Rosenthal et Eisenberg dans le numéro de cette année de l'Annual Review of Animal Biosciences (Revue annuelle des biosciences animales). "Pour mettre ce chiffre en perspective, écrivent les chercheurs, il suffit de dire qu'il éclipse le nombre de toutes les molécules d'alpha-spectrine (ou, d'ailleurs, de toutes les molécules de protéines) synthétisées dans toutes les cellules de tous les calmars qui ont vécu sur notre planète depuis l'aube des temps.

Selon Kavita Rangan, biologiste moléculaire à l'université de Californie à San Diego, ce niveau de complexité incroyable ne serait possible que si chaque site était indépendant. Rangan a étudié le recodage de l'ARN chez le calmar californien (Doryteuthis opalescens) et le calmar à nageoires longues. La température de l'eau incite les calmars à recoder les protéines motrices appelées kinésines qui déplacent les cargaisons à l'intérieur des cellules.

Chez l'encornet rouge, l'ARNm qui produit la kinésine-1 comporte 14 sites de recodage, a découvert Mme Rangan. Elle a examiné les ARNm du lobe optique - la partie du cerveau qui traite les informations visuelles - et du ganglion stellaire, un ensemble de nerfs impliqués dans la génération des contractions musculaires qui produisent des jets d'eau pour propulser le calmar.

Chaque tissu produit plusieurs versions de la protéine. Rangan et Samara Reck-Peterson, également de l'UC San Diego, ont rapporté en septembre dernier dans un article publié en ligne sur bioRxiv.org que certains sites avaient tendance à être édités ensemble. Leurs données suggèrent que l'édition de certains sites est coordonnée et "rejette très fortement l'idée que l'édition est indépendante", explique Rangan. "La fréquence des combinaisons que nous observons ne correspond pas à l'idée que chaque site a été édité indépendamment.

L'association de sites d'édition pourrait empêcher les calmars et autres céphalopodes d'atteindre les sommets de complexité dont ils sont théoriquement capables. Néanmoins, l'édition de l'ARN offre aux céphalopodes un moyen d'essayer de nombreuses versions d'une protéine sans s'enfermer dans une modification permanente de l'ADN, explique M. Rangan.

Ce manque d'engagement laisse perplexe Jianzhi Zhang, généticien évolutionniste à l'université du Michigan à Ann Arbor. "Pour moi, cela n'a pas de sens", déclare-t-il. "Si vous voulez un acide aminé particulier dans une protéine, vous devez modifier l'ADN. Pourquoi changer l'ARN ?

L'édition de l'ARN a-t-elle une valeur évolutive ?

L'édition de l'ARN offre peut-être un avantage évolutif. Pour tester cette idée, Zhang et Daohan Jiang, alors étudiant de troisième cycle, ont comparé les sites "synonymes", où les modifications ne changent pas les acides aminés, aux sites "non synonymes", où le recodage se produit. Étant donné que les modifications synonymes ne modifient pas les acides aminés, les chercheurs ont considéré que ces modifications étaient neutres du point de vue de l'évolution. Chez l'homme, le recodage, ou édition non synonyme, se produit sur moins de sites que l'édition synonyme, et le pourcentage de molécules d'ARN qui sont éditées est plus faible que sur les sites synonymes.

"Si nous supposons que l'édition synonyme est comme un bruit qui se produit dans la cellule, et que l'édition non-synonyme est moins fréquente et [à un] niveau plus bas, cela suggère que l'édition non-synonyme est en fait nuisible", explique Zhang. Même si le recodage chez les céphalopodes est beaucoup plus fréquent que chez les humains, dans la plupart des cas, le recodage n'est pas avantageux, ou adaptatif, pour les céphalopodes, ont affirmé les chercheurs en 2019 dans Nature Communications.

Il existe quelques sites communs où les pieuvres, les calmars et les seiches recodent tous leurs ARN, ont constaté les chercheurs, ce qui suggère que le recodage est utile dans ces cas. Mais il s'agit d'une petite fraction des sites d'édition. Zhang et Jiang ont constaté que quelques autres sites édités chez une espèce de céphalopode, mais pas chez les autres, étaient également adaptatifs.

Si ce n'est pas si utile que cela, pourquoi les céphalopodes ont-ils continué à recoder l'ARN pendant des centaines de millions d'années ? L'édition de l'ARN pourrait persister non pas parce qu'elle est adaptative, mais parce qu'elle crée une dépendance, selon Zhang.

Zhang et Jiang ont proposé un modèle permettant de nuire (c'est-à-dire une situation qui permet des modifications nocives de l'ADN). Imaginez, dit-il, une situation dans laquelle un G (guanine) dans l'ADN d'un organisme est muté en A (adénine). Si cette mutation entraîne un changement d'acide aminé nocif dans une protéine, la sélection naturelle devrait éliminer les individus porteurs de cette mutation. Mais si, par chance, l'organisme dispose d'un système d'édition de l'ARN, l'erreur dans l'ADN peut être corrigée par l'édition de l'ARN, ce qui revient à transformer le A en G. Si la protéine est essentielle à la vie, l'ARN doit être édité à des niveaux élevés de sorte que presque chaque copie soit corrigée.

 Lorsque cela se produit, "on est bloqué dans le système", explique M. Zhang. L'organisme est désormais dépendant de la machinerie d'édition de l'ARN. "On ne peut pas la perdre, car il faut que le A soit réédité en G pour survivre, et l'édition est donc maintenue à des niveaux élevés.... Au début, on n'en avait pas vraiment besoin, mais une fois qu'on l'a eue, on en est devenu dépendant".

Zhang soutient que ce type d'édition est neutre et non adaptatif. Mais d'autres recherches suggèrent que l'édition de l'ARN peut être adaptative.

L'édition de l'ARN peut fonctionner comme une phase de transition, permettant aux organismes de tester le passage de l'adénine à la guanine sans apporter de changement permanent à leur ADN. Au cours de l'évolution, les sites où les adénines sont recodées dans l'ARN d'une espèce de céphalopode sont plus susceptibles que les adénines non éditées d'être remplacées par des guanines dans l'ADN d'une ou de plusieurs espèces apparentées, ont rapporté les chercheurs en 2020 dans PeerJ. Et pour les sites fortement modifiés, l'évolution chez les céphalopodes semble favoriser une transition de A à G dans l'ADN (plutôt qu'à la cytosine ou à la thymine, les deux autres éléments constitutifs de l'ADN). Cela favorise l'idée que l'édition peut être adaptative.

D'autres travaux récents de Rosenthal et de ses collègues, qui ont examiné les remplacements de A en G chez différentes espèces, suggèrent que le fait d'avoir un A modifiable est un avantage évolutif par rapport à un A non modifiable ou à un G câblé.

(Tableau :  Quelle est la fréquence de l'enregistrement de l'ARN ?

Les céphalopodes à corps mou, notamment les pieuvres, les calmars et les seiches, recodent l'ARN dans leur système nerveux sur des dizaines de milliers de sites, contre un millier ou moins chez l'homme, la souris, la mouche des fruits et d'autres espèces animales. Bien que les scientifiques aient documenté le nombre de sites d'édition, ils auront besoin de nouveaux outils pour tester directement l'influence du recodage sur la biologie des céphalopodes.

Schéma avec comparaison des nombre de sites de recodage de l'ARN chez les animaux

J.J.C. ROSENTHAL ET E. EISENBERG/ANNUAL REVIEW OF ANIMAL BIOSCIENCES 2023 )

Beaucoup de questions en suspens

Les preuves pour ou contre la valeur évolutive du recodage de l'ARN proviennent principalement de l'examen de la composition génétique totale, ou génomes, de diverses espèces de céphalopodes. Mais les scientifiques aimeraient vérifier directement si les ARN recodés ont un effet sur la biologie des céphalopodes. Pour ce faire, il faudra utiliser de nouveaux outils et faire preuve de créativité.

Rangan a testé des versions synthétiques de protéines motrices de calmars et a constaté que deux versions modifiées que les calmars fabriquent dans le froid se déplaçaient plus lentement mais plus loin le long de pistes protéiques appelées microtubules que les protéines non modifiées. Mais il s'agit là de conditions artificielles de laboratoire, sur des lames de microscope. Pour comprendre ce qui se passe dans les cellules, Mme Rangan aimerait pouvoir cultiver des cellules de calmar dans des boîtes de laboratoire. Pour l'instant, elle doit prélever des tissus directement sur le calmar et ne peut obtenir que des instantanés de ce qui se passe. Les cellules cultivées en laboratoire pourraient lui permettre de suivre ce qui se passe au fil du temps.

M. Zhang explique qu'il teste son hypothèse de l'innocuité en amenant la levure à s'intéresser à l'édition de l'ARN. La levure de boulanger (Saccharomyces cerevisiae) ne possède pas d'enzymes ADAR. Mais Zhang a modifié une souche de cette levure pour qu'elle soit porteuse d'une version humaine de l'enzyme. Les enzymes ADAR rendent la levure malade et la font croître lentement, explique-t-il. Pour accélérer l'expérience, la souche qu'il utilise a un taux de mutation supérieur à la normale et peut accumuler des mutations G-A. Mais si l'édition de l'ARN peut corriger ces mutations, il est possible d'obtenir des résultats positifs. Mais si l'édition de l'ARN peut corriger ces mutations, la levure porteuse d'ADAR pourrait se développer mieux que celles qui n'ont pas l'enzyme. Et après de nombreuses générations, la levure pourrait devenir dépendante de l'édition, prédit Zhang.

Albertin, Rosenthal et leurs collègues ont mis au point des moyens de modifier les gènes des calmars à l'aide de l'éditeur de gènes CRISPR/Cas9. L'équipe a créé un calmar albinos en utilisant CRISPR/Cas9 pour supprimer, ou désactiver, un gène qui produit des pigments. Les chercheurs pourraient être en mesure de modifier les sites d'édition dans l'ADN ou dans l'ARN et de tester leur fonction, explique Albertin.

Cette science n'en est qu'à ses débuts et l'histoire peut mener à des résultats inattendus. Néanmoins, grâce à l'habileté des céphalopodes en matière d'édition, la lecture de cet article ne manquera pas d'être intéressante.

 

Auteur: Internet

Info: https://www.sciencenews.org/article/octopus-squid-rna-editing-dna-cephalopods, Tina Hesman Saey, 19 may 2023

[ poulpes ] [ calamars ] [ homme-animal ]

 

Commentaires: 0

Ajouté à la BD par miguel