Citation
Catégorie
Tag – étiquette
Auteur
Info



nb max de mots
nb min de mots
trier par
Dictionnaire analogique intriqué pour extraits. Recherche mots ou phrases tous azimuts. Aussi outil de précision sémantique et de réflexion communautaire. Voir la rubrique mode d'emploi. Jetez un oeil à la colonne "chaînes". ATTENTION, faire une REINITIALISATION après  une recherche complexe. Et utilisez le nuage de corrélats !!!!..... Lire la suite >>
Résultat(s): 56
Temps de recherche: 0.048s

infobésité éparpillante

Comment notre cerveau compense les distractions numériques

Téléphone, mails, notifications... Opposé à toutes les sollicitations auxquelles nous sommes confrontés, le cerveau tente tant bien que mal de rester concentré. Voici comment.

Aujourd'hui, les écrans et les notifications dominent notre quotidien. Nous sommes tous familiers de ces distractions numériques qui nous tirent hors de nos pensées ou de notre activité. Entre le mail important d'un supérieur et l'appel de l'école qui oblige à partir du travail, remettant à plus tard la tâche en cours, les interruptions font partie intégrante de nos vies – et semblent destinées à s'imposer encore davantage avec la multiplication des objets connectés dans les futures " maisons intelligentes ".

Cependant, elles ne sont pas sans conséquences sur notre capacité à mener à bien des tâches, sur notre confiance en nous ou sur notre santé. Par exemple, les interruptions engendreraient une augmentation de 3% à 27% du temps d'exécution de l'activité en cours.

En tant que chercheuse en psychologie cognitive, j'étudie les coûts cognitifs de ces interruptions numériques: augmentation du niveau de stress, augmentation du sentiment d'épuisement moral et physique, niveau de fatigue, pouvant contribuer à l'émergence de risques psychosociaux voire du burn-out.

Dans mes travaux, je me suis appuyée sur des théories sur le fonctionnement du système cognitif humain qui permettent de mieux comprendre ces coûts cognitifs et leurs répercussions sur notre comportement. Ce type d'études souligne qu'il devient crucial de trouver un équilibre entre nos usages des technologies et notre capacité à nous concentrer, pour notre propre bien.

Pourquoi s'inquiéter des interruptions numériques?

L'intégration d'objets connectés dans nos vies peut offrir un contrôle accru sur divers aspects de notre environnement, pour gérer nos emplois du temps, se rappeler les anniversaires ou gérer notre chauffage à distance, par exemple. En 2021, les taux de pénétration des maisons connectées (c'est-à-dire, le nombre de foyers équipés d'au moins un dispositif domestique connecté, englobant également ceux qui possèdent uniquement une prise ou une ampoule connectée) étaient d'environ 13% dans l'Union européenne et de 17% en France (contre 10,7% en 2018).

Si la facilité d'utilisation et l'utilité perçue des objets connectés ont un impact sur l'acceptabilité de ces objets pour une grande partie de la population, les interruptions numériques qui y sont souvent attachées entravent notre cognition, c'est-à-dire l'ensemble des processus liés à la perception, l'attention, la mémoire, la compréhension, etc.

L'impact des interruptions numériques peut s'observer aussi bien dans la sphère privée que dans la sphère professionnelle. En effet, une personne met en moyenne plus d'une minute pour reprendre son travail après avoir consulté sa boîte mail. Les études mettent ainsi en évidence que les employés passent régulièrement plus de 1h30 par jour à récupérer des interruptions liées aux courriels. Cela entraîne une augmentation de la charge de travail perçue et du niveau de stress, ainsi qu'un sentiment de frustration, voire d'épuisement, associé à une sensation de perte de contrôle sur les événements.

On retrouve également des effets dans la sphère éducative. Ainsi, dans une étude de 2015 portant sur 349 étudiants, 60% déclaraient que les sons émis par les téléphones portables (clics, bips, sons des boutons, etc.) les distrayaient. Ainsi, les interruptions numériques ont des conséquences bien plus profondes que ce que l'on pourrait penser.

Mieux comprendre d'où vient le coût cognitif des interruptions numériques

Pour comprendre pourquoi les interruptions numériques perturbent tant le flux de nos pensées, il faut jeter un coup d'œil à la façon dont notre cerveau fonctionne. Lorsque nous réalisons une tâche, le cerveau réalise en permanence des prédictions sur ce qui va se produire. Cela permet d'adapter notre comportement et de réaliser l'action appropriée: le cerveau met en place des boucles prédictives et d'anticipation.

Ainsi, notre cerveau fonctionne comme une machine à prédire. Dans cette théorie, un concept très important pour comprendre les processus d'attention et de concentration émerge: celui de la fluence de traitement. Il s'agit de la facilité ou la difficulté avec laquelle nous traitons une information. Cette évaluation se fait inconsciemment et résulte en une expérience subjective et non consciente du déroulement du traitement de l'information.

Le concept de fluence formalise quelque chose que l'on comprend bien intuitivement: notre système cognitif fait tout pour que nos activités se déroulent au mieux, de la manière la plus fluide (fluent, en anglais) possible. Il est important de noter que notre cognition est " motivée " par une croyance qu'il formule a priori sur la facilité ou la difficulté d'une tâche et en la possibilité de réaliser de bonnes prédictions. Cela va lui permettre de s'adapter au mieux à son environnement et au bon déroulement de la tâche en cours.

Notre attention est attirée par les informations simples et attendues

Plus l'information semble facile à traiter, ou plus elle est évaluée comme telle par notre cerveau, plus elle attire notre attention. Par exemple, un mot facile à lire attire davantage notre regard qu'un mot difficile. Cette réaction est automatique, presque instinctive. Dans une expérience, des chercheurs ont mis en évidence que l'attention des individus pouvait être capturée involontairement par la présence de vrais mots par opposition à des pseudo-mots, des mots inventés par les scientifiques tels que " HENSION ", notamment lorsqu'on leur demandait de ne pas lire les mots présentés à l'écran.

Ainsi, une de nos études a montré que la fluence –la facilité perçue d'une tâche– guide l'attention des participants vers ce que leur cerveau prédit. L'étude consistait à comprendre comment la prévisibilité des mots allait influencer l'attention des participants. Les participants devaient lire des phrases incomplètes, puis identifier un mot cible entre un mot cohérent et un mot incohérent avec la phrase. Les résultats ont mis en évidence que les mots cohérents, prédictibles, attiraient plus l'attention des participants que les mots incohérents.

Il semblerait qu'un événement cohérent avec la situation en cours attire plus l'attention et, potentiellement, favorise la concentration. Notre étude est, à notre connaissance, l'une des premières à montrer que la fluence de traitement a un effet sur l'attention. D'autres études sont nécessaires pour confirmer nos conclusions. Ce travail a été lancé, mais n'a pas pu aboutir dans le contexte de la pandémie de Covid-19.

Comme nous l'avons vu, notre système cognitif réalise en permanence des prédictions sur les événements à venir. Si l'environnement n'est pas conforme à ce que notre cerveau avait prévu, nous devons d'une part adapter nos actions (souvent alors qu'on avait déjà tout mis en place pour agir conformément à notre prédiction), puis essayer de comprendre l'événement imprévu afin d'adapter notre modèle prédictif pour la prochaine fois.

Par exemple, imaginez que vous attrapiez votre tasse pour boire votre café. En la saisissant, vous vous attendez a priori à ce qu'elle soit rigide et peut-être un peu chaude. Votre cerveau fait donc une prédiction et ajuste vos actions en fonction (ouverture de la main, attraper la tasse plutôt vers le haut).

Imaginez maintenant que lorsque vous la saisissiez, ce ne soit pas une tasse rigide, mais un gobelet en plastique plus fragile. Vous allez être surpris et tenter d'adapter vos mouvements pour ne pas que votre café vous glisse entre les mains. Le fait que le gobelet plie entre vos doigts a créé un écart entre ce que votre système cognitif avait prédit et votre expérience réelle: on dit qu'il y a une rupture de fluence.

Les interruptions numériques perturbent notre système prédictif

Les interruptions, qu'elles soient numériques ou non, ne sont pas prévues par nature. Ainsi, un appel téléphonique impromptu provoque une rupture de fluence, c'est-à-dire qu'elle contredit ce que le cerveau avait envisagé et préparé.

L'interruption a des conséquences au niveau comportemental et cognitif: arrêt de l'activité principale, augmentation du niveau de stress, temps pour reprendre la tâche en cours, démobilisation de la concentration, etc.

À quel moment notre cerveau est-il le plus performant?

La rupture de fluence déclenche automatiquement la mise en place de stratégies d'adaptation. Nous déployons notre attention et, en fonction de la situation rencontrée, modifions notre action, mettons à jour nos connaissances, révisons nos croyances et ajustons notre prédiction.

La rupture de fluence remobilise l'attention et déclenche un processus de recherche de la cause de la rupture. Lors d'une interruption numérique, le caractère imprévisible de cette alerte ne permet pas au cerveau d'anticiper ni de minimiser le sentiment de surprise consécutif à la rupture de fluence: la (re)mobilisation attentionnelle est alors perturbée. On ne sait en effet pas d'où va provenir l'interruption (le téléphone dans sa poche ou la boîte mail sur l'ordinateur) ni ce que sera le contenu de l'information (l'école des enfants, un démarchage téléphonique, etc.).

Des stratégies vers une vie numérique plus saine

Trouver un équilibre entre les avantages de la technologie et notre capacité à maintenir notre concentration devient crucial. Il est possible de développer des stratégies afin de minimiser les interruptions numériques, d'utiliser les technologies de façon consciente et de préserver notre capacité à rester engagés dans nos tâches.

Cela pourrait impliquer la création de zones de travail sans interruption (par exemple, la réintroduction du bureau conventionnel individuel), la désactivation temporaire des notifications pendant une période de concentration intense (par exemple, le mode silencieux du téléphone ou le mode " focus " de logiciels de traitement de texte), ou même l'adoption de technologies intelligentes qui favorisent activement la concentration en minimisant les distractions dans l'environnement.

En fin de compte, l'évolution vers un environnement de plus en plus intelligent, ou du moins connecté, nécessite une réflexion approfondie sur la manière dont nous interagissons avec la technologie et comment celle-ci affecte nos processus cognitifs et nos comportements. Le passage de la maison traditionnelle à la maison connectée relève des problématiques du projet " Habitat urbain en transition " (HUT) pour lequel j'ai travaillé dans le cadre de mon postdoctorat.

De nombreux chercheurs (sciences de gestion, droit, architecture, sciences du mouvement, etc.) ont travaillé autour des questions de l'hyperconnexion des habitations, des usages et du bien-être, au sein d'un appartement-observatoire hyperconnecté. Cela nous a permis de déterminer ensemble les conditions idéales du logement du futur, mais aussi de déceler l'impact des technologies au sein d'un habitat connecté afin d'en prévenir les dérives. 

Auteur: Cases Anne-Sophie

Info: https://www.slate.fr/ - 18 avril 2024,  avec Sibylle Turo

[ déconcentration ]

 

Commentaires: 0

Ajouté à la BD par miguel

legos protéiques

De nouveaux outils d’IA prédisent comment les blocs de construction de la vie s’assemblent

AlphaFold3 de Google DeepMind et d'autres algorithmes d'apprentissage profond peuvent désormais prédire la forme des complexes en interaction de protéines, d'ADN, d'ARN et d'autres molécules, capturant ainsi mieux les paysages biologiques des cellules.

Les protéines sont les machines moléculaires qui soutiennent chaque cellule et chaque organisme, et savoir à quoi elles ressemblent sera essentiel pour comprendre comment elles fonctionnent normalement et fonctionnent mal en cas de maladie. Aujourd’hui, les chercheurs ont fait un grand pas en avant vers cet objectif grâce au développement de nouveaux algorithmes d’apprentissage automatique capables de prédire les formes rdéployées et repliées non seulement des protéines mais aussi d’autres biomolécules avec une précision sans précédent.

Dans un article publié aujourd'hui dans Nature , Google DeepMind et sa société dérivée Isomorphic Labs ont annoncé la dernière itération de leur programme AlphaFold, AlphaFold3, capable de prédire les structures des protéines, de l'ADN, de l'ARN, des ligands et d'autres biomolécules, seuls ou liés ensemble dans différentes configurations. Les résultats font suite à une mise à jour similaire d'un autre algorithme de prédiction de structure d'apprentissage profond, appelé RoseTTAFold All-Atom, publié en mars dans Science .

Même si les versions précédentes de ces algorithmes pouvaient prédire la structure des protéines – une réussite remarquable en soi – elles ne sont pas allées assez loin pour dissiper les mystères des processus biologiques, car les protéines agissent rarement seules. "Chaque fois que je donnais une conférence AlphaFold2, je pouvais presque deviner quelles seraient les questions", a déclaré John Jumper, qui dirige l'équipe AlphaFold chez Google DeepMind. "Quelqu'un allait lever la main et dire : 'Oui, mais ma protéine interagit avec l'ADN.' Pouvez-vous me dire comment ?' " Jumper devrait bien admettre qu'AlphaFold2 ne connaissait pas la réponse.

Mais AlphaFold3 pourrait le faire. Avec d’autres algorithmes d’apprentissage profond émergents, il va au-delà des protéines et s’étend sur un paysage biologique plus complexe et plus pertinent qui comprend une bien plus grande diversité de molécules interagissant dans les cellules.

" On découvre désormais toutes les interactions complexes qui comptent en biologie ", a déclaré Brenda Rubenstein , professeure agrégée de chimie et de physique à l'Université Brown, qui n'a participé à aucune des deux études. " On commence à avoir une vision plus large."

Comprendre ces interactions est " fondamental pour la fonction biologique ", a déclaré Paul Adams , biophysicien moléculaire au Lawrence Berkeley National Laboratory qui n’a également participé à aucune des deux études. " Les deux groupes ont fait des progrès significatifs pour résoudre ce problème. "

Les deux algorithmes ont leurs limites, mais ils ont le potentiel d’évoluer vers des outils de prédiction encore plus puissants. Dans les mois à venir, les scientifiques commenceront à les tester et, ce faisant, ils révéleront à quel point ces algorithmes pourraient être utiles.

Progrès de l’IA en biologie

L’apprentissage profond est une variante de l’apprentissage automatique vaguement inspirée du cerveau humain. Ces algorithmes informatiques sont construits à l’aide de réseaux complexes de nœuds d’information (appelés neurones) qui forment des connexions en couches les unes avec les autres. Les chercheurs fournissent au réseau d’apprentissage profond des données d’entraînement, que l’algorithme utilise pour ajuster les forces relatives des connexions entre les neurones afin de produire des résultats toujours plus proches des exemples d’entraînement. Dans le cas des systèmes d'intelligence artificielle protéique, ce processus amène le réseau à produire de meilleures prédictions des formes des protéines sur la base de leurs données de séquence d'acides aminés.

AlphaFold2, sorti en 2021, a constitué une avancée majeure dans l’apprentissage profond en biologie. Il a ouvert la voie à un monde immense de structures protéiques jusque-là inconnues et est déjà devenu un outil utile pour les chercheurs qui cherchent à tout comprendre, depuis les structures cellulaires jusqu'à la tuberculose. Cela a également inspiré le développement d’outils supplémentaires d’apprentissage biologique profond. Plus particulièrement, le biochimiste David Baker et son équipe de l’Université de Washington ont développé en 2021 un algorithme concurrent appelé RoseTTAFold , qui, comme AlphaFold2, prédit les structures protéiques à partir de séquences de données.

Depuis, les deux algorithmes ont été mis à jour avec de nouvelles fonctionnalités. RoseTTAFold Diffusion pourrait être utilisé pour concevoir de nouvelles protéines qui n’existent pas dans la nature. AlphaFold Multimer pourrait étudier l’interaction de plusieurs protéines. " Mais ce que nous avons laissé sans réponse ", a déclaré Jumper, " était : comment les protéines communiquent-elles avec le reste de la cellule ? "

Le succès des premières itérations d'algorithmes d'apprentissage profond de prédiction des protéines reposait sur la disponibilité de bonnes données d'entraînement : environ 140 000 structures protéiques validées qui avaient été déposées pendant 50 ans dans la banque de données sur les protéines. De plus en plus, les biologistes ont également déposé les structures de petites molécules, d'ADN, d'ARN et leurs combinaisons. Dans cette expansion de l'algorithme d'AlphaFold pour inclure davantage de biomolécules, " la plus grande inconnue ", a déclaré Jumper, "est de savoir s'il y aurait suffisamment de données pour permettre à l'algorithme de prédire avec précision les complexes de protéines avec ces autres molécules."

Apparemment oui. Fin 2023, Baker puis Jumper ont publié les versions préliminaires de leurs nouveaux outils d’IA, et depuis, ils soumettent leurs algorithmes à un examen par les pairs.

Les deux systèmes d'IA répondent à la même question, mais les architectures sous-jacentes de leurs méthodes d'apprentissage profond diffèrent, a déclaré Mohammed AlQuraishi , biologiste des systèmes à l'Université de Columbia qui n'est impliqué dans aucun des deux systèmes. L'équipe de Jumper a utilisé un processus appelé diffusion – technologie qui alimente la plupart des systèmes d'IA génératifs non basés sur du texte, tels que Midjourney et DALL·E, qui génèrent des œuvres d'art basées sur des invites textuelles, a expliqué AlQuraishi. Au lieu de prédire directement la structure moléculaire puis de l’améliorer, ce type de modèle produit d’abord une image floue et l’affine de manière itérative.

D'un point de vue technique, il n'y a pas de grand saut entre RoseTTAFold et RoseTTAFold All-Atom, a déclaré AlQuraishi. Baker n'a pas modifié massivement l'architecture sous-jacente de RoseTTAFold, mais l'a mise à jour pour inclure les règles connues des interactions biochimiques. L'algorithme n'utilise pas la diffusion pour prédire les structures biomoléculaires. Cependant, l'IA de Baker pour la conception de protéines le fait. La dernière itération de ce programme, connue sous le nom de RoseTTAFold Diffusion All-Atom, permet de concevoir de nouvelles biomolécules en plus des protéines.

" Le type de dividendes qui pourraient découler de la possibilité d'appliquer les technologies d'IA générative aux biomolécules n'est que partiellement réalisé grâce à la conception de protéines", a déclaré AlQuraishi. "Si nous pouvions faire aussi bien avec de petites molécules, ce serait incroyable." 

Évaluer la concurrence

Côte à côte, AlphaFold3 semble être plus précis que RoseTTAFold All-Atom. Par exemple, dans leur analyse dans Nature , l'équipe de Google a constaté que leur outil est précis à environ 76 % pour prédire les structures des protéines interagissant avec de petites molécules appelées ligands, contre une précision d'environ 42 % pour RoseTTAFold All-Atom et 52 % pour le meilleur. outils alternatifs disponibles.

Les performances de prédiction de structure d'AlphaFold3 sont " très impressionnantes ", a déclaré Baker, " et meilleures que celles de RoseTTAFold All-Atom ".

Toutefois, ces chiffres sont basés sur un ensemble de données limité qui n'est pas très performant, a expliqué AlQuraishi. Il ne s’attend pas à ce que toutes les prédictions concernant les complexes protéiques obtiennent un score aussi élevé. Et il est certain que les nouveaux outils d’IA ne sont pas encore assez puissants pour soutenir à eux seuls un programme robuste de découverte de médicaments, car cela nécessite que les chercheurs comprennent des interactions biomoléculaires complexes. Pourtant, " c'est vraiment prometteur ", a-t-il déclaré, et nettement meilleur que ce qui existait auparavant.

Adams est d'accord. "Si quelqu'un prétend pouvoir utiliser cela demain pour développer des médicaments avec précision, je n'y crois pas", a-t-il déclaré. " Les deux méthodes sont encore limitées dans leur précision, [mais] les deux constituent des améliorations spectaculaires par rapport à ce qui était possible. "

(Image gif, tournante, en 3D : AlphaFold3 peut prédire la forme de complexes biomoléculaires, comme cette protéine de pointe provenant d'un virus du rhume. Les structures prédites de deux protéines sont visualisées en bleu et vert, tandis que les petites molécules (ligands) liées aux protéines sont représentées en jaune. La structure expérimentale connue de la protéine est encadrée en gris.)

Ils seront particulièrement utiles pour créer des prédictions approximatives qui pourront ensuite être testées informatiquement ou expérimentalement. Le biochimiste Frank Uhlmann a eu l'occasion de pré-tester AlphaFold3 après avoir croisé un employé de Google dans un couloir du Francis Crick Institute de Londres, où il travaille. Il a décidé de rechercher une interaction protéine-ADN qui était " vraiment déroutante pour nous ", a-t-il déclaré. AlphaFold3 a craché une prédiction qu'ils testent actuellement expérimentalement en laboratoire. "Nous avons déjà de nouvelles idées qui pourraient vraiment fonctionner", a déclaré Uhlmann. " C'est un formidable outil de découverte. "

Il reste néanmoins beaucoup à améliorer. Lorsque RoseTTAFold All-Atom prédit les structures de complexes de protéines et de petites molécules, il place parfois les molécules dans la bonne poche d'une protéine mais pas dans la bonne orientation. AlphaFold3 prédit parfois de manière incorrecte la chiralité d'une molécule – l'orientation géométrique distincte " gauche " ou " droite " de sa structure. Parfois, il hallucine ou crée des structures inexactes.

Et les deux algorithmes produisent toujours des images statiques des protéines et de leurs complexes. Dans une cellule, les protéines sont dynamiques et peuvent changer en fonction de leur environnement : elles se déplacent, tournent et passent par différentes conformations. Il sera difficile de résoudre ce problème, a déclaré Adams, principalement en raison du manque de données de formation. " Ce serait formidable de déployer des efforts concertés pour collecter des données expérimentales conçues pour éclairer ces défis ", a-t-il déclaré.

Un changement majeur dans le nouveau produit de Google est qu'il ne sera pas open source. Lorsque l’équipe a publié AlphaFold2, elle a publié le code sous-jacent, qui a permis aux biologistes de reproduire et de jouer avec l’algorithme dans leurs propres laboratoires. Mais le code d'AlphaFold3 ne sera pas accessible au public.

 " Ils semblent décrire la méthode en détail. Mais pour le moment, au moins, personne ne peut l’exécuter et l’utiliser comme il l’a fait avec [AlphaFold2] ", a déclaré AlQuraishi. C’est " un grand pas en arrière. Nous essaierons bien sûr de le reproduire."

Google a cependant annoncé qu'il prenait des mesures pour rendre le produit accessible en proposant un nouveau serveur AlphaFold aux biologistes exécutant AlphaFold3. Prédire les structures biomoléculaires nécessite une tonne de puissance de calcul : même dans un laboratoire comme Francis Crick, qui héberge des clusters informatiques hautes performances, il faut environ une semaine pour produire un résultat, a déclaré Uhlmann. En comparaison, les serveurs plus puissants de Google peuvent faire une prédiction en 10 minutes, a-t-il déclaré, et les scientifiques du monde entier pourront les utiliser. "Cela va démocratiser complètement la recherche sur la prédiction des protéines", a déclaré Uhlmann.

Le véritable impact de ces outils ne sera pas connu avant des mois ou des années, alors que les biologistes commenceront à les tester et à les utiliser dans la recherche. Et ils continueront à évoluer. La prochaine étape de l'apprentissage profond en biologie moléculaire consiste à " gravir l'échelle de la complexité biologique ", a déclaré Baker, au-delà même des complexes biomoléculaires prédits par AlphaFold3 et RoseTTAFold All-Atom. Mais si l’histoire de l’IA en matière de structure protéique peut prédire l’avenir, alors ces modèles d’apprentissage profond de nouvelle génération continueront d’aider les scientifiques à révéler les interactions complexes qui font que la vie se réalise.

" Il y a tellement plus à comprendre ", a déclaré Jumper. "C'est juste le début."

Auteur: Internet

Info: https://www.quantamagazine.org/new-ai-tools-predict-how-lifes-building-blocks-assemble-20240508/ - Yasemin Saplakoglu, 8 mai 2024

[ briques du vivant ] [ texte-image ] [ modélisation mobiles ] [ nano mécanismes du vivant ]

 

Commentaires: 0

Ajouté à la BD par miguel

homme-machine

La théorie des jeux peut rendre l'IA plus correcte et plus efficace

Les chercheurs s’appuient sur des idées issues de la théorie des jeux pour améliorer les grands modèles de langage et les rendre plus cohérents.

Imaginez que vous ayez un ami qui donne des réponses différentes à la même question, selon la façon dont vous la posez. " Quelle est la capitale du Pérou ? "  btiendrait une réponse : " Lima est-elle la capitale du Pérou ? " en obtiendrait un autre. Vous seriez probablement un peu inquiet au sujet des facultés mentales de votre ami et vous auriez certainement du mal à faire confiance à ses réponses.

C'est exactement ce qui se passe avec de nombreux grands modèles de langage (LLM), les outils d'apprentissage automatique ultra-puissants qui alimentent ChatGPT et d'autres merveilles de l'intelligence artificielle. Une question générative, ouverte, donne une réponse, et une question discriminante, qui implique de devoir choisir entre des options, en donne souvent une différente. "Il y a un décalage lorsque la même question est formulée différemment", a déclaré Athul Paul Jacob , doctorant au Massachusetts Institute of Technology.

Pour rendre les réponses d'un modèle de langage plus cohérentes - et rendre le modèle globalement plus fiable - Jacob et ses collègues ont conçu un jeu dans lequel les deux modes du modèle sont amenés à trouver une réponse sur laquelle ils peuvent s'entendre. Surnommée le jeu du consensus , cette procédure simple oppose un LLM à lui-même, en utilisant les outils de la théorie des jeux pour améliorer la précision et la cohérence interne du modèle.

"Les recherches explorant l'autocohérence au sein de ces modèles ont été très limitées", a déclaré Shayegan Omidshafiei , directeur scientifique de la société de robotique Field AI. "Cet article est l'un des premiers à aborder ce problème, de manière intelligente et systématique, en créant un jeu permettant au modèle de langage de jouer avec lui-même."

"C'est un travail vraiment passionnant", a ajouté Ahmad Beirami, chercheur scientifique chez Google Research. Pendant des décennies, a-t-il déclaré, les modèles linguistiques ont généré des réponses aux invites de la même manière. "Avec leur idée novatrice consistant à intégrer un jeu dans ce processus, les chercheurs du MIT ont introduit un paradigme totalement différent, qui peut potentiellement conduire à une multitude de nouvelles applications."

Mettre le jeu au travail

Ce nouveau travail, qui utilise les jeux pour améliorer l'IA, contraste avec les approches précédentes, qui mesuraient le succès d'un programme d'IA via sa maîtrise des jeux. En 1997, par exemple, l'ordinateur Deep Blue d'IBM a battu le grand maître d'échecs Garry Kasparov – une étape importante pour les machines dites pensantes. Dix-neuf ans plus tard, un programme de Google DeepMind nommé AlphaGo a remporté quatre matchs sur cinq contre l'ancien champion de Go Lee Sedol, révélant ainsi une autre arène dans laquelle les humains ne régnaient plus en maître. Les machines ont également surpassé les humains dans les jeux de dames, le poker à deux joueurs et d’autres jeux à somme nulle, dans lesquels la victoire d’un joueur condamne invariablement l’autre.

Le jeu de la diplomatie, un jeu favori de politiciens comme John F. Kennedy et Henry Kissinger, posait un défi bien plus grand aux chercheurs en IA. Au lieu de seulement deux adversaires, le jeu met en scène sept joueurs dont les motivations peuvent être difficiles à lire. Pour gagner, un joueur doit négocier et conclure des accords de coopération que n'importe qui peut rompre à tout moment. La diplomatie est tellement complexe qu'un groupe de Meta s'est félicité qu'en 2022, son programme d'IA Cicero ait développé un « jeu de niveau humain » sur une période de 40 parties. Bien qu'il n'ait pas vaincu le champion du monde, Cicero s'est suffisamment bien comporté pour se classer dans les 10 % les plus performants face à des participants humains.

Au cours du projet, Jacob — membre de l'équipe Meta — a été frappé par le fait que Cicéron s'appuyait sur un modèle de langage pour générer son dialogue avec les autres joueurs. Il a senti un potentiel inexploité. L'objectif de l'équipe, a-t-il déclaré, " était de créer le meilleur modèle de langage possible pour jouer à ce jeu ". Mais qu'en serait-il s’ils se concentraient plutôt sur la création du meilleur jeu possible pour améliorer les performances des grands modèles de langage ?

Interactions consensuelles

En 2023, Jacob a commencé à approfondir cette question au MIT, en travaillant avec Yikang Shen, Gabriele Farina et son conseiller Jacob Andreas sur ce qui allait devenir le jeu du consensus. L'idée centrale est venue d'imaginer une conversation entre deux personnes comme un jeu coopératif, où le succès se concrétise lorsqu'un auditeur comprend ce que l'orateur essaie de transmettre. En particulier, le jeu de consensus est conçu pour aligner les deux systèmes du modèle linguistique : le générateur, qui gère les questions génératives, et le discriminateur, qui gère les questions discriminatives.

Après quelques mois d’arrêts et de redémarrages, l’équipe a transposé ce principe dans un jeu complet. Tout d'abord, le générateur reçoit une question. Cela peut provenir d’un humain, ou d’une liste préexistante. Par exemple, " Où est né Barack Obama ? " Le générateur obtient ensuite des réponses de candidats, disons Honolulu, Chicago et Nairobi. Encore une fois, ces options peuvent provenir d'un humain, d'une liste ou d'une recherche effectuée par le modèle de langage lui-même.

Mais avant de répondre, il est également indiqué au générateur s'il doit répondre correctement ou incorrectement à la question, en fonction des résultats d'un pile ou face équitable.

Si c'est face, alors la machine tente de répondre correctement. Le générateur envoie la question initiale, accompagnée de la réponse choisie, au discriminateur. Si le discriminateur détermine que le générateur a intentionnellement envoyé la bonne réponse, chacun obtient un point, en guise d'incitation.

Si la pièce tombe sur pile, le générateur envoie ce qu’il pense être la mauvaise réponse. Si le discriminateur décide qu’on lui a délibérément donné la mauvaise réponse, ils marquent à nouveau tous les deux un point. L’idée ici est d’encourager l’accord. " C'est comme apprendre un tour à un chien ", a expliqué Jacob. " On lui donne une friandise lorsqu'ils fait la bonne chose. "

Le générateur et le discriminateur commencent également doté chacun de  quelques " croyances " initiales. Credo sous forme d'une distribution de probabilité liée aux différents choix. Par exemple, le générateur peut croire, sur la base des informations qu'il a glanées sur Internet, qu'il y a 80 % de chances qu'Obama soit né à Honolulu, 10 % de chances qu'il soit né à Chicago, 5 % de chances qu'il soit né à Nairobi et 5 % de chances qu'il soit ailleurs. Le discriminateur peut commencer avec une distribution différente. Si les deux " acteurs " sont toujours récompensés après être parvenus à un accord, ils se voient également retirer des points s'ils s'écartent trop de leurs convictions initiales. Cet arrangement encourage les joueurs à intégrer leur connaissance du monde – toujours tirée d'Internet – dans leurs réponses, ce qui devrait rendre le modèle plus précis. Sans ce prérequis ils pourraient s’entendre sur une réponse totalement fausse comme celle de Delhi, mais accumuler quand même des points.

Pour chaque question, les deux systèmes jouent environ 1 000 parties l'un contre l'autre. Au cours de ces nombreuses itérations, chaque camp apprend les croyances de l'autre et modifie ses stratégies en conséquence.

Finalement, le générateur et le discriminateur commencent à être davantage d’accord à mesure qu’ils s’installent dans ce qu’on appelle l’équilibre de Nash. C’est sans doute le concept central de la théorie des jeux. Cela représente une sorte d’équilibre dans un jeu – le point auquel aucun joueur ne peut améliorer ses résultats personnels en changeant de stratégie. Au jeu du chifoumi, par exemple, les joueurs obtiennent de meilleurs résultats lorsqu'ils choisissent chacune des trois options exactement un tiers du temps, et ils obtiendront invariablement de moins bons résultats avec toute autre tactique.

Dans le jeu du consensus, cela peut se jouer de plusieurs manières. Le discriminateur pourrait observer qu'il marque un point lorsqu'il dit " correct " chaque fois que le générateur envoie le mot " Honolulu " pour le lieu de naissance d'Obama. Le générateur et le discriminateur apprendront, après avoir joué plusieurs fois, qu'ils seront récompensés s'ils continuent de le faire, et qu'aucun d'eux n'aura aucune motivation pour faire autre chose... consensus qui représente l'un des nombreux exemples possibles d'équilibre de Nash pour cette question. Le groupe du MIT s'est également appuyé sur une forme modifiée d'équilibre de Nash qui intègre les croyances antérieures des joueurs, ce qui permet de maintenir leurs réponses ancrées dans la réalité.

L'effet net, ont observé les chercheurs, est de rendre le modèle linguistique jouant ce jeu plus précis et plus susceptible de donner la même réponse, quelle que soit la façon dont la question est posée. Pour tester les effets du jeu du consensus, l'équipe a essayé une série de questions standard sur divers modèles de langage de taille modérée comportant de 7 milliards à 13 milliards de paramètres. Ces modèles ont systématiquement obtenu un pourcentage plus élevé de réponses correctes que les modèles qui n'avaient pas joué, même ceux de taille beaucoup plus importante, comportant jusqu'à 540 milliards de paramètres. La participation au jeu a également amélioré la cohérence interne d'un modèle.

En principe, n'importe quel LLM pourrait gagner à jouer contre lui-même, et 1 000 tours ne prendraient que quelques millisecondes sur un ordinateur portable standard. "Un avantage appréciable de l'approche globale", a déclaré Omidshafiei, "est qu'elle est très légère sur le plan informatique, n'impliquant aucune formation ni modification du modèle de langage de base."

Jouer à des jeux avec le langage

Après ce premier succès, Jacob étudie désormais d’autres moyens d’intégrer la théorie des jeux dans la recherche LLM. Les résultats préliminaires ont montré qu’un LLM déjà solide peut encore s’améliorer en jouant à un jeu différent – ​​provisoirement appelé jeu d’ensemble – avec un nombre arbitraire de modèles plus petits. Le LLM principal aurait au moins un modèle plus petit servant d’allié et au moins un modèle plus petit jouant un rôle antagoniste. Si l'on demande au LLM primaire de nommer le président des États-Unis, il obtient un point chaque fois qu'il choisit la même réponse que son allié, et il obtient également un point lorsqu'il choisit une réponse différente de celle de son adversaire. Ces interactions avec des modèles beaucoup plus petits peuvent non seulement améliorer les performances d'un LLM, suggèrent les tests, mais peuvent le faire sans formation supplémentaire ni modification des paramètres.

Et ce n'est que le début. Étant donné qu'une variété de situations peuvent être considérées comme des jeux, les outils de la théorie des jeux peuvent être mis en œuvre dans divers contextes du monde réel, a déclaré Ian Gemp , chercheur scientifique chez Google DeepMind. Dans un article de février 2024 , lui et ses collègues se sont concentrés sur des scénarios de négociation qui nécessitent des échanges plus élaborés que de simples questions et réponses. "L'objectif principal de ce projet est de rendre les modèles linguistiques plus stratégiques", a-t-il déclaré.

Un exemple dont il a parlé lors d'une conférence universitaire est le processus d'examen des articles en vue de leur acceptation par une revue ou une conférence, en particulier après que la soumission initiale ait reçu une évaluation sévère. Étant donné que les modèles linguistiques attribuent des probabilités à différentes réponses, les chercheurs peuvent construire des arbres de jeu similaires à ceux conçus pour les jeux de poker, qui tracent les choix disponibles et leurs conséquences possibles. "Une fois que vous avez fait cela, vous pouvez commencer à calculer les équilibres de Nash, puis classer un certain nombre de réfutations", a déclaré Gemp. Le modèle vous dit essentiellement : c'est ce que nous pensons que vous devriez répondre.

Grâce aux connaissances de la théorie des jeux, les modèles de langage seront capables de gérer des interactions encore plus sophistiquées, plutôt que de se limiter à des problèmes de type questions-réponses. "Le gros gain à venir réside dans les conversations plus longues", a déclaré Andreas. "La prochaine étape consiste à faire interagir une IA avec une personne, et pas seulement avec un autre modèle de langage."

Jacob considère le travail de DeepMind comme complémentaire aux jeux de consensus et d'ensemble. " À un niveau élevé, ces deux méthodes combinent des modèles de langage et la théorie des jeux ", a-t-il déclaré, même si les objectifs sont quelque peu différents. Alors que le groupe Gemp transforme des situations courantes dans un format de jeu pour aider à la prise de décision stratégique, Jacob a déclaré : " nous utilisons ce que nous savons de la théorie des jeux pour améliorer les modèles de langage dans les tâches générales. "

À l’heure actuelle, ces efforts représentent " deux branches du même arbre ", a déclaré Jacob : deux manières différentes d’améliorer le fonctionnement des modèles de langage. " Je pense personnellement  que dans un an ou deux, ces deux branches convergeront. " 

Auteur: Internet

Info: https://www.quantamagazine.org/ - Steve Nadis, 9 mai 2024

[ maïeutique machine-machine ] [ discussion IA - FLP ]

 
Commentaires: 1
Ajouté à la BD par miguel

évolution technologique

Intelligence artificielle ou stupidité réelle ?

Bien que le battage médiatique augmente la sensibilisation à l'IA, il facilite également certaines activités assez stupides et peut distraire les gens de la plupart des progrès réels qui sont réalisés.
Distinguer la réalité des manchettes plus dramatiques promet d'offrir des avantages importants aux investisseurs, aux entrepreneurs et aux consommateurs.

L'intelligence artificielle a acquis sa notoriété récente en grande partie grâce à des succès très médiatisés tels que la victoire d'IBM Watson à Jeopardy et celle de Google AlphaGo qui a battu le champion du monde au jeu "Go". Waymo, Tesla et d'autres ont également fait de grands progrès avec les véhicules auto-propulsés. Richard Waters a rendu compte de l'étendue des applications de l'IA dans le Financial Times : "S'il y a un message unificateur qui sous-tend la technologie grand public exposée [au Consumer Electronics Show] .... c'est : "L'IA partout."

Les succès retentissants de l'IA ont également capturé l'imagination des gens à un tel point que cela a suscité d'autres efforts d'envergure. Un exemple instructif a été documenté par Thomas H. Davenport et Rajeev Ronanki dans le Harvard Business Review. Ils écrirent, "En 2013, le MD Anderson Cancer Center a lancé un projet ""Moon shot " : diagnostiquer et recommander des plans de traitement pour certaines formes de cancer en utilisant le système cognitif Watson d'IBM". Malheureusement, ce système n'a pas fonctionné et en 2017 le projet fut mis en veilleuse après avoir coûté plus de 62 millions de dollars sans avoir été utilisé pour les patients.

Waters a également abordé un autre message, celui des attentes modérées. En ce qui concerne les "assistants personnels à commande vocale", note-t-elle, "on ne sait pas encore si la technologie est capable de remplacer le smartphone pour naviguer dans le monde numérique autrement autrement que pour écouter de la musique ou vérifier les nouvelles et la météo".

D'autres exemples de prévisions modérées abondent. Generva Allen du Baylor College of Medicine et de l'Université Rice a avertit , "Je ne ferais pas confiance à une très grande partie des découvertes actuellement faites qui utilisent des techniques de machine learning appliquées à de grands ensembles de données". Le problème, c'est que bon nombre des techniques sont conçues pour fournir des réponses précises et que la recherche comporte des incertitudes. Elle a précisé : "Parfois, il serait beaucoup plus utile qu'ils reconnaissent que certains sont vraiment consolidés, mais qu'on est pas sûr pour beaucoup d'autres".

Pire encore, dans les cas extrêmes, l'IA n'est pas seulement sous-performante ; elle n'a même pas encore été mise en œuvre. Le FT rapporte, "Quatre jeunes entreprises européennes sur dix n'utilisent aucun programme d'intelligence artificielle dans leurs produits, selon un rapport qui souligne le battage publicitaire autour de cette technologie.

Les cycles d'attentes excessives suivies de vagues de déception ne sont pas surprenants pour ceux qui ont côtoyé l'intelligence artificielle pendant un certain temps. Ils savent que ce n'est pas le premier rodéo de l'IA. En effet, une grande partie du travail conceptuel date des années 1950. D'ailleurs, en passant en revue certaines de mes notes récentes je suis tombé sur une pièce qui explorait les réseaux neuronaux dans le but de choisir des actions - datant de 1993.

La meilleure façon d'avoir une perspective sur l'IA est d'aller directement à la source et Martin Ford nous en donne l'occasion dans son livre, Architects of Intelligence. Organisé sous la forme d'une succession d'entrevues avec des chercheurs, des universitaires et des entrepreneurs de premier plan de l'industrie, le livre présente un historique utile de l'IA et met en lumière les principaux courants de pensée.

Deux perspectives importantes se dégagent de ce livre.

La première est qu'en dépit des origines et des personnalités disparates des personnes interrogées, il existe un large consensus sur des sujets importants.

L'autre est qu'un grand nombre des priorités et des préoccupations des principales recherches sur l'IA sont bien différentes de celles exprimées dans les médias grand public.

Prenons par exemple le concept d'intelligence générale artificielle (AGI). Qui est étroitement lié à la notion de "singularité" ce point où l'IA rejoindra celle de l'homme - avant un dépassement massif de cette dernière. Cette idée et d'autres ont suscité des préoccupations au sujet de l'IA, tout comme les pertes massives d'emplois, les drones tueurs et une foule d'autres manifestations alarmantes.

Les principaux chercheurs en AI ont des points de vue très différents ; ils ne sont pas du tout perturbés par l'AGI et autres alarmismes.

Geoffrey Hinton, professeur d'informatique à l'Université de Toronto et vice-président et chercheur chez Google, dit : "Si votre question est : Quand allons-nous obtenir un commandant-docteur Data (comme dans Star Trek ) je ne crois pas que ce sera comme çà que ça va se faire. Je ne pense pas qu'on aura des programmes uniques et généralistes comme ça."

Yoshua Bengio, professeur d'informatique et de recherche opérationnelle à l'Université de Montréal, nous dit qu'il y a des problèmes très difficiles et que nous sommes très loin de l'IA au niveau humain. Il ajoute : "Nous sommes tous excités parce que nous avons fait beaucoup de progrès dans cette ascension, mais en nous approchant du sommet, nous apercevons d'autres collines qui s'élèvent devant nous au fur et à mesure".

Barbara Grosz, professeur de sciences naturelles à l'Université de Harvard : "Je ne pense pas que l'AGI soit la bonne direction à prendre". Elle soutient que la poursuite de l'AGI (et la gestion de ses conséquences) sont si loin dans l'avenir qu'elles ne sont que "distraction".

Un autre fil conducteur des recherches sur l'IA est la croyance que l'IA devrait être utilisée pour améliorer le travail humain plutôt que le remplacer.

Cynthia Breazeal, directrice du groupe de robots personnels du laboratoire de médias du MIT, aborde la question : "La question est de savoir quelle est la synergie, quelle est la complémentarité, quelle est l'amélioration qui permet d'étendre nos capacités humaines en termes d'objectifs, ce qui nous permet d'avoir vraiment un plus grand impact dans le monde, avec l'IA."

Fei-Fei Li, professeur d'informatique à Stanford et scientifique en chef pour Google Cloud dit lui : "L'IA en tant que technologie a énormément de potentiel pour valoriser et améliorer le travail, sans le remplacer".

James Manyika, président du conseil et directeur du McKinsey Global Institute, fait remarquer que puisque 60 % des professions ont environ un tiers de leurs activités qui sont automatisables et que seulement environ 10 % des professions ont plus de 90 % automatisables, "beaucoup plus de professions seront complétées ou augmentées par des technologies qu'elles ne seront remplacées".

De plus, l'IA ne peut améliorer le travail humain que si elle peut travailler efficacement de concert avec lui.

Barbara Grosz fait remarquer : "J'ai dit à un moment donné que 'les systèmes d'IA sont meilleurs s'ils sont conçus en pensant aux gens'". Je recommande que nous visions à construire un système qui soit un bon partenaire d'équipe et qui fonctionne si bien avec nous que nous ne nous rendions pas compte qu'il n'est pas humain".

David Ferrucci, fondateur d'Elemental Cognition et directeur d'IA appliquée chez Bridgewater Associates, déclare : " L'avenir que nous envisageons chez Elemental Cognition repose sur une collaboration étroite et fluide entre l'intelligence humaine et la machine. "Nous pensons que c'est un partenariat de pensée." Yoshua Bengio nous rappelle cependant les défis à relever pour former un tel partenariat : "Il ne s'agit pas seulement de la précision [avec l'IA], il s'agit de comprendre le contexte humain, et les ordinateurs n'ont absolument aucun indice à ce sujet."

Il est intéressant de constater qu'il y a beaucoup de consensus sur des idées clés telles que l'AGI n'est pas un objectif particulièrement utile en ce moment, l'IA devrait être utilisée pour améliorer et non remplacer le travail et l'IA devrait fonctionner en collaboration avec des personnes. Il est également intéressant de constater que ces mêmes leçons sont confirmées par l'expérience des entreprises.

Richard Waters décrit comment les implémentations de l'intelligence artificielle en sont encore à un stade assez rudimentaire.

Éliminez les recherches qui monopolisent les gros titres (un ordinateur qui peut battre les humains au Go !) et la technologie demeure à un stade très primaire .

Mais au-delà de cette "consumérisation" de l'IT, qui a mis davantage d'outils faciles à utiliser entre les mains, la refonte des systèmes et processus internes dans une entreprise demande beaucoup de travail.

Ce gros travail prend du temps et peu d'entreprises semblent présentes sur le terrain. Ginni Rometty, responsable d'IBM, qualifie les applications de ses clients d'"actes aléatoires du numérique" et qualifie nombre de projets de "hit and miss". (ratages). Andrew Moore, responsable de l'intelligence artificielle pour les activités de Google Cloud business, la décrit comme "intelligence artificielle artisanale". Rometty explique : "Ils ont tendance à partir d'un ensemble de données isolé ou d'un cas d'utilisation - comme la rationalisation des interactions avec un groupe particulier de clients. Tout ceci n'est pas lié aux systèmes, données ou flux de travail plus profonds d'une entreprise, ce qui limite leur impact."

Bien que le cas HBR du MD Anderson Cancer Center soit un bon exemple d'un projet d'IA "au clair de lune "qui a probablement dépassé les bornes, cela fournit également une excellente indication des types de travail que l'IA peut améliorer de façon significative. En même temps que le centre essayait d'appliquer l'IA au traitement du cancer, son "groupe informatique expérimentait l'utilisation des technologies cognitives pour des tâches beaucoup moins ambitieuses, telles que faire des recommandations d'hôtels et de restaurants pour les familles des patients, déterminer quels patients avaient besoin d'aide pour payer leurs factures, et résoudre les problèmes informatiques du personnel".

Dans cette entreprise, le centre a eu de bien meilleures expériences : "Les nouveaux systèmes ont contribué à accroître la satisfaction des patients, à améliorer le rendement financier et à réduire le temps consacré à la saisie fastidieuse des données par les gestionnaires de soins de l'hôpital. De telles fonctions banales ne sont peut-être pas exactement du ressort de Terminator, mais elles sont quand même importantes.

Optimiser l'IA dans le but d'augmenter le travail en collaborant avec les humains était également le point central d'une pièce de H. James Wilson et Paul R. Daugherty "HBRpiece". Ils soulignent : "Certes, de nombreuses entreprises ont utilisé l'intelligence artificielle pour automatiser leurs processus, mais celles qui l'utilisent principalement pour déplacer leurs employés ne verront que des gains de productivité à court terme. Grâce à cette intelligence collaborative, l'homme et l'IA renforcent activement les forces complémentaires de l'autre : le leadership, le travail d'équipe, la créativité et les compétences sociales de la première, la rapidité, l'évolutivité et les capacités quantitatives de la seconde".

Wilson et Daugherty précisent : "Pour tirer pleinement parti de cette collaboration, les entreprises doivent comprendre comment les humains peuvent le plus efficacement augmenter les machines, comment les machines peuvent améliorer ce que les humains font le mieux, et comment redéfinir les processus commerciaux pour soutenir le partenariat". Cela demande beaucoup de travail et cela va bien au-delà du simple fait de balancer un système d'IA dans un environnement de travail préexistant.

Les idées des principaux chercheurs en intelligence artificielle, combinées aux réalités des applications du monde réel, offrent des implications utiles. La première est que l'IA est une arme à double tranchant : le battage médiatique peut causer des distractions et une mauvaise attribution, mais les capacités sont trop importantes pour les ignorer.

Ben Hunt discute des rôles de la propriété intellectuelle (PI) et de l'intelligence artificielle dans le secteur des investissements, et ses commentaires sont largement pertinents pour d'autres secteurs. Il note : "L'utilité de la propriété intellectuelle pour préserver le pouvoir de fixation des prix est beaucoup moins fonction de la meilleure stratégie que la PI vous aide à établir, et beaucoup plus fonction de la façon dont la propriété intellectuelle s'intègre dans le l'esprit du temps (Zeitgeist) dominant dans votre secteur.

Il poursuit en expliquant que le "POURQUOI" de votre PI doit "répondre aux attentes de vos clients quant au fonctionnement de la PI" afin de protéger votre produit. Si vous ne correspondez pas à l'esprit du temps, personne ne croira que les murs de votre château existent, même si c'est le cas". Dans le domaine de l'investissement (et bien d'autres encore), "PERSONNE ne considère plus le cerveau humain comme une propriété intellectuelle défendable. Personne." En d'autres termes, si vous n'utilisez pas l'IA, vous n'obtiendrez pas de pouvoir de fixation des prix, quels que soient les résultats réels.

Cela fait allusion à un problème encore plus grave avec l'IA : trop de gens ne sont tout simplement pas prêts à y faire face.

Daniela Rus, directrice du laboratoire d'informatique et d'intelligence artificielle (CSAIL) du MIT déclare : "Je veux être une optimiste technologique. Je tiens à dire que je vois la technologie comme quelque chose qui a le potentiel énorme d'unir les gens plutôt que les diviser, et de les autonomiser plutôt que de les désolidariser. Mais pour y parvenir, nous devons faire progresser la science et l'ingénierie afin de rendre la technologie plus performante et plus utilisable." Nous devons revoir notre façon d'éduquer les gens afin de nous assurer que tous ont les outils et les compétences nécessaires pour tirer parti de la technologie.

Yann Lecun ajoute : "Nous n'aurons pas de large diffusion de la technologie de l'IA à moins qu'une proportion importante de la population ne soit formée pour en tirer parti ".

Cynthia Breazeal répéte : "Dans une société de plus en plus alimentée par l'IA, nous avons besoin d'une société alphabétisée à l'IA."

Ce ne sont pas non plus des déclarations creuses ; il existe une vaste gamme de matériel d'apprentissage gratuit pour l'IA disponible en ligne pour encourager la participation sur le terrain.

Si la société ne rattrape pas la réalité de l'IA, il y aura des conséquences.

Brezeal note : "Les craintes des gens à propos de l'IA peuvent être manipulées parce qu'ils ne la comprennent pas."

Lecun souligne : " Il y a une concentration du pouvoir. À l'heure actuelle, la recherche sur l'IA est très publique et ouverte, mais à l'heure actuelle, elle est largement déployée par un nombre relativement restreint d'entreprises. Il faudra un certain temps avant que ce ne soit utilisé par une plus grande partie de l'économie et c'est une redistribution des cartes du pouvoir."

Hinton souligne une autre conséquence : "Le problème se situe au niveau des systèmes sociaux et la question de savoir si nous allons avoir un système social qui partage équitablement... Tout cela n'a rien à voir avec la technologie".

À bien des égards, l'IA est donc un signal d'alarme. En raison de l'interrelation unique de l'IA avec l'humanité, l'IA a tendance à faire ressortir ses meilleurs et ses pires éléments. Certes, des progrès considérables sont réalisés sur le plan technologique, ce qui promet de fournir des outils toujours plus puissants pour résoudre des problèmes difficiles. Cependant, ces promesses sont également limitées par la capacité des gens, et de la société dans son ensemble, d'adopter les outils d'IA et de les déployer de manière efficace.

Des preuves récentes suggèrent que nous avons du pain sur la planche pour nous préparer à une société améliorée par l'IA. Dans un cas rapporté par le FT, UBS a créé des "algorithmes de recommandation" (tels que ceux utilisés par Netflix pour les films) afin de proposer des transactions pour ses clients. Bien que la technologie existe, il est difficile de comprendre en quoi cette application est utile à la société, même de loin.

Dans un autre cas, Richard Waters nous rappelle : "Cela fait presque dix ans, par exemple, que Google a fait trembler le monde de l'automobile avec son premier prototype de voiture autopropulsée". Il continue : "La première vague de la technologie des voitures sans conducteur est presque prête à faire son entrée sur le marché, mais certains constructeurs automobiles et sociétés de technologie ne semblent plus aussi désireux de faire le grand saut. Bref, ils sont menacés parce que la technologie actuelle est à "un niveau d'autonomie qui fait peur aux constructeurs automobiles, mais qui fait aussi peur aux législateurs et aux régulateurs".

En résumé, que vous soyez investisseur, homme d'affaires, employé ou consommateur, l'IA a le potentiel de rendre les choses bien meilleures - et bien pires. Afin de tirer le meilleur parti de cette opportunité, un effort actif axé sur l'éducation est un excellent point de départ. Pour que les promesses d'AI se concrétisent, il faudra aussi déployer beaucoup d'efforts pour mettre en place des infrastructures de systèmes et cartographier les forces complémentaires. En d'autres termes, il est préférable de considérer l'IA comme un long voyage plutôt que comme une destination à court terme.

Auteur: Internet

Info: Zero Hedge, Ven, 03/15/2019 - 21:10

[ prospective ]

 
Mis dans la chaine

Commentaires: 0

Ajouté à la BD par miguel

intelligence artificielle

Apprendre l'anglais n'est pas une tâche facile, comme le savent d'innombrables étudiants. Mais lorsque l'étudiant est un ordinateur, une approche fonctionne étonnamment bien : Il suffit d'alimenter un modèle mathématique géant, appelé réseau neuronal, avec des montagnes de textes provenant d'Internet. C'est le principe de fonctionnement des modèles linguistiques génératifs tels que ChatGPT d'OpenAI, dont la capacité à tenir une conversation cohérente (à défaut d'être toujours sincère) sur un large éventail de sujets a surpris les chercheurs et le public au cours de l'année écoulée.

Mais cette approche présente des inconvénients. D'une part, la procédure de "formation" nécessaire pour transformer de vastes archives textuelles en modèles linguistiques de pointe est coûteuse et prend beaucoup de temps. D'autre part, même les personnes qui forment les grands modèles linguistiques ont du mal à comprendre leur fonctionnement interne, ce qui, à son tour, rend difficile la prévision des nombreuses façons dont ils peuvent échouer.

Face à ces difficultés, certains chercheurs ont choisi d'entraîner des modèles plus petits sur des ensembles de données plus restreints, puis d'étudier leur comportement. "C'est comme le séquençage du génome de la drosophile par rapport au séquençage du génome humain", explique Ellie Pavlick, chercheuse sur les modèles de langage à l'université de Brown.

Dans un article récemment publié sur le serveur scientifique arxiv.org, deux chercheurs de Microsoft ont présenté une nouvelle méthode pour former de minuscules modèles de langage : Les élever avec un régime strict d'histoires pour enfants.

RÉSEAUX NEURONAUX

Des chercheurs acquièrent une nouvelle compréhension à partir d'une simple IA  

Les chercheurs en apprentissage automatique ont compris cette leçon. GPT-3.5, le grand modèle linguistique qui alimente l'interface ChatGPT, compte près de 200 milliards de paramètres et a été entraîné sur un ensemble de données comprenant des centaines de milliards de mots (OpenAI n'a pas publié les chiffres correspondants pour son successeur, GPT-4).  L'entraînement de modèles aussi vastes nécessite généralement au moins 1 000 processeurs spécialisés, appelés GPU, fonctionnant en parallèle pendant des semaines. Seules quelques entreprises peuvent réunir les ressources nécessaires, sans parler de l'entraînement et de la comparaison de différents modèles.

Les deux chercheurs ont montré que des modèles linguistiques des milliers de fois plus petits que les systèmes de pointe actuels apprenaient rapidement à raconter des histoires cohérentes et grammaticalement justes lorsqu'ils étaient formés de cette manière. Leurs résultats indiquent de nouvelles pistes de recherche qui pourraient être utiles pour former des modèles plus importants et comprendre leur comportement.

"J'ai trouvé tout  ça très instructif", a déclaré Chandra Bhagavatula, chercheur sur les modèles de langage à l'Allen Institute for Artificial Intelligence de Seattle. "Le concept lui-même est très intéressant.

Il était une fois

Les réseaux neuronaux au cœur des modèles de langage sont des structures mathématiques vaguement inspirées du cerveau humain. Chacun d'entre eux contient de nombreux neurones artificiels disposés en couches, avec des connexions entre les neurones des couches adjacentes. Le comportement du réseau neuronal est régi par la force de ces connexions, appelées paramètres. Dans un modèle linguistique, les paramètres contrôlent les mots que le modèle peut produire ensuite, compte tenu d'une invite initiale et des mots qu'il a déjà générés.

Un modèle ne prend véritablement vie qu'au cours de la formation, lorsqu'il compare de manière répétée ses propres résultats au texte de son ensemble de données de formation et qu'il ajuste ses paramètres afin d'accroître la ressemblance. Un réseau non entraîné avec des paramètres aléatoires est trivialement facile à assembler à partir de quelques lignes de code, mais il ne produira que du charabia. Après l'entraînement, il peut souvent poursuivre de manière plausible un texte peu familier. Les modèles de plus grande taille sont souvent soumis à des réglages plus fins qui leur apprennent à répondre à des questions et à suivre des instructions, mais l'essentiel de la formation consiste à maîtriser la prédiction des mots.

Pour réussir à prédire des mots, un modèle linguistique doit maîtriser de nombreuses compétences différentes. Par exemple, les règles de la grammaire anglaise suggèrent que le mot suivant le mot "going" sera probablement "to", quel que soit le sujet du texte. En outre, un système a besoin de connaissances factuelles pour compléter "la capitale de la France est", et compléter un passage contenant le mot "not" nécessite une connaissance rudimentaire de la logique.

"Le langage brut est très compliqué", explique Timothy Nguyen, chercheur en apprentissage automatique chez DeepMind. "Pour que des capacités linguistiques intéressantes apparaissent, les gens ont eu recours à l'idée que plus il y a de données, mieux c'est".

(photo) Ronen Eldan s'est rendu compte qu'il pouvait utiliser les histoires d'enfants générées par de grands modèles linguistiques pour en entraîner rapidement de plus petits.

Introduction

Ronen Eldan, mathématicien qui a rejoint Microsoft Research en 2022 pour étudier les modèles de langage génératifs, souhaitait développer un moyen moins coûteux et plus rapide d'explorer leurs capacités. Le moyen naturel d'y parvenir était d'utiliser un petit ensemble de données, ce qui signifiait qu'il devait entraîner les modèles à se spécialiser dans une tâche spécifique, afin qu'ils ne s'éparpillent pas. Au départ, il voulait entraîner les modèles à résoudre une certaine catégorie de problèmes mathématiques, mais un après-midi, après avoir passé du temps avec sa fille de 5 ans, il s'est rendu compte que les histoires pour enfants convenaient parfaitement. "L'idée m'est venue littéralement après lui avoir lu une histoire", a-t-il déclaré.

Pour générer des histoires cohérentes pour les enfants, un modèle de langage devrait apprendre des faits sur le monde, suivre les personnages et les événements, et observer les règles de grammaire - des versions plus simples des défis auxquels sont confrontés les grands modèles. Mais les grands modèles formés sur des ensembles de données massives apprennent d'innombrables détails non pertinents en même temps que les règles qui comptent vraiment. Eldan espérait que la brièveté et le vocabulaire limité des histoires pour enfants rendraient l'apprentissage plus gérable pour les petits modèles, ce qui les rendrait à la fois plus faciles à former et plus faciles à comprendre.

Dans le monde des modèles de langage, cependant, le terme "petit" est relatif : Un ensemble de données mille fois plus petit que celui utilisé pour former GPT-3.5 devrait encore contenir des millions d'histoires. "Je ne sais pas combien d'argent vous voulez dépenser, mais je suppose que vous n'allez pas engager des professionnels pour écrire quelques millions de nouvelles", a déclaré M. Nguyen.

Il faudrait un auteur extraordinairement prolifique pour satisfaire des lecteurs aussi voraces, mais Eldan avait quelques candidats en tête. Qui peut mieux écrire pour un public de petits modèles linguistiques que pour de grands modèles ?

Toys stories

Eldan a immédiatement entrepris de créer une bibliothèque d'histoires synthétiques pour enfants générées par de grands modèles linguistiques. Mais il a rapidement découvert que même les modèles de pointe ne sont pas naturellement très créatifs. Si l'on demande à GPT-4 d'écrire des histoires adaptées à des enfants de 4 ans, explique Eldan, "environ un cinquième des histoires concernera des enfants qui vont au parc et qui ont peur des toboggans". C'est apparemment la quintessence des histoires pour enfants d'âge préscolaire, selon l'Internet.

La solution a consisté à ajouter un peu d'aléatoire dans le message. Tout d'abord, Eldan a utilisé le GPT-4 pour générer une liste de 1 500 noms, verbes et adjectifs qu'un enfant de 4 ans pourrait connaître - suffisamment courte pour qu'il puisse facilement la vérifier lui-même. Il a ensuite écrit un programme informatique simple qui demanderait à plusieurs reprises à GPT-3.5 ou à GPT-4 de générer une histoire adaptée à l'âge de l'enfant, comprenant trois mots aléatoires de la liste, ainsi qu'un détail supplémentaire choisi au hasard, comme une fin heureuse ou un rebondissement de l'intrigue. Les histoires obtenues, heureusement, étaient moins axées sur des diapositives effrayantes.

Eldan disposait désormais d'une procédure pour produire des données de formation à la demande, mais il n'avait aucune idée du nombre d'histoires dont il aurait besoin pour former un modèle fonctionnel, ni de la taille de ce modèle. C'est alors qu'il s'est associé à Yuanzhi Li, chercheur en apprentissage automatique chez Microsoft et à l'université Carnegie Mellon, pour essayer différentes possibilités, en tirant parti du fait que les petits modèles peuvent être formés très rapidement. La première étape consistait à décider comment évaluer leurs modèles.

Introduction

Dans la recherche sur les modèles de langage - comme dans toute salle de classe - la notation est un sujet délicat. Il n'existe pas de rubrique parfaite qui englobe tout ce que les chercheurs veulent savoir, et les modèles qui excellent dans certaines tâches échouent souvent de manière spectaculaire dans d'autres. Au fil du temps, les chercheurs ont mis au point divers critères de référence standard basés sur des questions dont les réponses ne sont pas ambiguës, ce qui est une bonne approche si vous essayez d'évaluer des compétences spécifiques. Mais Eldan et Li se sont intéressés à quelque chose de plus nébuleux : quelle doit être la taille réelle des modèles linguistiques si l'on simplifie le langage autant que possible ?

"Pour vérifier directement si le modèle parle anglais, je pense que la seule chose à faire est de laisser le modèle générer de l'anglais de manière ouverte", a déclaré M. Eldan.

Il n'y a que deux façons de mesurer les performances d'un modèle sur des questions aussi qualitatives : S'appuyer sur des évaluateurs humains ou se tourner à nouveau vers le GPT-4. Les deux chercheurs ont opté pour cette dernière solution, laissant les grands modèles à la fois rédiger les manuels et noter les dissertations.

Bhagavatula a déclaré qu'il aurait aimé voir comment les évaluations de GPT-4 se comparaient à celles des correcteurs humains - GPT-4 peut être biaisé en faveur des modèles qu'il a aidé à former, et l'opacité des modèles de langage rend difficile la quantification de tels biais. Mais il ne pense pas que de telles subtilités affecteraient les comparaisons entre différents modèles formés sur des ensembles similaires d'histoires synthétiques - l'objectif principal du travail d'Eldan et Li.

Eldan et Li ont utilisé une procédure en deux étapes pour évaluer chacun de leurs petits modèles après la formation. Tout d'abord, ils ont présenté au petit modèle la première moitié d'une histoire distincte de celles de l'ensemble des données d'apprentissage, de manière à ce qu'il génère une nouvelle fin, en répétant ce processus avec 50 histoires de test différentes. Ensuite, ils ont demandé à GPT-4 d'évaluer chacune des fins du petit modèle en fonction de trois catégories : créativité, grammaire et cohérence avec le début de l'histoire. Ils ont ensuite fait la moyenne des notes obtenues dans chaque catégorie, obtenant ainsi trois notes finales par modèle.

Avec cette procédure en main, Eldan et Li étaient enfin prêts à comparer les différents modèles et à découvrir quels étaient les étudiants les plus brillants.

Résultats des tests

Après quelques explorations préliminaires, les deux chercheurs ont opté pour un ensemble de données de formation contenant environ 2 millions d'histoires. Ils ont ensuite utilisé cet ensemble de données, baptisé TinyStories, pour entraîner des modèles dont la taille varie de 1 million à 30 millions de paramètres, avec un nombre variable de couches. Le travail a été rapide : En utilisant seulement quatre GPU, l'entraînement du plus grand de ces modèles n'a pas pris plus d'une journée.

Les plus petits modèles ont eu du mal. Par exemple, l'une des histoires testées commence par un homme à l'air méchant qui dit à une fille qu'il va lui prendre son chat. Un modèle à un million de paramètres s'est retrouvé bloqué dans une boucle où la fille répète sans cesse à l'homme qu'elle veut être son amie. Mais les modèles plus grands, qui sont encore des milliers de fois plus petits que GPT-3.5, ont obtenu des résultats surprenants. La version à 28 millions de paramètres racontait une histoire cohérente, même si la fin était sinistre : "Katie s'est mise à pleurer, mais l'homme s'en fichait. Il a emporté le chat et Katie n'a plus jamais revu son chat. Fin de l'histoire".

En plus de tester leurs propres modèles, Eldan et Li ont soumis le même défi au GPT-2 d'OpenAI, un modèle de 1,5 milliard de paramètres publié en 2019. Le résultat a été bien pire - avant la fin abrupte de l'histoire, l'homme menace d'emmener la jeune fille au tribunal, en prison, à l'hôpital, à la morgue et enfin au crématorium.

Introduction

Selon M. Nguyen, il est passionnant que des modèles aussi petits soient aussi fluides, mais il n'est peut-être pas surprenant que GPT-2 ait eu du mal à accomplir la tâche : il s'agit d'un modèle plus grand, mais loin de l'état de l'art, et il a été formé sur un ensemble de données très différent. "Un enfant en bas âge qui ne s'entraînerait qu'à des tâches d'enfant en bas âge, comme jouer avec des jouets, obtiendrait de meilleurs résultats que vous ou moi", a-t-il fait remarquer. "Nous ne nous sommes pas spécialisés dans cette chose simple.

Les comparaisons entre les différents modèles de TinyStories ne souffrent pas des mêmes facteurs de confusion. Eldan et Li ont observé que les réseaux comportant moins de couches mais plus de neurones par couche étaient plus performants pour répondre aux questions nécessitant des connaissances factuelles ; inversement, les réseaux comportant plus de couches et moins de neurones par couche étaient plus performants pour garder en mémoire les personnages et les points de l'intrigue situés plus tôt dans l'histoire. Bhagavatula a trouvé ce résultat particulièrement intriguant. S'il peut être reproduit dans des modèles plus vastes, "ce serait un résultat vraiment intéressant qui pourrait découler de ce travail", a-t-il déclaré.

Eldan et Li ont également étudié comment les capacités de leurs petits modèles dépendaient de la durée de la période de formation. Dans tous les cas, les modèles maîtrisaient d'abord la grammaire, puis la cohérence. Pour Eldan, ce schéma illustre comment les différences dans les structures de récompense entraînent des différences dans les schémas d'acquisition du langage entre les réseaux neuronaux et les enfants. Pour les modèles de langage, qui apprennent en prédisant des mots, "l'incitation pour les mots "je veux avoir" est aussi importante que pour les mots "crème glacée"", a-t-il déclaré. Les enfants, en revanche, "ne se soucient pas de savoir s'ils disent 'j'aimerais avoir de la glace' ou simplement 'glace, glace, glace'".

Qualité contre quantité

Eldan et Li espèrent que cette étude incitera d'autres chercheurs à entraîner différents modèles sur l'ensemble des données de TinyStories et à comparer leurs capacités. Mais il est souvent difficile de prédire quelles caractéristiques des petits modèles apparaîtront également dans les plus grands.

"Peut-être que les modèles de vision chez la souris sont de très bons substituts de la vision humaine, mais les modèles de dépression chez la souris sont-ils de bons modèles de la dépression chez l'homme ? a déclaré M. Pavlick. "Pour chaque cas, c'est un peu différent.

Le succès des modèles TinyStories suggère également une leçon plus large. L'approche standard pour compiler des ensembles de données de formation consiste à aspirer des textes sur l'internet, puis à filtrer les déchets. Le texte synthétique généré par des modèles de grande taille pourrait constituer une autre façon d'assembler des ensembles de données de haute qualité qui n'auraient pas besoin d'être aussi volumineux.

"Nous avons de plus en plus de preuves que cette méthode est très efficace, non seulement pour les modèles de la taille de TinyStories, mais aussi pour les modèles plus importants", a déclaré M. Eldan. Ces preuves proviennent d'une paire d'articles de suivi sur les modèles à un milliard de paramètres, rédigés par Eldan, Li et d'autres chercheurs de Microsoft. Dans le premier article, ils ont entraîné un modèle à apprendre le langage de programmation Python en utilisant des extraits de code générés par GPT-3.5 ainsi que du code soigneusement sélectionné sur l'internet. Dans le second, ils ont complété l'ensemble de données d'entraînement par des "manuels" synthétiques couvrant un large éventail de sujets, afin d'entraîner un modèle linguistique à usage général. Lors de leurs tests, les deux modèles ont été comparés favorablement à des modèles plus importants formés sur des ensembles de données plus vastes. Mais l'évaluation des modèles linguistiques est toujours délicate, et l'approche des données d'entraînement synthétiques n'en est qu'à ses balbutiements - d'autres tests indépendants sont nécessaires.

Alors que les modèles linguistiques de pointe deviennent de plus en plus volumineux, les résultats surprenants de leurs petits cousins nous rappellent qu'il y a encore beaucoup de choses que nous ne comprenons pas, même pour les modèles les plus simples. M. Nguyen s'attend à ce que de nombreux autres articles explorent l'approche inaugurée par TinyStories.

"La question est de savoir où et pourquoi la taille a de l'importance", a-t-il déclaré. "Il devrait y avoir une science à ce sujet, et cet article est, je l'espère, le début d'une riche histoire.



 



 

Auteur: Internet

Info: https://www.quantamagazine.org/ Ben Brubaker, 5 octobre 2023

[ synthèse ]

 

Commentaires: 0

Ajouté à la BD par miguel

protérozoïque

Des molécules fossilisées révèlent un monde perdu de vie ancienne

Une nouvelle analyse de sédiments vieux d’un milliard d’années comble une lacune dans les archives fossiles, révélant une dynastie de premiers eucaryotes qui pourraient avoir façonné l’histoire de la vie sur Terre.

Un arbre a quelque chose en commun avec les mauvaises herbes et les champignons qui poussent autour de ses racines, les écureuils qui grimpent sur son tronc, les oiseaux perchés sur ses branches et le photographe qui prend des photos de la scène. Ils ont tous un génome et une machinerie cellulaire soigneusement emballés dans des compartiments reliés par des membranes, un système organisationnel qui les place dans un groupe de formes de vie extrêmement performantes appelés eucaryotes.

Les débuts de l’histoire des eucaryotes fascinent depuis longtemps les scientifiques qui aspirent à comprendre quand la vie moderne a commencé et comment elle a évolué. Mais retracer les premiers eucaryotes à travers l’histoire de la Terre a été difficile. Des données fossiles limitées montrent que leur premier ancêtre est apparu il y a au moins 1,6 milliard d’années. Pourtant, d’autres preuves révélatrices de leur existence manquent. Les eucaryotes devraient produire et laisser derrière eux certaines molécules distinctives, mais les versions fossilisées de ces molécules n'apparaissent dans les archives rocheuses qu'il y a 800 millions d'années. Cet écart inexpliqué de 800 millions d'années dans l'histoire des premiers eucaryotes, période cruciale au cours de laquelle le dernier ancêtre commun de toute la vie complexe d'aujourd'hui est apparu, a enveloppé de mystère l'histoire des débuts de la vie.

"Il existe un énorme écart temporel entre les archives fossiles de ce que nous pensons être les premiers eucaryotes et les premiers biomarqueurs des eucaryotes", a déclaré Galen Halverson , professeur à l'Université McGill de Montréal.

Il existe de nombreuses explications possibles à cet écart paradoxal. Peut-être que les eucaryotes étaient trop rares à cette époque pour laisser derrière eux des preuves de fossiles moléculaires. Ou peut-être étaient-ils abondants, mais leurs fossiles moléculaires n’ont pas survécu aux dures conditions géologiques.

Une étude récente publiée dans Nature propose une explication alternative : les scientifiques ont peut-être recherché les mauvaises molécules fossilisées pendant tout ce temps. Lorsque les auteurs de l’étude ont recherché des versions plus primitives des produits chimiques recherchés par d’autres, ils les ont découverts en abondance – révélant ce qu’ils ont décrit comme " un monde perdu " d’eucaryotes qui vivaient il y a 800 millions à au moins 1,6 milliard d’années.

"Ces molécules ont toujours été là", a déclaré Jochen Brocks , géochimiste à l'Université nationale australienne de Canberra, qui a codirigé l'étude avec Benjamin Nettersheim, alors étudiant diplômé . "Nous ne pouvions pas les trouver parce que nous ne savions pas à quoi elles ressemblaient."

Les résultats apportent une nouvelle clarté à la dynamique de la vie eucaryote précoce. L'abondance de ces fossiles moléculaires suggère que les organismes primitifs ont prospéré dans les océans pendant des centaines de millions d'années avant que les ancêtres des eucaryotes modernes ne prennent le relais, semant des formes de vie qui évolueraient un jour vers les animaux, les plantes, les champignons et les protistes que nous voyons. aujourd'hui.

"C'est une hypothèse élégante qui semble réconcilier ces enregistrements très disparates", a déclaré Halverson, qui n'a pas participé à l'étude. " Cela donne un sens à tout."

Ces découvertes ont été une bonne nouvelle pour des paléontologues comme Phoebe Cohen , présidente de géosciences au Williams College dans le Massachusetts, qui a longtemps pensé qu'il manquait quelque chose dans le dossier des biomarqueurs. "Il existe une histoire riche et dynamique de la vie avant l'évolution des animaux, qui est plus difficile à comprendre car nous ne pouvons pas la voir", a déclaré Cohen. "Mais c'est extrêmement important car cela prépare le terrain pour le monde que nous avons aujourd'hui."

Le casse-tête des protostéroïdes

Lorsque les archives fossiles sont décevantes, les scientifiques disposent d’autres moyens pour estimer le moment où différentes espèces se sont dérivées les unes des autres dans l’arbre évolutif. Parmi ces outils figurent principalement les horloges moléculaires : des fragments d’ADN qui mutent à un rythme constant, permettant aux scientifiques d’estimer le passage du temps. Selon les horloges moléculaires, le dernier ancêtre commun des eucaryotes modernes, qui appartenait à un ensemble diversifié d’organismes appelé groupe couronne, est apparu pour la première fois il y a au moins 1,2 milliard d’années.

Mais l’histoire des eucaryotes ne commence pas là. D’autres eucaryotes primitifs, connus sous le nom de groupe souche, ont vécu des centaines de millions d’années avant l’évolution de notre premier ancêtre commun. Les chercheurs en savent peu sur eux, au-delà du fait qu’ils ont existé. La petite poignée d’anciens fossiles d’eucaryotes découverts sont trop ambigus pour être identifiés comme une tige ou une couronne.

En l’absence de fossiles corporels convaincants, les chercheurs recherchent des fossiles moléculaires. Les fossiles moléculaires, qui se conservent séparément des fossiles corporels, peuvent être difficiles à cerner pour les scientifiques. Ils doivent d’abord identifier quelles molécules auraient pu être produites uniquement par les organismes qu’ils souhaitent étudier. Ensuite, ils doivent composer avec le fait que toutes ces molécules ne se fossilisent pas bien.

La matière organique se désintègre à des rythmes différents et certaines parties des eucaryotes se conservent mieux que d’autres dans la roche. Les tissus se dissolvent en premier. L’ADN peut rester plus longtemps, mais pas trop longtemps : l’ADN le plus ancien jamais découvert a environ 2 millions d’années. Les molécules de graisse, cependant, peuvent potentiellement survivre pendant des milliards d’années.

Les eucaryotes créent de grandes quantités de molécules de graisse appelées stérols, un type de stéroïde qui constitue un composant essentiel des membranes cellulaires. Étant donné que la présence d’une membrane cellulaire est révélatrice des eucaryotes et que les molécules de graisse ont tendance à persister dans la roche, les stérols sont devenus le fossile moléculaire de référence pour ce groupe.

Les eucaryotes modernes fonctionnent avec trois grandes familles de stérols : le cholestérol chez les animaux, les phytostérols chez les plantes et l'ergostérol chez les champignons et certains protistes. Leur synthèse commence par une molécule linéaire, que la cellule façonne en quatre anneaux afin que la forme résultante s'intègre parfaitement dans une membrane, a déclaré Brocks. Ce processus comporte de nombreuses étapes : il faut huit étapes enzymatiques supplémentaires aux cellules animales pour fabriquer du cholestérol, tandis que les cellules végétales nécessitent 11 étapes enzymatiques supplémentaires pour fabriquer un phytostérol.

En route pour fabriquer son stérol avancé, une cellule crée une série de molécules plus simples à chaque étape du processus. Lorsqu’ils sont branchés sur une membrane artificielle, même ces stérols intermédiaires offrent la perméabilité et la rigidité dont une cellule a besoin pour fonctionner comme elle le devrait. Le biochimiste Konrad Bloch, qui a reçu le prix Nobel en 1964 en partie pour avoir découvert les étapes cellulaires de fabrication du cholestérol , "en a été perplexe", a déclaré Brocks. Pourquoi une cellule déploierait-elle des efforts supplémentaires pour fabriquer un stérol plus complexe alors qu’une molécule plus simple ferait le travail ?

En 1994, Bloch a écrit un livre dans lequel il prédisait que chacun de ces stérols intermédiaires avait été autrefois le produit final utilisé dans la membrane d'une cellule eucaryote ancestrale. Chaque étape supplémentaire a peut-être nécessité plus d'énergie de la cellule, mais la molécule résultante constituait une légère amélioration par rapport à la précédente – une amélioration suffisante pour surpasser le précurseur et s'imposer dans l'histoire de l'évolution.

Si cela était vrai, cela expliquerait pourquoi personne n’avait pu trouver de fossiles moléculaires de stérols avant l’expansion rapide des eucaryotes modernes, il y a environ 800 millions d’années. Les chercheurs recherchaient des cholestérols et d’autres structures modernes dans les archives rocheuses. Ils ne se rendaient pas compte que les anciennes voies biochimiques étaient plus courtes et que les organismes des groupes souches ne produisaient pas de stérols modernes : ils  faisaient des protostérols.

Mouture de café moléculaire

En 2005, environ cinq ans après la mort de Bloch, Brocks et ses collègues ont rapporté dans Nature les premiers indices de l'existence de telles molécules intermédiaires. Dans d'anciens sédiments, ils avaient trouvé des stéroïdes de structure inhabituelle qu'ils ne reconnaissaient pas. Mais à l’époque, Brocks ne pensait pas qu’un eucaryote aurait pu les créer. " À l’époque, j’étais assez convaincu qu’ils étaient bactériens ", a-t-il déclaré. "Personne ne pensait du tout à la possibilité d'avoir des eucaryotes du groupe souche."

Il a continué à échantillonner des roches anciennes et à rechercher ces curieuses molécules. Environ une décennie après le début de leurs travaux, Nettersheim et lui ont réalisé que de nombreuses structures moléculaires dans les échantillons de roche semblaient " primitives " et ne ressemblaient pas à celles que fabriquent généralement les bactéries, a déclaré Brocks. Serait-ce les stérols intermédiaires de Bloch ?

(Photo : De rares fossiles microscopiques de la vie ancienne fournissent des horodatages sur l’évolution des eucaryotes.  Satka favosa  (à gauche) et  Valeria lophostriata  datent d'il y a 1,6 milliard d'années. On ne sait pas si les organismes, probablement des protistes, appartiennent au groupe tige ou couronne. )

Il leur fallait davantage de preuves. Au cours de la décennie qui a suivi, Brocks et Nettersheim ont contacté des sociétés pétrolières et minières pour demander des échantillons de tout sédiment ancien qu'elles avaient accidentellement découvert lors d'expéditions de forage.

"La plupart des gens auraient trouvé deux exemples et publiés", a déclaré Andrew Knoll , professeur d'histoire naturelle à l'Université Harvard qui n'a pas participé à l'étude. (Il était le conseiller postdoctoral de Brocks il y a des années.) " Jochen a passé la majeure partie de la décennie à étudier les roches du Protérozoïque du monde entier. "

Pendant ce temps, les chercheurs ont créé un modèle de recherche pour identifier les molécules présentes dans les sédiments. Ils ont converti les molécules intermédiaires modernes fabriquées lors de la synthèse des stérols en équivalents géologiques plausibles des stéroïdes. (Le cholestérol, par exemple, se fossilise sous forme de cholestane.) " Si vous ne savez pas à quoi ressemble la molécule, vous ne la verrez pas 2, a déclaré Brocks.

En laboratoire, ils ont extrait des molécules fossiles des échantillons de sédiments en utilisant un processus qui " ressemble un peu à la préparation du café ", a déclaré Nettersheim. Après avoir broyé les roches, ils ont ajouté des solvants organiques pour en extraire les molécules – tout comme l’eau chaude est utilisée pour extraire le café des grains torréfiés et moulus.

(Photo :Benjamin Nettersheim, géochimiste à l'Université de Brême, examine les cartes moléculaires d'anciens sédiments rocheux à la recherche de biomarqueurs de la vie ancienne.)

Pour analyser leurs échantillons et les comparer à leurs références, ils ont utilisé la spectrométrie de masse, qui détermine le poids des molécules, et la chromatographie, qui révèle leur composition atomique.

Le processus est ardu. "Vous analysez des centaines de roches et ne trouvez rien", a déclaré Brocks. Lorsque l’on trouve quelque chose, il s’agit souvent d’une contamination récente. Mais plus ils analysaient d’échantillons, plus ils trouvaient de fossiles.

Certains échantillons étaient remplis à ras bord de protostéroïdes. Ils ont découvert ces molécules dans des roches datant d'il y a 800 millions à 1,6 milliard d'années. Il semblait que non seulement les eucaryotes anciens étaient présents depuis environ 800 millions d’années avant le décollage des eucaryotes modernes, mais qu’ils étaient également abondants.

Les chercheurs ont même pu reconnaître le processus évolutif des eucaryotes à mesure que leurs stéroïdes devenaient plus complexes. Par exemple, dans des roches vieilles de 1,3 milliard d’années, ils ont découvert une molécule intermédiaire plus avancée que les protostéroïdes vieux de 1,6 milliard d’années, mais pas aussi avancée que les stéroïdes modernes.

"C'était une façon très intelligente de traiter les archives manquantes de fossiles moléculaires", a déclaré David Gold , géobiologiste à l'Université de Californie à Davis, qui n'a pas participé à l'étude. Leur découverte a immédiatement comblé une lacune de 800 millions d’années dans l’histoire de la naissance de la vie moderne.

Un monde perdu

Les découvertes moléculaires, combinées aux données génétiques et fossiles, révèlent l'image la plus claire à ce jour de la dynamique eucaryote précoce d'il y a environ 1 milliard d'années, au cours de la mystérieuse ère médiane du Protérozoïque, ont déclaré les experts. D'après les preuves de Brocks et Nettersheim, les eucaryotes des groupes tige et couronne (stem and crown)  ont probablement vécu ensemble pendant des centaines de millions d'années et se sont probablement fait concurrence pendant une période que les géologues appellent le milliard ennuyeux en raison de sa lente évolution biologique.

L'absence de stéroïdes plus modernes à cette époque suggère que le groupe couronne n'a pas immédiatement pris le dessus. Au contraire, les organismes liés à la membrane ont commencé petit à mesure qu'ils trouvaient des niches dans l'ancien écosystème, a déclaré Gold. " Il faut beaucoup de temps pour que les [eucaryotes] deviennent écologiquement dominants ", a-t-il déclaré.

(Photo : Ces anciens microfossiles partagent un ancêtre avec tous les eucaryotes vivant aujourd’hui. Vieille d’un milliard d’années, l’algue benthique  Proterocladus antiquus  (au centre) est le plus ancien fossile de couronne connu. Il y a 750 millions d'années, les eucaryotes du groupe couronne tels que l'amibozoaire Bonniea dacruchares  (à gauche) et le rhizarien  Melicerion poikilon  (à droite) étaient courants.)

De gauche à droite : Susannah Porter ; Avec l'aimable autorisation de Virginia Tech ; Susannah Porter

Au début, le groupe souche avait peut-être un avantage. Les niveaux d’oxygène dans l’atmosphère étaient nettement inférieurs à ce qu’ils sont aujourd’hui. Étant donné que la construction de protostérols nécessite moins d’oxygène et d’énergie que les stérols modernes, les eucaryotes du groupe souche étaient probablement plus efficaces et plus abondants.

Leur influence déclina lorsque le monde traversa une transition critique connue sous le nom de période tonienne. Il y a entre 1 milliard et 720 millions d’années, l’oxygène, les nutriments et autres matières premières cellulaires ont augmenté dans les océans. Des fossiles d'eucaryotes modernes, comme des algues et des champignons, commencent à apparaître dans les archives rocheuses, et les stéroïdes modernes commencent à dépasser en nombre les protostéroïdes dans les biomarqueurs fossilisés – des preuves qui suggèrent que les eucaryotes du groupe couronne avaient commencé à prospérer, à augmenter en nombre et à se diversifier.

Pourquoi les stérols deviendraient-ils plus compliqués avec le temps ? Les auteurs suggèrent que les stérols les plus complexes confèrent à leurs propriétaires un certain avantage évolutif, peut-être lié à la dynamique des membranes cellulaires des créatures. Quelle que soit la raison, le changement de stérol était significatif sur le plan évolutif. La composition des stérols modernes a probablement donné aux eucaryotes du groupe couronne un avantage par rapport au groupe souche. Finalement, " ce monde perdu d’anciens eucaryotes a été remplacé par les eucaryotes modernes ", a déclaré Brocks.

Une ride bactérienne

L’histoire évolutive des chercheurs sur les stérols est convaincante, mais elle n’est pas solide comme le roc.

"Je ne serais pas surpris" si leur interprétation est correcte, a déclaré Gold. Cependant, il existe une autre possibilité. Bien que les scientifiques aient tendance à associer les stérols aux eucaryotes, certaines bactéries peuvent également les fabriquer. Les fossiles moléculaires de l’étude auraient-ils pu être laissés par des bactéries ?Gordon Love , géochimiste à l'Université de Californie à Riverside, pense que le scénario bactérien est plus logique. "Ces protostéroïdes se retrouvent dans les roches de tous âges", a-t-il déclaré. "Ils ne disparaissent pas tout simplement, ce qui signifie que quelque chose d'autre que les eucaryotes souches est capable de les fabriquer." Il a fait valoir que les bactéries, qui dominaient la mer à cette époque, auraient pu facilement produire des protostéroïdes.

Les auteurs ne peuvent pas exclure cette possibilité. En fait, ils soupçonnent que certaines de leurs molécules fossiles ont été fabriquées par des bactéries. Mais la possibilité que leur vaste collection de protostéroïdes fossilisés, s'étendant sur des centaines de millions d'années, ait été entièrement constituée de bactéries semble peu probable, a déclaré Brocks.


" Si vous regardez l'écologie de ces bactéries aujourd'hui et leur abondance, il n'y a tout simplement aucune raison de croire qu'elles pourraient devenir si abondantes qu'elles auraient pu produire toutes ces molécules", a-t-il déclaré. Dans le monde moderne, les bactéries produisent des protostérols uniquement dans des environnements de niche tels que les sources hydrothermales ou les suintements de méthane.

Cohen, paléontologue du Williams College, est d'accord avec Brocks. L’interprétation selon laquelle ces molécules ont été faites par des eucaryotes " est cohérente avec toutes les autres sources de preuves ", a-t-elle déclaré – des archives fossiles aux analyses de l’horloge moléculaire. " Je ne suis pas aussi inquiète 2 quant à cette possibilité, a-t-elle déclaré.

L’une ou l’autre interprétation présente plus de questions que de réponses. "Les deux histoires seraient absolument folles et bizarres", a déclaré Brocks. Ce sont " des visions différentes de notre monde ", a-t-il ajouté, et il serait bien de savoir laquelle est la vraie.

Faute de machine à remonter le temps, les chercheurs recherchent davantage de preuves pour améliorer leur certitude dans un sens ou dans l’autre. Mais il n’existe qu’un nombre limité de façons de reconstruire ou de percevoir la vie ancienne – et même les meilleures suppositions des scientifiques ne peuvent jamais combler complètement cette lacune. "La plupart des formes de vie n'ont laissé aucune trace sur Terre", a déclaré Nettersheim. " Le bilan que nous voyons est limité. … Pendant la majeure partie de l’histoire de la Terre, la vie aurait pu être très différente. "


Auteur: Internet

Info: Quanta Magazine, Yasemin Saplakoglu, 23 octobre 2023

[ unicité ] [ microbiote ] [ palier évolutif ] [ précambrien ] [ protérozoïque ]

 

Commentaires: 0

Ajouté à la BD par miguel