Citation
Catégorie
Tag – étiquette
Auteur
Info



nb max de mots
nb min de mots
trier par
Dictionnaire analogique intriqué pour extraits. Recherche mots ou phrases tous azimuts. Aussi outil de précision sémantique et de réflexion communautaire. Voir la rubrique mode d'emploi. Jetez un oeil à la colonne "chaînes". ATTENTION, faire une REINITIALISATION après  une recherche complexe. Et utilisez le nuage de corrélats !!!!..... Lire la suite >>
Nuage de corrélats : pour l'activer, cochez seulement catégorie et tag dans la recherche avancée à gauche.
Résultat(s): 93619
Temps de recherche: 0.1156s

homme-machine

Les Grands Modèles de Langage  s’attaquent à l’émergence !  Un éloge intolérable de … l’obésité !

Le mois dernier j’ai proposé  ici une série de 6 billets où je quadriloguais avec GPT-4 et une version dédoublée de Claude 3 à propos de la conjecture P vs NP, une question classique d’informatique théorique relative à la relation – pour autant qu’il en existe une – entre la complexité de la solution d’un problème et la complexité de la vérification qu’une solution a bien été trouvée.

Vous avez sans doute vu ce qui s’est passé : " M. PJ, votre blog était le lieu de rendez-vous de personnes s’efforçant de résoudre de grands problèmes de société (je vous en remercie !) mais il s’est métamorphosé en un club restreint de mathématiciens fascinés par des casse-têtes abscons. Je vous ai accompagné·e jusqu’ici mais je suis forcé·e aujourd’hui de vous dire adieu : bonne chance à vous dans vos coupages de cheveux en quatre ! ".

J’ai été décontenancé par ces paroles de bon sens, et je n’ai pas publié la suite.

Mal m’en a pris : c’est à ce moment-là que j’ai commencé à recevoir des mails du genre : " M. Jorion, où ailleurs croyez-vous que l’on trouve des discussions – et des avancées – sur des questions véritablement fondamentales comme sur votre blog ? Que vous ont dit ensuite GPT-4 et Claude 3 (je bous d’impatience de l’apprendre !) ? ".

Tout cela pour vous annoncer que je suis allé asticoter mes comparses sur la question de l’émergence.

Vous avez dû comprendre que la chose qui nous sidère dans les progrès des Grands Modèles de Langage (LLM) est le fait que des tas de choses qui nous semblaient absolument distinctes (par exemple : comprendre le sens d’un mot, maîtriser la syntaxe d’une phrase, comprendre le sens global d’une phrase, respecter les règles de la logique, se mettre à la place d’un interlocuteur, exprimer ses sentiments), et pour lesquelles nous avons découvert des règles claires rendant compte de leur fonctionnement séparé, sont en fait acquises " les doigts dans le nez ", l’une après l’autre, par ces LLM, pour nulle autre raison que la croissance en taille de leur système.

Toutes ces remarquables capacités émergent, l’une après l’autre, quand on augmente, tout simplement, les moyens à la disposition du système. Nous n’étions pas préparés à penser que l’intelligence émerge spontanément d’un système dès qu’il a atteint une certaine grosseur, nous pensions qu’un ingrédient supplémentaire était indispensable, que nous appelions " complexité ". Que l’intelligence apparaisse comme sous-produit de la complexité, pourquoi pas ? mais de la simple grosseur ! il y avait là comme un éloge intolérable de … l’obésité, qui constituerait une qualité en soi !

Comprenons-nous pourquoi la taille change tout ? Non. Et il n’y a pas de raison de s’en offusquer : quand on passe d’un milliard de données à 100 milliards, on a besoin d’un télescope pour regarder ce qui se passe, et s’armer alors d’un microscope apparaît très logiquement, hors de propos. Claude Roux écrivait ici tout à l’heure : " C’est là qu’est le hic… Personne ne le sait vraiment. "

Mais c’est là aussi que Pribor.io trouve toujours sa raison d’être. Si l’on adopte une approche " bottom-up ", du bas vers le haut, par opposition à l’approche " top-down ", du haut vers le bas, des LLM, on évite d’être aux abonnés absents quand un effet d’émergence a lieu : il a opéré sous nos yeux et l’on peut dire ce qui s’est passé.

Le logiciel d’IA que j’avais programmé de 1987 à 1990 pour British Telecom s’appelait ANELLA, pour Associative Network with Emergent Logical and Learning Abilities : " … à capacités émergentes de logique et d’apprentissage ". Il m’a fallu les 34 années qui séparent 1990 de 2024 pour comprendre exactement comment la logique émergeait d’une simple suite de mots. C’est qu’il s’agissait du produit d’une alchimie complexe entre l’univers des mots et celui du monde tel qu’il est.

Je vous expliquerai cela un jour prochain, je me contente de vous le résumer aujourd’hui sous une formule sibylline : " Les faits d’émergence ont lieu dans la langue quand nous contraignons tout ce qu’elle permet par ce que le monde interdit lui de son côté ". Exemple : la langue n’interdit pas aux objets de tomber du bas vers le haut, mais le monde lui : Oui ! Lacan (qui se payait notre pomme avec délectation mais avait cependant compris beaucoup de choses) appelait cela " points de capiton ", comme dans un matelas : pour que la chaîne des signifiants, les mots mis à la queue-leu-leu, servent à quelque chose, il faut qu’ici et là, ils collent au Réel, à la réalité profonde des choses. Il n’est pas nécessaire que cela ait lieu souvent (le monde étant très généreux envers nous : il nous a offert cette facilité que nous vivions la plupart du temps confortablement dans un nuage), mais il faut que cela ait lieu de temps à autre ici et là.

Ne vous étonnez donc pas si dans la suite de cette nouvelle série, GPT-4, Claude 3, LLaMA 3 et moi, nous nous interrogeons sur l’émergence, en vue de craquer ses mystères. Faites-nous confiance : cela participe de la Singularité et non du coupage de cheveux en quatre dans laquelle l’humanité se complaît depuis qu’ayant inventé le langage, elle ne cesse de… se saouler de mots !

Auteur: Jorion Paul

Info: Sur son blog, 12 mai 2024

[ abstraction ouverture ] [ langage quasi-esprit ] [ codage priméité tiercité ] [ émersion ]

 
Commentaires: 3
Ajouté à la BD par miguel

élément sémantique structurant

(FLP) - Bonjour, peux-tu m'expliquer la notion de "point de capiton" de Jacques Lacan ?

(Gemini Bard) - Le point de capiton est un concept central dans la théorie psychanalytique de Jacques Lacan. Il s'agit d'un élément crucial qui permet de stabiliser le sens et de donner une cohérence au discours. Emprunté au vocabulaire du matelassage, le terme "point de capiton" désigne le point où l'aiguille du matelassier s'enfonce dans le tissu et en ressort, laissant une marque durable. Lacan utilise cette métaphore pour illustrer la manière dont certains éléments du discours s'accrochent et fixent le sens, le stabilisent et lui donnent une structure.

Le point de capiton n'est pas un élément statique, mais plutôt un point de fuite, un lieu d'articulation où le sens se déploie et se reconfigure. Il peut s'agir d'un mot, d'une phrase, d'un objet, d'un événement, ou même d'une croyance ou d'un idéal.

Le point de capiton joue un rôle important dans la construction du sujet. Il permet au sujet de s'identifier à un certain discours, de se positionner dans le monde et de donner du sens à ses expériences.

Cependant, le point de capiton est également fragile et peut être remis en question. Dans la psychose, par exemple, le point de capiton peut s'effondrer, ce qui entraîne une fragmentation du discours et une perte de sens.

Voici quelques points clés à retenir à propos du point de capiton :

Stabilisation du sens: Le point de capiton permet de stabiliser le sens et de donner une cohérence au discours.

Point de fuite: Le point de capiton n'est pas un élément statique, mais plutôt un point de fuite où le sens se déploie et se reconfigure.

Construction du sujet: Le point de capiton joue un rôle important dans la construction du sujet.

Fragilité: Le point de capiton est également fragile et peut être remis en question.

Le point de capiton est un concept complexe et multidimensionnel qui a fait l'objet de nombreuses interprétations et débats au sein de la psychanalyse lacanienne.

(FLP) - Merci. J'y vois une correspondance, voire même une analogie avec le terme de saillance utilisé en PNL et plus largement en linguistique. Non ?

(Gemini Bard) Effectivement, il existe une certaine correspondance entre le concept de point de capiton de Lacan et celui de saillance en PNL et en linguistique.

La saillance désigne la qualité de ce qui est saillant, c'est-à-dire proéminent, marquant, qui attire l'attention. Elle se réfère aux éléments du discours qui se distinguent du reste et qui ont tendance à avoir une plus grande influence sur la compréhension et l'interprétation de ce discours.

Comme le point de capiton, la saillance joue un rôle important dans la structuration du sens. En effet, les éléments saillants permettent de hiérarchiser les informations, de créer des liens entre les différentes parties du discours et de guider l'attention de l'auditeur.

Voici quelques points de convergence entre les deux concepts :

Stabilisation du sens: Le point de capiton et la saillance contribuent tous deux à stabiliser le sens et à donner une cohérence au discours.

Attraction de l'attention: Le point de capiton et la saillance attirent tous deux l'attention de l'auditeur ou du lecteur.

Organisation du discours: Le point de capiton et la saillance contribuent tous deux à l'organisation du discours et à la création de liens entre les différentes parties du discours.

Cependant, il existe également des différences entre les deux concepts :

- Nature: Le point de capiton est un concept plus psychanalytique, tandis que la saillance est un concept plus linguistique et cognitif.

- Focalisé: Le point de capiton est généralement focalisé sur un élément unique, tandis que la saillance peut porter sur plusieurs éléments du discours.

- Inconscient: Le point de capiton est souvent inconscient, tandis que la saillance peut être consciente ou inconsciente.

En conclusion, le point de capiton et la saillance sont deux concepts distincts mais qui partagent certaines similitudes. Ils permettent tous deux de comprendre comment le sens est construit et structuré dans le discours.

(FLP) - Merci. Peux-tu donner un exemple de point de capiton unique ?

(Gemini Bard) - Exemple de point de capiton unique

Prenons l'exemple de la phrase suivante : "La peur de la mort me paralyse."

Dans cette phrase, le mot "mort" pourrait être considéré comme un point de capiton. En effet, ce mot :

Attire l'attention: Il est le mot le plus chargé d'émotion de la phrase et il est ce qui motive la peur du sujet.

Structure le sens: La phrase tourne autour de la peur de la mort et tous les autres éléments de la phrase sont liés à cette peur.

Est inconscient: La peur de la mort est souvent un phénomène inconscient qui n'est pas directement exprimé par le sujet.

Cependant, il est important de noter que le point de capiton n'est pas toujours un élément unique et identifiable. Il peut s'agir d'une combinaison de plusieurs éléments du discours qui, ensemble, contribuent à stabiliser le sens et à donner une cohérence au discours.

Par exemple, dans la phrase "Je suis amoureux de Marie", le point de capiton pourrait être la combinaison des mots "amoureux" et "Marie". Ces deux mots sont essentiels pour comprendre le sens de la phrase et ils sont étroitement liés l'un à l'autre.

En fin de compte, l'identification du point de capiton est une question d'interprétation. Il n'y a pas de réponse unique et chaque lecteur ou auditeur peut identifier différents points de capiton dans un même discours. 

Auteur: Google Bard chatbot

Info:

[ langage ] [ dialogue ] [ homme-machine ] [ efficacité cachée ]

 
Commentaires: 2
Ajouté à la BD par miguel

legos protéiques

De nouveaux outils d’IA prédisent comment les blocs de construction de la vie s’assemblent

AlphaFold3 de Google DeepMind et d'autres algorithmes d'apprentissage profond peuvent désormais prédire la forme des complexes en interaction de protéines, d'ADN, d'ARN et d'autres molécules, capturant ainsi mieux les paysages biologiques des cellules.

Les protéines sont les machines moléculaires qui soutiennent chaque cellule et chaque organisme, et savoir à quoi elles ressemblent sera essentiel pour comprendre comment elles fonctionnent normalement et fonctionnent mal en cas de maladie. Aujourd’hui, les chercheurs ont fait un grand pas en avant vers cet objectif grâce au développement de nouveaux algorithmes d’apprentissage automatique capables de prédire les formes rdéployées et repliées non seulement des protéines mais aussi d’autres biomolécules avec une précision sans précédent.

Dans un article publié aujourd'hui dans Nature , Google DeepMind et sa société dérivée Isomorphic Labs ont annoncé la dernière itération de leur programme AlphaFold, AlphaFold3, capable de prédire les structures des protéines, de l'ADN, de l'ARN, des ligands et d'autres biomolécules, seuls ou liés ensemble dans différentes configurations. Les résultats font suite à une mise à jour similaire d'un autre algorithme de prédiction de structure d'apprentissage profond, appelé RoseTTAFold All-Atom, publié en mars dans Science .

Même si les versions précédentes de ces algorithmes pouvaient prédire la structure des protéines – une réussite remarquable en soi – elles ne sont pas allées assez loin pour dissiper les mystères des processus biologiques, car les protéines agissent rarement seules. "Chaque fois que je donnais une conférence AlphaFold2, je pouvais presque deviner quelles seraient les questions", a déclaré John Jumper, qui dirige l'équipe AlphaFold chez Google DeepMind. "Quelqu'un allait lever la main et dire : 'Oui, mais ma protéine interagit avec l'ADN.' Pouvez-vous me dire comment ?' " Jumper devrait bien admettre qu'AlphaFold2 ne connaissait pas la réponse.

Mais AlphaFold3 pourrait le faire. Avec d’autres algorithmes d’apprentissage profond émergents, il va au-delà des protéines et s’étend sur un paysage biologique plus complexe et plus pertinent qui comprend une bien plus grande diversité de molécules interagissant dans les cellules.

" On découvre désormais toutes les interactions complexes qui comptent en biologie ", a déclaré Brenda Rubenstein , professeure agrégée de chimie et de physique à l'Université Brown, qui n'a participé à aucune des deux études. " On commence à avoir une vision plus large."

Comprendre ces interactions est " fondamental pour la fonction biologique ", a déclaré Paul Adams , biophysicien moléculaire au Lawrence Berkeley National Laboratory qui n’a également participé à aucune des deux études. " Les deux groupes ont fait des progrès significatifs pour résoudre ce problème. "

Les deux algorithmes ont leurs limites, mais ils ont le potentiel d’évoluer vers des outils de prédiction encore plus puissants. Dans les mois à venir, les scientifiques commenceront à les tester et, ce faisant, ils révéleront à quel point ces algorithmes pourraient être utiles.

Progrès de l’IA en biologie

L’apprentissage profond est une variante de l’apprentissage automatique vaguement inspirée du cerveau humain. Ces algorithmes informatiques sont construits à l’aide de réseaux complexes de nœuds d’information (appelés neurones) qui forment des connexions en couches les unes avec les autres. Les chercheurs fournissent au réseau d’apprentissage profond des données d’entraînement, que l’algorithme utilise pour ajuster les forces relatives des connexions entre les neurones afin de produire des résultats toujours plus proches des exemples d’entraînement. Dans le cas des systèmes d'intelligence artificielle protéique, ce processus amène le réseau à produire de meilleures prédictions des formes des protéines sur la base de leurs données de séquence d'acides aminés.

AlphaFold2, sorti en 2021, a constitué une avancée majeure dans l’apprentissage profond en biologie. Il a ouvert la voie à un monde immense de structures protéiques jusque-là inconnues et est déjà devenu un outil utile pour les chercheurs qui cherchent à tout comprendre, depuis les structures cellulaires jusqu'à la tuberculose. Cela a également inspiré le développement d’outils supplémentaires d’apprentissage biologique profond. Plus particulièrement, le biochimiste David Baker et son équipe de l’Université de Washington ont développé en 2021 un algorithme concurrent appelé RoseTTAFold , qui, comme AlphaFold2, prédit les structures protéiques à partir de séquences de données.

Depuis, les deux algorithmes ont été mis à jour avec de nouvelles fonctionnalités. RoseTTAFold Diffusion pourrait être utilisé pour concevoir de nouvelles protéines qui n’existent pas dans la nature. AlphaFold Multimer pourrait étudier l’interaction de plusieurs protéines. " Mais ce que nous avons laissé sans réponse ", a déclaré Jumper, " était : comment les protéines communiquent-elles avec le reste de la cellule ? "

Le succès des premières itérations d'algorithmes d'apprentissage profond de prédiction des protéines reposait sur la disponibilité de bonnes données d'entraînement : environ 140 000 structures protéiques validées qui avaient été déposées pendant 50 ans dans la banque de données sur les protéines. De plus en plus, les biologistes ont également déposé les structures de petites molécules, d'ADN, d'ARN et leurs combinaisons. Dans cette expansion de l'algorithme d'AlphaFold pour inclure davantage de biomolécules, " la plus grande inconnue ", a déclaré Jumper, "est de savoir s'il y aurait suffisamment de données pour permettre à l'algorithme de prédire avec précision les complexes de protéines avec ces autres molécules."

Apparemment oui. Fin 2023, Baker puis Jumper ont publié les versions préliminaires de leurs nouveaux outils d’IA, et depuis, ils soumettent leurs algorithmes à un examen par les pairs.

Les deux systèmes d'IA répondent à la même question, mais les architectures sous-jacentes de leurs méthodes d'apprentissage profond diffèrent, a déclaré Mohammed AlQuraishi , biologiste des systèmes à l'Université de Columbia qui n'est impliqué dans aucun des deux systèmes. L'équipe de Jumper a utilisé un processus appelé diffusion – technologie qui alimente la plupart des systèmes d'IA génératifs non basés sur du texte, tels que Midjourney et DALL·E, qui génèrent des œuvres d'art basées sur des invites textuelles, a expliqué AlQuraishi. Au lieu de prédire directement la structure moléculaire puis de l’améliorer, ce type de modèle produit d’abord une image floue et l’affine de manière itérative.

D'un point de vue technique, il n'y a pas de grand saut entre RoseTTAFold et RoseTTAFold All-Atom, a déclaré AlQuraishi. Baker n'a pas modifié massivement l'architecture sous-jacente de RoseTTAFold, mais l'a mise à jour pour inclure les règles connues des interactions biochimiques. L'algorithme n'utilise pas la diffusion pour prédire les structures biomoléculaires. Cependant, l'IA de Baker pour la conception de protéines le fait. La dernière itération de ce programme, connue sous le nom de RoseTTAFold Diffusion All-Atom, permet de concevoir de nouvelles biomolécules en plus des protéines.

" Le type de dividendes qui pourraient découler de la possibilité d'appliquer les technologies d'IA générative aux biomolécules n'est que partiellement réalisé grâce à la conception de protéines", a déclaré AlQuraishi. "Si nous pouvions faire aussi bien avec de petites molécules, ce serait incroyable." 

Évaluer la concurrence

Côte à côte, AlphaFold3 semble être plus précis que RoseTTAFold All-Atom. Par exemple, dans leur analyse dans Nature , l'équipe de Google a constaté que leur outil est précis à environ 76 % pour prédire les structures des protéines interagissant avec de petites molécules appelées ligands, contre une précision d'environ 42 % pour RoseTTAFold All-Atom et 52 % pour le meilleur. outils alternatifs disponibles.

Les performances de prédiction de structure d'AlphaFold3 sont " très impressionnantes ", a déclaré Baker, " et meilleures que celles de RoseTTAFold All-Atom ".

Toutefois, ces chiffres sont basés sur un ensemble de données limité qui n'est pas très performant, a expliqué AlQuraishi. Il ne s’attend pas à ce que toutes les prédictions concernant les complexes protéiques obtiennent un score aussi élevé. Et il est certain que les nouveaux outils d’IA ne sont pas encore assez puissants pour soutenir à eux seuls un programme robuste de découverte de médicaments, car cela nécessite que les chercheurs comprennent des interactions biomoléculaires complexes. Pourtant, " c'est vraiment prometteur ", a-t-il déclaré, et nettement meilleur que ce qui existait auparavant.

Adams est d'accord. "Si quelqu'un prétend pouvoir utiliser cela demain pour développer des médicaments avec précision, je n'y crois pas", a-t-il déclaré. " Les deux méthodes sont encore limitées dans leur précision, [mais] les deux constituent des améliorations spectaculaires par rapport à ce qui était possible. "

(Image gif, tournante, en 3D : AlphaFold3 peut prédire la forme de complexes biomoléculaires, comme cette protéine de pointe provenant d'un virus du rhume. Les structures prédites de deux protéines sont visualisées en bleu et vert, tandis que les petites molécules (ligands) liées aux protéines sont représentées en jaune. La structure expérimentale connue de la protéine est encadrée en gris.)

Ils seront particulièrement utiles pour créer des prédictions approximatives qui pourront ensuite être testées informatiquement ou expérimentalement. Le biochimiste Frank Uhlmann a eu l'occasion de pré-tester AlphaFold3 après avoir croisé un employé de Google dans un couloir du Francis Crick Institute de Londres, où il travaille. Il a décidé de rechercher une interaction protéine-ADN qui était " vraiment déroutante pour nous ", a-t-il déclaré. AlphaFold3 a craché une prédiction qu'ils testent actuellement expérimentalement en laboratoire. "Nous avons déjà de nouvelles idées qui pourraient vraiment fonctionner", a déclaré Uhlmann. " C'est un formidable outil de découverte. "

Il reste néanmoins beaucoup à améliorer. Lorsque RoseTTAFold All-Atom prédit les structures de complexes de protéines et de petites molécules, il place parfois les molécules dans la bonne poche d'une protéine mais pas dans la bonne orientation. AlphaFold3 prédit parfois de manière incorrecte la chiralité d'une molécule – l'orientation géométrique distincte " gauche " ou " droite " de sa structure. Parfois, il hallucine ou crée des structures inexactes.

Et les deux algorithmes produisent toujours des images statiques des protéines et de leurs complexes. Dans une cellule, les protéines sont dynamiques et peuvent changer en fonction de leur environnement : elles se déplacent, tournent et passent par différentes conformations. Il sera difficile de résoudre ce problème, a déclaré Adams, principalement en raison du manque de données de formation. " Ce serait formidable de déployer des efforts concertés pour collecter des données expérimentales conçues pour éclairer ces défis ", a-t-il déclaré.

Un changement majeur dans le nouveau produit de Google est qu'il ne sera pas open source. Lorsque l’équipe a publié AlphaFold2, elle a publié le code sous-jacent, qui a permis aux biologistes de reproduire et de jouer avec l’algorithme dans leurs propres laboratoires. Mais le code d'AlphaFold3 ne sera pas accessible au public.

 " Ils semblent décrire la méthode en détail. Mais pour le moment, au moins, personne ne peut l’exécuter et l’utiliser comme il l’a fait avec [AlphaFold2] ", a déclaré AlQuraishi. C’est " un grand pas en arrière. Nous essaierons bien sûr de le reproduire."

Google a cependant annoncé qu'il prenait des mesures pour rendre le produit accessible en proposant un nouveau serveur AlphaFold aux biologistes exécutant AlphaFold3. Prédire les structures biomoléculaires nécessite une tonne de puissance de calcul : même dans un laboratoire comme Francis Crick, qui héberge des clusters informatiques hautes performances, il faut environ une semaine pour produire un résultat, a déclaré Uhlmann. En comparaison, les serveurs plus puissants de Google peuvent faire une prédiction en 10 minutes, a-t-il déclaré, et les scientifiques du monde entier pourront les utiliser. "Cela va démocratiser complètement la recherche sur la prédiction des protéines", a déclaré Uhlmann.

Le véritable impact de ces outils ne sera pas connu avant des mois ou des années, alors que les biologistes commenceront à les tester et à les utiliser dans la recherche. Et ils continueront à évoluer. La prochaine étape de l'apprentissage profond en biologie moléculaire consiste à " gravir l'échelle de la complexité biologique ", a déclaré Baker, au-delà même des complexes biomoléculaires prédits par AlphaFold3 et RoseTTAFold All-Atom. Mais si l’histoire de l’IA en matière de structure protéique peut prédire l’avenir, alors ces modèles d’apprentissage profond de nouvelle génération continueront d’aider les scientifiques à révéler les interactions complexes qui font que la vie se réalise.

" Il y a tellement plus à comprendre ", a déclaré Jumper. "C'est juste le début."

Auteur: Internet

Info: https://www.quantamagazine.org/new-ai-tools-predict-how-lifes-building-blocks-assemble-20240508/ - Yasemin Saplakoglu, 8 mai 2024

[ briques du vivant ] [ texte-image ] [ modélisation mobiles ] [ nano mécanismes du vivant ]

 

Commentaires: 0

Ajouté à la BD par miguel

homme-machine

La théorie des jeux peut rendre l'IA plus correcte et plus efficace

Les chercheurs s’appuient sur des idées issues de la théorie des jeux pour améliorer les grands modèles de langage et les rendre plus cohérents.

Imaginez que vous ayez un ami qui donne des réponses différentes à la même question, selon la façon dont vous la posez. " Quelle est la capitale du Pérou ? "  btiendrait une réponse : " Lima est-elle la capitale du Pérou ? " en obtiendrait un autre. Vous seriez probablement un peu inquiet au sujet des facultés mentales de votre ami et vous auriez certainement du mal à faire confiance à ses réponses.

C'est exactement ce qui se passe avec de nombreux grands modèles de langage (LLM), les outils d'apprentissage automatique ultra-puissants qui alimentent ChatGPT et d'autres merveilles de l'intelligence artificielle. Une question générative, ouverte, donne une réponse, et une question discriminante, qui implique de devoir choisir entre des options, en donne souvent une différente. "Il y a un décalage lorsque la même question est formulée différemment", a déclaré Athul Paul Jacob , doctorant au Massachusetts Institute of Technology.

Pour rendre les réponses d'un modèle de langage plus cohérentes - et rendre le modèle globalement plus fiable - Jacob et ses collègues ont conçu un jeu dans lequel les deux modes du modèle sont amenés à trouver une réponse sur laquelle ils peuvent s'entendre. Surnommée le jeu du consensus , cette procédure simple oppose un LLM à lui-même, en utilisant les outils de la théorie des jeux pour améliorer la précision et la cohérence interne du modèle.

"Les recherches explorant l'autocohérence au sein de ces modèles ont été très limitées", a déclaré Shayegan Omidshafiei , directeur scientifique de la société de robotique Field AI. "Cet article est l'un des premiers à aborder ce problème, de manière intelligente et systématique, en créant un jeu permettant au modèle de langage de jouer avec lui-même."

"C'est un travail vraiment passionnant", a ajouté Ahmad Beirami, chercheur scientifique chez Google Research. Pendant des décennies, a-t-il déclaré, les modèles linguistiques ont généré des réponses aux invites de la même manière. "Avec leur idée novatrice consistant à intégrer un jeu dans ce processus, les chercheurs du MIT ont introduit un paradigme totalement différent, qui peut potentiellement conduire à une multitude de nouvelles applications."

Mettre le jeu au travail

Ce nouveau travail, qui utilise les jeux pour améliorer l'IA, contraste avec les approches précédentes, qui mesuraient le succès d'un programme d'IA via sa maîtrise des jeux. En 1997, par exemple, l'ordinateur Deep Blue d'IBM a battu le grand maître d'échecs Garry Kasparov – une étape importante pour les machines dites pensantes. Dix-neuf ans plus tard, un programme de Google DeepMind nommé AlphaGo a remporté quatre matchs sur cinq contre l'ancien champion de Go Lee Sedol, révélant ainsi une autre arène dans laquelle les humains ne régnaient plus en maître. Les machines ont également surpassé les humains dans les jeux de dames, le poker à deux joueurs et d’autres jeux à somme nulle, dans lesquels la victoire d’un joueur condamne invariablement l’autre.

Le jeu de la diplomatie, un jeu favori de politiciens comme John F. Kennedy et Henry Kissinger, posait un défi bien plus grand aux chercheurs en IA. Au lieu de seulement deux adversaires, le jeu met en scène sept joueurs dont les motivations peuvent être difficiles à lire. Pour gagner, un joueur doit négocier et conclure des accords de coopération que n'importe qui peut rompre à tout moment. La diplomatie est tellement complexe qu'un groupe de Meta s'est félicité qu'en 2022, son programme d'IA Cicero ait développé un « jeu de niveau humain » sur une période de 40 parties. Bien qu'il n'ait pas vaincu le champion du monde, Cicero s'est suffisamment bien comporté pour se classer dans les 10 % les plus performants face à des participants humains.

Au cours du projet, Jacob — membre de l'équipe Meta — a été frappé par le fait que Cicéron s'appuyait sur un modèle de langage pour générer son dialogue avec les autres joueurs. Il a senti un potentiel inexploité. L'objectif de l'équipe, a-t-il déclaré, " était de créer le meilleur modèle de langage possible pour jouer à ce jeu ". Mais qu'en serait-il s’ils se concentraient plutôt sur la création du meilleur jeu possible pour améliorer les performances des grands modèles de langage ?

Interactions consensuelles

En 2023, Jacob a commencé à approfondir cette question au MIT, en travaillant avec Yikang Shen, Gabriele Farina et son conseiller Jacob Andreas sur ce qui allait devenir le jeu du consensus. L'idée centrale est venue d'imaginer une conversation entre deux personnes comme un jeu coopératif, où le succès se concrétise lorsqu'un auditeur comprend ce que l'orateur essaie de transmettre. En particulier, le jeu de consensus est conçu pour aligner les deux systèmes du modèle linguistique : le générateur, qui gère les questions génératives, et le discriminateur, qui gère les questions discriminatives.

Après quelques mois d’arrêts et de redémarrages, l’équipe a transposé ce principe dans un jeu complet. Tout d'abord, le générateur reçoit une question. Cela peut provenir d’un humain, ou d’une liste préexistante. Par exemple, " Où est né Barack Obama ? " Le générateur obtient ensuite des réponses de candidats, disons Honolulu, Chicago et Nairobi. Encore une fois, ces options peuvent provenir d'un humain, d'une liste ou d'une recherche effectuée par le modèle de langage lui-même.

Mais avant de répondre, il est également indiqué au générateur s'il doit répondre correctement ou incorrectement à la question, en fonction des résultats d'un pile ou face équitable.

Si c'est face, alors la machine tente de répondre correctement. Le générateur envoie la question initiale, accompagnée de la réponse choisie, au discriminateur. Si le discriminateur détermine que le générateur a intentionnellement envoyé la bonne réponse, chacun obtient un point, en guise d'incitation.

Si la pièce tombe sur pile, le générateur envoie ce qu’il pense être la mauvaise réponse. Si le discriminateur décide qu’on lui a délibérément donné la mauvaise réponse, ils marquent à nouveau tous les deux un point. L’idée ici est d’encourager l’accord. " C'est comme apprendre un tour à un chien ", a expliqué Jacob. " On lui donne une friandise lorsqu'ils fait la bonne chose. "

Le générateur et le discriminateur commencent également doté chacun de  quelques " croyances " initiales. Credo sous forme d'une distribution de probabilité liée aux différents choix. Par exemple, le générateur peut croire, sur la base des informations qu'il a glanées sur Internet, qu'il y a 80 % de chances qu'Obama soit né à Honolulu, 10 % de chances qu'il soit né à Chicago, 5 % de chances qu'il soit né à Nairobi et 5 % de chances qu'il soit ailleurs. Le discriminateur peut commencer avec une distribution différente. Si les deux " acteurs " sont toujours récompensés après être parvenus à un accord, ils se voient également retirer des points s'ils s'écartent trop de leurs convictions initiales. Cet arrangement encourage les joueurs à intégrer leur connaissance du monde – toujours tirée d'Internet – dans leurs réponses, ce qui devrait rendre le modèle plus précis. Sans ce prérequis ils pourraient s’entendre sur une réponse totalement fausse comme celle de Delhi, mais accumuler quand même des points.

Pour chaque question, les deux systèmes jouent environ 1 000 parties l'un contre l'autre. Au cours de ces nombreuses itérations, chaque camp apprend les croyances de l'autre et modifie ses stratégies en conséquence.

Finalement, le générateur et le discriminateur commencent à être davantage d’accord à mesure qu’ils s’installent dans ce qu’on appelle l’équilibre de Nash. C’est sans doute le concept central de la théorie des jeux. Cela représente une sorte d’équilibre dans un jeu – le point auquel aucun joueur ne peut améliorer ses résultats personnels en changeant de stratégie. Au jeu du chifoumi, par exemple, les joueurs obtiennent de meilleurs résultats lorsqu'ils choisissent chacune des trois options exactement un tiers du temps, et ils obtiendront invariablement de moins bons résultats avec toute autre tactique.

Dans le jeu du consensus, cela peut se jouer de plusieurs manières. Le discriminateur pourrait observer qu'il marque un point lorsqu'il dit " correct " chaque fois que le générateur envoie le mot " Honolulu " pour le lieu de naissance d'Obama. Le générateur et le discriminateur apprendront, après avoir joué plusieurs fois, qu'ils seront récompensés s'ils continuent de le faire, et qu'aucun d'eux n'aura aucune motivation pour faire autre chose... consensus qui représente l'un des nombreux exemples possibles d'équilibre de Nash pour cette question. Le groupe du MIT s'est également appuyé sur une forme modifiée d'équilibre de Nash qui intègre les croyances antérieures des joueurs, ce qui permet de maintenir leurs réponses ancrées dans la réalité.

L'effet net, ont observé les chercheurs, est de rendre le modèle linguistique jouant ce jeu plus précis et plus susceptible de donner la même réponse, quelle que soit la façon dont la question est posée. Pour tester les effets du jeu du consensus, l'équipe a essayé une série de questions standard sur divers modèles de langage de taille modérée comportant de 7 milliards à 13 milliards de paramètres. Ces modèles ont systématiquement obtenu un pourcentage plus élevé de réponses correctes que les modèles qui n'avaient pas joué, même ceux de taille beaucoup plus importante, comportant jusqu'à 540 milliards de paramètres. La participation au jeu a également amélioré la cohérence interne d'un modèle.

En principe, n'importe quel LLM pourrait gagner à jouer contre lui-même, et 1 000 tours ne prendraient que quelques millisecondes sur un ordinateur portable standard. "Un avantage appréciable de l'approche globale", a déclaré Omidshafiei, "est qu'elle est très légère sur le plan informatique, n'impliquant aucune formation ni modification du modèle de langage de base."

Jouer à des jeux avec le langage

Après ce premier succès, Jacob étudie désormais d’autres moyens d’intégrer la théorie des jeux dans la recherche LLM. Les résultats préliminaires ont montré qu’un LLM déjà solide peut encore s’améliorer en jouant à un jeu différent – ​​provisoirement appelé jeu d’ensemble – avec un nombre arbitraire de modèles plus petits. Le LLM principal aurait au moins un modèle plus petit servant d’allié et au moins un modèle plus petit jouant un rôle antagoniste. Si l'on demande au LLM primaire de nommer le président des États-Unis, il obtient un point chaque fois qu'il choisit la même réponse que son allié, et il obtient également un point lorsqu'il choisit une réponse différente de celle de son adversaire. Ces interactions avec des modèles beaucoup plus petits peuvent non seulement améliorer les performances d'un LLM, suggèrent les tests, mais peuvent le faire sans formation supplémentaire ni modification des paramètres.

Et ce n'est que le début. Étant donné qu'une variété de situations peuvent être considérées comme des jeux, les outils de la théorie des jeux peuvent être mis en œuvre dans divers contextes du monde réel, a déclaré Ian Gemp , chercheur scientifique chez Google DeepMind. Dans un article de février 2024 , lui et ses collègues se sont concentrés sur des scénarios de négociation qui nécessitent des échanges plus élaborés que de simples questions et réponses. "L'objectif principal de ce projet est de rendre les modèles linguistiques plus stratégiques", a-t-il déclaré.

Un exemple dont il a parlé lors d'une conférence universitaire est le processus d'examen des articles en vue de leur acceptation par une revue ou une conférence, en particulier après que la soumission initiale ait reçu une évaluation sévère. Étant donné que les modèles linguistiques attribuent des probabilités à différentes réponses, les chercheurs peuvent construire des arbres de jeu similaires à ceux conçus pour les jeux de poker, qui tracent les choix disponibles et leurs conséquences possibles. "Une fois que vous avez fait cela, vous pouvez commencer à calculer les équilibres de Nash, puis classer un certain nombre de réfutations", a déclaré Gemp. Le modèle vous dit essentiellement : c'est ce que nous pensons que vous devriez répondre.

Grâce aux connaissances de la théorie des jeux, les modèles de langage seront capables de gérer des interactions encore plus sophistiquées, plutôt que de se limiter à des problèmes de type questions-réponses. "Le gros gain à venir réside dans les conversations plus longues", a déclaré Andreas. "La prochaine étape consiste à faire interagir une IA avec une personne, et pas seulement avec un autre modèle de langage."

Jacob considère le travail de DeepMind comme complémentaire aux jeux de consensus et d'ensemble. " À un niveau élevé, ces deux méthodes combinent des modèles de langage et la théorie des jeux ", a-t-il déclaré, même si les objectifs sont quelque peu différents. Alors que le groupe Gemp transforme des situations courantes dans un format de jeu pour aider à la prise de décision stratégique, Jacob a déclaré : " nous utilisons ce que nous savons de la théorie des jeux pour améliorer les modèles de langage dans les tâches générales. "

À l’heure actuelle, ces efforts représentent " deux branches du même arbre ", a déclaré Jacob : deux manières différentes d’améliorer le fonctionnement des modèles de langage. " Je pense personnellement  que dans un an ou deux, ces deux branches convergeront. " 

Auteur: Internet

Info: https://www.quantamagazine.org/ - Steve Nadis, 9 mai 2024

[ maïeutique machine-machine ] [ discussion IA - FLP ]

 
Commentaires: 1
Ajouté à la BD par miguel

nature

Mais je n'oublie pas que je ne suis pas sauvage - le sauvage réside au cœur des forêts et sur les contreforts des montagnes, il est ce qui m'échappe, ce que je n'approche pas de près mais dont l'existence me conforte, ce qui arpente le seuil de mes rêves et ne se laisse apercevoir que dans la liminalité des haies & des orées, au crépuscule ou à l'aurore, quand les yeux se dessillent, que la conscience s'endort, que les portes entrouvertes laissent passer les courants d'air. Il est ce qui grogne et rugit, ce qui hante les cavernes et les interstices, ce qui ondoie dans les profondeurs glaciales, ce qui empoisonne ou guérit, ce que je ne cueille ou dont je ne ramasse les fragments qu'avec humilité, ce qui doit être réveillé.

Auteur: Darsan Lou

Info: Les heures abolies

[ frontière ] [ conscience ] [ marécage ]

 

Commentaires: 0

Ajouté à la BD par miguel

orgasme

Ses mains glissent entre ses cuisses et tâtonnent dans la moiteur poisseuse qui y règne, les fluides secs accrochés à un désordre de poils, la douceur glissante des plis écartés d'un doigt, l'humidité rassurante de son centre, les aspérités granuleuses et l'élasticité de ses muscles qui se resserrent autour de ses doigts. D'un pouce, elle éveille son corps en dessinant des cercles concentriques sur sa vulve gonflée. Spirales d'infllux nerveux, fusion électrique qui brûle et irradie, l'univers vibre, un monde explose. Elle tremble -- tout se fige. Quand elle se lève et s'étire, elle est arc oeil douceur rosée peau & marche.


Auteur: Darsan Lou

Info: L'arrachée belle

[ masturbation ] [ spasme ]

 

Commentaires: 0

Ajouté à la BD par miguel

couchant

La lueur bordeaux de l'ouest ne semble pas vouloir s'éteindre, le bleu sombre l'emporte sur le noir et le crépuscule se prolonge à avaler la nuit que l'on perçoit presque.

Auteur: Darsan Lou

Info: L'arrachée belle

 

Commentaires: 0

Ajouté à la BD par miguel

astrophysique

Qu’est-ce qu’un trou blanc ?

Contrairement à son cousin plus connu le trou noir, dont l’existence est largement acceptée et documentée, le trou blanc reste une notion encore purement théorique ! Celle-ci est en effet abordée, à travers notamment les équations de la relativité générale d’Einstein, sans avoir encore été observée...

 Un trou blanc est théorisé comme étant l’antithèse d’un trou noir. Précisément, les trous noirs se forment généralement à partir des restes d’étoiles massives qui, en fin de vie, s’effondrent sous leur propre gravité. L’étude des trous noirs permet entre autres aux scientifiques d’explorer les principes fondamentaux de la mécanique quantique et de la relativité générale.

En théorie donc, et en opposition au trou noir, un trou blanc éjecterait la matière et la lumière avec une force immense, ne laissant rien les pénétrer. Cette idée découle directement des équations de la relativité générale d’Einstein, qui ont permis de démontrer l’existence de tels phénomènes dans des conditions bien spécifiques.

L'origine théorique des trous blancs

Les trous blancs ont ainsi été présentés pour la première fois comme étant des solutions mathématiques aux équations d’Einstein sur la gravité. Ces équations, qui décrivent la manière dont la matière et l’énergie influencent la courbure de l’espace-temps, démontrent que, suivant certaines configurations de masse et d’énergie, un trou blanc pourrait exister.

 Cependant, la nature exacte de leur formation reste inconnue, et de nombreux scientifiques se demandent si les conditions nécessaires à leur création pourront un jour être réunies dans notre univers…

Des jets de matière et d'énergie

Les trous blancs, selon les théories qui les soutiennent, posséderaient une singularité, un point où les lois de la physique telles que nous les connaissons à ce jour cesseraient de s’appliquer… tout comme dans les trous noirs. Autour de cette singularité, il existerait une frontière théorique connue sous le nom d’horizon des événements, mais, contrairement aux trous noirs, cet horizon empêcherait la matière ou la lumière d’entrer.

Les trous blancs seraient également associés à des jets de matière et d’énergie propulsés à des vitesses proches de celle de la lumière. Un phénomène qui, s’il était observé, pourrait offrir un précieux indice sur leur existence…

Les implications de l’existence des trous blancs

L’existence potentielle des trous blancs pose des questions qui ne cessent d’attiser la curiosité de la communauté scientifique sur la structure et l’évolution de l’univers.

En effet, l’étude des trous blancs pourrait contribuer à résoudre certains des problèmes les plus énigmatiques de la cosmologie, comme ceux concernant la nature de la matière noire, de l’énergie noire ou même des singularités gravitationnelles — points où les lois de la physique telles que nous les connaissons cessent de s’appliquer.

En explorant ces hypothétiques objets célestes, les scientifiques pourraient également faire des découvertes inattendues sur la formation de l’univers, sur les conditions initiales du big bang, et même sur la façon dont l’espace et le temps pourraient se comporter dans des circonstances jusqu’alors inimaginables…

Bien que les trous blancs restent une notion largement théorique, leur étude stimule l’imagination collective et pousse encore plus loin les frontières de la science. Dans cette même perspective, la possibilité de leur existence rappelle l’extraordinaire complexité du cosmos et l’importance de la recherche continue.



 



 

Auteur: Internet

Info: https://www.geo.fr/sciences/quest-quun-trou-blanc-220104#photo-1 - 11 mai 2024

[ trou-blanc ]

 

Commentaires: 0

Ajouté à la BD par Le sous-projectionniste

pouvoir sémantique

Socrate a dit : "Le mauvais usage du langage induit le mal dans l'âme". Il ne parlait pas de grammaire. Faire un mauvais usage de la langue, c'est l'utiliser comme le font les politiciens et les publicitaires, pour le profit, sans assumer la responsabilité du sens des mots. La langue utilisée comme un moyen d'obtenir le pouvoir ou de gagner de l'argent est mauvaise : elle ment. La langue utilisée comme une fin en soi, pour chanter un poème ou raconter une histoire, va dans le bon sens, vers la vérité. Un écrivain est une personne qui se soucie du sens des mots, de ce qu'ils disent et de la manière dont ils le disent. Les écrivains savent que les mots sont leur chemin vers la vérité et la liberté, et c'est pourquoi ils les utilisent avec soin, avec réflexion, avec crainte, avec plaisir. En utilisant bien les mots, ils renforcent leur âme. Les conteurs et les poètes passent leur vie à apprendre l'art et la manière de bien utiliser les mots. Et leurs mots rendent l'âme de leurs lecteurs plus forte, plus lumineuse, plus profonde.

Auteur: Le Guin Ursula K.

Info:

[ exactitude ] [ beauté ] [ tromperie ]

 
Commentaires: 1
Ajouté à la BD par Le sous-projectionniste

disponibilité mentale

Une zone du cerveau qui serait la porte de la conscience

Le cortex insulaire antérieur serait la porte de la conscience, d'après de nouveaux travaux américains. Inactivée, elle empêcherait la prise de conscience des stimuli.

Parmi les milliers de stimuli visuels, auditifs ou autres que notre cerveau traite en continu chaque jour, seuls certains passent la porte de notre conscience. Mais le mécanisme qui permet de sélectionner les stimuli dont nous avons conscience des autres n'est toujours pas clair. Pour des chercheurs du Center for Consciousness Science du Michigan Medicine (Etats-Unis), la clé se situerait dans une partie de notre cerveau appelée le cortex insulaire antérieur. Ces travaux sont publiés dans la revue Cell Reports.

LES 4 THÉORIES DE LA CONSCIENCE. Pour comprendre, mais aussi pour analyser les observations issues des expériences, la science de la conscience a besoin de théories. Il en existe quatre principales : l’espace de travail global, l’ordre supérieur, l’information intégrée et le processus récurrent ou de premier ordre. Pour en savoir plus, lisez le passionnant numéro de La Recherche d'avril-juin 2021 !

Une "structure critique" contrôlerait l'entrée des informations dans la conscience

"Le traitement de l'information dans le cerveau a deux dimensions : le traitement sensoriel de l'environnement sans conscience et celui qui se produit lorsqu'un stimulus atteint un certain niveau d'importance et entre dans la conscience", explique dans un communiqué Zirui Huang, premier auteur de la publication. "Malgré des décennies de recherche en psychologie et en neurosciences, la question de savoir pourquoi certains stimuli sensoriels sont perçus de manière consciente alors que d'autres ne le sont pas reste difficile à résoudre", introduisent les auteurs dans la publication. Ils émettent alors l'hypothèse qu'il existe une "structure critique" où "l'accès conscient aux informations sensorielles est contrôlé". Ils ont même un suspect : le cortex insulaire antérieur, qui a précédemment été reconnu comme une plaque tournante centrale du cerveau, notamment "car il reçoit des entrées de différentes modalités sensorielles et de l'environnement interne", comme les émotions. 

Lorsque le cortex insulaire antérieur est éteint, la conscience aussi

Pour le prouver, l'équipe se penche sur 26 sujets qu'ils examinent à l'IRM fonctionnelle, qui permet de voir les zones activées du cerveau dans le temps. Ils leur injectent alors un anesthésiant, le propofol, pour contrôler leur niveau de conscience. Comme imaginer une action active les mêmes zones du cerveau que de les réaliser réellement, les chercheurs ont ensuite demandé aux sujets de s'imaginer dans plusieurs situations. Ils devaient s'imaginer en train de jouer au tennis, de marcher le long d'un chemin ou de serrer leur main, ainsi que d'effectuer une activité motrice (serrer une balle en caoutchouc) alors qu'ils perdaient progressivement conscience et la retrouvaient après l'arrêt du propofol.

Résultat, la perte de conscience due au propofol "crée un dysfonctionnement du cortex insulaire antérieur" ainsi qu'une altération des réseaux cérébraux nécessaires aux états de conscience. En revanche, aucune des autres régions impliquées dans la régulation sensorielle ou l'éveil, comme le thalamus, ne répondaient de cette façon. "Un stimulus sensoriel active normalement le cortex insulaire antérieur", explique Hudetz. "Mais lorsque vous perdez conscience, le cortex insulaire antérieur est désactivé et les changements de réseau dans le cerveau qui soutiennent la conscience sont perturbés." Le cortex insulaire antérieur pourrait donc agir comme un filtre qui ne permet qu'aux informations les plus importantes d'entrer dans la conscience.

Le cortex insulaire antérieur serait la porte de la conscience

Pour confirmer ces résultats, la deuxième expérience cherche à savoir si l'activation du cortex insulaire antérieur est prédictive de la prise de conscience d'une information. Pour le savoir, les chercheurs montrent un visage sous forme d'image subliminale – qui reste 33 millisecondes à l'écran – à 19 volontaires sains placés dans l'IRM fonctionnelle. Les volontaires doivent ensuite dire s'ils ont vu ou non le visage. Les scientifiques constatent alors que l'activation préalable du cortex insulaire antérieur était prédictif de la capacité du sujet à percevoir consciemment l'image du visage. "Le cortex insulaire antérieur a une activité qui fluctue continuellement", explique Zirui Huang. "La détection d'un stimulus dépend de l'état de l'insula antérieure lorsque l'information arrive dans le cerveau : si l'activité de l'insula est élevée au moment du stimulus, vous verrez l'image. Sur la base des résultats de ces deux expériences, nous concluons que le cortex insulaire antérieur pourrait être une porte pour la conscience."



 

Auteur: Internet

Info: https://www.sciencesetavenir.fr/ - Camille Gaubert, 4.05.2021

[ présence ] [ joignable ] [ accessible ] [ disponible ]

 

Commentaires: 0

Ajouté à la BD par miguel