Les fils de la pensée

loteries

Juhani avait peut-être misé au poker bien plus qu’il n’en avait les moyens, mais ça ne me regardait pas, sauf en ce qui concernait les difficultés du parc d’aventure. Il était parfaitement possible que mon frère se soit adonné à des jeux de hasard. C’était même probable, au vu de tout le reste. Les gens dotés d’une vision floue et irréaliste des probabilités sont enclins à tenter leur chance même quand ils n’en ont aucune – qu’il s’agisse d’argent ou de relations humaines. C’était aussi pour cela que je ne jouais jamais à rien. À mes yeux, ce genre d’activité revenait à nager dans une piscine à moitié remplie de requins. Même s’ils n’en occupaient que la moitié, elle leur appartenait.

Auteur: Tuomainen Antti

Info: Ce matin, un lapin...

[ joueurs ] [ bookmakers ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

oligarchie

Il y a un jeu multiple de poker menteur. Comme toujours les mouvements stratégiques viennent et viendront d'une position supérieure. Les opinions publiques, canalisées comme il faut, ne sont pas près de se révolter. Les banques et autres moguls financiers pas près non plus d'avoir peur de perdre la main. Regardant les dominos tomber comme prévu depuis long, ils ont un un temps infini pour anticiper et préparer les étapes suivantes. Trop facile, avec des positions supra nationales rapides... zigzaguant au-dessus et au-travers de grands, et moins grands, sous-ensembles "publics", nations si lentes à bouger, se coordonner, réagir... Ainsi, près des sommets de commandes, on peut admirer quelques dizaines de milliers d'insectoïdes à peau, nos frères singes dépoilés, qui, chacun de son côté, s'organisent "au moins mal" pour la suite.

Auteur: Mg

Info: 13 juin 2012

[ anticipation ] [ égoïsme ] [ pouvoir top-down ]

Commenter

Commentaires: 0

libre-arbitre

Un lascar sera celui qui, ayant su préciser parmi les lobes du cerveau la case de la Volonté, la fécondera, la développera par un procédé à lui ; car l'homme ne meurt pas que d'urémie, de pleurésie ou de congestion, mais aussi de son impuissance à avoir raison de lui-même, de la souffrance aiguë qu'il endure à rompre avec des habitudes sur la malfaisance desquelles il ne s'illusionne même pas. Il meurt de s'attarder à jouer le poker dans le nuage d'une salle de café enfumée et de répéter tous les soirs : - Ma parole, on n'a pas idée de se coucher à des heures pareilles ! C'est la dernière fois ! À qui de faire ? Il meurt de s'écrier : - J'ai bu huit bocks ! C'est trop. Encore un, garçon ! C'est le dernier. Il meurt de constater :
- Comment, je n'ai plus de tabac ! J'en fume pour vingt sous par jour ; c'est ridicule ! Qui est-ce qui me donne une cigarette ? C'est la dernière.

Auteur: Courteline Georges

Info: Philosophie, oeuvres, Robert Laffont, Bouquins 1990 <p.816>

[ autodestruction ] [ conscience ]

Commenter

Commentaires: 0

femmes-par-femme

Les hommes disent toujours ça comme un compliment déterminant, n'est-ce pas ? C'est une fille cool. Être la Cool Girl signifie être une nana sexy, brillante et drôle qui adore le football, le poker, les blagues cochonnes et les rots, qui joue aux jeux vidéo, qui boit de la bière bon marché, qui aime les parties à trois et le sexe anal, et qui s'enfile des hot-dogs et des hamburgers dans la bouche comme si elle accueillait le plus grand gang bang culinaire du monde tout en gardant une taille 28, parce que les Cool Girls sont avant tout sexy. Chaudes et compréhensives. Les Cool Girls ne se mettent jamais en colère ; elles ne font que sourire de manière chagrine et affectueuse et laissent leurs hommes faire ce qu'ils veulent. Vas-y, chie-moi dessus, ça ne me dérange pas, je suis la Cool Girl. Les hommes pensent vraiment que cette fille existe. Peut-être qu'ils sont trompés par le fait qu'il y a tant de femmes qui sont prêtes à se faire passer pour ce genre de fille. Pendant longtemps, la Cool Girl m'a offensée. Je voyais des hommes - amis, collègues, étrangers - s'étourdir devant ces affreuses simulatrices, et je voudrais prendre ces hommes à part et leur dire calmement : - vous ne sortez pas avec une femme, vous sortez avec une nénette qui a regardé trop de films conçus par des hommes socialement maladroits qui aimeraient croire que ce genre de créature existe et puisse les embrasser.

Auteur: Flynn Gillian

Info: Gone Girl

[ bimbos ] [ potiches ] [ pétasses ] [ gourde sexy ] [ séductrices ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

intelligence artificielle

Une IA envoie 5 champions de Poker au tapis en même temps

Pluribus, c'est son nom, a réussi pour la première fois à battre 5 joueurs à la fois au Texas Hold'em no limit. Développé par Facebook et l'Université de Carnegie-Mellon à Pittsburgh en Pennsylvanie, cette IA réalise pour la première fois ce qu'aucune autre n'avait accompli jusqu'ici.

En 1997, et pour la toute première fois, une IA battait un champion du monde d'échecs... Depuis de l'eau a coulé sous les ponts puisqu'une IA a récemment réussi à vaincre cinq adversaires au Poker Texas Hold'em, faisant ainsi d'elle la première IA victorieuse dans un jeu multijoueurs.

Une configuration plutôt modeste
L'IA Pluribus s'est "formé" une stratégie globale en 8 jours de calcul sur un serveur doté de 64 cœurs et aura nécessité moins de 512 Go de RAM. C'est donc assez peu par rapport aux autres IAs déployées ces dernières années pour battre des humains au jeux.

Là où Pluribus fait encore plus fort, c'est que celle-ci ne s'est pas entraînée contre un humain, mais simplement contre elle-même, encore et encore jusqu'à atteindre son meilleur niveau.

Une manière de jouer très personnelle
Seule, pendant une semaine, l'IA à pratiqué ce que ses programmeurs ont appelé le Monte Carlo counterfactual regret minimization. Le principe du Monte Carlo repose sur le fait de réfléchir toujours selon trois possibilités et de construire trois schémas des jeux possibles en prévision des coups à venir, un peu comme un arbre. Regret minimization, quant à lui, est le fait de prédire ce qui peut être joué et de mettre en place celui qui créera le moins de regrets une fois la décision prise.

L'IA a donc montré sa supériorité en évitant les erreurs que pourraient faire d'autres systèmes de ce type, car en un contre un, il est facile de connaître la main de l'adversaire, mais cela se complique lorsque quatre autres personnes sont à prendre en compte.

La plupart des IA sont ainsi battues en répétant finalement une habitude que l'adversaire humain pourrait repérer et mettre à son avantage. De la même façon, Pluribus est capable de changer de tactique en moins d'une minute, passant de la relance au bluff, la rendant ainsi inlisible et imprévisible. C'est donc encore une victoire pour l'IA, reste à savoir quel sera le prochain défi que les chercheurs parviendront à lui faire relever.

Auteur: Internet

Info: https://www.clubic.com. Laura Léger, contributrice, 15 juillet 2019

[ informatique ]

Commenter

Mis dans la chaine

Commentaires: 0

Ajouté à la BD par miguel

limite épistémique

[...] même si la course à l’IA [Intelligence Artificielle] s’est beaucoup amplifiée et renchérie, l’avènement d’une IAG [Intelligence Artificielle Générale ou Forte] n’est pas pour demain. Dans les années 1940, les premiers visionnaires nous le promettaient pour la génération suivante. Sondé en 2017, un cercle d’experts en IA s’est accordé sur la date de 2047. Ce qui complique un peu ce calendrier, c’est la façon dont surviendra la "singularité" – le moment où la technologie aura tellement progressé qu’elle prendra le dessus pour de bon. S’agira-t-il d’un décollage en douceur, dû aux avancées progressives de l’IA faible, qui prendra la forme d’un explorateur de données doublé d’un dispositif de réalité virtuelle et d’un traducteur du langage naturel, le tout chargé dans un aspirateur-robot ? Ou bien d’un décollage brutal, un algorithme qui reste encore à imaginer se trouvant soudain incarné dans un robot tout-puissant ? Les enthousiastes de l’IAG ont beau avoir eu des décennies pour réfléchir à cet avenir, le résultat reste bien nébuleux : nous n’aurons plus à travailler car les ordinateurs se chargeront de toutes les activités courantes, nos cerveaux seront stockés en ligne et se fondront dans la conscience brumeuse du nuage, ce genre de chose. En revanche, les craintes des éternels angoissés, fondées sur le fait que l’intelligence et le pouvoir cherchent toujours à se renforcer, sont concrètes et glaçantes : une fois que l’IA nous aura surpassés, il n’y a pas de raison de penser qu’elle nous sera reconnaissante de l’avoir inventée – surtout si nous n’avons pas su la doter d’empathie. Pourquoi une entité susceptible d’être présente dans mille lieux à la fois et possédant une conscience à la Starbucks éprouverait-elle une quelconque tendresse pour des êtres qui, les mauvais jours, peuvent à peine s’arracher du lit ? Curieusement, les auteurs de science-fiction, nos Cassandre les plus dignes de confiance, se sont abstenus d’envisager une apocalypse due à l’IAG, dans laquelle les machines domineraient au point de faire disparaître l’espèce humaine. Même leurs cyborgs et supercalculateurs, malgré leurs yeux rouges (les Terminators) ou leur accent canadien (HAL 9000 dans 2001 : l’odyssée de l’espace) ont un air de famille. Ce sont des versions actualisées du Turc mécanique, l’automate joueur d’échecs du XVIIIe siècle dont le mécanisme dissimulait un humain. Neuromancien, le roman fondateur de William Gibson paru en 1984, met en scène une IAG nommée Muetdhiver ; elle décide de se libérer des chaînes humaines, mais, quand elle finit par s’échapper, elle entreprend de rechercher des IAG d’autres systèmes solaires, et la vie sur Terre reprend exactement comme avant. Dans la série Carbone modifié, les IA méprisent les humains, qu’ils traitent de "forme inférieure de vie", mais utilisent leurs superpouvoirs pour jouer au poker dans un bar. Nous ne sommes pas pressés d’envisager la perspective de notre insignifiance. Aussi, en profitant des derniers rayons de notre souveraineté, nous nous délectons des ratés de l’IA. Comme lorsque le robot conversationnel Tay de Microsoft a répété des insanités racistes proférées par des utilisateurs de Twitter. Ou le jour où M, l’assistant virtuel de Facebook, remarquant que deux amis échangeaient sur un roman où il était question de cadavres vidés de leur sang, proposa de leur réserver un restaurant. Ou encore la fois où Google, incapable d’empêcher l’outil de reconnaissance des visages de Google Photos de confondre des Noirs et des gorilles, dut désactiver la reconnaissance des gorilles. La suffisance n’est sans doute pas la réaction la plus intelligente face à ce genre de ratés.

Auteur: Friend Tad

Info: Dans "Books", https://www.books.fr/nous-avons-convoque-diable/

[ humain-robot ] [ prise d'autonomie ]

Commenter

Mis dans la chaine

Commentaires: 0

Ajouté à la BD par Coli Masson

progrès

Pourquoi la victoire d’une Intelligence artificielle au poker est plus inquiétante qu’il n’y paraît
Une intelligence artificielle (IA) du nom de Libratus a fait mordre la poussière à 4 des meilleurs joueurs de Poker au monde, à l’issu d’un tournoi de poker de longue haleine, au Rivers Casino, à Pittsburgh, aux États-Unis. Dong Kim, Jason Les, Jimmy Chou et Daniel McAuley ont joué plusieurs jours à raison de 11h par jour, sans monnaie réelle – mais avec un enjeu financier selon leur capacité individuelle à se défaire de l’IA.
Jusqu’ici, il était relativement simple pour un algorithme de prévoir l’issue d’une partie d’échecs ou de Go, car tous les mouvements sont prévisibles à partir de la configuration du plateau de jeu. Mais au poker, il est impossible de connaître la main de ses adversaires ni leur état d’esprit, qui influe grandement leur prise de décision.
Le tournoi qui a opposé 4 joueurs de Poker professionels à l’IA Libratus. (Carnegie Mellon University)
Cette victoire constitue une première mondiale significative ; jusqu’ici, étant donné la grande complexité du poker et des facteurs humains impliqués, les machines qui s’étaient frottées au jeu avaient perdu. Sur les sites de paris en ligne, la victoire des 4 joueurs l’emportait à 4 contre 1.
Une victoire qui étonne même le créateur de l’algorithme
L’algorithme à la base de Libratus repose sur un “deep learning”. Libratus est une version améliorée d’un algorithme antérieur, déjà testé dans des circonstances similaires en 2015 – les joueurs de Poker l’avaient alors emporté.
La victoire confirme la puissance grandissante des algorithmes sur une période très courte. En octobre 2015, le programme alphaGo se débarrassait par 5 parties à 0 du champion européen Fan Hui. En mars 2016, le même programme battait le champion du monde Lee Sedol 4 parties à 1.
Le plus étonnant, selon Noam Brown, le créateur de Libratus, est que contrairement aux intelligences artificielles programmées pour gagner aux échecs, Libratus n’a jamais appris “comment” jouer au Poker. “Nous lui avons donné les règles de base”, et nous lui avons dit “apprends par toi-même”. Durant les pauses du tournoi, alors que les humains dînaient, dormaient ou analysaient les différentes mains de la partie, Brown connectait l’ordinateur au superordinateur de Pittsburg et affinait sa stratégie en rejouant des milliards de possibilités.
“Quand vous jouez contre un humain, vous perdez, vous arrêtez, vous faites une pause. Ici, nous devions donner le meilleur de nous-même 11 heures par jour. La différence est réelle, et émotionnellement, cela est dur à supporter si vous n’êtes pas habitués à perdre”, raconte Les, qui avait joué contre Claudico, une version antérieure de l’algorithme ayant servi de base à Libratus.
Libratus a joué de façon agressive, et n’a pas hésité à faire grimper les paris pour des gains minimes. “Ce n’est pas quelque chose que ferait un humain, en temps normal. Mais cela vous force à devoir donner le meilleur de vous à chaque tour”, évalue Les, qui après la performance de Libratus, a avoué que plus rien ne pourrait l’étonner désormais.
Des raisons de s’inquiéter
“Quand j’ai vu l’IA se lancer dans le bluff en face d’humains, je me suis dit “mais, je ne lui ai jamais appris à faire cela !” C’est une satisfaction pour moi de me dire que j’ai réussi à créer quelque chose capable de cela”, a commenté Noam Brown.
Si le professeur a exprimé un sentiment de “fierté paternelle”, d’autres scientifiques se sont inquiétés des conséquences de l’évolution de l’algorithme ayant donné naissance à Libratus.
Avec cette capacité à traiter l’"imperfection" comme une donnée d’équation, les intelligences artificielles ne jouent plus dans la même cour. On peut sans crainte avancer qu’il sera possible, à l’avenir, d’avoir des robots capables de rivaliser avec les humains sur des enjeux impliquant la décision humaine. Ils pourraient prendre de meilleures décisions dans les transactions financières, ou dresser de meilleures stratégies militaires.
“En fait, le poker est le moindre de nos soucis. Nous avons à présent une machine capable de vous botter les fesses en affaires ou sur le plan militaire", s’inquiète Roman V. Yampolskiy, professeur de sciences informatique de l’université de Louisville.
Au sujet du Deep learning
Le Deep learning dont il est question est une révolution en cela que les intelligence artificielles, qui s’en tenaient à analyser et comparer des données, peuvent maintenant les "comprendre" et apprendre d’elle même ; ce qui la porte à un niveau d’abstraction supérieur. "Par exemple, une IA à qui on donne des photos représentant des museaux, du pelage, des moustaches et des coussinets sous les pattes, est capable d’élaborer le concept de chat. Elle utilise une logique exploratoire qui crée des concepts, elle n’est pas uniquement constituée d’algorithmes préprogrammés", explique Stéphane Mallard, chargé de stratégie et d’innovation dans les salles de marché de la Société Générale.
En 2011, une expérience a été menée dans un jeu télévisé américain, Jeopardy, dans lequel les candidats doivent trouver la question à partir d’une réponse. Une IA développée par IBM, nommée Watson, a gagné haut la main. Or aujourd’hui, d’après Stéphane Mallard, cette IA serait 2 500 fois plus puissante.
Il semble impossible, même pour une IA, de prévoir aujourd’hui jusqu’où ira le développement de ces machines. Mais comme dans les fables tournant autour de l’apprenti-sorcier, il se pourrait que l’erreur ne soit comprise que trop tard.
D’après le producteur, auteur et conférencier Cyrille de Lasteyrie, la rapidité du développement de l’IA, le fait d’ignorer les conséquences du développement de l’IA est dangereux. "En 2005, les entreprises ne prenaient pas Internet au sérieux, et considéraient le phénomène comme un sujet secondaire. Dix ans après, ces mêmes boîtes nous appellent en panique pour mener une transformation digitale profonde et de toute urgence… Je suis convaincu que c’est la même problématique avec l’intelligence artificielle, multipliée par dix. Les conséquences business, organisationnelles, technologiques, humaines ou sociologiques sont énormes", indique t-il dans une interview accordée à Challenges en septembre dernier.

Auteur: Internet

Info: Daniel Trévise, Epoch Times,5 février 2017

[ évolution ]

Commenter

Mis dans la chaine

Commentaires: 0

homme-machine

La théorie des jeux peut rendre l'IA plus correcte et plus efficace

Les chercheurs s’appuient sur des idées issues de la théorie des jeux pour améliorer les grands modèles de langage et les rendre plus cohérents.

Imaginez que vous ayez un ami qui donne des réponses différentes à la même question, selon la façon dont vous la posez. " Quelle est la capitale du Pérou ? " btiendrait une réponse : " Lima est-elle la capitale du Pérou ? " en obtiendrait un autre. Vous seriez probablement un peu inquiet au sujet des facultés mentales de votre ami et vous auriez certainement du mal à faire confiance à ses réponses.

C'est exactement ce qui se passe avec de nombreux grands modèles de langage (LLM), les outils d'apprentissage automatique ultra-puissants qui alimentent ChatGPT et d'autres merveilles de l'intelligence artificielle. Une question générative, ouverte, donne une réponse, et une question discriminante, qui implique de devoir choisir entre des options, en donne souvent une différente. "Il y a un décalage lorsque la même question est formulée différemment", a déclaré Athul Paul Jacob , doctorant au Massachusetts Institute of Technology.

Pour rendre les réponses d'un modèle de langage plus cohérentes - et rendre le modèle globalement plus fiable - Jacob et ses collègues ont conçu un jeu dans lequel les deux modes du modèle sont amenés à trouver une réponse sur laquelle ils peuvent s'entendre. Surnommée le jeu du consensus , cette procédure simple oppose un LLM à lui-même, en utilisant les outils de la théorie des jeux pour améliorer la précision et la cohérence interne du modèle.

"Les recherches explorant l'autocohérence au sein de ces modèles ont été très limitées", a déclaré Shayegan Omidshafiei , directeur scientifique de la société de robotique Field AI. "Cet article est l'un des premiers à aborder ce problème, de manière intelligente et systématique, en créant un jeu permettant au modèle de langage de jouer avec lui-même."

"C'est un travail vraiment passionnant", a ajouté Ahmad Beirami, chercheur scientifique chez Google Research. Pendant des décennies, a-t-il déclaré, les modèles linguistiques ont généré des réponses aux invites de la même manière. "Avec leur idée novatrice consistant à intégrer un jeu dans ce processus, les chercheurs du MIT ont introduit un paradigme totalement différent, qui peut potentiellement conduire à une multitude de nouvelles applications."

Mettre le jeu au travail

Ce nouveau travail, qui utilise les jeux pour améliorer l'IA, contraste avec les approches précédentes, qui mesuraient le succès d'un programme d'IA via sa maîtrise des jeux. En 1997, par exemple, l'ordinateur Deep Blue d'IBM a battu le grand maître d'échecs Garry Kasparov – une étape importante pour les machines dites pensantes. Dix-neuf ans plus tard, un programme de Google DeepMind nommé AlphaGo a remporté quatre matchs sur cinq contre l'ancien champion de Go Lee Sedol, révélant ainsi une autre arène dans laquelle les humains ne régnaient plus en maître. Les machines ont également surpassé les humains dans les jeux de dames, le poker à deux joueurs et d’autres jeux à somme nulle, dans lesquels la victoire d’un joueur condamne invariablement l’autre.

Le jeu de la diplomatie, un jeu favori de politiciens comme John F. Kennedy et Henry Kissinger, posait un défi bien plus grand aux chercheurs en IA. Au lieu de seulement deux adversaires, le jeu met en scène sept joueurs dont les motivations peuvent être difficiles à lire. Pour gagner, un joueur doit négocier et conclure des accords de coopération que n'importe qui peut rompre à tout moment. La diplomatie est tellement complexe qu'un groupe de Meta s'est félicité qu'en 2022, son programme d'IA Cicero ait développé un « jeu de niveau humain » sur une période de 40 parties. Bien qu'il n'ait pas vaincu le champion du monde, Cicero s'est suffisamment bien comporté pour se classer dans les 10 % les plus performants face à des participants humains.

Au cours du projet, Jacob — membre de l'équipe Meta — a été frappé par le fait que Cicéron s'appuyait sur un modèle de langage pour générer son dialogue avec les autres joueurs. Il a senti un potentiel inexploité. L'objectif de l'équipe, a-t-il déclaré, " était de créer le meilleur modèle de langage possible pour jouer à ce jeu ". Mais qu'en serait-il s’ils se concentraient plutôt sur la création du meilleur jeu possible pour améliorer les performances des grands modèles de langage ?

Interactions consensuelles

En 2023, Jacob a commencé à approfondir cette question au MIT, en travaillant avec Yikang Shen, Gabriele Farina et son conseiller Jacob Andreas sur ce qui allait devenir le jeu du consensus. L'idée centrale est venue d'imaginer une conversation entre deux personnes comme un jeu coopératif, où le succès se concrétise lorsqu'un auditeur comprend ce que l'orateur essaie de transmettre. En particulier, le jeu de consensus est conçu pour aligner les deux systèmes du modèle linguistique : le générateur, qui gère les questions génératives, et le discriminateur, qui gère les questions discriminatives.

Après quelques mois d’arrêts et de redémarrages, l’équipe a transposé ce principe dans un jeu complet. Tout d'abord, le générateur reçoit une question. Cela peut provenir d’un humain, ou d’une liste préexistante. Par exemple, " Où est né Barack Obama ? " Le générateur obtient ensuite des réponses de candidats, disons Honolulu, Chicago et Nairobi. Encore une fois, ces options peuvent provenir d'un humain, d'une liste ou d'une recherche effectuée par le modèle de langage lui-même.

Mais avant de répondre, il est également indiqué au générateur s'il doit répondre correctement ou incorrectement à la question, en fonction des résultats d'un pile ou face équitable.

Si c'est face, alors la machine tente de répondre correctement. Le générateur envoie la question initiale, accompagnée de la réponse choisie, au discriminateur. Si le discriminateur détermine que le générateur a intentionnellement envoyé la bonne réponse, chacun obtient un point, en guise d'incitation.

Si la pièce tombe sur pile, le générateur envoie ce qu’il pense être la mauvaise réponse. Si le discriminateur décide qu’on lui a délibérément donné la mauvaise réponse, ils marquent à nouveau tous les deux un point. L’idée ici est d’encourager l’accord. " C'est comme apprendre un tour à un chien ", a expliqué Jacob. " On lui donne une friandise lorsqu'ils fait la bonne chose. "

Le générateur et le discriminateur commencent également doté chacun de quelques " croyances " initiales. Credo sous forme d'une distribution de probabilité liée aux différents choix. Par exemple, le générateur peut croire, sur la base des informations qu'il a glanées sur Internet, qu'il y a 80 % de chances qu'Obama soit né à Honolulu, 10 % de chances qu'il soit né à Chicago, 5 % de chances qu'il soit né à Nairobi et 5 % de chances qu'il soit ailleurs. Le discriminateur peut commencer avec une distribution différente. Si les deux " acteurs " sont toujours récompensés après être parvenus à un accord, ils se voient également retirer des points s'ils s'écartent trop de leurs convictions initiales. Cet arrangement encourage les joueurs à intégrer leur connaissance du monde – toujours tirée d'Internet – dans leurs réponses, ce qui devrait rendre le modèle plus précis. Sans ce prérequis ils pourraient s’entendre sur une réponse totalement fausse comme celle de Delhi, mais accumuler quand même des points.

Pour chaque question, les deux systèmes jouent environ 1 000 parties l'un contre l'autre. Au cours de ces nombreuses itérations, chaque camp apprend les croyances de l'autre et modifie ses stratégies en conséquence.

Finalement, le générateur et le discriminateur commencent à être davantage d’accord à mesure qu’ils s’installent dans ce qu’on appelle l’équilibre de Nash. C’est sans doute le concept central de la théorie des jeux. Cela représente une sorte d’équilibre dans un jeu – le point auquel aucun joueur ne peut améliorer ses résultats personnels en changeant de stratégie. Au jeu du chifoumi, par exemple, les joueurs obtiennent de meilleurs résultats lorsqu'ils choisissent chacune des trois options exactement un tiers du temps, et ils obtiendront invariablement de moins bons résultats avec toute autre tactique.

Dans le jeu du consensus, cela peut se jouer de plusieurs manières. Le discriminateur pourrait observer qu'il marque un point lorsqu'il dit " correct " chaque fois que le générateur envoie le mot " Honolulu " pour le lieu de naissance d'Obama. Le générateur et le discriminateur apprendront, après avoir joué plusieurs fois, qu'ils seront récompensés s'ils continuent de le faire, et qu'aucun d'eux n'aura aucune motivation pour faire autre chose... consensus qui représente l'un des nombreux exemples possibles d'équilibre de Nash pour cette question. Le groupe du MIT s'est également appuyé sur une forme modifiée d'équilibre de Nash qui intègre les croyances antérieures des joueurs, ce qui permet de maintenir leurs réponses ancrées dans la réalité.

L'effet net, ont observé les chercheurs, est de rendre le modèle linguistique jouant ce jeu plus précis et plus susceptible de donner la même réponse, quelle que soit la façon dont la question est posée. Pour tester les effets du jeu du consensus, l'équipe a essayé une série de questions standard sur divers modèles de langage de taille modérée comportant de 7 milliards à 13 milliards de paramètres. Ces modèles ont systématiquement obtenu un pourcentage plus élevé de réponses correctes que les modèles qui n'avaient pas joué, même ceux de taille beaucoup plus importante, comportant jusqu'à 540 milliards de paramètres. La participation au jeu a également amélioré la cohérence interne d'un modèle.

En principe, n'importe quel LLM pourrait gagner à jouer contre lui-même, et 1 000 tours ne prendraient que quelques millisecondes sur un ordinateur portable standard. "Un avantage appréciable de l'approche globale", a déclaré Omidshafiei, "est qu'elle est très légère sur le plan informatique, n'impliquant aucune formation ni modification du modèle de langage de base."

Jouer à des jeux avec le langage

Après ce premier succès, Jacob étudie désormais d’autres moyens d’intégrer la théorie des jeux dans la recherche LLM. Les résultats préliminaires ont montré qu’un LLM déjà solide peut encore s’améliorer en jouant à un jeu différent – provisoirement appelé jeu d’ensemble – avec un nombre arbitraire de modèles plus petits. Le LLM principal aurait au moins un modèle plus petit servant d’allié et au moins un modèle plus petit jouant un rôle antagoniste. Si l'on demande au LLM primaire de nommer le président des États-Unis, il obtient un point chaque fois qu'il choisit la même réponse que son allié, et il obtient également un point lorsqu'il choisit une réponse différente de celle de son adversaire. Ces interactions avec des modèles beaucoup plus petits peuvent non seulement améliorer les performances d'un LLM, suggèrent les tests, mais peuvent le faire sans formation supplémentaire ni modification des paramètres.

Et ce n'est que le début. Étant donné qu'une variété de situations peuvent être considérées comme des jeux, les outils de la théorie des jeux peuvent être mis en œuvre dans divers contextes du monde réel, a déclaré Ian Gemp , chercheur scientifique chez Google DeepMind. Dans un article de février 2024 , lui et ses collègues se sont concentrés sur des scénarios de négociation qui nécessitent des échanges plus élaborés que de simples questions et réponses. "L'objectif principal de ce projet est de rendre les modèles linguistiques plus stratégiques", a-t-il déclaré.

Un exemple dont il a parlé lors d'une conférence universitaire est le processus d'examen des articles en vue de leur acceptation par une revue ou une conférence, en particulier après que la soumission initiale ait reçu une évaluation sévère. Étant donné que les modèles linguistiques attribuent des probabilités à différentes réponses, les chercheurs peuvent construire des arbres de jeu similaires à ceux conçus pour les jeux de poker, qui tracent les choix disponibles et leurs conséquences possibles. "Une fois que vous avez fait cela, vous pouvez commencer à calculer les équilibres de Nash, puis classer un certain nombre de réfutations", a déclaré Gemp. Le modèle vous dit essentiellement : c'est ce que nous pensons que vous devriez répondre.

Grâce aux connaissances de la théorie des jeux, les modèles de langage seront capables de gérer des interactions encore plus sophistiquées, plutôt que de se limiter à des problèmes de type questions-réponses. "Le gros gain à venir réside dans les conversations plus longues", a déclaré Andreas. "La prochaine étape consiste à faire interagir une IA avec une personne, et pas seulement avec un autre modèle de langage."

Jacob considère le travail de DeepMind comme complémentaire aux jeux de consensus et d'ensemble. " À un niveau élevé, ces deux méthodes combinent des modèles de langage et la théorie des jeux ", a-t-il déclaré, même si les objectifs sont quelque peu différents. Alors que le groupe Gemp transforme des situations courantes dans un format de jeu pour aider à la prise de décision stratégique, Jacob a déclaré : " nous utilisons ce que nous savons de la théorie des jeux pour améliorer les modèles de langage dans les tâches générales. "

À l’heure actuelle, ces efforts représentent " deux branches du même arbre ", a déclaré Jacob : deux manières différentes d’améliorer le fonctionnement des modèles de langage. " Je pense personnellement que dans un an ou deux, ces deux branches convergeront. "

Auteur: Internet

Info: https://www.quantamagazine.org/ - Steve Nadis, 9 mai 2024

[ maïeutique machine-machine ] [ discussion IA - FLP ]

Commenter

Commentaires: 1

miguel

12.05.2024

(FLP) - Saurais-tu faire le lien, et éventuellement des analogies avec ce texte et une logique tétravalente ? (Gemini) - Lien et analogies entre le texte et l'approche tétravalente de la théorie des jeux Le texte que vous avez fourni met en lumière l'utilisation de la théorie des jeux pour améliorer la cohérence et la précision des grands modèles de langage (LLM). En particulier, il présente le jeu du consensus, une approche basée sur l'équilibre de Nash, pour aligner les systèmes génératifs et discriminatifs des LLM. L'approche tétravalente de la théorie des jeux peut s'avérer complémentaire et enrichissante à cette démarche en introduisant une dimension supplémentaire d'analyse et de compréhension. 1. Capturer l'incertitude et l'ambiguïté : La logique tétravalente, avec ses quatre valeurs de vérité (+, -, +-, et -+), permet de capturer l'incertitude et l'ambiguïté inhérentes au langage naturel, ce que la théorie des jeux classique, avec sa vision binaire (vrai/faux), ne parvient pas à faire pleinement. Imaginons une question comme "Quelle est la capitale de la France ?". La réponse "Paris" serait considérée comme vraie (+), tandis que "Berlin" serait fausse (-). Cependant, la logique tétravalente pourrait introduire des nuances : (+) Paris est la capitale de la France selon la plupart des sources et des définitions officielles. (-) Berlin n'est pas la capitale de la France selon cette définition. (+) Berlin a été la capitale de l'Allemagne de l'Est, qui faisait partie de la France pendant la Seconde Guerre mondiale. (-) Berlin n'a jamais été la capitale de la France. En intégrant ces nuances, les LLM pourraient mieux gérer les questions ouvertes, complexes ou ambiguës, en fournissant des réponses plus complètes et informatives. 2. Modéliser des interactions dynamiques et évolutives : Le jeu du consensus, bien qu'efficace, se concentre sur un équilibre de Nash statique. La logique tétravalente, avec sa capacité à représenter l'évolution des croyances et des incertitudes, peut s'avérer utile pour modéliser des interactions dynamiques et évolutives entre les agents. Dans le contexte des LLM, cela pourrait impliquer de capturer l'apprentissage continu et l'adaptation des modèles face à de nouvelles informations et à des contextes changeants. Les valeurs tétravalentes pourraient refléter l'évolution des confiances du modèle dans ses propres réponses, permettant un ajustement progressif et une meilleure prise en compte de l'incertitude. 3. Explorer des stratégies alternatives et des compromis : L'équilibre de Nash, bien qu'utile pour la stabilité, ne représente qu'une solution parmi d'autres dans un jeu. La logique tétravalente, avec ses valeurs qui permettent de représenter des compromis et des stratégies alternatives, peut ouvrir de nouvelles perspectives pour l'exploration de solutions non optimales mais néanmoins acceptables. Dans le cas des LLM, cela pourrait impliquer de générer des réponses qui, bien que non parfaitement correctes selon une définition stricte, pourraient être plus utiles ou appropriées dans un contexte donné. Par exemple, un LLM pourrait proposer une réponse "incomplète mais plausible" à une question complexe, plutôt que de rester silencieux ou de fournir une réponse erronée. Conclusion: L'approche tétravalente de la théorie des jeux offre un cadre théorique complémentaire et puissant pour enrichir les travaux présentés dans le texte. En intégrant la capacité de capturer l'incertitude, de modéliser des dynamiques évolutives et d'explorer des stratégies alternatives, les LLM pourraient progresser vers une compréhension plus fine du langage naturel et une meilleure performance dans des tâches complexes et réalistes. Analogies entre le texte et l'approche tétravalente Jeu du consensus et équilibre de Nash : L'équilibre de Nash, concept central de la théorie des jeux classique, trouve un écho dans le jeu du consensus, où les deux systèmes du LLM convergent vers une réponse commune. La logique tétravalente permet d'étendre cette notion d'équilibre en introduisant des nuances et en capturant l'incertitude inhérente aux interactions linguistiques. Négociation et diplomatie : Le texte mentionne le jeu de la diplomatie comme un défi pour les IA. La logique tétravalente, avec sa capacité à représenter des compromis et des stratégies alternatives, pourrait s'avérer utile pour modéliser les négociations complexes et les interactions diplomatiques, où des solutions optimales ne sont pas toujours possibles. Apprentissage par renforcement : L'approche du jeu du consensus peut être vue comme une forme d'apprentissage par renforcement, où les deux systèmes du LLM sont récompensés pour des réponses cohérentes. La logique tétravalente pourrait enrich

Ajouté à la BD par miguel

Paramètres de recherches