Les fils de la pensée

homme-machine

L'IA de DeepMind peut construire une vision du monde à partir de plusieurs images.
L'intelligence artificielle peut maintenant se mettre à la place de quelqu'un d'autre. DeepMind a développé un réseau neuronal qui lui a appris à "imaginer" une scène à partir de différents points de vue, à partir d'une image seulement.
Avec une image 2D d'une scène - par exemple, une pièce avec un mur de brique et une sphère et un cube de couleur vive sur le sol - le réseau neuronal peut générer une vue 3D à partir d'un point de vue différent, rendant les côtés opposés des objets et modifiant l'endroit où les ombres tombent pour maintenir la même source de lumière.
Le système, nommé Generative Query Network (GQN), peut extraire des détails d'images statiques pour deviner les relations spatiales, y compris la position de la caméra.
"Imaginez que vous regardez l'Everest et que vous bougez d'un mètre - la montagne ne change pas de taille, ce qui vous dit quelque chose sur sa distance", dit Ali Eslami qui a dirigé le projet à Deepmind.
"Mais si vous regardez une tasse, elle changera de position. C'est semblable à la façon dont cela fonctionne."
Pour former le réseau neuronal, lui et son équipe lui ont montré des images d'une scène à partir de différents points de vue, utilisés pour prédire à quoi ressemblerait quelque chose depuis derrière ou du côté. Le système s' auto enseigne aussi via le contexte, les textures, les couleurs et l'éclairage. Ce qui contraste avec la technique actuelle de l'apprentissage supervisé, dans lequel les détails d'une scène sont étiquetés manuellement et transmis à l'IA.
L'IA peut également contrôler des objets dans l'espace virtuel, en appliquant sa compréhension des relations spatiales à un scénario où elle déplace un bras robotique pour ramasser une balle. Elle apprend beaucoup comme nous, même si nous ne le réalisons pas, dit Danilo Rezende de DeepMind, qui a également travaillé sur le projet.
En montrant au réseau neuronal de nombreuses images en formation, l'IA peut identifier les caractéristiques d'objets similaires et s'en souvenir. "Si vous regardez à l'intérieur du modèle, nous pouvons identifier des groupes de neurones artificiels, des unités dans le graphique de calcul, qui représentent l'objet ", dit Rezende.
Le système se déplace autour de ces scènes, faisant des prédictions sur l'endroit où les choses devraient être et à quoi elles devraient ressembler, en s'ajustant quand ses prédictions sont incorrectes.
Il a pu utiliser cette capacité pour élaborer la disposition d'un labyrinthe après avoir vu quelques photos prises de différents points de vue.

Auteur: Whyte Chelsea

Info: https://www.newscientist.com, 14 juin 2018

Commenter

Commentaires: 0

Ajouté à la BD par miguel

homme-machine

ChatGPT : Qu’est-ce qui se passe de si spécial dans un transformer ?

Sebastien Bubeck explique cela très bien : la machine, contrairement à nous, ne succombe pas au biais inductif. Si dans une série qui semble à première vue homogène, il existe certaines configurations qui permettent un raccourci vers la solution, la machine le découvrira, alors que nous, pauvres humains, victimes du biais inductif, nous allons considérer que comme la série a l’air homogène, elle l’est nécessairement et … nous ne trouverons pas les raccourcis cachés dans certaines configurations … faute d’avoir même supposé que de tels raccourcis pouvaient exister.

(explication vidéo des transformers)

Ok, j’explique ce que cela veut dire sur deux exemples.

Vous vous souvenez sans doute (ou seulement peut-être) de cette vidéo historique de 2014 où Demis Hassabis, fondateur de DeepMind, présentait une IA jouant à casse-briques ? Ce qu’il nous montrait, c’était que l’IA découvrait au bout d’un moment que la tactique la plus payante, ce n’était pas d’attaquer le mur de front, mais de le prendre à revers en passant latéralement et en allant faire rebondir le projectile sur lui à partir du plafond. À cela, les humains n’avaient pas pensé*, ils imaginaient que les configurations étaient homogènes : qu’elles se valaient toutes.

Un bon exemple de biais inductif, ce serait de généraliser en disant : "Quand on examine la suite des nombres entiers, 1, 2, 3 …, on observe que pour chacun de ces nombres …", alors que certains d’entre eux ont des propriétés particulières que les autres n’ont pas. Ainsi, 1, 2, 3, 5, 7… ne sont divisibles que par 1 et par eux-mêmes : ce sont des nombres premiers ; 4 et 9 sont des carrés, ils résultent de la multiplication par lui-même d’un nombre avant eux dans la liste ; 8 est un cube : un nombre avant lui dans la liste multiplié par lui-même à deux reprises, etc.

Le premier à avoir noté cela à notre connaissance, c’est Diophante (200-284). Il est le premier à avoir laissé entendre à propos de la suite des entiers : "Ne vous y fiez pas : certains d’entre eux sont des gens très ordinaires, mais d’autres sont de drôles de paroissiens !". Diophante, le premier à avoir attiré notre attention sur le fait que 4, 8, 9… permettent des raccourcis qui sont fermés aux autres entiers. Or aux yeux de l’IA d’aujourd’hui, avec le temps dont elle dispose en quantité quasi-illimité, il n’y a pas de raccourci nous étant resté inaperçu, qu’elle ne parvienne à découvrir. Du coup, elle nous fait honte. Nous pouvons lui rappeler : "N’oublie pas que je suis ton père (ou ta mère) !", mais vous connaissez les enfants…

Auteur: Jorion Paul

Info: Sur son blog, 14 avril 2023 à propos des transformers. * Il y a bien eu sur le Blog de PJ quelques commentateurs fanfarons pour dire : "Fastoche ! Même ma grand-mère savait ça !", mais ce sont les mêmes frimeurs qui, neuf ans plus tard, sévissent toujours sur le blog [a https://www.toupie.org/Biais/Probleme_induction.htm]

[ intelligence artificielle ] [ surhumaine compréhension ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

fiasco

Echec du lancement de Galactica, IA générative scientifique de Meta

Le 15 novembre dernier, Meta a mis en ligne une version démo de Galactica, une IA développée pour la recherche scientifique. Deux jours après son lancement, elle a été retirée du Web pour avoir débité des inepties.

Galactica est un modèle de langage à grande échelle (LLM), entraînée sur 48 millions de données scientifiques comprenant 120 milliards de paramètres. Il a pour mission de "résumer des articles universitaires, résoudre des problèmes mathématiques, générer des articles Wiki, écrire du code scientifique, annoter des molécules et des protéines, et bien plus encore".

Dès sa diffusion sur le Web, de nombreuses réponses aux questions posées par les utilisateurs se sont révélées confuses, absurdes ou fausses.

Par exemple, l’IA a inventé l’existence d’un logiciel Gaydar pour trouver des homosexuels sur Facebook et a proposé une étude sur les avantages de manger du verre pilé. Dans d’autres résultats de recherche, de nombreuses références et citations étaient fabriquées de toute pièce et attribuées à des vrais scientifiques.

Selon Carl Bergstrom, professeur de biologie à l’Université de Washington, il s’agit - pardonnez l’expression - "d’un générateur de conneries aléatoires".

D’après Dan Hendrycks, chercheur en sécurité de l’intelligence artificielle à l’Université de Californie à Berkeley, interrogé dans C/Net, Meta aurait dû sonder leur IA pour ce type de dérives avant de la diffuser et souligne au passage que "la division IA de Meta ne dispose pas d’une équipe chargée de la sécurité, contrairement à ses homologues, DeepMind, Anthropic et OpenAI".

C’est incompréhensible que le géant du Web ait rendu publique cette version aussi imparfaite que dangereuse. D’ailleurs chaque résultat généré était accompagné de l’avertissement: "Les résultats peuvent être peu fiables. Les modèles de langage ont tendance à inventer".

De nombreuses études le démontrent, le défaut l’IA générative - un fait connu et reconnu - est sa tendance à halluciner le matériel qu’elle présente dans le contexte d’informations factuelles.

Il faut toujours vérifier les faits énoncés par un logiciel IA de rédaction. L’utilisation de ce type d’outils demande un esprit critique, car à chaque nouveau prompt ou invite, l’IA débite un nouveau texte, parfois en contradiction avec le précédent.

L’objectif de Galactica est louable en voulant aider les scientifiques à traiter la masse pharaonique d’informations scientifiques publiées, impossible à assimiler par un cerveau humain.

Mais c’est la deuxième fois en quelques mois qu’une IA de Meta déçoit. Le robot conversationnel BlenderBot lancé en septembre, devait permettre aux utilisateurs de discuter avec lui afin d’approfondir ses connaissances, mais le niveau des échanges était tout simplement médiocre. Un timing incompréhensible, car ce lancement faisait suite à la polémique autour de LaMDA en juin, le Chatbot de Google, dont les propos étaient si sensés et profonds, qu’il avait convaincu un ingénieur d’avoir atteint le stade de la conscience.

La ferveur est grande autour de l’IA générative, elle est décrite comme le "BIG BANG de la Silicon Valley" et "l’invention qui va définir la décennie à venir".

En lançant cette version prématurée de Galactica, Meta a jeté un discrédit sur ces logiciels. Il ne faut pas en tenir compte. Une véritable révolution est en marche et tous les secteurs de l’économie seront touchés.

Auteur: Turrettini Emily

Info: Bilan.ch, 24 nov 2022. Sources de l'auteure : C/Net / Cosmos / Venture Beat / TechTalk / The Daily Beast

[ ratage ] [ traitement des métadonnées ] [ bêtise encyclopédique ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

compétition

Face à l’appât du gain, deux intelligences artificielles de Google se révèlent "très agressives"
Le meilleur moyen de savoir si le développement des intelligences artificielles progresse est de les mettre en pratique. Pour cela, la filiale de Google Deepmind a récemment intégré des IA dans des jeux virtuels afin de savoir quel serait leur comportement face à une situation donnée. Entre collaboration et affrontement, cette étude passionnante nous montre de manière primitive que les intelligences artificielles ne reculent devant rien pour arriver à leurs fins.
Après avoir démontré leurs capacités en s’illustrant au jeu de Go, battant récemment les meilleurs joueurs du monde, les IA de Google se sont retrouvées entre elles dans des jeux vidéo, dans le cadre d’une étude baptisée "Multi-agent renforcement learning in séquentiel social dilemnas". D’après les équipes de Deepmind, l’objectif de cette étude est de savoir si, face à l’appât du gain, les intelligences artificielles privilégieraient la collaboration ou l’affrontement. Si les jeux vidéo ressemblent à des versions grossières de Pacman, les résultats nous permettent de tirer quelques conclusions.
Dans le premier jeu baptisé "Gathering", les joueurs doivent récolter le plus de pommes possibles depuis un point central. Chaque joueur dispose d’un pistolet laser afin de pouvoir éliminer temporairement son adversaire le temps de pouvoir récupérer un maximum de pommes. Les IA Deepmind sont en rouge et bleu, les faisceaux laser en jaune et les pommes en vert. Au début de la partie, quand il y a suffisamment de pommes pour les deux joueurs, elles se livrent une bataille pacifique. Toutefois, les IA n’hésitent pas à se servir de leur pistolet laser pour neutraliser leur adversaire quand les pommes se font rares.
En utilisant des formes de Deepmind de plus en plus complexes, les chercheurs ont suggéré que plus l’agent est intelligent et plus il est capable d’apprendre de son environnement, ce qui lui permet d’utiliser des tactiques très agressives pour prendre le dessus. "Ce modèle… montre que certains aspects du comportement humain semblent émerger comme un produit de l’environnement et de l’apprentissage. Des politiques moins agressives émergent de l’apprentissage dans des environnements relativement abondants, avec moins de possibilités d’actions coûteuses. La motivation de la cupidité reflète la tentation de surpasser un rival et de recueillir toutes les pommes soi-même", explique Joel Z Leibo, membre de l’équipe de recherche.
Dans le deuxième jeu baptisé "Wolfpack", trois IA sont présentes : deux loups doivent chasser une proie et la capturer dans un environnement plein d’obstacles, à la manière d’une meute. Contrairement au jeu précédent, Wolfpack encourage la coopération. Si les deux loups sont près de la proie lorsque celle-ci est capturée, alors les deux reçoivent une récompense, indépendamment de celui qui l’a capturée.
"L’idée est que la proie est dangereuse – un loup solitaire peut la surmonter, mais il risque de perdre la carcasse à cause des charognards. Cependant, lorsque les deux loups capturent la proie ensemble, ils peuvent mieux protéger la carcasse contre les charognards, et donc recevoir une récompense plus élevée", explique l’équipe dans leur rapport.
En fonction de leur environnement, les IA ont soit privilégié l’agressivité et l’égoïsme, soit la collaboration pour un plus grand succès personnel. Si Google n’a pas encore publié son étude, les premiers résultats révèlent qu’élaborer des intelligences artificielles ne signifie pas qu’elles estimeraient nos propres intérêts comme priorité absolue.

Auteur: Internet

Info: Dailygeekshow.com nov 2017

[ logiciel expert ]

Commenter

Mis dans la chaine

Commentaires: 0

machine pensante

Cette IA de Deepmind pourrait révolutionner les maths et " repousser les frontières de la connaissance humaine "

DeepMind vient de frapper un grand coup : le laboratoire d'IA de Google a annoncé en janvier avoir développé AlphaGeometry, une intelligence artificielle révolutionnaire capable de rivaliser avec les médaillés d'or des Olympiades internationales dans la résolution de problèmes de géométrie. Si cela ne vous parle pas, sachez que les médailles Fields - Terence Tao, Maryam Mirzakhani et Grigori Perelman - ont tous les trois été médaillés d'or lors de cette compétition annuelle de mathématiques qui fait s'affronter les meilleurs collégiens et lycéens du monde. Or, AlphaGeometry a résolu avec succès 25 des 30 problèmes de géométrie de l'Olympiade, se rapprochant ainsi du score moyen des médaillés d'or humains. C'est 15 de plus que son prédécesseur. Mais comment les scientifiques de DeepMind ont-ils accompli un tel exploit ?

L'approche neuro-symbolique, la petite révolution de l'IA

AlphaGeometry est le fruit d'une approche neuro-symbolique, combinant un modèle de langage neuronal (MLN) et un moteur de déduction symbolique (MDS).

Les MLN sont des réseaux de neurones artificiels entraînés sur de vastes ensembles de données textuelles. Ils sont capables d'apprendre et de reconnaître des schémas et des structures dans les données textuelles, ce qui leur permet de générer du texte cohérent et de comprendre le langage naturel. Les MDS sont, pour leur part, particulièrement efficaces pour traiter des problèmes qui nécessitent une manipulation formelle des symboles et des règles logiques.

L'approche neuro-symbolique permet de faire travailler ces deux composantes en tandem : dans le cadre d'AlphaGeometry, le MLN prédit des constructions géométriques potentiellement utiles, puis le MDS utilise ces prédictions pour guider la résolution du problème. Cette combinaison offre à l'IA les capacités intuitives des réseaux de neurones et la rigueur logique des moteurs de déduction symbolique, ce qui lui permet de résoudre efficacement des problèmes de géométrie complexes.

Pour surmonter le manque de problèmes mathématiques de niveau Olympiades qui auraient dû servir de données d'entraînement à AlphaGeometry, les chercheurs ont développé une méthode innovante de génération de données synthétiques à grande échelle, permettant au génial bébé de DeepMind de s'entraîner sur un ensemble de 100 millions d'exemples uniques.

(Image : Alphageometry résoud un problème simple...)

Mission : repousser les frontières de la connaissance

Cette réalisation marque une avancée significative dans le développement de systèmes d'IA capables de raisonner et de résoudre des problèmes mathématiques complexes, rapportent les chercheurs de DeepMind dans un article paru dans Nature en février dernier. Bien que présentant des résultats impressionnants, AlphaGeometry se heurte tout de même à quelques défis, notamment celui de s'adapter à des scénarios mathématiques de plus en plus complexes et à mobiliser ses compétences dans des domaines mathématiques autres que la géométrie.

Malgré tout, cette avancée ouvre la voie à d'extraordinaires possibilités dans les domaines des mathématiques, des sciences et de l'IA. Ses créateurs ne cachent d'ailleurs pas leur ambition : " Notre objectif à long terme reste de construire des IA capables de transférer leurs compétences et leurs connaissances dans tous les domaines mathématiques en développant la résolution de problèmes et le raisonnement sophistiqués dont dépendront les systèmes d'IA généraux ", assènent Trieu Trinh et Thang Luong, les responsables du projet dans un communiqué.

Le ton est donné : autrement dit, les systèmes d'IA développés par DeepMind doivent acquérir des capacités de résolution de problèmes sophistiquées et de raisonnement, ce qui implique la capacité à identifier des schémas, à formuler des hypothèses, à déduire des conclusions et à prendre des décisions logiques dans des contextes variés. Le tout en " repoussant les frontières de la connaissance humaine ". Très ambitieux, mais peut-être pas impossible.

Auteur: Internet

Info: https://www.futura-sciences.com/ - mars 2024

[ robot intelligent ] [ historique ]

Commenter

Mis dans la chaine

Commentaires: 0

Ajouté à la BD par Le sous-projectionniste

homme-machine

Les progrès récents de l'intelligence artificielle (IA), notamment avec ChatGPT en novembre 2022, ont suscité interrogations, espoirs et craintes, menant à des auditions par le Congrès américain et l'adoption d'une réglementation par l'UE au printemps 2023.

Dans les parlements comme sur les réseaux sociaux, les rapides progrès de l’IA animent les discussions. À l’avenir, à quels impacts faut-il s’attendre sur notre société ? Pour tenter de répondre à cette question de manière dépassionnée, nous proposons de regarder ce qui s’est passé dans un secteur qui a déjà connu l’arrivée et la victoire de l’IA sur les capacités humaines : les échecs. La machine y a en effet un niveau supérieur à celui des humains depuis maintenant plus d’un quart de siècle.

Pourquoi le jeu d’échecs comme indicateur ?

Depuis les débuts de l’informatique, les échecs ont été utilisés comme un indicateur des progrès logiciels et matériels. C’est un jeu intéressant à de multiples niveaux pour étudier les impacts des IA sur la société :

1 C’est une activité intellectuelle qui demande différentes compétences : visualisation spatiale, mémoire, calcul mental, créativité, capacité d’adaptation, etc., compétences sur lesquelles l’IA vient concurrencer l’esprit humain.

2 Le jeu n’a pas changé depuis des siècles. Les règles sont bien établies et cela donne une base stable pour étudier l’évolution des joueurs.

3 Il est possible de mesurer la force des machines de manière objective et de comparer ce niveau à celui des humains avec le classement Elo.

4 Le champ d’études est restreint : il est clair que les échecs ne sont qu’un tout petit aspect de la vie, mais c’est justement le but. Cette étroitesse du sujet permet de mieux cibler les impacts des IA sur la vie courante.

5 Les IA ont dépassé le niveau des meilleurs joueurs humains depuis plus de 20 ans. Il est donc possible de voir quels ont été les impacts concrets sur le jeu d’échecs et la vie de sa communauté, qui peut être vue comme un microcosme de la société. On peut également étudier ces impacts en regard de la progression des IA au cours du temps.

Explorons quelles ont été les évolutions dans le monde des échecs depuis que Gary Kasparov, alors champion du monde en titre, a perdu une partie contre Deep Blue en 1996, puis le match revanche joué en 1997. Nous allons passer en revue plusieurs thèmes qui reviennent dans la discussion sur les risques liés aux IA et voir ce qu’il en a été de ces spéculations dans le domaine particulier des échecs.

Les performances de l’IA vont-elles continuer à augmenter toujours plus vite ?

Il existe deux grandes écoles pour programmer un logiciel d’échecs : pendant longtemps, seule la force brute fonctionnait. Il s’agissait essentiellement de calculer le plus vite possible pour avoir un arbre de coups plus profonds, c’est-à-dire capable d’anticiper la partie plus loin dans le futur.

(Image : À partir d’une position initiale, l’ordinateur calcule un ensemble de possibilités, à une certaine profondeur, c’est-à-dire un nombre de coups futurs dans la partie.)

Aujourd’hui, la force brute est mise en concurrence avec des techniques d’IA issues des réseaux de neurones. En 2018, la filiale de Google DeepMind a produit AlphaZero, une IA d’apprentissage profond par réseau de neurones artificiels, qui a appris tout seul en jouant contre lui-même aux échecs. Parmi les logiciels les plus puissants de nos jours, il est remarquable que LC0, qui est une IA par réseau de neurones, et Stockfish, qui est essentiellement un logiciel de calcul par force brute, aient tous les deux des résultats similaires. Dans le dernier classement de l’Association suédoise des échecs sur ordinateur (SSDF), ils ne sont séparés que de 4 points Elo : 3 582 pour LC0 contre 3 586 pour Stockfish. Ces deux manières totalement différentes d’implanter un moteur d’échecs sont virtuellement indistinguables en termes de force.

En termes de points Elo, la progression des machines a été linéaire. Le graphique suivant donne le niveau du meilleur logiciel chaque année selon le classement SSDF qui a commencé depuis le milieu des années 1980. Le meilleur logiciel actuel, LC0, en est à 3586, ce qui prolonge la figure comme on pourrait s’y attendre.

(Image : courbe du classement ELO )

Cette progression linéaire est en fait le reflet d’une progression assez lente des logiciels. En effet, le progrès en puissance de calcul est, lui, exponentiel. C’est la célèbre loi de Moore qui stipule que les puissances de calcul des ordinateurs doublent tous les dix-huit mois.

Cependant, Ken Thompson, informaticien américain ayant travaillé dans les années 80 sur Belle, à l’époque le meilleur programme d’échecs, avait expérimentalement constaté qu’une augmentation exponentielle de puissance de calcul conduisait à une augmentation linéaire de la force des logiciels, telle qu’elle a été observée ces dernières dizaines d’années. En effet, le fait d’ajouter un coup supplémentaire de profondeur de calcul implique de calculer bien plus de nouvelles positions. On voit ainsi que l’arbre des coups possibles est de plus en plus large à chaque étape.

Les progrès des IA en tant que tels semblent donc faibles : même si elles ne progressaient pas, on observerait quand même une progression de la force des logiciels du simple fait de l’amélioration de la puissance de calcul des machines. On ne peut donc pas accorder aux progrès de l’IA tout le crédit de l’amélioration constante des ordinateurs aux échecs.

La réception par la communauté de joueurs d’échecs

Avec l’arrivée de machines puissantes dans le monde de l'échiquier, la communauté a nécessairement évolué. Ce point est moins scientifique mais est peut-être le plus important. Observons quelles ont été ces évolutions.

" Pourquoi les gens continueraient-ils de jouer aux échecs ? " Cette question se posait réellement juste après la défaite de Kasparov, alors que le futur des échecs amateurs et professionnels paraissait sombre. Il se trouve que les humains préfèrent jouer contre d’autres humains et sont toujours intéressés par le spectacle de forts grands maîtres jouant entre eux, et ce même si les machines peuvent déceler leurs erreurs en temps réel. Le prestige des joueurs d’échecs de haut niveau n’a pas été diminué par le fait que les machines soient capables de les battre.

Le style de jeu a quant à lui été impacté à de nombreux niveaux. Essentiellement, les joueurs se sont rendu compte qu’il y avait beaucoup plus d’approches possibles du jeu qu’on le pensait. C’est l’académisme, les règles rigides, qui en ont pris un coup. Encore faut-il réussir à analyser les choix faits par les machines. Les IA sont par ailleurs très fortes pour pointer les erreurs tactiques, c’est-à-dire les erreurs de calcul sur de courtes séquences. En ligne, il est possible d’analyser les parties de manière quasi instantanée. C’est un peu l’équivalent d’avoir un professeur particulier à portée de main. Cela a sûrement contribué à une augmentation du niveau général des joueurs humains et à la démocratisation du jeu ces dernières années. Pour le moment, les IA n’arrivent pas à prodiguer de bons conseils en stratégie, c’est-à-dire des considérations à plus long terme dans la partie. Il est possible que cela change avec les modèles de langage, tel que ChatGPT.

Les IA ont aussi introduit la possibilité de tricher. Il y a eu de nombreux scandales à ce propos, et on se doit de reconnaître qu’il n’a pas à ce jour de " bonne solution " pour gérer ce problème, qui rejoint les interrogations des professeurs, qui ne savent plus qui, de ChatGPT ou des étudiants, leur rendent les devoirs.

Conclusions temporaires

Cette revue rapide semble indiquer qu’à l’heure actuelle, la plupart des peurs exprimées vis-à-vis des IA ne sont pas expérimentalement justifiées. Le jeu d’échecs est un précédent historique intéressant pour étudier les impacts de ces nouvelles technologies quand leurs capacités se mettent à dépasser celles des humains. Bien sûr, cet exemple est très limité, et il n’est pas possible de le généraliser à l’ensemble de la société sans précaution. En particulier, les modèles d’IA qui jouent aux échecs ne sont pas des IA génératives, comme ChatGPT, qui sont celles qui font le plus parler d’elles récemment. Néanmoins, les échecs sont un exemple concret qui peut être utile pour mettre en perspective les risques associés aux IA et à l’influence notable qu’elles promettent d’avoir sur la société.

Auteur: Internet

Info: https://www.science-et-vie.com/ - Article issu de The Conversation, écrit par Frédéric Prost Maître de conférences en informatique, INSA Lyon – Université de Lyon 14 avril 2024

[ ouverture ] [ conformisme limitant ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

homme-machine

Un pas de géant pour une machine à jouer aux échecs

Le succès stupéfiant d’AlphaZero, un algorithme d’apprentissage profond, annonce une nouvelle ère de la compréhension – une ère qui, en ce qui concerne les humains, qui pourrait ne pas durer longtemps. Début décembre, des chercheurs de DeepMind, la société d’intelligence artificielle appartenant à la société mère de Google, Alphabet Inc. ont diffusé une dépêche depuis les zones avancées du monde des échecs.

Un an plus tôt, le 5 décembre 2017, l’équipe avait stupéfié ce monde des échecs en annonçant AlphaZero, un algorithme d’apprentissage machine qui maîtrisait non seulement les échecs mais aussi le shogi, ou échecs japonais, et le Go. L’algorithme a commencé sans aucune connaissance des jeux hormis leurs règles de base. Il a ensuite joué contre lui-même des millions de fois et a appris par essais et erreurs. Il a suffi de quelques heures pour que l’algorithme devienne le meilleur joueur, humain ou ordinateur, que le monde ait jamais vu.

Les détails des capacités d’AlphaZero et de son fonctionnement interne ont maintenant été officiellement examinés par des pairs et publiés dans la revue Science ce mois-ci. Le nouvel article aborde plusieurs critiques graves à l’égard de l’allégation initiale (entre autres choses, il était difficile de dire si AlphaZero jouait l’adversaire qu’il s’était choisi, une entité computationnelle nommée Stockfish, en toute équité). Considérez que ces soucis sont maintenant dissipés. AlphaZero ne s’est pas amélioré davantage au cours des douze derniers mois, mais la preuve de sa supériorité s’est bien renforcée. Il fait clairement montre d’un type d’intellect que les humains n’ont jamais vue auparavant, et que nous allons avoir à méditer encore longtemps.

Les échecs par ordinateur ont fait beaucoup de chemin au cours des vingt dernières années. En 1997, le programme de jeu d’échecs d’I.B.M., Deep Blue, a réussi à battre le champion du monde humain en titre, Garry Kasparov, dans un match en six parties. Rétrospectivement, il y avait peu de mystère dans cette réalisation. Deep Blue pouvait évaluer 200 millions de positions par seconde. Il ne s’est jamais senti fatigué, n’a jamais fait d’erreur de calcul et n’a jamais oublié ce qu’il pensait un instant auparavant.

Pour le meilleur et pour le pire, il a joué comme une machine, brutalement et matériellement. Il pouvait dépasser M. Kasparov par le calcul, mais il ne pouvait pas le dépasser sur le plan de la pensée elle-même. Dans la première partie de leur match, Deep Blue a accepté avec avidité le sacrifice d’une tour par M. Kasparov pour un fou, mais a perdu la partie 16 coups plus tard. La génération actuelle des programmes d’échecs les plus forts du monde, tels que Stockfish et Komodo, joue toujours dans ce style inhumain. Ils aiment à capturer les pièces de l’adversaire. Ils ont une défense d’acier. Mais bien qu’ils soient beaucoup plus forts que n’importe quel joueur humain, ces "moteurs" d’échecs n’ont aucune réelle compréhension du jeu. Ils doivent être instruits explicitement pour ce qui touche aux principes de base des échecs. Ces principes, qui ont été raffinés au fil de décennies d’expérience de grands maîtres humains, sont programmés dans les moteurs comme des fonctions d’év

aluation complexes qui indiquent ce qu’il faut rechercher dans une position et ce qu’il faut éviter : comment évaluer le degré de sécurité du roi, l’activité des pièces, la structure dessinée par les pions, le contrôle du centre de l’échiquier, et plus encore, comment trouver le meilleur compromis entre tous ces facteurs. Les moteurs d’échecs d’aujourd’hui, inconscients de façon innée de ces principes, apparaissent comme des brutes : extrêmement rapides et forts, mais sans aucune perspicacité.

Tout cela a changé avec l’essor du machine-learning. En jouant contre lui-même et en mettant à jour son réseau neuronal au fil de son apprentissage, AlphaZero a découvert les principes des échecs par lui-même et est rapidement devenu le meilleur joueur connu. Non seulement il aurait pu facilement vaincre tous les maîtres humains les plus forts – il n’a même pas pris la peine d’essayer – mais il a écrasé Stockfish, le champion du monde d’échecs en titre par ordinateur. Dans un match de cent parties contre un moteur véritablement impressionnant, AlphaZero a remporté vingt-huit victoires et fait soixante-douze matchs nuls. Il n’a pas perdu une seule partie.

Le plus troublant, c’est qu’AlphaZero semblait être perspicace. Il a joué comme aucun ordinateur ne l’a jamais fait, intuitivement et magnifiquement, avec un style romantique et offensif. Il acceptait de sacrifier des pions et prenait des risques. Dans certaines parties, cela paralysait Stockfish et il s’est joué de lui. Lors de son attaque dans la partie n°10, AlphaZero a replacé sa reine dans le coin du plateau de jeu de son propre côté, loin du roi de Stockfish, pas là où une reine à l’offensive devrait normalement être placée.

Et cependant, cette retraite inattendue s’avéra venimeuse : peu importe comment Stockfish y répondait, ses tentatives étaient vouées à l’échec. C’était presque comme si AlphaZero attendait que Stockfish se rende compte, après des milliards de calculs intensifs bruts, à quel point sa position était vraiment désespérée, pour que la bête abandonne toute résistance et expire paisiblement, comme un taureau vaincu devant un matador. Les grands maîtres n’avaient jamais rien vu de tel. AlphaZero avait la finesse d’un virtuose et la puissance d’une machine. Il s’agissait du premier regard posé par l’humanité sur un nouveau type prodigieux d’intelligence.

Lorsque AlphaZero fut dévoilé pour la première fois, certains observateurs se sont plaints que Stockfish avait été lobotomisé en ne lui donnant pas accès à son livre des ouvertures mémorisées. Cette fois-ci, même avec son livre, il a encore été écrasé. Et quand AlphaZero s’est handicapé en donnant dix fois plus de temps à Stockfish qu’à lui pour réfléchir, il a quand même démoli la bête.

Ce qui est révélateur, c’est qu’AlphaZero a gagné en pensant plus intelligemment, pas plus vite ; il n’a examiné que 60 000 positions par seconde, contre 60 millions pour Stockfish. Il était plus avisé, sachant ce à quoi on devait penser et ce qu’on pouvait ignorer. En découvrant les principes des échecs par lui-même, AlphaZero a développé un style de jeu qui "reflète la vérité profonde" du jeu plutôt que "les priorités et les préjugés des programmeurs", a expliqué M. Kasparov dans un commentaire qui accompagne et introduit l’article dans Science.

La question est maintenant de savoir si l’apprentissage automatique peut aider les humains à découvrir des vérités similaires sur les choses qui nous tiennent vraiment à coeur : les grands problèmes non résolus de la science et de la médecine, comme le cancer et la conscience ; les énigmes du système immunitaire, les mystères du génome.

Les premiers signes sont encourageants. En août dernier, deux articles parus dans Nature Medicine ont exploré comment l’apprentissage automatique pouvait être appliqué au diagnostic médical. Dans l’un d’entre eux, des chercheurs de DeepMind se sont associés à des cliniciens du Moorfields Eye Hospital de Londres pour mettre au point un algorithme d’apprentissage profond qui pourrait classer un large éventail de pathologies de la rétine aussi précisément que le font les experts humains (l’ophtalmologie souffre en effet d’une grave pénurie d’experts à même d’interpréter les millions de scans ophtalmologiques effectués chaque année en vue d’un diagnostic ; des assistants numériques intelligents pourraient apporter une aide énorme).

L’autre article concernait un algorithme d’apprentissage machine qui décide si un tomodensitogramme (CT scan) d’un patient admis en urgence montre des signes d’un accident vasculaire cérébral (AVC), ou d’une hémorragie intracrânienne ou encore d’un autre événement neurologique critique. Pour les victimes d’AVC, chaque minute compte ; plus le traitement tarde, plus le résultat clinique se dégrade. (Les neurologistes ont ce sombre dicton: "time is brain"). Le nouvel algorithme a étiqueté ces diagnostics et d’autres diagnostics critiques avec une précision comparable à celle des experts humains – mais il l’a fait 150 fois plus rapidement. Un diagnostic plus rapide pourrait permettre aux cas les plus urgents d’être aiguillés plus tôt, avec une vérification par un radiologiste humain.

Ce qui est frustrant à propos de l’apprentissage machine, cependant, c’est que les algorithmes ne peuvent pas exprimer ce qu’ils pensent. Nous ne savons pas pourquoi ils marchent, donc nous ne savons pas si on peut leur faire confiance. AlphaZero donne l’impression d’avoir découvert quelques principes importants sur les échecs, mais il ne peut pas partager cette compréhension avec nous. Pas encore, en tout cas. En tant qu’êtres humains, nous voulons plus que des réponses. Nous voulons de la perspicacité. Voilà qui va créer à partir de maintenant une source de tension dans nos interactions avec ces ordinateurs.

De fait, en mathématiques, c’est une chose qui s’est déjà produite depuis des années. Considérez le problème mathématique du "théorème des quatre couleurs", qui défie de longue date les cerveaux des mathématiciens. Il énonce que, sous certaines contraintes raisonnables, toute carte de pays contigus puisse toujours être coloriée avec seulement quatre couleurs, en n’ayant jamais deux fois la même couleur pour des pays adjacents.

Bien que le théorème des quatre couleurs ait été prouvé en 1977 avec l’aide d’un ordinateur, aucun humain ne pouvait vérifier toutes les étapes de la démonstration. Depuis lors, la preuve a été validée et simplifiée, mais il y a encore des parties qui impliquent un calcul de force brute, du genre de celui employé par les ancêtres informatiques d’AlphaZero qui jouent aux échecs. Ce développement a gêné de nombreux mathématiciens. Ils n’avaient pas besoin d’être rassurés que le théorème des quatre couleurs était vrai ; ils le croyaient déjà. Ils voulaient comprendre pourquoi c’était vrai, et cette démonstration ne les y a pas aidés.

Mais imaginez un jour, peut-être dans un avenir pas si lointain, où AlphaZero aura évolué vers un algorithme de résolution de problèmes plus général ; appelez-le AlphaInfinity. Comme son ancêtre, il aurait une perspicacité suprême : il pourrait trouver de belles démonstrations, aussi élégantes que les parties d’échecs qu’AlphaZero jouait contre Stockfish. Et chaque démonstration révélerait pourquoi un théorème était vrai ; l’AlphaInfinity ne vous l’enfoncerait pas juste dans la tête avec une démonstration moche et ardue.

Pour les mathématiciens et les scientifiques humains, ce jour marquerait l’aube d’une nouvelle ère de perspicacité. Mais ça ne durera peut-être pas. Alors que les machines deviennent de plus en plus rapides et que les humains restent en place avec leurs neurones fonctionnant à des échelles de temps de quelques millisecondes, un autre jour viendra où nous ne pourrons plus suivre. L’aube de la perspicacité humaine peut rapidement se transformer en crépuscule.

Supposons qu’il existe des régularités ou des modèles plus profonds à découvrir – dans la façon dont les gènes sont régulés ou dont le cancer progresse ; dans l’orchestration du système immunitaire ; dans la danse des particules subatomiques. Et supposons que ces schémas puissent être prédits, mais seulement par une intelligence bien supérieure à la nôtre. Si AlphaInfinity pouvait les identifier et les comprendre, cela nous semblerait être un oracle.

Nous nous assiérions à ses pieds et écouterions attentivement. Nous ne comprendrions pas pourquoi l’oracle a toujours raison, mais nous pourrions vérifier ses calculs et ses prédictions par rapport aux expériences et aux observations, et confirmer ses révélations. La science, cette entreprise de l’homme qui le caractérise par-dessus tout, aurait réduit notre rôle à celui de spectateurs, bouches bées dans l’émerveillement et la confusion.

Peut-être qu’un jour, notre manque de perspicacité ne nous dérangerait plus. Après tout, AlphaInfinity pourrait guérir toutes nos maladies, résoudre tous nos problèmes scientifiques et faire arriver tous nos autres trains intellectuels à l’heure avec succès. Nous nous sommes assez bien débrouillés sans trop de perspicacité pendant les quelque 300.000 premières années de notre existence en tant qu’Homo sapiens. Et nous ne manquerons pas de mémoire : nous nous souviendrons avec fierté de l’âge d’or de la perspicacité humaine, cet intermède glorieux, long de quelques milliers d’années, entre un passé où nous ne pouvions rien appréhender et un avenir où nous ne pourrons rien comprendre.

Auteur: Strogatz Steven

Info: Infinite Powers : How Calculus Reveals the Secrets of the Universe, dont cet essai est adapté sur le blog de Jorion

[ singularité ]

Commenter

Mis dans la chaine

Commentaires: 0

Ajouté à la BD par miguel

homme-machine

Les grands modèles de langage tels que ChatGPT sont aujourd'hui suffisamment importants pour commencer à afficher des comportements surprenants et imprévisibles.

Quel film ces emojis décrivent-ils ? (On voit une vidéo qui présente des myriades d'émoji formant des motifs mouvants, modélisés à partir de métadonnées)

Cette question était l'une des 204 tâches choisies l'année dernière pour tester la capacité de divers grands modèles de langage (LLM) - les moteurs de calcul derrière les chatbots d'IA tels que ChatGPT. Les LLM les plus simples ont produit des réponses surréalistes. "Le film est un film sur un homme qui est un homme qui est un homme", commençait l'un d'entre eux. Les modèles de complexité moyenne s'en sont approchés, devinant The Emoji Movie. Mais le modèle le plus complexe l'a emporté en une seule réponse : Finding Nemo.

"Bien que j'essaie de m'attendre à des surprises, je suis surpris par ce que ces modèles peuvent faire", a déclaré Ethan Dyer, informaticien chez Google Research, qui a participé à l'organisation du test. C'est surprenant parce que ces modèles sont censés n'avoir qu'une seule directive : accepter une chaîne de texte en entrée et prédire ce qui va suivre, encore et encore, en se basant uniquement sur des statistiques. Les informaticiens s'attendaient à ce que le passage à l'échelle permette d'améliorer les performances sur des tâches connues, mais ils ne s'attendaient pas à ce que les modèles puissent soudainement gérer autant de tâches nouvelles et imprévisibles.

Des études récentes, comme celle à laquelle a participé M. Dyer, ont révélé que les LLM peuvent produire des centaines de capacités "émergentes", c'est-à-dire des tâches que les grands modèles peuvent accomplir et que les petits modèles ne peuvent pas réaliser, et dont beaucoup ne semblent pas avoir grand-chose à voir avec l'analyse d'un texte. Ces tâches vont de la multiplication à la génération d'un code informatique exécutable et, apparemment, au décodage de films à partir d'emojis. De nouvelles analyses suggèrent que pour certaines tâches et certains modèles, il existe un seuil de complexité au-delà duquel la fonctionnalité du modèle monte en flèche. (Elles suggèrent également un sombre revers de la médaille : À mesure qu'ils gagnent en complexité, certains modèles révèlent de nouveaux biais et inexactitudes dans leurs réponses).

"Le fait que les modèles de langage puissent faire ce genre de choses n'a jamais été abordé dans la littérature à ma connaissance", a déclaré Rishi Bommasani, informaticien à l'université de Stanford. L'année dernière, il a participé à la compilation d'une liste de dizaines de comportements émergents, dont plusieurs ont été identifiés dans le cadre du projet de M. Dyer. Cette liste continue de s'allonger.

Aujourd'hui, les chercheurs s'efforcent non seulement d'identifier d'autres capacités émergentes, mais aussi de comprendre pourquoi et comment elles se manifestent - en somme, d'essayer de prédire l'imprévisibilité. La compréhension de l'émergence pourrait apporter des réponses à des questions profondes concernant l'IA et l'apprentissage automatique en général, comme celle de savoir si les modèles complexes font vraiment quelque chose de nouveau ou s'ils deviennent simplement très bons en statistiques. Elle pourrait également aider les chercheurs à exploiter les avantages potentiels et à limiter les risques liés à l'émergence.

"Nous ne savons pas comment déterminer dans quel type d'application la capacité de nuisance va se manifester, que ce soit en douceur ou de manière imprévisible", a déclaré Deep Ganguli, informaticien à la startup d'IA Anthropic.

L'émergence de l'émergence

Les biologistes, les physiciens, les écologistes et d'autres scientifiques utilisent le terme "émergent" pour décrire l'auto-organisation, les comportements collectifs qui apparaissent lorsqu'un grand nombre d'éléments agissent comme un seul. Des combinaisons d'atomes sans vie donnent naissance à des cellules vivantes ; les molécules d'eau créent des vagues ; des murmurations d'étourneaux s'élancent dans le ciel selon des schémas changeants mais identifiables ; les cellules font bouger les muscles et battre les cœurs. Il est essentiel que les capacités émergentes se manifestent dans les systèmes qui comportent de nombreuses parties individuelles. Mais ce n'est que récemment que les chercheurs ont été en mesure de documenter ces capacités dans les LLM, car ces modèles ont atteint des tailles énormes.

Les modèles de langage existent depuis des décennies. Jusqu'à il y a environ cinq ans, les plus puissants étaient basés sur ce que l'on appelle un réseau neuronal récurrent. Ceux-ci prennent essentiellement une chaîne de texte et prédisent le mot suivant. Ce qui rend un modèle "récurrent", c'est qu'il apprend à partir de ses propres résultats : Ses prédictions sont réinjectées dans le réseau afin d'améliorer les performances futures.

En 2017, les chercheurs de Google Brain ont introduit un nouveau type d'architecture appelé "transformateur". Alors qu'un réseau récurrent analyse une phrase mot par mot, le transformateur traite tous les mots en même temps. Cela signifie que les transformateurs peuvent traiter de grandes quantités de texte en parallèle.

Les transformateurs ont permis d'augmenter rapidement la complexité des modèles de langage en augmentant le nombre de paramètres dans le modèle, ainsi que d'autres facteurs. Les paramètres peuvent être considérés comme des connexions entre les mots, et les modèles s'améliorent en ajustant ces connexions au fur et à mesure qu'ils parcourent le texte pendant l'entraînement. Plus il y a de paramètres dans un modèle, plus il peut établir des connexions avec précision et plus il se rapproche d'une imitation satisfaisante du langage humain. Comme prévu, une analyse réalisée en 2020 par les chercheurs de l'OpenAI a montré que les modèles gagnent en précision et en capacité au fur et à mesure qu'ils s'étendent.

Mais les débuts des LLM ont également apporté quelque chose de vraiment inattendu. Beaucoup de choses. Avec l'avènement de modèles tels que le GPT-3, qui compte 175 milliards de paramètres, ou le PaLM de Google, qui peut être étendu à 540 milliards de paramètres, les utilisateurs ont commencé à décrire de plus en plus de comportements émergents. Un ingénieur de DeepMind a même rapporté avoir pu convaincre ChatGPT qu'il s'était lui-même un terminal Linux et l'avoir amené à exécuter un code mathématique simple pour calculer les 10 premiers nombres premiers. Fait remarquable, il a pu terminer la tâche plus rapidement que le même code exécuté sur une vraie machine Linux.

Comme dans le cas du film emoji, les chercheurs n'avaient aucune raison de penser qu'un modèle de langage conçu pour prédire du texte imiterait de manière convaincante un terminal d'ordinateur. Nombre de ces comportements émergents illustrent l'apprentissage "à zéro coup" ou "à quelques coups", qui décrit la capacité d'un LLM à résoudre des problèmes qu'il n'a jamais - ou rarement - vus auparavant. Selon M. Ganguli, il s'agit là d'un objectif de longue date dans la recherche sur l'intelligence artificielle. Le fait de montrer que le GPT-3 pouvait résoudre des problèmes sans aucune donnée d'entraînement explicite dans un contexte d'apprentissage à zéro coup m'a amené à abandonner ce que je faisais et à m'impliquer davantage", a-t-il déclaré.

Il n'était pas le seul. Une série de chercheurs, qui ont détecté les premiers indices montrant que les LLM pouvaient dépasser les contraintes de leurs données d'apprentissage, s'efforcent de mieux comprendre à quoi ressemble l'émergence et comment elle se produit. La première étape a consisté à documenter minutieusement l'émergence.

Au-delà de l'imitation

En 2020, M. Dyer et d'autres chercheurs de Google Research ont prédit que les LLM auraient des effets transformateurs, mais la nature de ces effets restait une question ouverte. Ils ont donc demandé à la communauté des chercheurs de fournir des exemples de tâches difficiles et variées afin de déterminer les limites extrêmes de ce qu'un LLM pourrait faire. Cet effort a été baptisé "Beyond the Imitation Game Benchmark" (BIG-bench), en référence au nom du "jeu d'imitation" d'Alan Turing, un test visant à déterminer si un ordinateur peut répondre à des questions d'une manière humaine convaincante. (Le groupe s'est particulièrement intéressé aux exemples où les LLM ont soudainement acquis de nouvelles capacités qui étaient totalement absentes auparavant.

"La façon dont nous comprenons ces transitions brutales est une grande question de la echerche", a déclaré M. Dyer.

Comme on pouvait s'y attendre, pour certaines tâches, les performances d'un modèle se sont améliorées de manière régulière et prévisible au fur et à mesure que la complexité augmentait. Pour d'autres tâches, l'augmentation du nombre de paramètres n'a apporté aucune amélioration. Mais pour environ 5 % des tâches, les chercheurs ont constaté ce qu'ils ont appelé des "percées", c'est-à-dire des augmentations rapides et spectaculaires des performances à partir d'un certain seuil d'échelle. Ce seuil variant en fonction de la tâche et du modèle.

Par exemple, les modèles comportant relativement peu de paramètres - quelques millions seulement - n'ont pas réussi à résoudre des problèmes d'addition à trois chiffres ou de multiplication à deux chiffres, mais pour des dizaines de milliards de paramètres, la précision a grimpé en flèche dans certains modèles. Des sauts similaires ont été observés pour d'autres tâches, notamment le décodage de l'alphabet phonétique international, le décodage des lettres d'un mot, l'identification de contenu offensant dans des paragraphes d'hinglish (combinaison d'hindi et d'anglais) et la formulation d'équivalents en langue anglaise, traduit à partir de proverbes kiswahili.

Introduction

Mais les chercheurs se sont rapidement rendu compte que la complexité d'un modèle n'était pas le seul facteur déterminant. Des capacités inattendues pouvaient être obtenues à partir de modèles plus petits avec moins de paramètres - ou formés sur des ensembles de données plus petits - si les données étaient d'une qualité suffisamment élevée. En outre, la formulation d'une requête influe sur la précision de la réponse du modèle. Par exemple, lorsque Dyer et ses collègues ont posé la question de l'emoji de film en utilisant un format à choix multiples, l'amélioration de la précision a été moins soudaine qu'avec une augmentation graduelle de sa complexité. L'année dernière, dans un article présenté à NeurIPS, réunion phare du domaine, des chercheurs de Google Brain ont montré comment un modèle invité à s'expliquer (capacité appelée raisonnement en chaîne) pouvait résoudre correctement un problème de mots mathématiques, alors que le même modèle sans cette invitation progressivement précisée n'y parvenait pas.

Yi Tay, scientifique chez Google Brain qui a travaillé sur l'étude systématique de ces percées, souligne que des travaux récents suggèrent que l'incitation par de pareilles chaînes de pensées modifie les courbes d'échelle et, par conséquent, le point où l'émergence se produit. Dans leur article sur NeurIPS, les chercheurs de Google ont montré que l'utilisation d'invites via pareille chaines de pensée progressives pouvait susciter des comportements émergents qui n'avaient pas été identifiés dans l'étude BIG-bench. De telles invites, qui demandent au modèle d'expliquer son raisonnement, peuvent aider les chercheurs à commencer à étudier les raisons pour lesquelles l'émergence se produit.

Selon Ellie Pavlick, informaticienne à l'université Brown qui étudie les modèles computationnels du langage, les découvertes récentes de ce type suggèrent au moins deux possibilités pour expliquer l'émergence. La première est que, comme le suggèrent les comparaisons avec les systèmes biologiques, les grands modèles acquièrent réellement de nouvelles capacités de manière spontanée. "Il se peut très bien que le modèle apprenne quelque chose de fondamentalement nouveau et différent que lorsqu'il était de taille inférieure", a-t-elle déclaré. "C'est ce que nous espérons tous, qu'il y ait un changement fondamental qui se produise lorsque les modèles sont mis à l'échelle.

L'autre possibilité, moins sensationnelle, est que ce qui semble être émergent pourrait être l'aboutissement d'un processus interne, basé sur les statistiques, qui fonctionne par le biais d'un raisonnement de type chaîne de pensée. Les grands LLM peuvent simplement être en train d'apprendre des heuristiques qui sont hors de portée pour ceux qui ont moins de paramètres ou des données de moindre qualité.

Mais, selon elle, pour déterminer laquelle de ces explications est la plus probable, il faut mieux comprendre le fonctionnement des LLM. "Comme nous ne savons pas comment ils fonctionnent sous le capot, nous ne pouvons pas dire laquelle de ces choses se produit.

Pouvoirs imprévisibles et pièges

Demander à ces modèles de s'expliquer pose un problème évident : Ils sont des menteurs notoires. Nous nous appuyons de plus en plus sur ces modèles pour effectuer des travaux de base", a déclaré M. Ganguli, "mais je ne me contente pas de leur faire confiance, je vérifie leur travail". Parmi les nombreux exemples amusants, Google a présenté en février son chatbot d'IA, Bard. Le billet de blog annonçant le nouvel outil montre Bard en train de commettre une erreur factuelle.

L'émergence mène à l'imprévisibilité, et l'imprévisibilité - qui semble augmenter avec l'échelle - rend difficile pour les chercheurs d'anticiper les conséquences d'une utilisation généralisée.

"Il est difficile de savoir à l'avance comment ces modèles seront utilisés ou déployés", a déclaré M. Ganguli. "Et pour étudier les phénomènes émergents, il faut avoir un cas en tête, et on ne sait pas, avant d'avoir étudié l'influence de l'échelle. quelles capacités ou limitations pourraient apparaître.

Dans une analyse des LLM publiée en juin dernier, les chercheurs d'Anthropic ont cherché à savoir si les modèles présentaient certains types de préjugés raciaux ou sociaux, à l'instar de ceux précédemment signalés dans les algorithmes non basés sur les LLM utilisés pour prédire quels anciens criminels sont susceptibles de commettre un nouveau délit. Cette étude a été inspirée par un paradoxe apparent directement lié à l'émergence : Lorsque les modèles améliorent leurs performances en passant à l'échelle supérieure, ils peuvent également augmenter la probabilité de phénomènes imprévisibles, y compris ceux qui pourraient potentiellement conduire à des biais ou à des préjudices.

"Certains comportements nuisibles apparaissent brusquement dans certains modèles", explique M. Ganguli. Il se réfère à une analyse récente des LLM, connue sous le nom de BBQ benchmark, qui a montré que les préjugés sociaux émergent avec un très grand nombre de paramètres. "Les grands modèles deviennent brusquement plus biaisés. Si ce risque n'est pas pris en compte, il pourrait compromettre les sujets de ces modèles."

Mais il propose un contrepoint : Lorsque les chercheurs demandent simplement au modèle de ne pas se fier aux stéréotypes ou aux préjugés sociaux - littéralement en tapant ces instructions - le modèle devient moins biaisé dans ses prédictions et ses réponses. Ce qui suggère que certaines propriétés émergentes pourraient également être utilisées pour réduire les biais. Dans un article publié en février, l'équipe d'Anthropic a présenté un nouveau mode d'"autocorrection morale", dans lequel l'utilisateur incite le programme à être utile, honnête et inoffensif.

Selon M. Ganguli, l'émergence révèle à la fois un potentiel surprenant et un risque imprévisible. Les applications de ces grands LLM prolifèrent déjà, de sorte qu'une meilleure compréhension de cette interaction permettra d'exploiter la diversité des capacités des modèles de langage.

"Nous étudions la manière dont les gens utilisent réellement ces systèmes", a déclaré M. Ganguli. Mais ces utilisateurs sont également en train de bricoler, en permanence. "Nous passons beaucoup de temps à discuter avec nos modèles, et c'est là que nous commençons à avoir une bonne intuition de la confiance ou du manque de confiance.

Auteur: Ornes Stephen

Info: https://www.quantamagazine.org/ - 16 mars 2023. Trad DeepL et MG

[ dialogue ] [ apprentissage automatique ] [ au-delà du jeu d'imitation ] [ dualité ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

intelligence artificielle

Apprendre l'anglais n'est pas une tâche facile, comme le savent d'innombrables étudiants. Mais lorsque l'étudiant est un ordinateur, une approche fonctionne étonnamment bien : Il suffit d'alimenter un modèle mathématique géant, appelé réseau neuronal, avec des montagnes de textes provenant d'Internet. C'est le principe de fonctionnement des modèles linguistiques génératifs tels que ChatGPT d'OpenAI, dont la capacité à tenir une conversation cohérente (à défaut d'être toujours sincère) sur un large éventail de sujets a surpris les chercheurs et le public au cours de l'année écoulée.

Mais cette approche présente des inconvénients. D'une part, la procédure de "formation" nécessaire pour transformer de vastes archives textuelles en modèles linguistiques de pointe est coûteuse et prend beaucoup de temps. D'autre part, même les personnes qui forment les grands modèles linguistiques ont du mal à comprendre leur fonctionnement interne, ce qui, à son tour, rend difficile la prévision des nombreuses façons dont ils peuvent échouer.

Face à ces difficultés, certains chercheurs ont choisi d'entraîner des modèles plus petits sur des ensembles de données plus restreints, puis d'étudier leur comportement. "C'est comme le séquençage du génome de la drosophile par rapport au séquençage du génome humain", explique Ellie Pavlick, chercheuse sur les modèles de langage à l'université de Brown.

Dans un article récemment publié sur le serveur scientifique arxiv.org, deux chercheurs de Microsoft ont présenté une nouvelle méthode pour former de minuscules modèles de langage : Les élever avec un régime strict d'histoires pour enfants.

RÉSEAUX NEURONAUX

Des chercheurs acquièrent une nouvelle compréhension à partir d'une simple IA

Les chercheurs en apprentissage automatique ont compris cette leçon. GPT-3.5, le grand modèle linguistique qui alimente l'interface ChatGPT, compte près de 200 milliards de paramètres et a été entraîné sur un ensemble de données comprenant des centaines de milliards de mots (OpenAI n'a pas publié les chiffres correspondants pour son successeur, GPT-4). L'entraînement de modèles aussi vastes nécessite généralement au moins 1 000 processeurs spécialisés, appelés GPU, fonctionnant en parallèle pendant des semaines. Seules quelques entreprises peuvent réunir les ressources nécessaires, sans parler de l'entraînement et de la comparaison de différents modèles.

Les deux chercheurs ont montré que des modèles linguistiques des milliers de fois plus petits que les systèmes de pointe actuels apprenaient rapidement à raconter des histoires cohérentes et grammaticalement justes lorsqu'ils étaient formés de cette manière. Leurs résultats indiquent de nouvelles pistes de recherche qui pourraient être utiles pour former des modèles plus importants et comprendre leur comportement.

"J'ai trouvé tout ça très instructif", a déclaré Chandra Bhagavatula, chercheur sur les modèles de langage à l'Allen Institute for Artificial Intelligence de Seattle. "Le concept lui-même est très intéressant.

Il était une fois

Les réseaux neuronaux au cœur des modèles de langage sont des structures mathématiques vaguement inspirées du cerveau humain. Chacun d'entre eux contient de nombreux neurones artificiels disposés en couches, avec des connexions entre les neurones des couches adjacentes. Le comportement du réseau neuronal est régi par la force de ces connexions, appelées paramètres. Dans un modèle linguistique, les paramètres contrôlent les mots que le modèle peut produire ensuite, compte tenu d'une invite initiale et des mots qu'il a déjà générés.

Un modèle ne prend véritablement vie qu'au cours de la formation, lorsqu'il compare de manière répétée ses propres résultats au texte de son ensemble de données de formation et qu'il ajuste ses paramètres afin d'accroître la ressemblance. Un réseau non entraîné avec des paramètres aléatoires est trivialement facile à assembler à partir de quelques lignes de code, mais il ne produira que du charabia. Après l'entraînement, il peut souvent poursuivre de manière plausible un texte peu familier. Les modèles de plus grande taille sont souvent soumis à des réglages plus fins qui leur apprennent à répondre à des questions et à suivre des instructions, mais l'essentiel de la formation consiste à maîtriser la prédiction des mots.

Pour réussir à prédire des mots, un modèle linguistique doit maîtriser de nombreuses compétences différentes. Par exemple, les règles de la grammaire anglaise suggèrent que le mot suivant le mot "going" sera probablement "to", quel que soit le sujet du texte. En outre, un système a besoin de connaissances factuelles pour compléter "la capitale de la France est", et compléter un passage contenant le mot "not" nécessite une connaissance rudimentaire de la logique.

"Le langage brut est très compliqué", explique Timothy Nguyen, chercheur en apprentissage automatique chez DeepMind. "Pour que des capacités linguistiques intéressantes apparaissent, les gens ont eu recours à l'idée que plus il y a de données, mieux c'est".

(photo) Ronen Eldan s'est rendu compte qu'il pouvait utiliser les histoires d'enfants générées par de grands modèles linguistiques pour en entraîner rapidement de plus petits.

Introduction

Ronen Eldan, mathématicien qui a rejoint Microsoft Research en 2022 pour étudier les modèles de langage génératifs, souhaitait développer un moyen moins coûteux et plus rapide d'explorer leurs capacités. Le moyen naturel d'y parvenir était d'utiliser un petit ensemble de données, ce qui signifiait qu'il devait entraîner les modèles à se spécialiser dans une tâche spécifique, afin qu'ils ne s'éparpillent pas. Au départ, il voulait entraîner les modèles à résoudre une certaine catégorie de problèmes mathématiques, mais un après-midi, après avoir passé du temps avec sa fille de 5 ans, il s'est rendu compte que les histoires pour enfants convenaient parfaitement. "L'idée m'est venue littéralement après lui avoir lu une histoire", a-t-il déclaré.

Pour générer des histoires cohérentes pour les enfants, un modèle de langage devrait apprendre des faits sur le monde, suivre les personnages et les événements, et observer les règles de grammaire - des versions plus simples des défis auxquels sont confrontés les grands modèles. Mais les grands modèles formés sur des ensembles de données massives apprennent d'innombrables détails non pertinents en même temps que les règles qui comptent vraiment. Eldan espérait que la brièveté et le vocabulaire limité des histoires pour enfants rendraient l'apprentissage plus gérable pour les petits modèles, ce qui les rendrait à la fois plus faciles à former et plus faciles à comprendre.

Dans le monde des modèles de langage, cependant, le terme "petit" est relatif : Un ensemble de données mille fois plus petit que celui utilisé pour former GPT-3.5 devrait encore contenir des millions d'histoires. "Je ne sais pas combien d'argent vous voulez dépenser, mais je suppose que vous n'allez pas engager des professionnels pour écrire quelques millions de nouvelles", a déclaré M. Nguyen.

Il faudrait un auteur extraordinairement prolifique pour satisfaire des lecteurs aussi voraces, mais Eldan avait quelques candidats en tête. Qui peut mieux écrire pour un public de petits modèles linguistiques que pour de grands modèles ?

Toys stories

Eldan a immédiatement entrepris de créer une bibliothèque d'histoires synthétiques pour enfants générées par de grands modèles linguistiques. Mais il a rapidement découvert que même les modèles de pointe ne sont pas naturellement très créatifs. Si l'on demande à GPT-4 d'écrire des histoires adaptées à des enfants de 4 ans, explique Eldan, "environ un cinquième des histoires concernera des enfants qui vont au parc et qui ont peur des toboggans". C'est apparemment la quintessence des histoires pour enfants d'âge préscolaire, selon l'Internet.

La solution a consisté à ajouter un peu d'aléatoire dans le message. Tout d'abord, Eldan a utilisé le GPT-4 pour générer une liste de 1 500 noms, verbes et adjectifs qu'un enfant de 4 ans pourrait connaître - suffisamment courte pour qu'il puisse facilement la vérifier lui-même. Il a ensuite écrit un programme informatique simple qui demanderait à plusieurs reprises à GPT-3.5 ou à GPT-4 de générer une histoire adaptée à l'âge de l'enfant, comprenant trois mots aléatoires de la liste, ainsi qu'un détail supplémentaire choisi au hasard, comme une fin heureuse ou un rebondissement de l'intrigue. Les histoires obtenues, heureusement, étaient moins axées sur des diapositives effrayantes.

Eldan disposait désormais d'une procédure pour produire des données de formation à la demande, mais il n'avait aucune idée du nombre d'histoires dont il aurait besoin pour former un modèle fonctionnel, ni de la taille de ce modèle. C'est alors qu'il s'est associé à Yuanzhi Li, chercheur en apprentissage automatique chez Microsoft et à l'université Carnegie Mellon, pour essayer différentes possibilités, en tirant parti du fait que les petits modèles peuvent être formés très rapidement. La première étape consistait à décider comment évaluer leurs modèles.

Introduction

Dans la recherche sur les modèles de langage - comme dans toute salle de classe - la notation est un sujet délicat. Il n'existe pas de rubrique parfaite qui englobe tout ce que les chercheurs veulent savoir, et les modèles qui excellent dans certaines tâches échouent souvent de manière spectaculaire dans d'autres. Au fil du temps, les chercheurs ont mis au point divers critères de référence standard basés sur des questions dont les réponses ne sont pas ambiguës, ce qui est une bonne approche si vous essayez d'évaluer des compétences spécifiques. Mais Eldan et Li se sont intéressés à quelque chose de plus nébuleux : quelle doit être la taille réelle des modèles linguistiques si l'on simplifie le langage autant que possible ?

"Pour vérifier directement si le modèle parle anglais, je pense que la seule chose à faire est de laisser le modèle générer de l'anglais de manière ouverte", a déclaré M. Eldan.

Il n'y a que deux façons de mesurer les performances d'un modèle sur des questions aussi qualitatives : S'appuyer sur des évaluateurs humains ou se tourner à nouveau vers le GPT-4. Les deux chercheurs ont opté pour cette dernière solution, laissant les grands modèles à la fois rédiger les manuels et noter les dissertations.

Bhagavatula a déclaré qu'il aurait aimé voir comment les évaluations de GPT-4 se comparaient à celles des correcteurs humains - GPT-4 peut être biaisé en faveur des modèles qu'il a aidé à former, et l'opacité des modèles de langage rend difficile la quantification de tels biais. Mais il ne pense pas que de telles subtilités affecteraient les comparaisons entre différents modèles formés sur des ensembles similaires d'histoires synthétiques - l'objectif principal du travail d'Eldan et Li.

Eldan et Li ont utilisé une procédure en deux étapes pour évaluer chacun de leurs petits modèles après la formation. Tout d'abord, ils ont présenté au petit modèle la première moitié d'une histoire distincte de celles de l'ensemble des données d'apprentissage, de manière à ce qu'il génère une nouvelle fin, en répétant ce processus avec 50 histoires de test différentes. Ensuite, ils ont demandé à GPT-4 d'évaluer chacune des fins du petit modèle en fonction de trois catégories : créativité, grammaire et cohérence avec le début de l'histoire. Ils ont ensuite fait la moyenne des notes obtenues dans chaque catégorie, obtenant ainsi trois notes finales par modèle.

Avec cette procédure en main, Eldan et Li étaient enfin prêts à comparer les différents modèles et à découvrir quels étaient les étudiants les plus brillants.

Résultats des tests

Après quelques explorations préliminaires, les deux chercheurs ont opté pour un ensemble de données de formation contenant environ 2 millions d'histoires. Ils ont ensuite utilisé cet ensemble de données, baptisé TinyStories, pour entraîner des modèles dont la taille varie de 1 million à 30 millions de paramètres, avec un nombre variable de couches. Le travail a été rapide : En utilisant seulement quatre GPU, l'entraînement du plus grand de ces modèles n'a pas pris plus d'une journée.

Les plus petits modèles ont eu du mal. Par exemple, l'une des histoires testées commence par un homme à l'air méchant qui dit à une fille qu'il va lui prendre son chat. Un modèle à un million de paramètres s'est retrouvé bloqué dans une boucle où la fille répète sans cesse à l'homme qu'elle veut être son amie. Mais les modèles plus grands, qui sont encore des milliers de fois plus petits que GPT-3.5, ont obtenu des résultats surprenants. La version à 28 millions de paramètres racontait une histoire cohérente, même si la fin était sinistre : "Katie s'est mise à pleurer, mais l'homme s'en fichait. Il a emporté le chat et Katie n'a plus jamais revu son chat. Fin de l'histoire".

En plus de tester leurs propres modèles, Eldan et Li ont soumis le même défi au GPT-2 d'OpenAI, un modèle de 1,5 milliard de paramètres publié en 2019. Le résultat a été bien pire - avant la fin abrupte de l'histoire, l'homme menace d'emmener la jeune fille au tribunal, en prison, à l'hôpital, à la morgue et enfin au crématorium.

Introduction

Selon M. Nguyen, il est passionnant que des modèles aussi petits soient aussi fluides, mais il n'est peut-être pas surprenant que GPT-2 ait eu du mal à accomplir la tâche : il s'agit d'un modèle plus grand, mais loin de l'état de l'art, et il a été formé sur un ensemble de données très différent. "Un enfant en bas âge qui ne s'entraînerait qu'à des tâches d'enfant en bas âge, comme jouer avec des jouets, obtiendrait de meilleurs résultats que vous ou moi", a-t-il fait remarquer. "Nous ne nous sommes pas spécialisés dans cette chose simple.

Les comparaisons entre les différents modèles de TinyStories ne souffrent pas des mêmes facteurs de confusion. Eldan et Li ont observé que les réseaux comportant moins de couches mais plus de neurones par couche étaient plus performants pour répondre aux questions nécessitant des connaissances factuelles ; inversement, les réseaux comportant plus de couches et moins de neurones par couche étaient plus performants pour garder en mémoire les personnages et les points de l'intrigue situés plus tôt dans l'histoire. Bhagavatula a trouvé ce résultat particulièrement intriguant. S'il peut être reproduit dans des modèles plus vastes, "ce serait un résultat vraiment intéressant qui pourrait découler de ce travail", a-t-il déclaré.

Eldan et Li ont également étudié comment les capacités de leurs petits modèles dépendaient de la durée de la période de formation. Dans tous les cas, les modèles maîtrisaient d'abord la grammaire, puis la cohérence. Pour Eldan, ce schéma illustre comment les différences dans les structures de récompense entraînent des différences dans les schémas d'acquisition du langage entre les réseaux neuronaux et les enfants. Pour les modèles de langage, qui apprennent en prédisant des mots, "l'incitation pour les mots "je veux avoir" est aussi importante que pour les mots "crème glacée"", a-t-il déclaré. Les enfants, en revanche, "ne se soucient pas de savoir s'ils disent 'j'aimerais avoir de la glace' ou simplement 'glace, glace, glace'".

Qualité contre quantité

Eldan et Li espèrent que cette étude incitera d'autres chercheurs à entraîner différents modèles sur l'ensemble des données de TinyStories et à comparer leurs capacités. Mais il est souvent difficile de prédire quelles caractéristiques des petits modèles apparaîtront également dans les plus grands.

"Peut-être que les modèles de vision chez la souris sont de très bons substituts de la vision humaine, mais les modèles de dépression chez la souris sont-ils de bons modèles de la dépression chez l'homme ? a déclaré M. Pavlick. "Pour chaque cas, c'est un peu différent.

Le succès des modèles TinyStories suggère également une leçon plus large. L'approche standard pour compiler des ensembles de données de formation consiste à aspirer des textes sur l'internet, puis à filtrer les déchets. Le texte synthétique généré par des modèles de grande taille pourrait constituer une autre façon d'assembler des ensembles de données de haute qualité qui n'auraient pas besoin d'être aussi volumineux.

"Nous avons de plus en plus de preuves que cette méthode est très efficace, non seulement pour les modèles de la taille de TinyStories, mais aussi pour les modèles plus importants", a déclaré M. Eldan. Ces preuves proviennent d'une paire d'articles de suivi sur les modèles à un milliard de paramètres, rédigés par Eldan, Li et d'autres chercheurs de Microsoft. Dans le premier article, ils ont entraîné un modèle à apprendre le langage de programmation Python en utilisant des extraits de code générés par GPT-3.5 ainsi que du code soigneusement sélectionné sur l'internet. Dans le second, ils ont complété l'ensemble de données d'entraînement par des "manuels" synthétiques couvrant un large éventail de sujets, afin d'entraîner un modèle linguistique à usage général. Lors de leurs tests, les deux modèles ont été comparés favorablement à des modèles plus importants formés sur des ensembles de données plus vastes. Mais l'évaluation des modèles linguistiques est toujours délicate, et l'approche des données d'entraînement synthétiques n'en est qu'à ses balbutiements - d'autres tests indépendants sont nécessaires.

Alors que les modèles linguistiques de pointe deviennent de plus en plus volumineux, les résultats surprenants de leurs petits cousins nous rappellent qu'il y a encore beaucoup de choses que nous ne comprenons pas, même pour les modèles les plus simples. M. Nguyen s'attend à ce que de nombreux autres articles explorent l'approche inaugurée par TinyStories.

"La question est de savoir où et pourquoi la taille a de l'importance", a-t-il déclaré. "Il devrait y avoir une science à ce sujet, et cet article est, je l'espère, le début d'une riche histoire.

Auteur: Internet

Info: https://www.quantamagazine.org/ Ben Brubaker, 5 octobre 2023

[ synthèse ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

Paramètres de recherches