Citation
Catégorie
Tag – étiquette
Auteur
Info



nb max de mots
nb min de mots
trier par
Dictionnaire analogique intriqué pour extraits. Recherche mots ou phrases tous azimuts. Aussi outil de précision sémantique et de réflexion communautaire. Voir la rubrique mode d'emploi. Jetez un oeil à la colonne "chaînes". ATTENTION, faire une REINITIALISATION après  une recherche complexe. Et utilisez le nuage de corrélats !!!!..... Lire la suite >>
Résultat(s): 75
Temps de recherche: 0.0609s

homme-machine

Comment l'IA comprend des trucs que personne ne lui lui a appris

Les chercheurs peinent à comprendre comment les modèles d'Intelligence artificielle, formés pour perroquetter les textes sur Internet, peuvent effectuer des tâches avancées comme coder, jouer à des jeux ou essayer de rompre un mariage.

Personne ne sait encore comment ChatGPT et ses cousins ​​de l'intelligence artificielle vont transformer le monde, en partie parce que personne ne sait vraiment ce qui se passe à l'intérieur. Certaines des capacités de ces systèmes vont bien au-delà de ce pour quoi ils ont été formés, et même leurs inventeurs ne savent pas pourquoi. Un nombre croissant de tests suggèrent que ces systèmes d'IA développent des modèles internes du monde réel, tout comme notre propre cerveau le fait, bien que la technique des machines soit différente.

"Tout ce que nous voulons faire avec ces systèmes pour les rendre meilleurs ou plus sûrs ou quelque chose comme ça me semble une chose ridicule à demander  si nous ne comprenons pas comment ils fonctionnent", déclare Ellie Pavlick de l'Université Brown,  un des chercheurs travaillant à combler ce vide explicatif.

À un certain niveau, elle et ses collègues comprennent parfaitement le GPT (abréviation de generative pretrained transformer) et d'autres grands modèles de langage, ou LLM. Des modèles qui reposent sur un système d'apprentissage automatique appelé réseau de neurones. De tels réseaux ont une structure vaguement calquée sur les neurones connectés du cerveau humain. Le code de ces programmes est relativement simple et ne remplit que quelques pages. Il met en place un algorithme d'autocorrection, qui choisit le mot le plus susceptible de compléter un passage sur la base d'une analyse statistique laborieuse de centaines de gigaoctets de texte Internet. D'autres algorithmes auto-apprenants supplémentaire garantissant que le système présente ses résultats sous forme de dialogue. En ce sens, il ne fait que régurgiter ce qu'il a appris, c'est un "perroquet stochastique", selon les mots d'Emily Bender, linguiste à l'Université de Washington. Mais les LLM ont également réussi à réussir l'examen pour devenir avocat, à expliquer le boson de Higgs en pentamètre iambique (forme de poésie contrainte) ou à tenter de rompre le mariage d'un utilisateurs. Peu de gens s'attendaient à ce qu'un algorithme d'autocorrection assez simple acquière des capacités aussi larges.

Le fait que GPT et d'autres systèmes d'IA effectuent des tâches pour lesquelles ils n'ont pas été formés, leur donnant des "capacités émergentes", a surpris même les chercheurs qui étaient généralement sceptiques quant au battage médiatique sur les LLM. "Je ne sais pas comment ils le font ou s'ils pourraient le faire plus généralement comme le font les humains, mais tout ça mes au défi mes pensées sur le sujet", déclare Melanie Mitchell, chercheuse en IA à l'Institut Santa Fe.

"C'est certainement bien plus qu'un perroquet stochastique, qui auto-construit sans aucun doute une certaine représentation du monde, bien que je ne pense pas que ce soit  vraiment de la façon dont les humains construisent un modèle de monde interne", déclare Yoshua Bengio, chercheur en intelligence artificielle à l'université de Montréal.

Lors d'une conférence à l'Université de New York en mars, le philosophe Raphaël Millière de l'Université de Columbia a offert un autre exemple à couper le souffle de ce que les LLM peuvent faire. Les modèles avaient déjà démontré leur capacité à écrire du code informatique, ce qui est impressionnant mais pas trop surprenant car il y a tellement de code à imiter sur Internet. Millière est allé plus loin en montrant que le GPT peut aussi réaliser du code. Le philosophe a tapé un programme pour calculer le 83e nombre de la suite de Fibonacci. "Il s'agit d'un raisonnement en plusieurs étapes d'un très haut niveau", explique-t-il. Et le robot a réussi. Cependant, lorsque Millière a demandé directement le 83e nombre de Fibonacci, GPT s'est trompé, ce qui suggère que le système ne se contentait pas de répéter ce qui se disait sur l'internet. Ce qui suggère que le système ne se contente pas de répéter ce qui se dit sur Internet, mais qu'il effectue ses propres calculs pour parvenir à la bonne réponse.

Bien qu'un LLM tourne sur un ordinateur, il n'en n'est pas un lui-même. Il lui manque des éléments de calcul essentiels, comme sa propre mémoire vive. Reconnaissant tacitement que GPT seul ne devrait pas être capable d'exécuter du code, son inventeur, la société technologique OpenAI, a depuis introduit un plug-in spécialisé -  outil que ChatGPT peut utiliser pour répondre à une requête - qui remédie à cela. Mais ce plug-in n'a pas été utilisé dans la démonstration de Millière. Au lieu de cela, ce dernier suppose plutôt que la machine a improvisé une mémoire en exploitant ses mécanismes d'interprétation des mots en fonction de leur contexte -  situation similaire à la façon dont la nature réaffecte des capacités existantes à de nouvelles fonctions.

Cette capacité impromptue démontre que les LLM développent une complexité interne qui va bien au-delà d'une analyse statistique superficielle. Les chercheurs constatent que ces systèmes semblent parvenir à une véritable compréhension de ce qu'ils ont appris. Dans une étude présentée la semaine dernière à la Conférence internationale sur les représentations de l'apprentissage (ICLR), le doctorant Kenneth Li de l'Université de Harvard et ses collègues chercheurs en intelligence artificielle, Aspen K. Hopkins du Massachusetts Institute of Technology, David Bau de la Northeastern University et Fernanda Viégas , Hanspeter Pfister et Martin Wattenberg, tous à Harvard, ont créé leur propre copie plus petite du réseau neuronal GPT afin de pouvoir étudier son fonctionnement interne. Ils l'ont entraîné sur des millions de matchs du jeu de société Othello en alimentant de longues séquences de mouvements sous forme de texte. Leur modèle est devenu un joueur presque parfait.

Pour étudier comment le réseau de neurones encodait les informations, ils ont adopté une technique que Bengio et Guillaume Alain, également de l'Université de Montréal, ont imaginée en 2016. Ils ont créé un réseau de "sondes" miniatures pour analyser le réseau principal couche par couche. Li compare cette approche aux méthodes des neurosciences. "C'est comme lorsque nous plaçons une sonde électrique dans le cerveau humain", dit-il. Dans le cas de l'IA, la sonde a montré que son "activité neuronale" correspondait à la représentation d'un plateau de jeu d'Othello, bien que sous une forme alambiquée. Pour confirmer ce résultat, les chercheurs ont inversé la sonde afin d'implanter des informations dans le réseau, par exemple en remplaçant l'un des marqueurs noirs du jeu par un marqueur blanc. "En fait, nous piratons le cerveau de ces modèles de langage", explique Li. Le réseau a ajusté ses mouvements en conséquence. Les chercheurs ont conclu qu'il jouait à Othello à peu près comme un humain : en gardant un plateau de jeu dans son "esprit" et en utilisant ce modèle pour évaluer les mouvements. Li pense que le système apprend cette compétence parce qu'il s'agit de la description la plus simple et efficace de ses données pour l'apprentissage. "Si l'on vous donne un grand nombre de scripts de jeu, essayer de comprendre la règle qui les sous-tend est le meilleur moyen de les comprimer", ajoute-t-il.

Cette capacité à déduire la structure du monde extérieur ne se limite pas à de simples mouvements de jeu ; il apparaît également dans le dialogue. Belinda Li (aucun lien avec Kenneth Li), Maxwell Nye et Jacob Andreas, tous au MIT, ont étudié des réseaux qui jouaient à un jeu d'aventure textuel. Ils ont introduit des phrases telles que "La clé est dans le coeur du trésor", suivies de "Tu prends la clé". À l'aide d'une sonde, ils ont constaté que les réseaux encodaient en eux-mêmes des variables correspondant à "coeur" et "Tu", chacune avec la propriété de posséder ou non une clé, et mettaient à jour ces variables phrase par phrase. Le système n'a aucun moyen indépendant de savoir ce qu'est une boîte ou une clé, mais il a acquis les concepts dont il avait besoin pour cette tâche."

"Une représentation de cette situation est donc enfouie dans le modèle", explique Belinda Li.

Les chercheurs s'émerveillent de voir à quel point les LLM sont capables d'apprendre du texte. Par exemple, Pavlick et sa doctorante d'alors, l'étudiante Roma Patel, ont découvert que ces réseaux absorbent les descriptions de couleur du texte Internet et construisent des représentations internes de la couleur. Lorsqu'ils voient le mot "rouge", ils le traitent non seulement comme un symbole abstrait, mais comme un concept qui a une certaine relation avec le marron, le cramoisi, le fuchsia, la rouille, etc. Démontrer cela fut quelque peu délicat. Au lieu d'insérer une sonde dans un réseau, les chercheurs ont étudié sa réponse à une série d'invites textuelles. Pour vérifier si le systhème ne faisait pas simplement écho à des relations de couleur tirées de références en ligne, ils ont essayé de le désorienter en lui disant que le rouge est en fait du vert - comme dans la vieille expérience de pensée philosophique où le rouge d'une personne correspond au vert d'une autre. Plutôt que répéter une réponse incorrecte, les évaluations de couleur du système ont évolué de manière appropriée afin de maintenir les relations correctes.

Reprenant l'idée que pour remplir sa fonction d'autocorrection, le système recherche la logique sous-jacente de ses données d'apprentissage, le chercheur en apprentissage automatique Sébastien Bubeck de Microsoft Research suggère que plus la gamme de données est large, plus les règles du système faire émerger sont générales. "Peut-être que nous nous constatons un tel bond en avant parce que nous avons atteint une diversité de données suffisamment importante pour que le seul principe sous-jacent à toutes ces données qui demeure est que des êtres intelligents les ont produites... Ainsi la seule façon pour le modèle d'expliquer toutes ces données est de devenir intelligent lui-même".

En plus d'extraire le sens sous-jacent du langage, les LLM sont capables d'apprendre en temps réel. Dans le domaine de l'IA, le terme "apprentissage" est généralement réservé au processus informatique intensif dans lequel les développeurs exposent le réseau neuronal à des gigaoctets de données et ajustent petit à petit ses connexions internes. Lorsque vous tapez une requête dans ChatGPT, le réseau devrait être en quelque sorte figé et, contrairement à l'homme, ne devrait pas continuer à apprendre. Il fut donc surprenant de constater que les LLM apprennent effectivement à partir des invites de leurs utilisateurs, une capacité connue sous le nom d'"apprentissage en contexte". "Il s'agit d'un type d'apprentissage différent dont on ne soupçonnait pas l'existence auparavant", explique Ben Goertzel, fondateur de la société d'IA SingularityNET.

Un exemple de la façon dont un LLM apprend vient de la façon dont les humains interagissent avec les chatbots tels que ChatGPT. Vous pouvez donner au système des exemples de la façon dont vous voulez qu'il réponde, et il obéira. Ses sorties sont déterminées par les derniers milliers de mots qu'il a vus. Ce qu'il fait, étant donné ces mots, est prescrit par ses connexions internes fixes - mais la séquence de mots offre néanmoins une certaine adaptabilité. Certaines personnes utilisent le jailbreak à des fins sommaires, mais d'autres l'utilisent pour obtenir des réponses plus créatives. "Il répondra mieux aux questions scientifiques, je dirais, si vous posez directement la question, sans invite spéciale de jailbreak, explique William Hahn, codirecteur du laboratoire de perception de la machine et de robotique cognitive à la Florida Atlantic University. "Sans il sera un meilleur universitaire." (Comme son nom l'indique une invite jailbreak -prison cassée-, invite à  moins délimiter-verrouiller les fonctions de recherche et donc à les ouvrir, avec les risques que ça implique) .

Un autre type d'apprentissage en contexte se produit via l'incitation à la "chaîne de pensée", ce qui signifie qu'on demande au réseau d'épeler chaque étape de son raisonnement - manière de faire qui permet de mieux résoudre les problèmes de logique ou d'arithmétique en passant par plusieurs étapes. (Ce qui rend l'exemple de Millière si surprenant  puisque le réseau a trouvé le nombre de Fibonacci sans un tel encadrement.)

En 2022, une équipe de Google Research et de l'École polytechnique fédérale de Zurich - Johannes von Oswald, Eyvind Niklasson, Ettore Randazzo, João Sacramento, Alexander Mordvintsev, Andrey Zhmoginov et Max Vladymyrov - a montré que l'apprentissage en contexte suit la même procédure de calcul de base que l'apprentissage standard, connue sous le nom de descente de gradient". 

Cette procédure n'était pas programmée ; le système l'a découvert sans aide. "C'est probablement une compétence acquise", déclare Blaise Agüera y Arcas, vice-président de Google Research. De fait il pense que les LLM peuvent avoir d'autres capacités latentes que personne n'a encore découvertes. "Chaque fois que nous testons une nouvelle capacité que nous pouvons quantifier, nous la trouvons", dit-il.

Bien que les LLM aient suffisamment d'angles morts et autres défauts pour ne pas être qualifiés d'intelligence générale artificielle, ou AGI - terme désignant une machine qui atteint l'ingéniosité du cerveau animal - ces capacités émergentes suggèrent à certains chercheurs que les entreprises technologiques sont plus proches de l'AGI que même les optimistes ne l'avaient deviné. "Ce sont des preuves indirectes que nous en sommes probablement pas si loin", a déclaré Goertzel en mars lors d'une conférence sur le deep learning à la Florida Atlantic University. Les plug-ins d'OpenAI ont donné à ChatGPT une architecture modulaire un peu comme celle du cerveau humain. "La combinaison de GPT-4 [la dernière version du LLM qui alimente ChatGPT] avec divers plug-ins pourrait être une voie vers une spécialisation des fonctions semblable à celle de l'homme", déclare Anna Ivanova, chercheuse au M.I.T.

Dans le même temps, les chercheurs s'inquiètent de voir leur capacité à étudier ces systèmes s'amenuiser. OpenAI n'a pas divulgué les détails de la conception et de l'entraînement de GPT-4, en partie du à la concurrence avec Google et d'autres entreprises, sans parler des autres pays. "Il y aura probablement moins de recherche ouverte de la part de l'industrie, et les choses seront plus cloisonnées et organisées autour de la construction de produits", déclare Dan Roberts, physicien théoricien au M.I.T., qui applique les techniques de sa profession à la compréhension de l'IA.

Ce manque de transparence ne nuit pas seulement aux chercheurs, il entrave également les efforts qui visent à comprendre les répercussions sociales de l'adoption précipitée de la technologie de l'IA. "La transparence de ces modèles est la chose la plus importante pour garantir la sécurité", affirme M. Mitchell.

Auteur: Musser Georges

Info: https://www.scientificamerican.com,  11 mai 2023. *algorithme d'optimisation utilisé dans l'apprentissage automatique et les problèmes d'optimisation. Il vise à minimiser ou à maximiser une fonction en ajustant ses paramètres de manière itérative. L'algorithme part des valeurs initiales des paramètres et calcule le gradient de la fonction au point actuel. Les paramètres sont ensuite mis à jour dans la direction du gradient négatif (pour la minimisation) ou positif (pour la maximisation), multiplié par un taux d'apprentissage. Ce processus est répété jusqu'à ce qu'un critère d'arrêt soit rempli. La descente de gradient est largement utilisée dans la formation des modèles d'apprentissage automatique pour trouver les valeurs optimales des paramètres qui minimisent la différence entre les résultats prédits et les résultats réels. Trad et adaptation Mg

[ singularité technologique ] [ versatilité sémantique ]

 

Commentaires: 0

Ajouté à la BD par miguel

ufo

Un bon copain et ancien compagnon d'escadron, Dave "Sex" Fravor, a vécu une des histoires d'aviation les plus bizarres de tous les temps. Un truc qui éclate la crédibilité, alors je vais la raconter en m'appuyant sur la bonne foi de Dave.
Je le connais personnellement - très bien. Nous avons volé sur des A-6 ensemble avant qu'il n'entre dans le monde des Hornet. C'est un mec drôle. Intelligent et malin, avec la typique surestimation de ses compétences du pilote de chasse. En vol cependant, Dave était aussi professionnel que possible.
Au matin du 14 novembre 2004, Dave et son équipier se sont lancés dans le ciel bleu clair de la Californie du Sud, à une centaine de kilomètres au sud-ouest de San Diego. Leur nom d'appel était FASTEAGLE 01. Son ailier a décollé juste après eux dans FASTEAGLE 02. Ils ont grimpé au-dessus du navire et eu rendez-vous de façon normale avant de partir vers la zone de travail assignée dans l'océan ouvert au sud de l'USS Nimitz. Jour normal, opérations normales pour le pré-déploiement du cycle de travail dans tel milieu.
Le Nimitz Carrier Strike Group était déjà en poste depuis quelques semaines et travaillait à intégrer les opérations du transporteur avec ses différents navires de soutien, y compris le croiseur de missiles guidés de classe Ticonderoga, USS Princeton. En ce qui concerne Dave, c'était un jour standard, autre étape dans le long processus de la préparation des navires du Strike group et des avions de l'Air Wing pour travailler harmonieusement leur prochain déploiement de combat.
Ce que Dave ne savait pas, c'était qu'au cours des derniers jours, le Princeton avait attrapé des retours bizarres sur leur radar SPY-1. À plusieurs occasions, à compter du 10 novembre, le fire control officer, un type expérimenté, tout comme les radaristes, avaient détecté de nombreux échos qui se situaient bien au-dessus du volume de balayage du radar, quelque part à plus de 80 000 pieds. Des signaux qui partaient de 80 000 pieds jusqu'à planer à environ 50 pieds au-dessus de l'eau en quelques secondes. Toujours au même endroit, à la latitude d'environ 30NM au large de la côte de Baja, à environ 70NM au sud-ouest de Tijuana. À l'époque, le SPY-1 était le radar tactique le plus sophistiqué et le plus puissant de la planète. Avec cet engin, ils ont pu suivre ces AAV* pendant qu'ils descendaient, tournaient et glissaient à des vitesses, des taux de rotation et des accélérations plus rapides que n'importe quel avion ami ou menace connu. Incroyablement rapide.
Une fois les avions de l'escadre aérienne arrivés près du Nimitz, le fire squad control du Princeton y vit l'opportunité d'utiliser ces atouts et ces yeux pour aider à résoudre le mystère de ces AAVs.
A un moment, le vol FASTEAGLE terminait son entraînement prévu, le cmdt de l'escadron VMFA-232 de Marine, le lieutenant-colonel "Cheeks" Kurth, effectuait un vol de vérification post-maintenance pas très loin. Il fut le premier engin rapide contacté par le Princeton. La communication était étrange et intrigante. On lui demandait d'enquêter sur un contact aérien non identifié. Ce n'est pas une demande terriblement inhabituelle quand un Strike Group est en transit ou déployé loin des eaux domestiques, mais c'est plus qu'un peu étrange, pratiquement en vue du San Diego Homeport. Pour ajouter aux communications inhabituelles, on lui demanda quel armement il avait à bord. "Aucun."
Alors que le Princeton communiquait avec Cheeks, ils tentait également de transmettre ce contact AAV à l'E-2C Hawkeye de l'Air Wing, également en vol à l'époque. L'équipage de VAW-117 participait au contrôle d'interception pour le vol FASTEAGLE pendant leur entraînement et le Princeton souhaitait maintenant que l'E-2 guide les Super Hornets vers le point d'interception avec le contact de l'AAV, qui planait à ce moment sur leur spot préféré, mais maintenant à environ 20 000 pieds au-dessus de l'océan.
Les retours de l'AAV n'étaient pas été assez forts pour apparaître sur le large balayage de l'E-2, mais une fois qu'ils concentrèrent leur radar sur les coordonnées que le Princeton leur indiqua ils obtinrent un contact faible. Echos qui ne suffisaient pas pour générer une piste cible. Alors le Princeton contacta directement FASTEAGLE. Bien qu'il n'ait pas pu verrouiller les AAV, le contrôleur E-2 resta sur la fréquence et put suivre toute l'évolution qui s'ensuivit.
Alors que Cheeks s'approchait de l'endroit où il était dirigé, le Princeton lui conseilla de rester au-dessus de 10K alors que la section des Super Hornets s'approchait de la cible. Son radar reconnut les deux ships FASTEAGLE, mais pas d'autre contact. Un moment plus tard, le Princeton lui ordonna de le laisser tomber et de retourner au navire. Comme il était très proche, il décida de survoler l'action et de jeter un coup d'oeil.
La mer était calme, presque vitreuse et on était en fin de matinée d'une belle journée. Des conditions parfaites. Alors que Cheeks survolait l'endroit, il vit une perturbation à la surface de l'océan. Une section ronde d'eau turbulente d'environ 50-100 mètres de diamètre. C'était la seule zone du type de ce qu'il nomma "eau vive", décrivant ça comme s'il y avait quelque chose sous la surface comme un banc ou ce qu'il avait entendu dire de ce à quoi ressemble un navire qui coule rapidement.
Il survola la perturbation et fit demi-tour en direction de Nimitz sans voir ce qui faisait mousser l'eau. Comme il s'en retournait, au moment où les Super Hornets convergeaient vers l'endroit, les eaux blanches cessèrent et la surface de l'océan redevint lisse. Le point de la perturbation précédente étant complètement indiscernable.
À quelques milliers de pieds au-dessous de lui, Dave avait vu le même spectacle surréaliste, tout comme il s'était fait demander par le Princeton si les jets FASTEAGLE avaient des armes avec munition. Dave, déconcerté, rapporta que tout ce qu'ils avaient c'était deux missiles d'entraînement passifs. On lui donna des vecteurs de portée et un ensemble de coordonnées et on leur a dit d'enquêter sur un contact aérien inconnu à cet endroit.
Sans plus d'informations sur le contact, ils descendirent vers 20 mile pieds pour balayer avec un radar, ne percevant rien. Aucun avion de ce vol ne portait de girouette FLIR, ce qui limitait le type de capteurs avec lesquels il pouvait effectuer des recherches; mais les deux avions étaient neufs, selon les termes de Dave: "Ils avaient toujours cette nouvelle odeur de voiture". Les radars APG-73 étaient à la fois neufs et avaient parfaitement fonctionné durant l'entraînement de l'heure précédente. Pourtant, les écrans des deux avions étaient vides au point que Princeton lança "Merge plot!" (radars stop ?)
De ce moment les quatre membres d'équipage n'étaient plus que des yeux. La première indication inhabituelle que Dave nota fut la zone d'eau vive sur la surface que Cheeks regardait par-dessus son épaule alors qu'il s'éloignait. Il se souvient avoir pensé qu'il s'agissait de la taille d'un 737 et peut-être que le contact sur lequel ils avaient été dirigés était un avion de ligne qui venait de s'écraser. Il manoeuvra son F-18 plus bas pour mieux voir. Comme il descendait à environ 20K il fut surpris à la vue d'un objet blanc qui se déplaçait juste au-dessus de l'eau moussante. Il était immaculé, sans relief, oblong, et effectuait des mouvements latéraux mineurs tout en restant à une altitude constante au-dessus du disque d'eau turbulente.
Dave mis FASTEAGLE 02 en haute couverture passant vers environ 15K et avec son équipier put assister aux événements d'un point de vue parfait. Dave continua sa plongée en bas vers l'objet, essayant maintenant d'asservir le radar par l'intermédiaire de son NCSM pour le régler sur une distance de courte portée. Sans succès. Son intention était de passer près de l'objet à près de 350 nœuds. En se rapprochant il remarqua que l'AAV avait orienté l'une de ses extrémités fine vers lui, comme si, selon ses mots, "Il venait de nous remarquer et maintenant il nous pointait".
L'AAV commença alors à s'élever de son vol stationnaire. L'objet, qu'il décrivit plus tard comme bougeant en tic-tac, s'est élevé et fit deux cercles à droite, à environ un mile de la trajectoire en cercle du Hornet de Dave. Les instincts de BFM prirent le dessus et Dave poussa le nez vers le bas pour couper le bas du cercle. Alors il regarda l'AAV en mettant le nez en l'air, et tenta à nouveau d'asservir son radar via le NCSM. Encore une fois, l'APG-73 ne put verrouiller l'objet volant blanc de la taille d'un chasseur à quelques milliers de pieds de là.
Tout au long de ces manoeuvres, le WSO de Dave diffusait les événements en temps réel de l'interception vers le Princeton. Les opérateurs radar de l'E-2 entendirent sur le réseau sécurisé ce qui ressemblait à l'une des centaines d'interceptions qu'ils avaient entendues au fil des ans. À l'exception notable que les voix des équipages étaient plus stressées et que le verbiage pour identifier la cible était différent de ce qu'ils entendaient en général.
Dans leurs commentaires de débriefing, Dave, son OSM et les deux autres équipages déclarèrent que l'objet avait initialement plané comme un Harrier. Ils le décrivirent comme étant uniformément blanc, mesurant environ 45 pieds de longueur (grosso modo comme un avion de chasse), avec un axe horizontal discernable (comme un fuselage) mais sans fenêtres visibles, ni nacelles, ailes ou de systèmes de propulsion.
Alors que Dave tentait de manoeuvrer et d'essayer d'obtenir un verrou de combat avec son radar, l'AAV resserra son virage, "lift vector, puis vers l'arrière" comme Dave l'a décrit. Dave demanda immédiatement au Princeton un snap instantané, mais le radar SPY-1 avait également perdu le contact.
Les premières réponses du Princeton furent "image propre". Quelques instants plus tard, le Princeton relança "Vous n'allez pas le croire, mais il est à votre CAP." Le Princeton avait récupéré l'AAV planant à 24K au niveau assigné Lat / Long que Dave avait utilisé plus tôt pendant l'entraînement comme point orbital.
Bien que court en carburant, le vol FASTEAGLE bascula vers la position CAP pour essayer de reprendre l'AAV. Ils ne virent rien, ni sur leur chemin de retour vers Nimitz. Même le cercle de 100 mètres d'eau océanique turbulente avait disparu, lieu maintenant indiscernable du reste de la surface de la mer. Interrogé plus tard, Dave rapporta qu'il n'avait rien vu sur ou sous la surface de l'océan qui aurait pu causer ce cercle d'eau turbulente. Il était là quand ils acquirent visuellement le tic-tac, puis c'était parti lorsqu'ils cerclèrent quelques minutes plus tard.
De retour sur Nimitz, les quatre membres d'équipage se sont dirigés vers le paraloft pour retirer leur équipement. Les quatre équipages suivants de VFA-41 s'habillaient pour leur mission d'entraînement dans la même zone, avec utilisation des mêmes points Lat / Long que les points CAP de Dave. Dave et ses membres d'équipage transmirent ce qu'ils avaient vu aux nouveaux gars et leur rappelèrent d'enregistrer s'ils le pouvaient.
Le temps que lancement de la nouvelle équipe se fasse avec rendez-vous et vérification avec l'E-2 pour le contrôle, on était en début d'après-midi; 1500. Les avions se séparèrent, avec un cap vers ce même emplacement du sud de la PAC. Ils naviguaient à 20K et 300kts, max endurance. Là aussi le jet, le radar et aussi cette fois le FLIR, étaient nickel et fonctionnaient parfaitement.
Le WSO acquit d'abord un contact sur le radar à une distance d'environ 30 NM alors qu'il fonctionnait en mode balayage RWS. Il vérifia les coordonnées et ça oscillait en effet au point précis du CAP. Il tenta plusieurs verrouillage STT, sans succès. Plus tard, lors du débriefing, il expliqua qu'il avait plusieurs indices révélateurs d'EA.
L'aspect de la cible sur l'enregistrement de tracking tournait à 360 degrés avec d'autres indications de brouillage distinctes. En mode de balayage moins précis, le retour indiquait que l'objet était, aux dires du WSO, "à quelques milliers de pieds au-dessous de nous. Environ 15-20K- mais stationnaire." Le seul mouvement fut généré par le verrouillage radar du jet vers l'emplacement de la PAC.
Le WSO utilisa le pod FLIR à bord, l'asservissant à la piste faible que le mode RWS avait pu générer. Il enregistra la séquence sur l'enregistreur de bord. En utilisant le mode IR, il avait pu se verrouiller sur l'AAV., qui apparaissait sur l'écran dans l’enregistrement comme un objet blanc sur fond noir planant sans moyens connus.
La caméra Infra rouge ne détectait pas de gaz chauds sous l'AAV, comme avec un Harrier ou un hélicoptère. C'était simplement suspendu dans les airs. Il passa en mode TV et put verrouiller à nouveau le FLIR sur l'objet tout en essayant, sans succès, d'obtenir une piste STT sur le radar. Comme il regardait, l'AAV sortit de l'écran vers la gauche si soudainement qu'il sembla disparaître. Sur la bande au ralenti l'objet accélère hors du champ de vision avec une vitesse choquante. Le WSO ne fut pas en mesure de réacquérir l'AAV soit dans RWS soit avec le FLIR.
D'une manière ou d'une autre, la bande fut diffusée sur YouTube. Quelques années après l'incident, en me racontant l'histoire, Dave me montra le lien. C'était sans grand intérêt sans les informations de base. Mais remis dans le contexte, c'était incroyable, en particulier le ralenti du point d'accélération hors de l'écran. Pendant des années, j'ai raconté l'histoire à des amis et leur ai montré la vidéo.
Le mois dernier, lorsque j'ai appelé Dave pour me rafraîchir la mémoire avant de m'asseoir pour écrire cette rencontre bizarre, il m'a informé que la vidéo avait été retirée de YouTube. Il m'a dit qu'une agence gouvernementale avec un identificateur à trois lettres avait récemment mené une enquête sur les AAVs et avait interviewé exhaustivement toutes les parties impliquées, les sept membres d'équipage, dont les 6 membres du VFA-41 et Cheeks du VMFA-232, le fire control officer et le chef principal du Princeton, ainsi que l'opérateur radar de l'E-2. Ils ont même questionné l'équipage de l'USS Louisville, un sous-marin Fast-Attack de la classe de Los Angeles, qui faisait partie du Nimitz Carrier Strike Group, qui a rapporté qu'il n'y avait pas de contacts sonar non identifiés ou de bruits sous-marins étranges ce jour-là.
Je ne sais pas quoi faire de ces événements. J'ai aimé l'histoire dès sa première écoute parce que c'est tellement fou. Je n'avais jamais beaucoup réfléchi aux extraterrestres ou aux ovnis. C'était pour moi du gaspillage de le faire. S'ils voulaient prendre contact, ils le feraient. S'ils voulaient observer de loin, ils pourraient facilement être impossibles à discerner compte tenu de la haute technologie qu'ils semblent avoir.
Maintenant j'ai été confronté à des témoins crédibles. Pas des cinglés portant des chapeaux de papier mais des gens que je connais, des gens de mon monde. Il y eut plusieurs plates-formes corroborantes qui détectèrent l'AAV à l'aide de capteurs variés. Et, bien sûr, les huit globes oculaires qui ont eu le visuel sur le tic-tac blanc alors que Dave manœuvrait pour l'intercepter.
Dave n'a pas besoin d'être un étranger pour vous non plus. Regardez-le sur la série PBS, Carrier, et faites-vous votre propre opinion sur son professionnalisme et sa santé mentale.

Auteur: Chierici Paco

Info: 14 mars 2015. *Anomalous Aerial Vehicles

[ témoignage ] [ extraterrestres ]

 

Commentaires: 0

homme-machine

Les grands modèles de langage tels que ChatGPT sont aujourd'hui suffisamment importants pour commencer à afficher des comportements surprenants et imprévisibles.

Quel film ces emojis décrivent-ils ? (On voit une vidéo qui présente des myriades d'émoji formant des motifs mouvants, modélisés à partir de métadonnées)

Cette question était l'une des 204 tâches choisies l'année dernière pour tester la capacité de divers grands modèles de langage (LLM) - les moteurs de calcul derrière les chatbots d'IA tels que ChatGPT. Les LLM les plus simples ont produit des réponses surréalistes. "Le film est un film sur un homme qui est un homme qui est un homme", commençait l'un d'entre eux. Les modèles de complexité moyenne s'en sont approchés, devinant The Emoji Movie. Mais le modèle le plus complexe l'a emporté en une seule réponse : Finding Nemo.

"Bien que j'essaie de m'attendre à des surprises, je suis surpris par ce que ces modèles peuvent faire", a déclaré Ethan Dyer, informaticien chez Google Research, qui a participé à l'organisation du test. C'est surprenant parce que ces modèles sont censés n'avoir qu'une seule directive : accepter une chaîne de texte en entrée et prédire ce qui va suivre, encore et encore, en se basant uniquement sur des statistiques. Les informaticiens s'attendaient à ce que le passage à l'échelle permette d'améliorer les performances sur des tâches connues, mais ils ne s'attendaient pas à ce que les modèles puissent soudainement gérer autant de tâches nouvelles et imprévisibles.

Des études récentes, comme celle à laquelle a participé M. Dyer, ont révélé que les LLM peuvent produire des centaines de capacités "émergentes", c'est-à-dire des tâches que les grands modèles peuvent accomplir et que les petits modèles ne peuvent pas réaliser, et dont beaucoup ne semblent pas avoir grand-chose à voir avec l'analyse d'un texte. Ces tâches vont de la multiplication à la génération d'un code informatique exécutable et, apparemment, au décodage de films à partir d'emojis. De nouvelles analyses suggèrent que pour certaines tâches et certains modèles, il existe un seuil de complexité au-delà duquel la fonctionnalité du modèle monte en flèche. (Elles suggèrent également un sombre revers de la médaille : À mesure qu'ils gagnent en complexité, certains modèles révèlent de nouveaux biais et inexactitudes dans leurs réponses).

"Le fait que les modèles de langage puissent faire ce genre de choses n'a jamais été abordé dans la littérature à ma connaissance", a déclaré Rishi Bommasani, informaticien à l'université de Stanford. L'année dernière, il a participé à la compilation d'une liste de dizaines de comportements émergents, dont plusieurs ont été identifiés dans le cadre du projet de M. Dyer. Cette liste continue de s'allonger.

Aujourd'hui, les chercheurs s'efforcent non seulement d'identifier d'autres capacités émergentes, mais aussi de comprendre pourquoi et comment elles se manifestent - en somme, d'essayer de prédire l'imprévisibilité. La compréhension de l'émergence pourrait apporter des réponses à des questions profondes concernant l'IA et l'apprentissage automatique en général, comme celle de savoir si les modèles complexes font vraiment quelque chose de nouveau ou s'ils deviennent simplement très bons en statistiques. Elle pourrait également aider les chercheurs à exploiter les avantages potentiels et à limiter les risques liés à l'émergence.

"Nous ne savons pas comment déterminer dans quel type d'application la capacité de nuisance va se manifester, que ce soit en douceur ou de manière imprévisible", a déclaré Deep Ganguli, informaticien à la startup d'IA Anthropic.

L'émergence de l'émergence

Les biologistes, les physiciens, les écologistes et d'autres scientifiques utilisent le terme "émergent" pour décrire l'auto-organisation, les comportements collectifs qui apparaissent lorsqu'un grand nombre d'éléments agissent comme un seul. Des combinaisons d'atomes sans vie donnent naissance à des cellules vivantes ; les molécules d'eau créent des vagues ; des murmurations d'étourneaux s'élancent dans le ciel selon des schémas changeants mais identifiables ; les cellules font bouger les muscles et battre les cœurs. Il est essentiel que les capacités émergentes se manifestent dans les systèmes qui comportent de nombreuses parties individuelles. Mais ce n'est que récemment que les chercheurs ont été en mesure de documenter ces capacités dans les LLM, car ces modèles ont atteint des tailles énormes.

Les modèles de langage existent depuis des décennies. Jusqu'à il y a environ cinq ans, les plus puissants étaient basés sur ce que l'on appelle un réseau neuronal récurrent. Ceux-ci prennent essentiellement une chaîne de texte et prédisent le mot suivant. Ce qui rend un modèle "récurrent", c'est qu'il apprend à partir de ses propres résultats : Ses prédictions sont réinjectées dans le réseau afin d'améliorer les performances futures.

En 2017, les chercheurs de Google Brain ont introduit un nouveau type d'architecture appelé "transformateur". Alors qu'un réseau récurrent analyse une phrase mot par mot, le transformateur traite tous les mots en même temps. Cela signifie que les transformateurs peuvent traiter de grandes quantités de texte en parallèle. 

Les transformateurs ont permis d'augmenter rapidement la complexité des modèles de langage en augmentant le nombre de paramètres dans le modèle, ainsi que d'autres facteurs. Les paramètres peuvent être considérés comme des connexions entre les mots, et les modèles s'améliorent en ajustant ces connexions au fur et à mesure qu'ils parcourent le texte pendant l'entraînement. Plus il y a de paramètres dans un modèle, plus il peut établir des connexions avec précision et plus il se rapproche d'une imitation satisfaisante du langage humain. Comme prévu, une analyse réalisée en 2020 par les chercheurs de l'OpenAI a montré que les modèles gagnent en précision et en capacité au fur et à mesure qu'ils s'étendent.

Mais les débuts des LLM ont également apporté quelque chose de vraiment inattendu. Beaucoup de choses. Avec l'avènement de modèles tels que le GPT-3, qui compte 175 milliards de paramètres, ou le PaLM de Google, qui peut être étendu à 540 milliards de paramètres, les utilisateurs ont commencé à décrire de plus en plus de comportements émergents. Un ingénieur de DeepMind a même rapporté avoir pu convaincre ChatGPT qu'il s'était lui-même un terminal Linux et l'avoir amené à exécuter un code mathématique simple pour calculer les 10 premiers nombres premiers. Fait remarquable, il a pu terminer la tâche plus rapidement que le même code exécuté sur une vraie machine Linux.

Comme dans le cas du film emoji, les chercheurs n'avaient aucune raison de penser qu'un modèle de langage conçu pour prédire du texte imiterait de manière convaincante un terminal d'ordinateur. Nombre de ces comportements émergents illustrent l'apprentissage "à zéro coup" ou "à quelques coups", qui décrit la capacité d'un LLM à résoudre des problèmes qu'il n'a jamais - ou rarement - vus auparavant. Selon M. Ganguli, il s'agit là d'un objectif de longue date dans la recherche sur l'intelligence artificielle. Le fait de montrer que le GPT-3 pouvait résoudre des problèmes sans aucune donnée d'entraînement explicite dans un contexte d'apprentissage à zéro coup m'a amené à abandonner ce que je faisais et à m'impliquer davantage", a-t-il déclaré.

Il n'était pas le seul. Une série de chercheurs, qui ont détecté les premiers indices montrant que les LLM pouvaient dépasser les contraintes de leurs données d'apprentissage, s'efforcent de mieux comprendre à quoi ressemble l'émergence et comment elle se produit. La première étape a consisté à documenter minutieusement l'émergence.

Au-delà de l'imitation

En 2020, M. Dyer et d'autres chercheurs de Google Research ont prédit que les LLM auraient des effets transformateurs, mais la nature de ces effets restait une question ouverte. Ils ont donc demandé à la communauté des chercheurs de fournir des exemples de tâches difficiles et variées afin de déterminer les limites extrêmes de ce qu'un LLM pourrait faire. Cet effort a été baptisé "Beyond the Imitation Game Benchmark" (BIG-bench), en référence au nom du "jeu d'imitation" d'Alan Turing, un test visant à déterminer si un ordinateur peut répondre à des questions d'une manière humaine convaincante. (Le groupe s'est particulièrement intéressé aux exemples où les LLM ont soudainement acquis de nouvelles capacités qui étaient totalement absentes auparavant.

"La façon dont nous comprenons ces transitions brutales est une grande question de la echerche", a déclaré M. Dyer.

Comme on pouvait s'y attendre, pour certaines tâches, les performances d'un modèle se sont améliorées de manière régulière et prévisible au fur et à mesure que la complexité augmentait. Pour d'autres tâches, l'augmentation du nombre de paramètres n'a apporté aucune amélioration. Mais pour environ 5 % des tâches, les chercheurs ont constaté ce qu'ils ont appelé des "percées", c'est-à-dire des augmentations rapides et spectaculaires des performances à partir d'un certain seuil d'échelle. Ce seuil variant en fonction de la tâche et du modèle.

Par exemple, les modèles comportant relativement peu de paramètres - quelques millions seulement - n'ont pas réussi à résoudre des problèmes d'addition à trois chiffres ou de multiplication à deux chiffres, mais pour des dizaines de milliards de paramètres, la précision a grimpé en flèche dans certains modèles. Des sauts similaires ont été observés pour d'autres tâches, notamment le décodage de l'alphabet phonétique international, le décodage des lettres d'un mot, l'identification de contenu offensant dans des paragraphes d'hinglish (combinaison d'hindi et d'anglais) et la formulation d'équivalents en langue anglaise, traduit à partir de proverbes kiswahili.

Introduction

Mais les chercheurs se sont rapidement rendu compte que la complexité d'un modèle n'était pas le seul facteur déterminant. Des capacités inattendues pouvaient être obtenues à partir de modèles plus petits avec moins de paramètres - ou formés sur des ensembles de données plus petits - si les données étaient d'une qualité suffisamment élevée. En outre, la formulation d'une requête influe sur la précision de la réponse du modèle. Par exemple, lorsque Dyer et ses collègues ont posé la question de l'emoji de film en utilisant un format à choix multiples, l'amélioration de la précision a été moins soudaine qu'avec une augmentation graduelle de sa complexité. L'année dernière, dans un article présenté à NeurIPS, réunion phare du domaine, des chercheurs de Google Brain ont montré comment un modèle invité à s'expliquer (capacité appelée raisonnement en chaîne) pouvait résoudre correctement un problème de mots mathématiques, alors que le même modèle sans cette invitation progressivement précisée n'y parvenait pas.

 Yi Tay, scientifique chez Google Brain qui a travaillé sur l'étude systématique de ces percées, souligne que des travaux récents suggèrent que l'incitation par de pareilles chaînes de pensées modifie les courbes d'échelle et, par conséquent, le point où l'émergence se produit. Dans leur article sur NeurIPS, les chercheurs de Google ont montré que l'utilisation d'invites via pareille chaines de pensée progressives pouvait susciter des comportements émergents qui n'avaient pas été identifiés dans l'étude BIG-bench. De telles invites, qui demandent au modèle d'expliquer son raisonnement, peuvent aider les chercheurs à commencer à étudier les raisons pour lesquelles l'émergence se produit.

Selon Ellie Pavlick, informaticienne à l'université Brown qui étudie les modèles computationnels du langage, les découvertes récentes de ce type suggèrent au moins deux possibilités pour expliquer l'émergence. La première est que, comme le suggèrent les comparaisons avec les systèmes biologiques, les grands modèles acquièrent réellement de nouvelles capacités de manière spontanée. "Il se peut très bien que le modèle apprenne quelque chose de fondamentalement nouveau et différent que lorsqu'il était de taille inférieure", a-t-elle déclaré. "C'est ce que nous espérons tous, qu'il y ait un changement fondamental qui se produise lorsque les modèles sont mis à l'échelle.

L'autre possibilité, moins sensationnelle, est que ce qui semble être émergent pourrait être l'aboutissement d'un processus interne, basé sur les statistiques, qui fonctionne par le biais d'un raisonnement de type chaîne de pensée. Les grands LLM peuvent simplement être en train d'apprendre des heuristiques qui sont hors de portée pour ceux qui ont moins de paramètres ou des données de moindre qualité.

Mais, selon elle, pour déterminer laquelle de ces explications est la plus probable, il faut mieux comprendre le fonctionnement des LLM. "Comme nous ne savons pas comment ils fonctionnent sous le capot, nous ne pouvons pas dire laquelle de ces choses se produit.

Pouvoirs imprévisibles et pièges

Demander à ces modèles de s'expliquer pose un problème évident : Ils sont des menteurs notoires. Nous nous appuyons de plus en plus sur ces modèles pour effectuer des travaux de base", a déclaré M. Ganguli, "mais je ne me contente pas de leur faire confiance, je vérifie leur travail". Parmi les nombreux exemples amusants, Google a présenté en février son chatbot d'IA, Bard. Le billet de blog annonçant le nouvel outil montre Bard en train de commettre une erreur factuelle.

L'émergence mène à l'imprévisibilité, et l'imprévisibilité - qui semble augmenter avec l'échelle - rend difficile pour les chercheurs d'anticiper les conséquences d'une utilisation généralisée.

"Il est difficile de savoir à l'avance comment ces modèles seront utilisés ou déployés", a déclaré M. Ganguli. "Et pour étudier les phénomènes émergents, il faut avoir un cas en tête, et on ne sait pas, avant d'avoir étudié l'influence de l'échelle. quelles capacités ou limitations pourraient apparaître.

Dans une analyse des LLM publiée en juin dernier, les chercheurs d'Anthropic ont cherché à savoir si les modèles présentaient certains types de préjugés raciaux ou sociaux, à l'instar de ceux précédemment signalés dans les algorithmes non basés sur les LLM utilisés pour prédire quels anciens criminels sont susceptibles de commettre un nouveau délit. Cette étude a été inspirée par un paradoxe apparent directement lié à l'émergence : Lorsque les modèles améliorent leurs performances en passant à l'échelle supérieure, ils peuvent également augmenter la probabilité de phénomènes imprévisibles, y compris ceux qui pourraient potentiellement conduire à des biais ou à des préjudices.

"Certains comportements nuisibles apparaissent brusquement dans certains modèles", explique M. Ganguli. Il se réfère à une analyse récente des LLM, connue sous le nom de BBQ benchmark, qui a montré que les préjugés sociaux émergent avec un très grand nombre de paramètres. "Les grands modèles deviennent brusquement plus biaisés. Si ce risque n'est pas pris en compte, il pourrait compromettre les sujets de ces modèles."

Mais il propose un contrepoint : Lorsque les chercheurs demandent simplement au modèle de ne pas se fier aux stéréotypes ou aux préjugés sociaux - littéralement en tapant ces instructions - le modèle devient moins biaisé dans ses prédictions et ses réponses. Ce qui suggère que certaines propriétés émergentes pourraient également être utilisées pour réduire les biais. Dans un article publié en février, l'équipe d'Anthropic a présenté un nouveau mode d'"autocorrection morale", dans lequel l'utilisateur incite le programme à être utile, honnête et inoffensif.

Selon M. Ganguli, l'émergence révèle à la fois un potentiel surprenant et un risque imprévisible. Les applications de ces grands LLM prolifèrent déjà, de sorte qu'une meilleure compréhension de cette interaction permettra d'exploiter la diversité des capacités des modèles de langage.

"Nous étudions la manière dont les gens utilisent réellement ces systèmes", a déclaré M. Ganguli. Mais ces utilisateurs sont également en train de bricoler, en permanence. "Nous passons beaucoup de temps à discuter avec nos modèles, et c'est là que nous commençons à avoir une bonne intuition de la confiance ou du manque de confiance.

Auteur: Ornes Stephen

Info: https://www.quantamagazine.org/ - 16 mars 2023. Trad DeepL et MG

[ dialogue ] [ apprentissage automatique ] [ au-delà du jeu d'imitation ] [ dualité ]

 

Commentaires: 0

Ajouté à la BD par miguel

néo-darwinisme

Pour décoder la manipulation ou le marketing viral : la mémétique

Qu’y a-t-il de commun entre un drapeau de pirates, la chanson Happy birthday to you, un crucifix, des sigles courants (TV, USA, WC...), un jeu de Pokémon, un panneau stop, une histoire belge bien connue et le logo de Nike ? Ce sont des mèmes. C’est à dire des “entités réplicatives d’informations”, autrement dit des codes culturels qui, par imitation ou contagion, transmettent des solutions inventées par une population. Quand vous faites du marketing viral ou du lobbying, quand la télévision manipule votre “temps de cerveau humain disponible” à des fins commerciales ou idéologiques, vous êtes sans le savoir dans le champ de la mémétique comme M. Jourdain était dans celui de la prose.

La vraie vie n’est pas seulement faite de ce qu’on apprend à l’école ou à l’université... Les relations entre spécialités sont au moins aussi utiles que l’approfondissement d’une expertise spécifique... Ce n’est pas parce qu’une discipline n’a pas (encore) de reconnaissance académique qu’elle n’est pas sérieuse... Surtout quand la connaissance évolue plus vite que les mentalités, quand le fossé se creuse entre théorie et pratique, quand l’académisme dépend de normes formelles ou de chasses gardées plus que du progrès de la civilisation... La mémétique en est un bon exemple qui, malgré sa valeur scientifique et son utilité sociale, est méprisée comme ont pu l’être ses ancêtres darwiniens. Dommage, car si elle était mieux connue, nous serions moins faciles à manipuler.

LA MÉMÉTIQUE, C’EST SÉRIEUX !

Le mème est à la culture ce que le gène est à la nature. L’Oxford English Dictionary le définit comme un élément de culture dont on peut considérer qu’il se transmet par des moyens non génétiques, en particulier par l’imitation. Il a pour habitat ou pour vecteur l’homme lui-même ou tout support d’information. Dans les années 1970, des chercheurs de différentes disciplines s’interrogeaient sur la possible existence d’un équivalent culturel de l’ADN*. C’est en 1976, dans Le gène égoïste, que l’éthologiste Richard Dawkins baptisa le mème à partir d’une association entre gène et mimesis (du grec imitation), suggérant aussi les notions de mémoire, de ressemblance (du français même), de plus petite unité d’information. “Bref, un mot génial, bien trouvé, imparable. Un pur réplicateur qui s’ancre davantage dans votre mémoire chaque fois que vous essayez de l’oublier !” (Pascal Jouxtel).

La mémétique applique à la culture humaine des concepts issus de la théorie de l’évolution et envisage une analogie entre patrimoines culturels et génétique : il y a variation (mutation), sélection et transmission de codes culturels qui sont en concurrence pour se reproduire dans la société. Cette réplication a un caractère intra- et inter-humain. Elle dépend de la capacité du mème à se faire accepter : vous l’accueillez, l’hébergez, le rediffusez parce que vous en tirez une gratification aux yeux d’autrui, par exemple en termes d’image (vous avez le 4x4 vu à la télé), de rareté (il a une carte Pikatchu introuvable) ou autre avantage relationnel (petits objets transactionnels attractifs). Elle est stimulée par les technologies de l’information, qui renforcent le maillage des flux échangés et les accélèrent : la réplication est plus forte par les mass media (cf. les codes véhiculés par les émissions de téléréalité) et sur les réseaux (SMS ou Internet) que dans une société moins médiatisée où les flux sont moins foisonnants. 

On ne démontrera pas en quelques lignes la valeur ou l’intérêt de cette science, mais un ouvrage le fait avec talent : Comment les systèmes pondent, de P. Jouxtel (Le Pommier, Paris, 2005). On se bornera ici à extraire de ce livre un complément de définition : “la mémétique revendique une forme d’autonomie du pensé par rapport au penseur, d’antériorité causale des flux devant les structures, et se pose entre autres comme une science de l’auto-émergence du savoir par compétition entre les niveaux plus élémentaires de la pensée... Transdisciplinaire par nature, la mémétique est une branche extrême de l’anthropologie sociale croisée avec des résultats de l’intelligence artificielle, des sciences cognitives et des sciences de la complexité. Elle s’inscrit formellement dans le cadre darwinien tout en se démarquant des précédentes incursions de la génétique dans les sciences humaines classiques, comme la sociobiologie ou la psychologie évolutionniste, et s’oppose radicalement à toute forme vulgaire de darwinisme social”.

RESTER DANS LE JEU, JOUER À CÔTÉ OU AGIR SUR LE JEU ?

Jouxtel veut aussi promouvoir en milieu francophone une théorie qui y est un peu suspecte, coupable d’attaches anglo-saxonnes, masi qui pourtant trouve ses racines dans notre héritage culturel : autonomie du pensé, morphogenèse (apparition spontanée de formes élémentaires), évolution darwinienne dans la sphère immatérielle des concepts (Monod)... Le rejet observé en France tient aussi au divorce qu’on y entretient entre sciences sociales et sciences naturelles ou à la méfiance vis-à-vis de certains aspects de l’algorithme évolutionnaire (mutation, sélection, reproduction), en particulier “on fait une confusion terrible en croyant que la sélection s’applique aux gens alors qu’elle ne s’applique qu’aux règles du jeu”. De fait, cette forme d’intégration de la pensée s’épanouit mieux dans des cultures favorisant l’ouverture et les échanges que dans celles qui s’attachent à délimiter des territoires cloisonnés. Mais conforter notre fermeture serait renoncer à exploiter de précieuses ressources. Renoncer aussi à apporter une contribution de la pensée en langue française dans un champ aussi stratégique. Donc également renoncer à y exercer une influence.

Outre les enjeux de l’acceptation et des développements francophones de cette science, quels sont ceux de son utilisation ? De façon générale, ce sont des enjeux liés au libre-arbitre et à l’autonomie de la personne quand il s’agit de mettre en évidence les codages sous-jacents de comportements sociaux ou de pratiques culturelles. L’image du miroir éclaire cette notion : on peut rester dans la pièce en croyant que c’est là que se joue le jeu, ou passer derrière le miroir et découvrir d’autres dimensions - c’est ce que la mémétique nous aide à faire. De même dans le diaporama Zoom arrière (www.algoric.com/y/zoom.htm) où, après des images suggérant une perception de premier degré (scène du quotidien dans une cour de ferme), on découvre que la situation peut comporter d’autres dimensions... Plus précisément, pour illustrer l’utilité opérationnelle de la mémétique, on pourra regarder du côté des thèmes qui alimentent régulièrement cette chronique - innovation, marketing, communication stratégique, gouvernance... - autour de trois cas de figure : on peut jouer dans le jeu (idéal théorique souvent trahi par les joueurs), jouer à côté du jeu (égarés, tricheurs) ou agir sur le jeu (en changeant de niveau d’appréhension).

D’AUTRES DEGRÉS SUR LA PYRAMIDE DE MASLOW ?

Une analogie avec la pyramide de Maslow montre comment une situation peut être abordée à différents niveaux. Nos motivations varient sur une échelle de 1 (survie) à 5 (accomplissement) selon le contexte et selon notre degré de maturité. Ainsi, un marketing associé à l’argument mode ou paraître - voiture, téléphone, etc. - sera plus efficace auprès des populations visant les niveaux intermédiaires, appartenance et reconnaissance, que chez celles qui ont atteint le niveau 5. De même pour ce qui nous concerne ici : selon ses caractéristiques et son environnement, une personne ou un groupe prend plus ou moins de hauteur dans l’analyse d’une situation - or, moins on s’élève sur cette échelle, plus on est manipulable, surtout dans une société complexe et différenciée. Prenons par exemple la pétition de Philip Morris pour une loi anti-tabac. Quand j’invite un groupe à décoder cette initiative surprenante, j’obtiens des analyses plus ou moins distanciées, progressant de la naïveté (on y voit une initiative altruiste d’un empoisonneur repenti) à une approche de second degré (c’est un moyen d’empêcher les recours judiciaires de victimes du tabac) ou à une analyse affinée (lobbying de contre-feu pour faire obstacle à une menace plus grave). Plus on s’élève sur cette échelle, plus on voit de variables et plus on a de chances d’avoir prise sur le phénomène analysé. Une approche mémétique poursuivra la progression, par exemple en trouvant là des mèmes pondus par le “système pro-tabac” pour assurer sa descendance, à l’instar de ceux qu’il a pondus au cinéma pendant des années en faisant fumer les héros dans les films.

Il est facile de traiter au premier degré les attentats du 11 septembre 2001, par exemple en y voyant une victoire des forces de libération contre un symbole du libéralisme sauvage ou une attaque des forces du mal contre le rempart de la liberté - ce qui pour les mèmes revient au même car ce faisant, y compris avec des analyses un peu moins primaires, on alimente une diversion favorisant l’essor de macro-systèmes : “terrorisme international”, “capitalisme financier” ou autres. Ceux-ci dépassent les acteurs (Bush, Ben Laden...), institutions (Etat américain, Al-Qaida...) ou systèmes (démocratie, islamisme...), qui ne sont que des vecteurs de diffusion de mèmes dans un affrontement entre macro-systèmes.

QUAND CE DONT ON PARLE N’EST PAS CE DONT IL S’AGIT...

Autre cas intéressant de réplicateurs : les traditionnelles chaînes de l’amitié, consistant à manipuler un individu en exploitant sa naïveté, avec un emballage rudimentaire mais très efficace auprès de celui qui manque d’esprit critique : si tu brises la chaîne les foudres du ciel s’abattront sur toi, si tu la démultiplies tu connaîtras le bonheur, ou au moins la prospérité. On n’y croit pas, mais on ne sait jamais... Internet leur a donné une nouvelle vie - nous avons tous des amis pourtant très fréquentables qui tombent dans le piège et essaient de nous y entraîner ! - et a affiné la perversité de la manipulation avec les hoax et autres virus. Le marketing viral utilise ces ressorts. La réplication peut se faire de façon plus subtile, voire insidieuse, par exemple avec des formes de knowledge management (KM) “de premier degré” - en bref : la mondialisation induit un impératif d’innovation ; on veut dépasser les réactions quantitatives et malthusiennes qui s’attaquent aux coûts car elles jettent le bébé avec l’eau du bain en détruisant aussi les gisements de valeur ; on va donc privilégier la rapidité d’adaptation à un environnement changeant, donc innover en permanence, donc mobiliser le savoir et la créativité, donc fonctionner en réseau. Si l’on continue à gravir des échelons, on s’aperçoit que cette approche réactive reste “dans le jeu” alors qu’on a besoin de prendre du recul par rapport au jeu lui-même pour le remettre en question, voire le réinventer. La mémétique éclaire la complexité de cet exercice difficile où il faut pouvoir changer de logique, de paradigme, pour aborder un problème au niveau des processus du jeu et non plus au niveau de ses contenus. Comme dans la communication stratégique.

Déjà dans le lobbying classique, on savait depuis longtemps que le juriste applique la loi, le lobbyiste la change : le premier reste dans le jeu, quitte à tout faire pour contourner le texte ou en changer l’interprétation, alors que le second, constatant que la situation a évolué, s’emploie à faire changer les règles, voire le jeu lui-même. De même dans les appels d’offres, où certains suivent le cahier des charges quand d’autres contribuent à le définir en agissant en amont. De même dans le lobby-marketing, par exemple quand on s’attache à changer la nature de la relation plus que son contenu ou sa forme, pour passer de solliciteur à sollicité : faire que mon interlocuteur me prie de bien vouloir lui vendre ce que précisément je veux lui vendre... comme est aussi supposé le faire tout bon enseignant qui, ne se bornant pas à transférer des savoirs, veut donner envie d’apprendre ! Déjà difficile pour un lobbyiste néophyte, ce changement de perspective n’est pas naturel dans un “monde de l’innovation” où l’on privilégie un “rationnel plutôt cerveau gauche” qui ne prédispose pas à décoder le jeu pour pouvoir le mettre en question et le réinventer. 

L’interpellation mémétique peut conduire très loin, notamment quand elle montre comment l’essor des réseaux favorise des réplications de mèmes qui ne nous sont pas nécessairement favorables. Elle peut ainsi contredire des impulsions “évidentes” en KM, à commencer par celle qui fait admettre que pour innover et “s’adapter” il faut fonctionner en réseau et en réseaux de réseaux. Avec un peu de recul mémétique, on pourra considérer qu’il s’agit moins de s’adapter au système que d’adapter le système, donc pas nécessairement de suivre la course aux réseaux subis mais d’organiser l’adéquation avec des réseaux choisis, voire maîtrisés...

Aux origines de la mémétique

La possibilité que la sphère des humanités s’ouvre au modèle darwinien n’est pas nouvelle. Sans remonter à Démocrite, on la trouve chez le biochimiste Jacques Monod, dans Le hasard et la nécessité. La notion de monde des idées (noosphère) a été introduite par l’anthropologue Pierre Teilhard de Chardin. Alan Turing et Johannes Von Neumann, pères de l’informatique moderne, ont envisagé que les lois de la vie s’appliquent aussi à des machines ou créatures purement faites d’information. L’épistémologie évolutionnaire de Friedrich Von Hayek en est une autre illustration. D’autres parentés sont schématisées dans la carte ci-dessous.

De façon empirique, au quotidien, on peut observer la séparation du fait humain d’avec la nature, ainsi que son accélération : agriculture, urbanisation et autres activités sont visibles de l’espace, émissions de radio et autres expressions y sont audibles ; nos traces sont partout, livres, codes de lois, arts, technologies, religions… Est-ce l’homme qui a propulsé la culture ou celle-ci qui l’a tiré hors de son origine animale ?

En fait, grâce à ses outils, l’homme a favorisé une évolution combinée, un partenariat, un entraînement mutuel entre le biologique et le culturel. André Leroi-Gourhan raconte la co-évolution de l’outil, du langage et de la morphologie. Claude Lévi-Strauss parle de l’autonomie de l’organisation culturelle, par-delà les différences ethniques. Emile Durkheim revendique l’irréductibilité du fait social à la biologie. Parallèlement, l’observation des sociétés animales démontre que la nature produit des phénomènes collectifs, abstraits, allant bien au-delà des corps. Selon certaines extensions radicales de la sociobiologie à l’homme, toutes nos capacités seraient codées génétiquement, donc toute pratique culturelle - architecture, droit, économie ou art - ne serait qu’un phénotype étendu de l’homme. La réduction des comportements à leurs avantages évolutionnaires biologiques s’est atténuée. Le cerveau est modulaire, le schéma général de ses modules est inscrit dans les gènes, mais on a eu du mal à admettre que leur construction puisse se faire sur la base de flux cognitifs, d’apports d’expériences. 

Il y a des façons d’agir ou de penser qui au fil du temps ont contribué à la survie de ceux qui étaient naturellement aptes à les pratiquer : la peur du noir, la capacité de déguiser ses motivations, le désir de paraître riche ; ou plus subtilement la tendance à croire à une continuation de la vie après la mort, à une providence qui aide, à une vie dans l’invisible ; ou même le réflexe intellectuel consistant à supposer un but à toute chose. Mais il existe des idées, des modes de vie, des techniques, bref des éléments de culture indépendants de l’ADN, qui se transmettent par des moyens non génétiques, en particulier par l’imitation : c’est la thèse de Susan Blackmore, pour qui, entre ces mèmes en compétition, la sélection se fait en fonction de leur “intérêt propre” et non de celui des gènes.

L’argument de Pascal Jouxtel s’inspire d’une formule de Luca Cavalli-Sforza : l’évolution naturelle de l’homme est terminée car tous les facteurs naturels de sélection sont sous contrôle culturel. Tout ce qui pourrait influencer la fécondité ou la mortalité infantile est maîtrisé ou dépend de facteurs géopolitiques, économiques ou religieux. En revanche, la culture continue à évoluer : lois, art, technologies, réseaux de communication, structures de pouvoir, systèmes de valeurs. Le grand changement, c’est que les mèmes évoluent pour leur propre compte, en exploitant le terrain constitué par les réseaux de cerveaux humains, mais indépendamment, et parfois au mépris des besoins de leurs hôtes biologiques. 

“Ce sont des solutions mémétiquement évoluées qui sont aujourd’hui capables de breveter un génome. Il en va de même des religions et des systèmes politiques qui tuent. La plus majestueuse de toutes ces solutions s’appelle Internet, le cerveau global... Tout ce qui relie les humains est bon pour les mèmes. Il est logique, dans la même optique, de coder de façon de plus en plus digitalisée tous les modèles qui doivent être transmis, stockés et copiés. C’est ainsi que le monde se transforme de plus en plus en un vaste Leroy-Merlin culturel, au sein duquel il devient chaque jour plus facile de reproduire du prêt-à-penser, du prêt-à-vivre, du prêt-à-être. A mesure que l’on se familiarise avec l’hypothèse méméticienne, il devient évident qu’elle invite à un combat, à une résistance et à un dépassement. Elle nous montre que des modèles peuvent se reproduire dans le tissu social jusqu’à devenir dominants sans avoir une quelconque valeur de vérité ou d’humanité. Elle nous pose des questions comme : que valent nos certitudes ? De quel droit pouvons-nous imposer nos convictions et notre façon de vivre ?... Comment puis-je dire que je pense ?” (P. Jouxtel, www.memetique.org). Et bien sûr : comment les systèmes pondent-ils ?

Auteur: Quentin Jean-Pierre

Info: Critique du livre de Pascal Jouxtel "comment les systèmes..."

[ sociolinguistique ] [ PNL ]

 

Commentaires: 0

Ajouté à la BD par miguel

intelligence artificielle

Apprendre l'anglais n'est pas une tâche facile, comme le savent d'innombrables étudiants. Mais lorsque l'étudiant est un ordinateur, une approche fonctionne étonnamment bien : Il suffit d'alimenter un modèle mathématique géant, appelé réseau neuronal, avec des montagnes de textes provenant d'Internet. C'est le principe de fonctionnement des modèles linguistiques génératifs tels que ChatGPT d'OpenAI, dont la capacité à tenir une conversation cohérente (à défaut d'être toujours sincère) sur un large éventail de sujets a surpris les chercheurs et le public au cours de l'année écoulée.

Mais cette approche présente des inconvénients. D'une part, la procédure de "formation" nécessaire pour transformer de vastes archives textuelles en modèles linguistiques de pointe est coûteuse et prend beaucoup de temps. D'autre part, même les personnes qui forment les grands modèles linguistiques ont du mal à comprendre leur fonctionnement interne, ce qui, à son tour, rend difficile la prévision des nombreuses façons dont ils peuvent échouer.

Face à ces difficultés, certains chercheurs ont choisi d'entraîner des modèles plus petits sur des ensembles de données plus restreints, puis d'étudier leur comportement. "C'est comme le séquençage du génome de la drosophile par rapport au séquençage du génome humain", explique Ellie Pavlick, chercheuse sur les modèles de langage à l'université de Brown.

Dans un article récemment publié sur le serveur scientifique arxiv.org, deux chercheurs de Microsoft ont présenté une nouvelle méthode pour former de minuscules modèles de langage : Les élever avec un régime strict d'histoires pour enfants.

RÉSEAUX NEURONAUX

Des chercheurs acquièrent une nouvelle compréhension à partir d'une simple IA  

Les chercheurs en apprentissage automatique ont compris cette leçon. GPT-3.5, le grand modèle linguistique qui alimente l'interface ChatGPT, compte près de 200 milliards de paramètres et a été entraîné sur un ensemble de données comprenant des centaines de milliards de mots (OpenAI n'a pas publié les chiffres correspondants pour son successeur, GPT-4).  L'entraînement de modèles aussi vastes nécessite généralement au moins 1 000 processeurs spécialisés, appelés GPU, fonctionnant en parallèle pendant des semaines. Seules quelques entreprises peuvent réunir les ressources nécessaires, sans parler de l'entraînement et de la comparaison de différents modèles.

Les deux chercheurs ont montré que des modèles linguistiques des milliers de fois plus petits que les systèmes de pointe actuels apprenaient rapidement à raconter des histoires cohérentes et grammaticalement justes lorsqu'ils étaient formés de cette manière. Leurs résultats indiquent de nouvelles pistes de recherche qui pourraient être utiles pour former des modèles plus importants et comprendre leur comportement.

"J'ai trouvé tout  ça très instructif", a déclaré Chandra Bhagavatula, chercheur sur les modèles de langage à l'Allen Institute for Artificial Intelligence de Seattle. "Le concept lui-même est très intéressant.

Il était une fois

Les réseaux neuronaux au cœur des modèles de langage sont des structures mathématiques vaguement inspirées du cerveau humain. Chacun d'entre eux contient de nombreux neurones artificiels disposés en couches, avec des connexions entre les neurones des couches adjacentes. Le comportement du réseau neuronal est régi par la force de ces connexions, appelées paramètres. Dans un modèle linguistique, les paramètres contrôlent les mots que le modèle peut produire ensuite, compte tenu d'une invite initiale et des mots qu'il a déjà générés.

Un modèle ne prend véritablement vie qu'au cours de la formation, lorsqu'il compare de manière répétée ses propres résultats au texte de son ensemble de données de formation et qu'il ajuste ses paramètres afin d'accroître la ressemblance. Un réseau non entraîné avec des paramètres aléatoires est trivialement facile à assembler à partir de quelques lignes de code, mais il ne produira que du charabia. Après l'entraînement, il peut souvent poursuivre de manière plausible un texte peu familier. Les modèles de plus grande taille sont souvent soumis à des réglages plus fins qui leur apprennent à répondre à des questions et à suivre des instructions, mais l'essentiel de la formation consiste à maîtriser la prédiction des mots.

Pour réussir à prédire des mots, un modèle linguistique doit maîtriser de nombreuses compétences différentes. Par exemple, les règles de la grammaire anglaise suggèrent que le mot suivant le mot "going" sera probablement "to", quel que soit le sujet du texte. En outre, un système a besoin de connaissances factuelles pour compléter "la capitale de la France est", et compléter un passage contenant le mot "not" nécessite une connaissance rudimentaire de la logique.

"Le langage brut est très compliqué", explique Timothy Nguyen, chercheur en apprentissage automatique chez DeepMind. "Pour que des capacités linguistiques intéressantes apparaissent, les gens ont eu recours à l'idée que plus il y a de données, mieux c'est".

(photo) Ronen Eldan s'est rendu compte qu'il pouvait utiliser les histoires d'enfants générées par de grands modèles linguistiques pour en entraîner rapidement de plus petits.

Introduction

Ronen Eldan, mathématicien qui a rejoint Microsoft Research en 2022 pour étudier les modèles de langage génératifs, souhaitait développer un moyen moins coûteux et plus rapide d'explorer leurs capacités. Le moyen naturel d'y parvenir était d'utiliser un petit ensemble de données, ce qui signifiait qu'il devait entraîner les modèles à se spécialiser dans une tâche spécifique, afin qu'ils ne s'éparpillent pas. Au départ, il voulait entraîner les modèles à résoudre une certaine catégorie de problèmes mathématiques, mais un après-midi, après avoir passé du temps avec sa fille de 5 ans, il s'est rendu compte que les histoires pour enfants convenaient parfaitement. "L'idée m'est venue littéralement après lui avoir lu une histoire", a-t-il déclaré.

Pour générer des histoires cohérentes pour les enfants, un modèle de langage devrait apprendre des faits sur le monde, suivre les personnages et les événements, et observer les règles de grammaire - des versions plus simples des défis auxquels sont confrontés les grands modèles. Mais les grands modèles formés sur des ensembles de données massives apprennent d'innombrables détails non pertinents en même temps que les règles qui comptent vraiment. Eldan espérait que la brièveté et le vocabulaire limité des histoires pour enfants rendraient l'apprentissage plus gérable pour les petits modèles, ce qui les rendrait à la fois plus faciles à former et plus faciles à comprendre.

Dans le monde des modèles de langage, cependant, le terme "petit" est relatif : Un ensemble de données mille fois plus petit que celui utilisé pour former GPT-3.5 devrait encore contenir des millions d'histoires. "Je ne sais pas combien d'argent vous voulez dépenser, mais je suppose que vous n'allez pas engager des professionnels pour écrire quelques millions de nouvelles", a déclaré M. Nguyen.

Il faudrait un auteur extraordinairement prolifique pour satisfaire des lecteurs aussi voraces, mais Eldan avait quelques candidats en tête. Qui peut mieux écrire pour un public de petits modèles linguistiques que pour de grands modèles ?

Toys stories

Eldan a immédiatement entrepris de créer une bibliothèque d'histoires synthétiques pour enfants générées par de grands modèles linguistiques. Mais il a rapidement découvert que même les modèles de pointe ne sont pas naturellement très créatifs. Si l'on demande à GPT-4 d'écrire des histoires adaptées à des enfants de 4 ans, explique Eldan, "environ un cinquième des histoires concernera des enfants qui vont au parc et qui ont peur des toboggans". C'est apparemment la quintessence des histoires pour enfants d'âge préscolaire, selon l'Internet.

La solution a consisté à ajouter un peu d'aléatoire dans le message. Tout d'abord, Eldan a utilisé le GPT-4 pour générer une liste de 1 500 noms, verbes et adjectifs qu'un enfant de 4 ans pourrait connaître - suffisamment courte pour qu'il puisse facilement la vérifier lui-même. Il a ensuite écrit un programme informatique simple qui demanderait à plusieurs reprises à GPT-3.5 ou à GPT-4 de générer une histoire adaptée à l'âge de l'enfant, comprenant trois mots aléatoires de la liste, ainsi qu'un détail supplémentaire choisi au hasard, comme une fin heureuse ou un rebondissement de l'intrigue. Les histoires obtenues, heureusement, étaient moins axées sur des diapositives effrayantes.

Eldan disposait désormais d'une procédure pour produire des données de formation à la demande, mais il n'avait aucune idée du nombre d'histoires dont il aurait besoin pour former un modèle fonctionnel, ni de la taille de ce modèle. C'est alors qu'il s'est associé à Yuanzhi Li, chercheur en apprentissage automatique chez Microsoft et à l'université Carnegie Mellon, pour essayer différentes possibilités, en tirant parti du fait que les petits modèles peuvent être formés très rapidement. La première étape consistait à décider comment évaluer leurs modèles.

Introduction

Dans la recherche sur les modèles de langage - comme dans toute salle de classe - la notation est un sujet délicat. Il n'existe pas de rubrique parfaite qui englobe tout ce que les chercheurs veulent savoir, et les modèles qui excellent dans certaines tâches échouent souvent de manière spectaculaire dans d'autres. Au fil du temps, les chercheurs ont mis au point divers critères de référence standard basés sur des questions dont les réponses ne sont pas ambiguës, ce qui est une bonne approche si vous essayez d'évaluer des compétences spécifiques. Mais Eldan et Li se sont intéressés à quelque chose de plus nébuleux : quelle doit être la taille réelle des modèles linguistiques si l'on simplifie le langage autant que possible ?

"Pour vérifier directement si le modèle parle anglais, je pense que la seule chose à faire est de laisser le modèle générer de l'anglais de manière ouverte", a déclaré M. Eldan.

Il n'y a que deux façons de mesurer les performances d'un modèle sur des questions aussi qualitatives : S'appuyer sur des évaluateurs humains ou se tourner à nouveau vers le GPT-4. Les deux chercheurs ont opté pour cette dernière solution, laissant les grands modèles à la fois rédiger les manuels et noter les dissertations.

Bhagavatula a déclaré qu'il aurait aimé voir comment les évaluations de GPT-4 se comparaient à celles des correcteurs humains - GPT-4 peut être biaisé en faveur des modèles qu'il a aidé à former, et l'opacité des modèles de langage rend difficile la quantification de tels biais. Mais il ne pense pas que de telles subtilités affecteraient les comparaisons entre différents modèles formés sur des ensembles similaires d'histoires synthétiques - l'objectif principal du travail d'Eldan et Li.

Eldan et Li ont utilisé une procédure en deux étapes pour évaluer chacun de leurs petits modèles après la formation. Tout d'abord, ils ont présenté au petit modèle la première moitié d'une histoire distincte de celles de l'ensemble des données d'apprentissage, de manière à ce qu'il génère une nouvelle fin, en répétant ce processus avec 50 histoires de test différentes. Ensuite, ils ont demandé à GPT-4 d'évaluer chacune des fins du petit modèle en fonction de trois catégories : créativité, grammaire et cohérence avec le début de l'histoire. Ils ont ensuite fait la moyenne des notes obtenues dans chaque catégorie, obtenant ainsi trois notes finales par modèle.

Avec cette procédure en main, Eldan et Li étaient enfin prêts à comparer les différents modèles et à découvrir quels étaient les étudiants les plus brillants.

Résultats des tests

Après quelques explorations préliminaires, les deux chercheurs ont opté pour un ensemble de données de formation contenant environ 2 millions d'histoires. Ils ont ensuite utilisé cet ensemble de données, baptisé TinyStories, pour entraîner des modèles dont la taille varie de 1 million à 30 millions de paramètres, avec un nombre variable de couches. Le travail a été rapide : En utilisant seulement quatre GPU, l'entraînement du plus grand de ces modèles n'a pas pris plus d'une journée.

Les plus petits modèles ont eu du mal. Par exemple, l'une des histoires testées commence par un homme à l'air méchant qui dit à une fille qu'il va lui prendre son chat. Un modèle à un million de paramètres s'est retrouvé bloqué dans une boucle où la fille répète sans cesse à l'homme qu'elle veut être son amie. Mais les modèles plus grands, qui sont encore des milliers de fois plus petits que GPT-3.5, ont obtenu des résultats surprenants. La version à 28 millions de paramètres racontait une histoire cohérente, même si la fin était sinistre : "Katie s'est mise à pleurer, mais l'homme s'en fichait. Il a emporté le chat et Katie n'a plus jamais revu son chat. Fin de l'histoire".

En plus de tester leurs propres modèles, Eldan et Li ont soumis le même défi au GPT-2 d'OpenAI, un modèle de 1,5 milliard de paramètres publié en 2019. Le résultat a été bien pire - avant la fin abrupte de l'histoire, l'homme menace d'emmener la jeune fille au tribunal, en prison, à l'hôpital, à la morgue et enfin au crématorium.

Introduction

Selon M. Nguyen, il est passionnant que des modèles aussi petits soient aussi fluides, mais il n'est peut-être pas surprenant que GPT-2 ait eu du mal à accomplir la tâche : il s'agit d'un modèle plus grand, mais loin de l'état de l'art, et il a été formé sur un ensemble de données très différent. "Un enfant en bas âge qui ne s'entraînerait qu'à des tâches d'enfant en bas âge, comme jouer avec des jouets, obtiendrait de meilleurs résultats que vous ou moi", a-t-il fait remarquer. "Nous ne nous sommes pas spécialisés dans cette chose simple.

Les comparaisons entre les différents modèles de TinyStories ne souffrent pas des mêmes facteurs de confusion. Eldan et Li ont observé que les réseaux comportant moins de couches mais plus de neurones par couche étaient plus performants pour répondre aux questions nécessitant des connaissances factuelles ; inversement, les réseaux comportant plus de couches et moins de neurones par couche étaient plus performants pour garder en mémoire les personnages et les points de l'intrigue situés plus tôt dans l'histoire. Bhagavatula a trouvé ce résultat particulièrement intriguant. S'il peut être reproduit dans des modèles plus vastes, "ce serait un résultat vraiment intéressant qui pourrait découler de ce travail", a-t-il déclaré.

Eldan et Li ont également étudié comment les capacités de leurs petits modèles dépendaient de la durée de la période de formation. Dans tous les cas, les modèles maîtrisaient d'abord la grammaire, puis la cohérence. Pour Eldan, ce schéma illustre comment les différences dans les structures de récompense entraînent des différences dans les schémas d'acquisition du langage entre les réseaux neuronaux et les enfants. Pour les modèles de langage, qui apprennent en prédisant des mots, "l'incitation pour les mots "je veux avoir" est aussi importante que pour les mots "crème glacée"", a-t-il déclaré. Les enfants, en revanche, "ne se soucient pas de savoir s'ils disent 'j'aimerais avoir de la glace' ou simplement 'glace, glace, glace'".

Qualité contre quantité

Eldan et Li espèrent que cette étude incitera d'autres chercheurs à entraîner différents modèles sur l'ensemble des données de TinyStories et à comparer leurs capacités. Mais il est souvent difficile de prédire quelles caractéristiques des petits modèles apparaîtront également dans les plus grands.

"Peut-être que les modèles de vision chez la souris sont de très bons substituts de la vision humaine, mais les modèles de dépression chez la souris sont-ils de bons modèles de la dépression chez l'homme ? a déclaré M. Pavlick. "Pour chaque cas, c'est un peu différent.

Le succès des modèles TinyStories suggère également une leçon plus large. L'approche standard pour compiler des ensembles de données de formation consiste à aspirer des textes sur l'internet, puis à filtrer les déchets. Le texte synthétique généré par des modèles de grande taille pourrait constituer une autre façon d'assembler des ensembles de données de haute qualité qui n'auraient pas besoin d'être aussi volumineux.

"Nous avons de plus en plus de preuves que cette méthode est très efficace, non seulement pour les modèles de la taille de TinyStories, mais aussi pour les modèles plus importants", a déclaré M. Eldan. Ces preuves proviennent d'une paire d'articles de suivi sur les modèles à un milliard de paramètres, rédigés par Eldan, Li et d'autres chercheurs de Microsoft. Dans le premier article, ils ont entraîné un modèle à apprendre le langage de programmation Python en utilisant des extraits de code générés par GPT-3.5 ainsi que du code soigneusement sélectionné sur l'internet. Dans le second, ils ont complété l'ensemble de données d'entraînement par des "manuels" synthétiques couvrant un large éventail de sujets, afin d'entraîner un modèle linguistique à usage général. Lors de leurs tests, les deux modèles ont été comparés favorablement à des modèles plus importants formés sur des ensembles de données plus vastes. Mais l'évaluation des modèles linguistiques est toujours délicate, et l'approche des données d'entraînement synthétiques n'en est qu'à ses balbutiements - d'autres tests indépendants sont nécessaires.

Alors que les modèles linguistiques de pointe deviennent de plus en plus volumineux, les résultats surprenants de leurs petits cousins nous rappellent qu'il y a encore beaucoup de choses que nous ne comprenons pas, même pour les modèles les plus simples. M. Nguyen s'attend à ce que de nombreux autres articles explorent l'approche inaugurée par TinyStories.

"La question est de savoir où et pourquoi la taille a de l'importance", a-t-il déclaré. "Il devrait y avoir une science à ce sujet, et cet article est, je l'espère, le début d'une riche histoire.



 



 

Auteur: Internet

Info: https://www.quantamagazine.org/ Ben Brubaker, 5 octobre 2023

[ synthèse ]

 

Commentaires: 0

Ajouté à la BD par miguel