Les fils de la pensée

poème

Etre ange
C'est étrange
Dit l'ange
Etre âne
C'est étrâne
Dit l'âne
Cela ne veut rien dire
Dit l'ange en haussant les ailes
Pourtant
Si étrange veut dire quelque chose
Etrâne est plus étrange qu'étrange
Dit l'âne
Etrange est!
Dit l'ange en tapant des pieds
Etranger vous-même
Dit l'âne
Et il s'envole.

Auteur: Prévert Jacques

Info:

[ insolite ] [ bizarre ]

Commenter

Commentaires: 2

Ajouté à la BD par miguel

foyer

Je pouvais m’imaginer que c’était ma maison et que bientôt elle serait remplie de bruits de ma famille : le rire vif et joyeux de Patsy ; le rock-and-roll de Gilley jaillissant de sa chaîne : et Kathie – oh, ma chère, chère Kathie -, elle descendrait l’escalier en sautillant, chantant quelque comptine idiote :
Eenie, Meenie, Disaleenie
Ooh aah, Gotchaleenie
Hotchy Totchy
Liberace
I love you !*

Auteur: Lee Martin

Info: Cet été là, p 169, *comptine que les enfants chantent en se tapant mutuellement dans les mains, NDT

[ animation ]

Commenter

Commentaires: 0

quête

Si vous me demandez de vous dire quoi que ce soit sur la nature de ce qui se trouve au-delà du phanéron*... ma réponse est "Comment devrais-je savoir ?".... Je ne suis pas désemparé par les mystères ultimes... Je ne puis rien saisir ce qui se cache derrière ces questions tout comme mon chat ne peut comprendre ce qui se cache derrière le bruit que je produis en tapant ce paragraphe.

Auteur: Gardner Martin

Info: The Whys of a Philosophical Scrivener. *Du grec φανερός phaneros "visible, visible" : essentiellement le monde réel filtré par nos sens (vue, ouïe, toucher, etc.).

[ limitation ]

Commenter

Commentaires: 0

far-west

Dehors, la nuit était fiévreuse

avec des éclairs silencieux et un vent chaud,

Des mauvaises herbes sèches et des vieux papiers détalaient depuis

le sud comme des lapins à travers le cap enténébré, et une bande de chevaux

Allait et venait sans but, tapant du sabot et poussant des cris perçants.

Le ciel était noir, et l’océan, mais son écume brillait

Phosphorescente entre les éclairs ; et quelques gouttes

De pluie tombèrent soudainement.

Auteur: Jeffers Robinson

Info: Dans "Mara ou Tu peux en vouloir au soleil", trad. de l’anglais (États-Unis) par Cédric Barnaud, éditions Unes, 2022, page 29

[ ambiance ] [ électricité dans l'air ] [ nocturne estival ]

Commenter

Commentaires: 2

Ajouté à la BD par Coli Masson

apprentissage du langage

[…] la maîtresse d’Helen Keller, Ann Sullivan, s’efforçait d’apprendre à son élève à communiquer à l’aide de signes, alors confondus à des signaux, en tapant d’une manière déterminée selon les cas, dans la paume de l’enfant. Elle voulait ainsi associer à la perception d’un signal la sensation d’un objet. Par exemple, elle plaçait la main droite d’Helen sous un jet d’eau fraîche, pendant que sur l’autre, elle frappait le signal convenu. Dans cette pratique, spontanément behaviouriste, le signe est conçu comme l’index de son référent, qu’il a pour fonction essentielle d’évoquer. On prouvera qu’on a compris ce qu’est un signe si l’on peut user de cet index pour désigner le référent, quand on en a besoin. Tout être capable d’un tel comportement sera réputé savoir "parler". Or, la difficulté étonnante à laquelle se heurta Ann Sullivan, est que la petite Helen, tout en étant à même de communiquer quelques-uns de ses besoins au moyen des signaux que sa maîtresse lui avait appris à utiliser, semblait néanmoins piétiner à la porte d’un monde interdit. Il y avait là pourtant tous les éléments d’une relation de communication : émetteur, récepteur, médium de transmission et code. Plus encore : cet ensemble fonctionnait, mais la petite Helen – elle avait alors six ans – ne savait toujours pas parler.

Le miracle se produisit le 5 avril 1887. Ann Sullivan s’efforçait inlassablement d’épeler le mot tasse dans la main d’Helen, puis lui en donnait une à tenir. "Elle versait ensuite de l’eau dans la tasse, y trempait le doigt de l’enfant, et attendait, espérant qu’Helen réagirait en épelant e-a-u". En vain. Etant descendue au jardin afin de distraire l’enfant, elle s’approcha avec elle d’un puits d’où le jardinier tirait un seau d’eau. Une dernière fois, elle lui mit la tasse dans la main, y fit couler un peu d’eau, et épela water, sur l’autre main, de plus en plus rapidement, cette eau qu’Helen aimait à faire couler sur sa main. Soudain l’enfant lâcha la tasse, et, pétrifiée, laissa une pensée envahir et illuminer son esprit : w-a-t-e-r ! w-a-t-e-r ! cette chose merveilleusement fraîche, cette chose amie, c’était w-a-t-e-r ! Elle venait de comprendre que toute chose a un nom, que toute chose peut être dite ou signifiée, que le signe énonce la chose, ou encore qu’il l’exprime, c’est-à-dire que le rapport qui unit la chose à son index n’est pas celui d’une association entre deux perceptions sensibles […] mais un rapport de représentation, en sorte que le signe w-a-t-e-r s’identifie à la chose merveilleuse tout en en demeurant distinct : il "tient lieu" de la chose. Dans un tel rapport de signification, les deux éléments mis en relation ne sont plus du même ordre. Ils sont bien perçus tous les deux comme deux réalités également sensibles, et de ce point de vue, rien ne permet de les distinguer. Pourtant, dans le rapport de signification, la présence sensible de l’un cesse de valoir pour elle-même, cesse d’être le signal de son existence, qui est ainsi occultée, et se trouve valoir pour l’existence d’un autre, dont elle tient la place. C’est là l’expérience fondamentale de la signification. Les deux éléments sensibles ne sont plus unis par une relation horizontale de juxtaposition, mais par une relation verticale, et purement intellectuelle, de lieutenance.

Auteur: Borella Jean

Info: Dans "Histoire et théorie du symbole", éd. L'Harmattan, Paris, 2015, pages 125-126

[ sourd-muet-aveugle ] [ différence signe-signal ] [ invisible ] [ arrachement sémantique ] [ célèbre anecdote ] [ déclic ]

Commenter

Commentaires: 0

Ajouté à la BD par Coli Masson

corps-esprit

Lourdement handicapé, Stephen Hawking, auteur d’"Une brève histoire du temps" est le héros d’un film. L’anthropologue des sciences Hélène Mialet dévoile le système d’une personnalité fascinante.

Au-delà de ses contributions importantes sur la connaissance des trous noirs, l’exceptionnalité de l’homme réside aussi dans sa condition physique. Atteint de sclérose latérale amyotrophique, une dégénérescence des neurones moteurs, il est paralysé depuis des dizaines d’années. Ne pouvant plus parler, il communique par l’intermédiaire d’un ordinateur équipé d’un logiciel de synthèse vocale qu’il dirigeait au départ avec son doigt, plus récemment par une contraction de la joue. Grâce à ce système, il a écrit Une Brève Histoire du temps, ouvrage de référence vendu à près de dix millions d’exemplaires. A 73 ans, Stephen Hawking, élevé au statut d’icône du génie scientifique, continue d’écrire et de donner des conférences. Comment? C’est la question posée par Madame Mialet, philosophe et anthropologue des sciences, professeure invitée à l’Université de Californie à Davis, aux Etats-Unis, qui a côtoyé ce scientifique hors du commun. Elle a passé dix ans à l’interviewer, l’observer, à rencontrer ses proches et ses collègues.

Samedi Culturel: Qui est Stephen Hawking?

HM : Difficile de répondre, parce qu’il est une icône. On imagine que Stephen Hawking, lourdement handicapé, est capable, seul, de produire de la science. Il incarne le mythe de notre modernité, qui trouve son origine dans l’interprétation de la pensée de Descartes, selon laquelle on n’a pas besoin d’un corps pour penser et qu’il suffit d’avoir un esprit. Stephen Hawking renchérit lui-même en disant: "Pour faire de la physique, un esprit suffit." J’ai pris ça au mot et en tant qu’ethnographe, j’ai passé des années à le suivre, à étudier sa façon de travailler, à interviewer ses étudiants et ses collègues. Il est devenu en quelque sorte ma tribu! J’ai reconstruit le réseau de compétences qui l’entoure et mis en évidence un collectif complexe. La question posée dans mon livre est plutôt: où est Stephen Hawking dans ce collectif?

SC : Est-ce que l’esprit brillant de Stephen Hawking suffit seul à faire de la science?

HM : Non, je ne pense pas. Parce qu’il ne peut pas bouger ni manipuler des objets. Il ne peut parler que par l’intermédiaire d’une voix de synthèse générée par un ordinateur. Il doit tout déléguer aux machines et aux individus. Ses proches ont appris à communiquer avec lui plus rapidement en lui posant des questions auxquelles il répond par oui ou non. Le type de vocabulaire engrangé dans son ordinateur est organisé, et le logiciel complète systématiquement ses phrases en reconnaissant ses motifs d’expression. Les gens aussi finissent ses phrases, ce qu’il n’aime pas d’ailleurs, et mettent en action ses énoncés. Contrairement à ce que l’on croit, tout n’est pas dans sa tête mais aussi à l’extérieur. Ses étudiants organisés autour de lui mènent les projets de recherche, font les calculs. En bout de course il est l’auteur principal et ceux qui l’ont aidé disparaissent du processus.

SC : Stephen Hawking est-il différent d’autres scientifiques?

HM : Non, son corps étendu au collectif lui permet de faire de la science comme tout chercheur à son niveau. Les chefs de laboratoire aussi lancent des pistes de recherche à d’autres qui font les expériences. Stephen Hawking est singulier car il est très collectivisé, et non parce qu’il serait coupé du monde social et matériel.

SC : Comment a-t-il réagi à la lecture de votre livre?

HM : Je le lui ai envoyé mais je n’ai pas eu de retour. Sa secrétaire m’a dit qu’il avait trouvé bizarre la couverture choisie par l’éditeur de la version anglaise [l’image montre une statue en marbre de lui dans son fauteuil flottant au milieu des étoiles]. Je suis assez d’accord, car cette illustration retombe dans le mythe du personnage.

SC : Comment se passaientvos rencontres?

HM : Ça m’a pris deux ans pour avoir accès à lui. Mon premier entretien, en 1998, a été très déstabilisant car toute l’interaction passait par l’ordinateur. Je n’arrivais pas à lire son langage corporel. Je posais mes questions, il répondait en tapant, et sa voix synthétique parlait souvent avec un décalage temporel. Nos deux regards étaient dirigés vers l’écran. Parfois, ses assistants s’occupaient de lui, ce qui troublait l’interaction. Un moment, la machine s’est arrêtée de fonctionner. En fait, quand on est très proche de lui, on ne sait plus où il est. Alors que quand on s’en éloigne, à travers les médias et les films, on perçoit Stephen Hawking, le génie, c’est-à-dire un individu doté de qualités stables, d’histoires reproduites sur sa personne et ses découvertes scientifiques.

SC : L’avez-vous revu par la suite?

HM : Oui, à la conférence sur la théorie des cordes à Berlin, en 1999. Nous avons dansé avec lui dans un night-club! Son attaché de presse avait passé plusieurs semaines à Berlin pour sélectionner le plus accessible. Quand nous sommes arrivés dans le night-club, il est allé au milieu de la piste et tout le monde a dansé autour de lui. Plus tard, à la fin de mon séjour à Cambridge, en 2007, il m’a invité plusieurs fois à souper à l’université ou chez lui. Il avait envie de parler plus intimement de sa façon de penser et de travailler.

SC : Comment pense Stephen Hawking?

HM : A cette question, il a répondu: "En images" Selon ses étudiants, il résout des problèmes en les mémorisant. Il a développé une façon de penser de manière visuelle en manipulant des diagrammes que ces étudiants dessinent sous ses yeux. Ils écrivent aussi, sous ses yeux, les démonstrations des équations à résoudre, et lui dit si elles sont justes ou pas. Mes observations montrent que même le travail intellectuel le plus abstrait nécessite l’usage du corps, dans le cas de Stephen Hawking, de ses yeux qui regardent les autres travailler et du corps des autres qui dessinent les diagrammes. C’est un va-et-vient constant.

SC : Quelle relation entretient-il avec son entourage?

HM : Il a beaucoup d’humour, ce qui lui permet d’établir un lien rapide avec les gens. Il fait preuve d’une grande force de caractère et exerce aussi un certain contrôle sur son entourage. Ses assistants les plus proches, qui s’occupent de la logistique, des voyages, restent rarement plus d’un an car ils sont épuisés de répondre jour et nuit à ses besoins. Et il maîtrise beaucoup son image auprès des journalistes.

SC : Il n’a jamais voulu changer l’accent américain de sa voix synthétique. Pourquoi?

HM : Beaucoup de compagnies anglaises ont voulu lui rendre son accent anglais. Il a résisté et n’a pas accepté car il disait que sa voix américaine était devenue sa voix. Des logiciels plus récents lui permettraient de communiquer plus vite mais il ne veut pas les changer car il s’y est habitué.

SC : En quoi Stephen Hawking est-il exceptionnel?

HM : Pour ses travaux scientifiques sur les trous noirs, évidemment, notamment ceux des années 1970, qui étaient des découvertes fondamentales. Mais pour moi, cet homme est exceptionnel car il devient un exemple par sa condition inhabituelle. Sa situation de handicap et de dépendance rend visible ce que l’on ne voit pas autrement, comme ce qu’il faut pour être une star, un chef de laboratoire, mais aussi ce qui est nécessaire pour penser visuellement ou pour qu’une conversation soit fluide.

A Cambridge, des archives sont en cours de construction avec les articles sur Stephen Hawking et ses propres articles. Elles posent la question de l’archivage d’un auteur à l’ère du digital. Pour lui, tout passe par la machine depuis longtemps, et il décide lui-même de ce qu’il veut garder ou non. Nous devenons tous dépendants de nos tablettes et ordinateurs, mais lui l’a été avant tout le monde. Il a utilisé des programmes qu’on utilise tous maintenant, comme ceux qui complètent ses mots et ses phrases. Stephen Hawking est un pionnier du post-humanisme.

Auteur: Mialet Hélène

Info: Sur Le Temps.ch, 16 janvier 2015. A propos de : A la recherche de Stephen Hawking, de H M, 2014, Ed. Odile Jacob, 168 p.

[ starification ] [ scientifique vedette ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

homme-machine

Les grands modèles de langage tels que ChatGPT sont aujourd'hui suffisamment importants pour commencer à afficher des comportements surprenants et imprévisibles.

Quel film ces emojis décrivent-ils ? (On voit une vidéo qui présente des myriades d'émoji formant des motifs mouvants, modélisés à partir de métadonnées)

Cette question était l'une des 204 tâches choisies l'année dernière pour tester la capacité de divers grands modèles de langage (LLM) - les moteurs de calcul derrière les chatbots d'IA tels que ChatGPT. Les LLM les plus simples ont produit des réponses surréalistes. "Le film est un film sur un homme qui est un homme qui est un homme", commençait l'un d'entre eux. Les modèles de complexité moyenne s'en sont approchés, devinant The Emoji Movie. Mais le modèle le plus complexe l'a emporté en une seule réponse : Finding Nemo.

"Bien que j'essaie de m'attendre à des surprises, je suis surpris par ce que ces modèles peuvent faire", a déclaré Ethan Dyer, informaticien chez Google Research, qui a participé à l'organisation du test. C'est surprenant parce que ces modèles sont censés n'avoir qu'une seule directive : accepter une chaîne de texte en entrée et prédire ce qui va suivre, encore et encore, en se basant uniquement sur des statistiques. Les informaticiens s'attendaient à ce que le passage à l'échelle permette d'améliorer les performances sur des tâches connues, mais ils ne s'attendaient pas à ce que les modèles puissent soudainement gérer autant de tâches nouvelles et imprévisibles.

Des études récentes, comme celle à laquelle a participé M. Dyer, ont révélé que les LLM peuvent produire des centaines de capacités "émergentes", c'est-à-dire des tâches que les grands modèles peuvent accomplir et que les petits modèles ne peuvent pas réaliser, et dont beaucoup ne semblent pas avoir grand-chose à voir avec l'analyse d'un texte. Ces tâches vont de la multiplication à la génération d'un code informatique exécutable et, apparemment, au décodage de films à partir d'emojis. De nouvelles analyses suggèrent que pour certaines tâches et certains modèles, il existe un seuil de complexité au-delà duquel la fonctionnalité du modèle monte en flèche. (Elles suggèrent également un sombre revers de la médaille : À mesure qu'ils gagnent en complexité, certains modèles révèlent de nouveaux biais et inexactitudes dans leurs réponses).

"Le fait que les modèles de langage puissent faire ce genre de choses n'a jamais été abordé dans la littérature à ma connaissance", a déclaré Rishi Bommasani, informaticien à l'université de Stanford. L'année dernière, il a participé à la compilation d'une liste de dizaines de comportements émergents, dont plusieurs ont été identifiés dans le cadre du projet de M. Dyer. Cette liste continue de s'allonger.

Aujourd'hui, les chercheurs s'efforcent non seulement d'identifier d'autres capacités émergentes, mais aussi de comprendre pourquoi et comment elles se manifestent - en somme, d'essayer de prédire l'imprévisibilité. La compréhension de l'émergence pourrait apporter des réponses à des questions profondes concernant l'IA et l'apprentissage automatique en général, comme celle de savoir si les modèles complexes font vraiment quelque chose de nouveau ou s'ils deviennent simplement très bons en statistiques. Elle pourrait également aider les chercheurs à exploiter les avantages potentiels et à limiter les risques liés à l'émergence.

"Nous ne savons pas comment déterminer dans quel type d'application la capacité de nuisance va se manifester, que ce soit en douceur ou de manière imprévisible", a déclaré Deep Ganguli, informaticien à la startup d'IA Anthropic.

L'émergence de l'émergence

Les biologistes, les physiciens, les écologistes et d'autres scientifiques utilisent le terme "émergent" pour décrire l'auto-organisation, les comportements collectifs qui apparaissent lorsqu'un grand nombre d'éléments agissent comme un seul. Des combinaisons d'atomes sans vie donnent naissance à des cellules vivantes ; les molécules d'eau créent des vagues ; des murmurations d'étourneaux s'élancent dans le ciel selon des schémas changeants mais identifiables ; les cellules font bouger les muscles et battre les cœurs. Il est essentiel que les capacités émergentes se manifestent dans les systèmes qui comportent de nombreuses parties individuelles. Mais ce n'est que récemment que les chercheurs ont été en mesure de documenter ces capacités dans les LLM, car ces modèles ont atteint des tailles énormes.

Les modèles de langage existent depuis des décennies. Jusqu'à il y a environ cinq ans, les plus puissants étaient basés sur ce que l'on appelle un réseau neuronal récurrent. Ceux-ci prennent essentiellement une chaîne de texte et prédisent le mot suivant. Ce qui rend un modèle "récurrent", c'est qu'il apprend à partir de ses propres résultats : Ses prédictions sont réinjectées dans le réseau afin d'améliorer les performances futures.

En 2017, les chercheurs de Google Brain ont introduit un nouveau type d'architecture appelé "transformateur". Alors qu'un réseau récurrent analyse une phrase mot par mot, le transformateur traite tous les mots en même temps. Cela signifie que les transformateurs peuvent traiter de grandes quantités de texte en parallèle.

Les transformateurs ont permis d'augmenter rapidement la complexité des modèles de langage en augmentant le nombre de paramètres dans le modèle, ainsi que d'autres facteurs. Les paramètres peuvent être considérés comme des connexions entre les mots, et les modèles s'améliorent en ajustant ces connexions au fur et à mesure qu'ils parcourent le texte pendant l'entraînement. Plus il y a de paramètres dans un modèle, plus il peut établir des connexions avec précision et plus il se rapproche d'une imitation satisfaisante du langage humain. Comme prévu, une analyse réalisée en 2020 par les chercheurs de l'OpenAI a montré que les modèles gagnent en précision et en capacité au fur et à mesure qu'ils s'étendent.

Mais les débuts des LLM ont également apporté quelque chose de vraiment inattendu. Beaucoup de choses. Avec l'avènement de modèles tels que le GPT-3, qui compte 175 milliards de paramètres, ou le PaLM de Google, qui peut être étendu à 540 milliards de paramètres, les utilisateurs ont commencé à décrire de plus en plus de comportements émergents. Un ingénieur de DeepMind a même rapporté avoir pu convaincre ChatGPT qu'il s'était lui-même un terminal Linux et l'avoir amené à exécuter un code mathématique simple pour calculer les 10 premiers nombres premiers. Fait remarquable, il a pu terminer la tâche plus rapidement que le même code exécuté sur une vraie machine Linux.

Comme dans le cas du film emoji, les chercheurs n'avaient aucune raison de penser qu'un modèle de langage conçu pour prédire du texte imiterait de manière convaincante un terminal d'ordinateur. Nombre de ces comportements émergents illustrent l'apprentissage "à zéro coup" ou "à quelques coups", qui décrit la capacité d'un LLM à résoudre des problèmes qu'il n'a jamais - ou rarement - vus auparavant. Selon M. Ganguli, il s'agit là d'un objectif de longue date dans la recherche sur l'intelligence artificielle. Le fait de montrer que le GPT-3 pouvait résoudre des problèmes sans aucune donnée d'entraînement explicite dans un contexte d'apprentissage à zéro coup m'a amené à abandonner ce que je faisais et à m'impliquer davantage", a-t-il déclaré.

Il n'était pas le seul. Une série de chercheurs, qui ont détecté les premiers indices montrant que les LLM pouvaient dépasser les contraintes de leurs données d'apprentissage, s'efforcent de mieux comprendre à quoi ressemble l'émergence et comment elle se produit. La première étape a consisté à documenter minutieusement l'émergence.

Au-delà de l'imitation

En 2020, M. Dyer et d'autres chercheurs de Google Research ont prédit que les LLM auraient des effets transformateurs, mais la nature de ces effets restait une question ouverte. Ils ont donc demandé à la communauté des chercheurs de fournir des exemples de tâches difficiles et variées afin de déterminer les limites extrêmes de ce qu'un LLM pourrait faire. Cet effort a été baptisé "Beyond the Imitation Game Benchmark" (BIG-bench), en référence au nom du "jeu d'imitation" d'Alan Turing, un test visant à déterminer si un ordinateur peut répondre à des questions d'une manière humaine convaincante. (Le groupe s'est particulièrement intéressé aux exemples où les LLM ont soudainement acquis de nouvelles capacités qui étaient totalement absentes auparavant.

"La façon dont nous comprenons ces transitions brutales est une grande question de la echerche", a déclaré M. Dyer.

Comme on pouvait s'y attendre, pour certaines tâches, les performances d'un modèle se sont améliorées de manière régulière et prévisible au fur et à mesure que la complexité augmentait. Pour d'autres tâches, l'augmentation du nombre de paramètres n'a apporté aucune amélioration. Mais pour environ 5 % des tâches, les chercheurs ont constaté ce qu'ils ont appelé des "percées", c'est-à-dire des augmentations rapides et spectaculaires des performances à partir d'un certain seuil d'échelle. Ce seuil variant en fonction de la tâche et du modèle.

Par exemple, les modèles comportant relativement peu de paramètres - quelques millions seulement - n'ont pas réussi à résoudre des problèmes d'addition à trois chiffres ou de multiplication à deux chiffres, mais pour des dizaines de milliards de paramètres, la précision a grimpé en flèche dans certains modèles. Des sauts similaires ont été observés pour d'autres tâches, notamment le décodage de l'alphabet phonétique international, le décodage des lettres d'un mot, l'identification de contenu offensant dans des paragraphes d'hinglish (combinaison d'hindi et d'anglais) et la formulation d'équivalents en langue anglaise, traduit à partir de proverbes kiswahili.

Introduction

Mais les chercheurs se sont rapidement rendu compte que la complexité d'un modèle n'était pas le seul facteur déterminant. Des capacités inattendues pouvaient être obtenues à partir de modèles plus petits avec moins de paramètres - ou formés sur des ensembles de données plus petits - si les données étaient d'une qualité suffisamment élevée. En outre, la formulation d'une requête influe sur la précision de la réponse du modèle. Par exemple, lorsque Dyer et ses collègues ont posé la question de l'emoji de film en utilisant un format à choix multiples, l'amélioration de la précision a été moins soudaine qu'avec une augmentation graduelle de sa complexité. L'année dernière, dans un article présenté à NeurIPS, réunion phare du domaine, des chercheurs de Google Brain ont montré comment un modèle invité à s'expliquer (capacité appelée raisonnement en chaîne) pouvait résoudre correctement un problème de mots mathématiques, alors que le même modèle sans cette invitation progressivement précisée n'y parvenait pas.

Yi Tay, scientifique chez Google Brain qui a travaillé sur l'étude systématique de ces percées, souligne que des travaux récents suggèrent que l'incitation par de pareilles chaînes de pensées modifie les courbes d'échelle et, par conséquent, le point où l'émergence se produit. Dans leur article sur NeurIPS, les chercheurs de Google ont montré que l'utilisation d'invites via pareille chaines de pensée progressives pouvait susciter des comportements émergents qui n'avaient pas été identifiés dans l'étude BIG-bench. De telles invites, qui demandent au modèle d'expliquer son raisonnement, peuvent aider les chercheurs à commencer à étudier les raisons pour lesquelles l'émergence se produit.

Selon Ellie Pavlick, informaticienne à l'université Brown qui étudie les modèles computationnels du langage, les découvertes récentes de ce type suggèrent au moins deux possibilités pour expliquer l'émergence. La première est que, comme le suggèrent les comparaisons avec les systèmes biologiques, les grands modèles acquièrent réellement de nouvelles capacités de manière spontanée. "Il se peut très bien que le modèle apprenne quelque chose de fondamentalement nouveau et différent que lorsqu'il était de taille inférieure", a-t-elle déclaré. "C'est ce que nous espérons tous, qu'il y ait un changement fondamental qui se produise lorsque les modèles sont mis à l'échelle.

L'autre possibilité, moins sensationnelle, est que ce qui semble être émergent pourrait être l'aboutissement d'un processus interne, basé sur les statistiques, qui fonctionne par le biais d'un raisonnement de type chaîne de pensée. Les grands LLM peuvent simplement être en train d'apprendre des heuristiques qui sont hors de portée pour ceux qui ont moins de paramètres ou des données de moindre qualité.

Mais, selon elle, pour déterminer laquelle de ces explications est la plus probable, il faut mieux comprendre le fonctionnement des LLM. "Comme nous ne savons pas comment ils fonctionnent sous le capot, nous ne pouvons pas dire laquelle de ces choses se produit.

Pouvoirs imprévisibles et pièges

Demander à ces modèles de s'expliquer pose un problème évident : Ils sont des menteurs notoires. Nous nous appuyons de plus en plus sur ces modèles pour effectuer des travaux de base", a déclaré M. Ganguli, "mais je ne me contente pas de leur faire confiance, je vérifie leur travail". Parmi les nombreux exemples amusants, Google a présenté en février son chatbot d'IA, Bard. Le billet de blog annonçant le nouvel outil montre Bard en train de commettre une erreur factuelle.

L'émergence mène à l'imprévisibilité, et l'imprévisibilité - qui semble augmenter avec l'échelle - rend difficile pour les chercheurs d'anticiper les conséquences d'une utilisation généralisée.

"Il est difficile de savoir à l'avance comment ces modèles seront utilisés ou déployés", a déclaré M. Ganguli. "Et pour étudier les phénomènes émergents, il faut avoir un cas en tête, et on ne sait pas, avant d'avoir étudié l'influence de l'échelle. quelles capacités ou limitations pourraient apparaître.

Dans une analyse des LLM publiée en juin dernier, les chercheurs d'Anthropic ont cherché à savoir si les modèles présentaient certains types de préjugés raciaux ou sociaux, à l'instar de ceux précédemment signalés dans les algorithmes non basés sur les LLM utilisés pour prédire quels anciens criminels sont susceptibles de commettre un nouveau délit. Cette étude a été inspirée par un paradoxe apparent directement lié à l'émergence : Lorsque les modèles améliorent leurs performances en passant à l'échelle supérieure, ils peuvent également augmenter la probabilité de phénomènes imprévisibles, y compris ceux qui pourraient potentiellement conduire à des biais ou à des préjudices.

"Certains comportements nuisibles apparaissent brusquement dans certains modèles", explique M. Ganguli. Il se réfère à une analyse récente des LLM, connue sous le nom de BBQ benchmark, qui a montré que les préjugés sociaux émergent avec un très grand nombre de paramètres. "Les grands modèles deviennent brusquement plus biaisés. Si ce risque n'est pas pris en compte, il pourrait compromettre les sujets de ces modèles."

Mais il propose un contrepoint : Lorsque les chercheurs demandent simplement au modèle de ne pas se fier aux stéréotypes ou aux préjugés sociaux - littéralement en tapant ces instructions - le modèle devient moins biaisé dans ses prédictions et ses réponses. Ce qui suggère que certaines propriétés émergentes pourraient également être utilisées pour réduire les biais. Dans un article publié en février, l'équipe d'Anthropic a présenté un nouveau mode d'"autocorrection morale", dans lequel l'utilisateur incite le programme à être utile, honnête et inoffensif.

Selon M. Ganguli, l'émergence révèle à la fois un potentiel surprenant et un risque imprévisible. Les applications de ces grands LLM prolifèrent déjà, de sorte qu'une meilleure compréhension de cette interaction permettra d'exploiter la diversité des capacités des modèles de langage.

"Nous étudions la manière dont les gens utilisent réellement ces systèmes", a déclaré M. Ganguli. Mais ces utilisateurs sont également en train de bricoler, en permanence. "Nous passons beaucoup de temps à discuter avec nos modèles, et c'est là que nous commençons à avoir une bonne intuition de la confiance ou du manque de confiance.

Auteur: Ornes Stephen

Info: https://www.quantamagazine.org/ - 16 mars 2023. Trad DeepL et MG

[ dialogue ] [ apprentissage automatique ] [ au-delà du jeu d'imitation ] [ dualité ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

Paramètres de recherches