Les fils de la pensée

hommage

Bergson a eu une influence considérable sur l'évolution de ma pensée, dans la mesure où toute sa philosophie est centrée sur l'expérience d'un jaillissement de l'existence, de la vie, que nous expérimentons en nous dans le vouloir et dans la durée et que nous voyons à l’œuvre dans l'élan qui produit l'évolution vivante. J'ai passé le baccalauréat de philosophie en 1939, et la dissertation avait pour sujet le commentaire de cette phrase de Bergson: "La philosophie n'est pas une construction de système, mais la résolution une fois prise de regarder naïvement en soi et autour de soi".

Auteur: Hadot Pierre

Info: Dans "La Philosophie comme manière de vivre", Entretiens avec Jeannie Carlier et Arnold I. Davidson, Paris, Éditions Albin Michel, coll. Le livre de Poche, 2001, 280 pages, p.30.

[ source d'inspiration ] [ idées importantes ] [ solipsisme ]

Commenter

Mis dans la chaine

Commentaires: 0

Ajouté à la BD par Coli Masson

littérature contemporaine

L'Internationale académique : auto-désignée aussi comme "picaresque universitaire", l'Ecole Umberto Eco and Co a aujourd'hui beaucoup d'émules. La culture universelle sans peine, citations latines, références allusives à l'appui, sujets de dissertation scolaires (la poésie victorienne, les derniers romans d'Alexandre Dumas...) et surtout méthodes de lecture structuralistes appliquées à la forme la plus banale du suspense : le "who-done-it". Pratiqué désormais avec beaucoup de succès en Italie (Franco Ferrucci, "La Création du monde"), en Espagne (A. Perez-Reverte, "Club Dumas"), en Angleterre (Antonia Byatt, "Possession"), en Yougoslavie (Milorad Pavic - devenu depuis militant nationaliste serbe -, "Le Dictionnaire Khazar").

Auteur: Casanova Pascale

Info: "World Fiction", in "Revue de littérature générale", éd. P.O.L.

[ critique acerbe ] [ panorama ] [ pseudo-notice de dictionnaire ]

Commenter

Commentaires: 0

Ajouté à la BD par Benslama

anecdote

Au Brésil, les prisonniers peuvent sortir plus tôt de prison s'ils lisent des livres, rapporte Reuters.
Le Brésil vient en effet de créer une nouvelle sorte de remise de peine. Les détenus des prisons fédérales pourront réduire la longueur de leur peine grâce à la lecture. La décision du gouvernement prévoit quatre jours par livre lu.
Les 473.627 prisonniers du pays pourront ainsi lire jusqu'à 12 oeuvres de littérature, de philosophie ou de science par an, gagnant ainsi jusqu'à 48 jours de détention en moins sur une année.
Le gouvernement brésilien explique que les prisonniers auront quatre semaines pour lire un livre et ensuite rédiger une dissertation sur le sujet. Un panel décidera ensuite si le prisonnier peut obtenir sa remise de peine.
Sur le site du Guardian, Erwin James, un ancien détenu, dresse la liste des livres que devraient consulter les prisonniers brésiliens. L'éditorialiste, qui a passé vingt ans en prison, conseille notamment Crime et Châtiment de Fiodor Dostoïevski.
Erwin James détaille les raisons qui l'ont poussé à inclure ce livre dans sa liste:
"L'auteur pense que le meurtre est permis dans le cas de la poursuite d'un objectif noble. J'ai conclu que [les sujets du livre] étaient des cogitations intellectuelles fallacieuses enroulées dans une prose brillante. Un chef d'oeuvre qui m'a aidé à organiser ma façon de penser non sophistiquée."
L'ancien détenu se souvient aussi de la lecture de The Second Prison de Ronan Bennet qui l'a beaucoup marqué:
"Le livre raconte l'histoire de Kane, un républicain irlandais relâché après avoir purgé sa peine pour sa participation dans un meurtre. (...) Même s'il est sorti de prison, de différentes façons il est toujours un prisonnier ; cela est vrai pour de nombreuses personnes qui trouvent que la vie après la prison est un challenge inattendu."
Pour Erwin James, l'initiative brésilienne est une très bonne idée. Il se souvient de son passage en prison et de l'importance qu'ont revêtu ces ouvrages:
"Les livres que j'ai lus en prison ne m'ont pas donné de réduction de peine mais ils m'ont aidé à devenir celui que j'aurais dû être".

Auteur: Jannic-Cherbonnel Fabien

Info:

[ littérature ] [ pénitencier ]

Commenter

Commentaires: 0

science-fiction

Je viens de lire un long article sur l'homme de Neandertal, qui a été supplanté pas nous autres Sapiens sapiens il y a quelque dizaines de milliers d'années. Papier qui explique son plus grand cerveau par rapport au notre, sa culture finalement assez avancée... Et empli de spéculations quant à ses dispositions éventuelles pour le langage symbolique, et donc son intelligence imaginée, différente (supérieure ?) à la notre, etc...
Je m'imagine du coup que Neandertal s'est fait bouffer tout cru par un homo sapiens plus méchant/retors/avide.
Voilà un beau sujet de dissertation avec, sous-jacente, la problématique confrontation, très politique, entre les concepts de survie et d'éthique.
Et puis, l'esprit voletant, me voilà chez les projectionnistes, ces entités pilotes de notre monde, à la manoeuvre en arrière-plan de l'évolution.

Un jour, ils décidèrent de tenter une nouvelle variation d'hominidés terrestres. Le question était : comment faire en sorte que ces bestiaux ne finissent pas par se vautrer et s'abrutir dans le confort de leur condition de dominants ?
- Simple, répondit XRRHGLUGHTR 4367, il suffit de les rendre un peu plus curieux, donc plus conscient de leur mort, donc inquiets.
- Oui mais comment ? enchaîna une entité qui aurait pu s'apparenter au mariage d'un nuage avec le mécanisme d'une boite à vitesse de Tank.
- Simple aussi, rebondit OIUTGäPO 948, (en quelque sorte frère clone de XRRHGLUGHTR 4367 puisqu'ils étaient tous deux issus d'une alliance trans-vibratoire dont l'objectif commun était une fusion bien comprise). Nous allons, comme ce fut le cas en d'autres occurrences, légèrement déséquilibrer la configuration statistique de leurs hémisphères cérébraux. Ce qui instillera un inconfort de base, socle d'une frustration et d'un constant "besoin de comprendre". La peur, donc l'agressivité suivront, qui les feront progresser via les conflits, particulièrement le développement des armes.
- Ah, d'accord... Répondit l'entité brume-machine, il suffira alors, en temps utiles, de ré-équilibrer tout ça.
- Éventuellement. C'était à nouveau OIUTGäPO 948 (dont on imaginait quelques unes des fonctions en train de tripoter on ne sait quoi avec XRRHGLUGHTR 4367 dans une dimension fréquentielle connue d'eux seuls.)
Puis, après un silence :
- Si nous ne sommes pas passés à autre chose.

Auteur: Mg

Info: 19 juin 2020

[ astrale ] [ humour ]

Commenter

Commentaires: 3

Ajouté à la BD par miguel

deep machine learning

Inquiets, des chercheurs bloquent la sortie de leur IA
La science ne pense pas, écrivait le philosophe Heidegger. En 2019, si. La situation est cocasse. Des chercheurs de l'association de recherche OpenAI estimeraient leur générateur de texte, opéré par un modèle linguistique d'intelligence artificielle, comme bien trop évolué pour ne pas être dangereux. Entre des mains malveillantes, l'algo virtuose des mots pourrait semer fake news, complots et avis malveillants convaincants, sans élever le moindre soupçon.

Deux cent ans après Victor Frankenstein, des chercheurs d’OpenAI, une association californienne de recherche à but non lucratif en intelligence artificielle, se trouvent face au même dilemme qui agitait le savant dans le roman de Mary Shelley : auraient-ils créé un monstre ? Un journaliste du Guardian l’a testé. La bête, baptisée GPT2, un modèle d’intelligence artificielle (dit linguistique) capable de générer du faux texte avec précision, serait tellement performante que ses créateurs rechignent à la rendre publique. Sur la base d’une page, un paragraphe ou même quelques mots, le générateur est en mesure d’écrire une suite, fidèle au style du journaliste ou de l’auteur et en accord avec le sujet. Ce système, alimenté au machine learning, se base sur l'étude de 8 millions de pages web, partagées sur Reddit et dont le contenu a été validé par au moins trois votes positifs, étaye un article de BigData.

Le journaliste du Guardian a soumis la machine à la question, en intégrant, facétieux, l’incipit de 1984 de George Orwell. "C’était une journée d’avril froide et claire. Les horloges sonnaient treize heures", écrivait l’auteur. Dans l’esprit tout futuriste d’Orwell, GPT2 aurait complété d’un : "J’étais en route pour Seattle pour commencer un nouveau travail. J’ai mis les gaz, les clés, et j’ai laissé rouler. J’ai pensé à quoi ressemblerait la journée. Il y a 100 ans. En 2045, j’étais professeur dans une école dans quelque coin obscur de la Chine rurale". (I was in my car on my way to a new job in Seattle. I put the gas in, put the key in, and then I let it run. I just imagined what the day would be like. A hundred years from now. In 2045, I was a teacher in some school in a poor part of rural China).

Le Guardian poursuit l’expérience et entre dans GPT2 quelques paragraphes issus d’un article à propos du Brexit. La suite proposée par le générateur est étonnante. Le style est celui d’un journaliste, l’article intègre des citations (fausses) du chef de l’opposition britannique Jeremy Corbyn et du porte-parole du gouvernement et évoque même le problème des frontières irlandaises. Selon le directeur de recherche d’OpenAI, Dario Amodei, le modèle GPT2 pousse la supercherie plus loin. Il traduirait et résumerait n’importe quel texte, réussirait des tests basiques de compréhension de texte.

A The Verge, David Yuan, vice-président à la tête de l’ingénierie d’OpenAI, déclare qu’une dissertation composée par GPT2 "aurait pu tout aussi bien être écrite pour les SAT (examens utilisés pour l’admission aux universités américaines, ndlr) et recevoir une bonne note". Et c’est précisément cette maestria à réussir dans ses tâches d’ordre intellectuel qui pousse les chercheurs d’OpenAI à freiner sa sortie, de peur que la technologie tombe entre de mauvaises mains. "Nous choisissons de sortir une version limitée de GPT2 (...) Nous ne publierons ni la base de données, ni le code d'apprentissage, ni le modèle sur lequel GPT2 repose", explique un billet du blog de l'équipe de recherche.

Pour l’heure, l’ONG souhaiterait éprouver davantage le modèle. "Si vous n’êtes pas en mesure d’anticiper les capacités d’un modèle informatique, vous devez le tester pour voir ce qu’il a dans le ventre", explique OpenAI à The Guardian. Le résultat ? Comme GPT2 s’exerce dans la cour de recré des Internets, il ne serait pas très compliqué de pousser l’algorithme à générer des textes que les complotistes ne renieraient pas.

En 2015, Elon Musk s’associait à Sam Altman, président de l’incubateur prisé, Y Combinator pour fonder OpenAI, une organisation à but non lucratif pour encourager la recherche et la réflexion autour d’une IA bienveillante, qui reste au service du bien commun. Ses deux parrains la dotent d’une confortable enveloppe d’un milliard de dollars, soutenus par d’autres angels de la Silicon Valley, tels que Peter Thiel, serial entrepreneur et investisseur réputé pour ses idées controversées – l’homme est libertarien, soutient Trump et est un transhumaniste convaincu – ou Reid Hoffmann, le fondateur de LinkedIn.

A lire ce qui s’écrit ça et là à propos de GPT2, les chercheurs d’OpenAI tomberaient de leur chaise en réalisant le potentiel néfaste de l’algo. A croire que les chercheurs auraient oublié la mission première de l’ONG, à savoir, sensibiliser aux méfaits de l’intelligence artificielle et imaginer cette technologie au service du bien commun. Alors vraie peur des chercheurs, recherche candide ou plutôt, volonté d’interpeller le grand public et d'ouvrir le débat ?

Auteur: Meghraoua Lila

Info: https://usbeketrica.com

[ lecture ] [ écriture ]

Commenter

Mis dans la chaine

Commentaires: 0

Ajouté à la BD par miguel

homme-machine

Sciences-Po vient d’interdire l’usage de ChatGPT, l’application qui permet à tous les empêchés de la plume ou du clavier de produire en un temps record des textes bourrés d’idées reçues — de crainte sans doute, que l’on ne distingue pas les produits de l’Intelligence Artificielle et ceux de nos futurs énarques.

David Cayla, un économiste qui ne dit pas que des âneries, s’est fendu d’un tweet ravageur dès qu’il a appris que Sciences-Po avait décidé d’interdire à ses élèves l’usage de ChatGPT. "La stricte interdiction de #ChatGPT à Sciences Po révèle que cette école se sent menacée par une IA qui est capable de construire de belles phrases à partir de tout sujet, sans comprendre de quoi elle parle, et en faisant régulièrement des erreurs grossières." Et toc.

Rappel des faits pour ceux qui sortent à peine de leur grotte d’hibernation. Chloé Woitier, journaliste Tech au Figaro, vous explique en direct live ce qu’est cette application : la capacité à générer du texte — sans grand souci d’originalité et avec une capacité réelle d’erreurs grandioses — à partir de cohortes de mots et de phrases mis en mémoire. En fait, il s’agit de ce que l’on appelle en rhétorique un texte-centon, fabriqué à partir de collages de citations. Vous en avez un joli exemple ici.

Une chance pour les tire-au-flanc

Rien de nouveau — si ce n’est la capacité à produire un résultat de façon quasi instantanée. Voilà qui nous arrange bien, se disent déjà les élèves peu besogneux qui s’aperçoivent à 7 heures du matin qu’ils ont une dissertation-maison à rendre à 10 heures. En gros, le résultat vaut une petite moyenne.

Laurence Plazanet, professeur de littérature à l’université de Clermont-Auvergne, note que "nourri de la vaste littérature disponible sur la toile, littérature qu’il remâche suivant des algorithmes statistiques et probabilistes aptes à se reprogrammer eux-mêmes, dit-on, selon des procédures que cessent de maîtriser leurs programmeurs initiaux, ChatGPT patauge dans le prêt-à-penser." Et d’ajouter : "Pas un instant ce robot éclairé ne pense."

Intelligence artificielle, un oxymore

Comprenons bien que ces deux mots, "intelligence artificielle", sont ce que l’on appelle en stylistique un oxymore — une contradiction en soi. Comme "obscure clarté", "nuit blanche", "homme fidèle" ou "femme intelligente"…

(C’étaient les exemples que je citais en cours pour expliquer l’oxymore. Protestations immédiates des uns et des autres, comme vous l’imaginez, mais du coup, par l’exemple provocateur, la notion s’ancrait dans les mémoires.)

Ce qu’il y a d’intelligent dans la machine y a été mis par des hommes. Lorsqu’un ordinateur vous bat aux échecs, c’est que vous êtes moins fort que la cohorte de grands maîtres qui l’ont programmé — ce qui est assez logique.

Que Sciences-Pipeau s’en émeuve est en revanche très inquiétant — et très drôle : les grandes intelligences qui nourriront les ministères et parviendront peut-être un jour au sommet (pensez, François Hollande, Ségolène Royal, Dominique de Villepin appartenaient à la même promo de l’ENA) se sentent menacées par un robot qui mécaniquement débite des platitudes. "Faut vous dire, Monsieur, que chez ces gens-là, on n’pense pas, Monsieur, on n’pense pas", chantait Brel. La machine à débiter des lieux communs, dont Flaubert s’est si ardemment moqué dans le discours du sous-préfet (c’est dans Madame Bovary) vous est désormais accessible.

Des inquiétudes injustifiées

ChatGPT n’est pas capable de rédiger une dissertation crédible. Un enseignant un peu rodé repère immédiatement les copiés-collés que les étudiants pressés vont cueillir sur le Net (c’est simple, il n’y a soudain plus de fautes d’orthographe), et ne met pas cinq secondes pour en identifier la source.

Il est encore moins capable de rédiger une thèse — le plus simple étant d’aller copier une thèse déjà écrite : en 2013 déjà une ministre allemande a été déchue de son doctorat (rendu 33 ans auparavant) parce qu’il avait été pompé sur un travail antérieur. Deux ans auparavant c’était le ministre de la Défense, Karl-Theodor zu Guttenberg, qui s’était vu dénoncé pour un plagiat similaire dans sa thèse de Droit.

Et ChatGPT ne saurait pas non plus écrire un roman original. Ne vous avisez pas de le lui demander : au pire, il vous arrivera ce qui est arrivé jadis à Thierry Ardisson, dont le nègre indélicat est allé chercher un récit des années 1930 pour Pondichéry, un roman publié en 1994. Et les héritiers de l’auteur véritable ont porté plainte. Ardisson m’avait confié dans les coulisses d’une émission qu’il avait été "con" de ne pas vérifier. Mais en 1994 c’était moins facile qu’aujourd’hui, où tout se sait à la vitesse de la Toile.

La rumeur de la rue Saint-Guillaume

Que la rumeur d’un robot doué d’une vraie intelligence ait si vite enthousiasmé les commentateurs et effrayé les enseignants témoigne de notre candeur et de notre incapacité à comprendre ce qui fait l’originalité d’un travail. Ou, plus inquiétant, de notre aspiration à la paresse.

Rassurons-nous : HAL 9000 (ou Carl 500, dans la version française, pour Cerveau analytique de Recherche et de Liaison), l’ordinateur rebelle de 2001 l’Odyssée de l’espace, n’est pas pour demain.

Une preuve ? J’ai demandé à ChapGPT de répondre à cette question simple : l’IA va-t-elle remplacer l’intelligence humaine ? Et le robot m’a répondu :

"Non, l’IA ne remplacera pas complètement l’intelligence humaine. L’IA est un outil qui peut être utilisé pour augmenter les capacités humaines et faciliter certaines tâches, mais elle ne peut pas remplacer la conscience, la créativité et l’empathie qui sont uniques à l’intelligence humaine." Plus plat, tu meurs. On dirait de l’Annie Ernaux.

Et le fait est que si vous supprimez de votre conversation "la conscience, la créativité et l’empathie", vous êtes bon pour être un parfait étudiant de Sciences-Po, un parfait énarque en devenir, et très probablement un excellent président de la République.

Auteur: Brighelli Jean-Paul

Info: https://www.causeur.fr, 31 janv 2023. ChatGPT, la Grande Peur de Sciences-Pipeau

[ vacheries ] [ bêtise inconstitutionnelle ] [ élites formatées ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

intelligence artificielle

Apprendre l'anglais n'est pas une tâche facile, comme le savent d'innombrables étudiants. Mais lorsque l'étudiant est un ordinateur, une approche fonctionne étonnamment bien : Il suffit d'alimenter un modèle mathématique géant, appelé réseau neuronal, avec des montagnes de textes provenant d'Internet. C'est le principe de fonctionnement des modèles linguistiques génératifs tels que ChatGPT d'OpenAI, dont la capacité à tenir une conversation cohérente (à défaut d'être toujours sincère) sur un large éventail de sujets a surpris les chercheurs et le public au cours de l'année écoulée.

Mais cette approche présente des inconvénients. D'une part, la procédure de "formation" nécessaire pour transformer de vastes archives textuelles en modèles linguistiques de pointe est coûteuse et prend beaucoup de temps. D'autre part, même les personnes qui forment les grands modèles linguistiques ont du mal à comprendre leur fonctionnement interne, ce qui, à son tour, rend difficile la prévision des nombreuses façons dont ils peuvent échouer.

Face à ces difficultés, certains chercheurs ont choisi d'entraîner des modèles plus petits sur des ensembles de données plus restreints, puis d'étudier leur comportement. "C'est comme le séquençage du génome de la drosophile par rapport au séquençage du génome humain", explique Ellie Pavlick, chercheuse sur les modèles de langage à l'université de Brown.

Dans un article récemment publié sur le serveur scientifique arxiv.org, deux chercheurs de Microsoft ont présenté une nouvelle méthode pour former de minuscules modèles de langage : Les élever avec un régime strict d'histoires pour enfants.

RÉSEAUX NEURONAUX

Des chercheurs acquièrent une nouvelle compréhension à partir d'une simple IA

Les chercheurs en apprentissage automatique ont compris cette leçon. GPT-3.5, le grand modèle linguistique qui alimente l'interface ChatGPT, compte près de 200 milliards de paramètres et a été entraîné sur un ensemble de données comprenant des centaines de milliards de mots (OpenAI n'a pas publié les chiffres correspondants pour son successeur, GPT-4). L'entraînement de modèles aussi vastes nécessite généralement au moins 1 000 processeurs spécialisés, appelés GPU, fonctionnant en parallèle pendant des semaines. Seules quelques entreprises peuvent réunir les ressources nécessaires, sans parler de l'entraînement et de la comparaison de différents modèles.

Les deux chercheurs ont montré que des modèles linguistiques des milliers de fois plus petits que les systèmes de pointe actuels apprenaient rapidement à raconter des histoires cohérentes et grammaticalement justes lorsqu'ils étaient formés de cette manière. Leurs résultats indiquent de nouvelles pistes de recherche qui pourraient être utiles pour former des modèles plus importants et comprendre leur comportement.

"J'ai trouvé tout ça très instructif", a déclaré Chandra Bhagavatula, chercheur sur les modèles de langage à l'Allen Institute for Artificial Intelligence de Seattle. "Le concept lui-même est très intéressant.

Il était une fois

Les réseaux neuronaux au cœur des modèles de langage sont des structures mathématiques vaguement inspirées du cerveau humain. Chacun d'entre eux contient de nombreux neurones artificiels disposés en couches, avec des connexions entre les neurones des couches adjacentes. Le comportement du réseau neuronal est régi par la force de ces connexions, appelées paramètres. Dans un modèle linguistique, les paramètres contrôlent les mots que le modèle peut produire ensuite, compte tenu d'une invite initiale et des mots qu'il a déjà générés.

Un modèle ne prend véritablement vie qu'au cours de la formation, lorsqu'il compare de manière répétée ses propres résultats au texte de son ensemble de données de formation et qu'il ajuste ses paramètres afin d'accroître la ressemblance. Un réseau non entraîné avec des paramètres aléatoires est trivialement facile à assembler à partir de quelques lignes de code, mais il ne produira que du charabia. Après l'entraînement, il peut souvent poursuivre de manière plausible un texte peu familier. Les modèles de plus grande taille sont souvent soumis à des réglages plus fins qui leur apprennent à répondre à des questions et à suivre des instructions, mais l'essentiel de la formation consiste à maîtriser la prédiction des mots.

Pour réussir à prédire des mots, un modèle linguistique doit maîtriser de nombreuses compétences différentes. Par exemple, les règles de la grammaire anglaise suggèrent que le mot suivant le mot "going" sera probablement "to", quel que soit le sujet du texte. En outre, un système a besoin de connaissances factuelles pour compléter "la capitale de la France est", et compléter un passage contenant le mot "not" nécessite une connaissance rudimentaire de la logique.

"Le langage brut est très compliqué", explique Timothy Nguyen, chercheur en apprentissage automatique chez DeepMind. "Pour que des capacités linguistiques intéressantes apparaissent, les gens ont eu recours à l'idée que plus il y a de données, mieux c'est".

(photo) Ronen Eldan s'est rendu compte qu'il pouvait utiliser les histoires d'enfants générées par de grands modèles linguistiques pour en entraîner rapidement de plus petits.

Introduction

Ronen Eldan, mathématicien qui a rejoint Microsoft Research en 2022 pour étudier les modèles de langage génératifs, souhaitait développer un moyen moins coûteux et plus rapide d'explorer leurs capacités. Le moyen naturel d'y parvenir était d'utiliser un petit ensemble de données, ce qui signifiait qu'il devait entraîner les modèles à se spécialiser dans une tâche spécifique, afin qu'ils ne s'éparpillent pas. Au départ, il voulait entraîner les modèles à résoudre une certaine catégorie de problèmes mathématiques, mais un après-midi, après avoir passé du temps avec sa fille de 5 ans, il s'est rendu compte que les histoires pour enfants convenaient parfaitement. "L'idée m'est venue littéralement après lui avoir lu une histoire", a-t-il déclaré.

Pour générer des histoires cohérentes pour les enfants, un modèle de langage devrait apprendre des faits sur le monde, suivre les personnages et les événements, et observer les règles de grammaire - des versions plus simples des défis auxquels sont confrontés les grands modèles. Mais les grands modèles formés sur des ensembles de données massives apprennent d'innombrables détails non pertinents en même temps que les règles qui comptent vraiment. Eldan espérait que la brièveté et le vocabulaire limité des histoires pour enfants rendraient l'apprentissage plus gérable pour les petits modèles, ce qui les rendrait à la fois plus faciles à former et plus faciles à comprendre.

Dans le monde des modèles de langage, cependant, le terme "petit" est relatif : Un ensemble de données mille fois plus petit que celui utilisé pour former GPT-3.5 devrait encore contenir des millions d'histoires. "Je ne sais pas combien d'argent vous voulez dépenser, mais je suppose que vous n'allez pas engager des professionnels pour écrire quelques millions de nouvelles", a déclaré M. Nguyen.

Il faudrait un auteur extraordinairement prolifique pour satisfaire des lecteurs aussi voraces, mais Eldan avait quelques candidats en tête. Qui peut mieux écrire pour un public de petits modèles linguistiques que pour de grands modèles ?

Toys stories

Eldan a immédiatement entrepris de créer une bibliothèque d'histoires synthétiques pour enfants générées par de grands modèles linguistiques. Mais il a rapidement découvert que même les modèles de pointe ne sont pas naturellement très créatifs. Si l'on demande à GPT-4 d'écrire des histoires adaptées à des enfants de 4 ans, explique Eldan, "environ un cinquième des histoires concernera des enfants qui vont au parc et qui ont peur des toboggans". C'est apparemment la quintessence des histoires pour enfants d'âge préscolaire, selon l'Internet.

La solution a consisté à ajouter un peu d'aléatoire dans le message. Tout d'abord, Eldan a utilisé le GPT-4 pour générer une liste de 1 500 noms, verbes et adjectifs qu'un enfant de 4 ans pourrait connaître - suffisamment courte pour qu'il puisse facilement la vérifier lui-même. Il a ensuite écrit un programme informatique simple qui demanderait à plusieurs reprises à GPT-3.5 ou à GPT-4 de générer une histoire adaptée à l'âge de l'enfant, comprenant trois mots aléatoires de la liste, ainsi qu'un détail supplémentaire choisi au hasard, comme une fin heureuse ou un rebondissement de l'intrigue. Les histoires obtenues, heureusement, étaient moins axées sur des diapositives effrayantes.

Eldan disposait désormais d'une procédure pour produire des données de formation à la demande, mais il n'avait aucune idée du nombre d'histoires dont il aurait besoin pour former un modèle fonctionnel, ni de la taille de ce modèle. C'est alors qu'il s'est associé à Yuanzhi Li, chercheur en apprentissage automatique chez Microsoft et à l'université Carnegie Mellon, pour essayer différentes possibilités, en tirant parti du fait que les petits modèles peuvent être formés très rapidement. La première étape consistait à décider comment évaluer leurs modèles.

Introduction

Dans la recherche sur les modèles de langage - comme dans toute salle de classe - la notation est un sujet délicat. Il n'existe pas de rubrique parfaite qui englobe tout ce que les chercheurs veulent savoir, et les modèles qui excellent dans certaines tâches échouent souvent de manière spectaculaire dans d'autres. Au fil du temps, les chercheurs ont mis au point divers critères de référence standard basés sur des questions dont les réponses ne sont pas ambiguës, ce qui est une bonne approche si vous essayez d'évaluer des compétences spécifiques. Mais Eldan et Li se sont intéressés à quelque chose de plus nébuleux : quelle doit être la taille réelle des modèles linguistiques si l'on simplifie le langage autant que possible ?

"Pour vérifier directement si le modèle parle anglais, je pense que la seule chose à faire est de laisser le modèle générer de l'anglais de manière ouverte", a déclaré M. Eldan.

Il n'y a que deux façons de mesurer les performances d'un modèle sur des questions aussi qualitatives : S'appuyer sur des évaluateurs humains ou se tourner à nouveau vers le GPT-4. Les deux chercheurs ont opté pour cette dernière solution, laissant les grands modèles à la fois rédiger les manuels et noter les dissertations.

Bhagavatula a déclaré qu'il aurait aimé voir comment les évaluations de GPT-4 se comparaient à celles des correcteurs humains - GPT-4 peut être biaisé en faveur des modèles qu'il a aidé à former, et l'opacité des modèles de langage rend difficile la quantification de tels biais. Mais il ne pense pas que de telles subtilités affecteraient les comparaisons entre différents modèles formés sur des ensembles similaires d'histoires synthétiques - l'objectif principal du travail d'Eldan et Li.

Eldan et Li ont utilisé une procédure en deux étapes pour évaluer chacun de leurs petits modèles après la formation. Tout d'abord, ils ont présenté au petit modèle la première moitié d'une histoire distincte de celles de l'ensemble des données d'apprentissage, de manière à ce qu'il génère une nouvelle fin, en répétant ce processus avec 50 histoires de test différentes. Ensuite, ils ont demandé à GPT-4 d'évaluer chacune des fins du petit modèle en fonction de trois catégories : créativité, grammaire et cohérence avec le début de l'histoire. Ils ont ensuite fait la moyenne des notes obtenues dans chaque catégorie, obtenant ainsi trois notes finales par modèle.

Avec cette procédure en main, Eldan et Li étaient enfin prêts à comparer les différents modèles et à découvrir quels étaient les étudiants les plus brillants.

Résultats des tests

Après quelques explorations préliminaires, les deux chercheurs ont opté pour un ensemble de données de formation contenant environ 2 millions d'histoires. Ils ont ensuite utilisé cet ensemble de données, baptisé TinyStories, pour entraîner des modèles dont la taille varie de 1 million à 30 millions de paramètres, avec un nombre variable de couches. Le travail a été rapide : En utilisant seulement quatre GPU, l'entraînement du plus grand de ces modèles n'a pas pris plus d'une journée.

Les plus petits modèles ont eu du mal. Par exemple, l'une des histoires testées commence par un homme à l'air méchant qui dit à une fille qu'il va lui prendre son chat. Un modèle à un million de paramètres s'est retrouvé bloqué dans une boucle où la fille répète sans cesse à l'homme qu'elle veut être son amie. Mais les modèles plus grands, qui sont encore des milliers de fois plus petits que GPT-3.5, ont obtenu des résultats surprenants. La version à 28 millions de paramètres racontait une histoire cohérente, même si la fin était sinistre : "Katie s'est mise à pleurer, mais l'homme s'en fichait. Il a emporté le chat et Katie n'a plus jamais revu son chat. Fin de l'histoire".

En plus de tester leurs propres modèles, Eldan et Li ont soumis le même défi au GPT-2 d'OpenAI, un modèle de 1,5 milliard de paramètres publié en 2019. Le résultat a été bien pire - avant la fin abrupte de l'histoire, l'homme menace d'emmener la jeune fille au tribunal, en prison, à l'hôpital, à la morgue et enfin au crématorium.

Introduction

Selon M. Nguyen, il est passionnant que des modèles aussi petits soient aussi fluides, mais il n'est peut-être pas surprenant que GPT-2 ait eu du mal à accomplir la tâche : il s'agit d'un modèle plus grand, mais loin de l'état de l'art, et il a été formé sur un ensemble de données très différent. "Un enfant en bas âge qui ne s'entraînerait qu'à des tâches d'enfant en bas âge, comme jouer avec des jouets, obtiendrait de meilleurs résultats que vous ou moi", a-t-il fait remarquer. "Nous ne nous sommes pas spécialisés dans cette chose simple.

Les comparaisons entre les différents modèles de TinyStories ne souffrent pas des mêmes facteurs de confusion. Eldan et Li ont observé que les réseaux comportant moins de couches mais plus de neurones par couche étaient plus performants pour répondre aux questions nécessitant des connaissances factuelles ; inversement, les réseaux comportant plus de couches et moins de neurones par couche étaient plus performants pour garder en mémoire les personnages et les points de l'intrigue situés plus tôt dans l'histoire. Bhagavatula a trouvé ce résultat particulièrement intriguant. S'il peut être reproduit dans des modèles plus vastes, "ce serait un résultat vraiment intéressant qui pourrait découler de ce travail", a-t-il déclaré.

Eldan et Li ont également étudié comment les capacités de leurs petits modèles dépendaient de la durée de la période de formation. Dans tous les cas, les modèles maîtrisaient d'abord la grammaire, puis la cohérence. Pour Eldan, ce schéma illustre comment les différences dans les structures de récompense entraînent des différences dans les schémas d'acquisition du langage entre les réseaux neuronaux et les enfants. Pour les modèles de langage, qui apprennent en prédisant des mots, "l'incitation pour les mots "je veux avoir" est aussi importante que pour les mots "crème glacée"", a-t-il déclaré. Les enfants, en revanche, "ne se soucient pas de savoir s'ils disent 'j'aimerais avoir de la glace' ou simplement 'glace, glace, glace'".

Qualité contre quantité

Eldan et Li espèrent que cette étude incitera d'autres chercheurs à entraîner différents modèles sur l'ensemble des données de TinyStories et à comparer leurs capacités. Mais il est souvent difficile de prédire quelles caractéristiques des petits modèles apparaîtront également dans les plus grands.

"Peut-être que les modèles de vision chez la souris sont de très bons substituts de la vision humaine, mais les modèles de dépression chez la souris sont-ils de bons modèles de la dépression chez l'homme ? a déclaré M. Pavlick. "Pour chaque cas, c'est un peu différent.

Le succès des modèles TinyStories suggère également une leçon plus large. L'approche standard pour compiler des ensembles de données de formation consiste à aspirer des textes sur l'internet, puis à filtrer les déchets. Le texte synthétique généré par des modèles de grande taille pourrait constituer une autre façon d'assembler des ensembles de données de haute qualité qui n'auraient pas besoin d'être aussi volumineux.

"Nous avons de plus en plus de preuves que cette méthode est très efficace, non seulement pour les modèles de la taille de TinyStories, mais aussi pour les modèles plus importants", a déclaré M. Eldan. Ces preuves proviennent d'une paire d'articles de suivi sur les modèles à un milliard de paramètres, rédigés par Eldan, Li et d'autres chercheurs de Microsoft. Dans le premier article, ils ont entraîné un modèle à apprendre le langage de programmation Python en utilisant des extraits de code générés par GPT-3.5 ainsi que du code soigneusement sélectionné sur l'internet. Dans le second, ils ont complété l'ensemble de données d'entraînement par des "manuels" synthétiques couvrant un large éventail de sujets, afin d'entraîner un modèle linguistique à usage général. Lors de leurs tests, les deux modèles ont été comparés favorablement à des modèles plus importants formés sur des ensembles de données plus vastes. Mais l'évaluation des modèles linguistiques est toujours délicate, et l'approche des données d'entraînement synthétiques n'en est qu'à ses balbutiements - d'autres tests indépendants sont nécessaires.

Alors que les modèles linguistiques de pointe deviennent de plus en plus volumineux, les résultats surprenants de leurs petits cousins nous rappellent qu'il y a encore beaucoup de choses que nous ne comprenons pas, même pour les modèles les plus simples. M. Nguyen s'attend à ce que de nombreux autres articles explorent l'approche inaugurée par TinyStories.

"La question est de savoir où et pourquoi la taille a de l'importance", a-t-il déclaré. "Il devrait y avoir une science à ce sujet, et cet article est, je l'espère, le début d'une riche histoire.

Auteur: Internet

Info: https://www.quantamagazine.org/ Ben Brubaker, 5 octobre 2023

[ synthèse ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

Paramètres de recherches