Les fils de la pensée

Le crâne masculin est, en général, plus volumineux, plus capace, plus lourd que le crâne féminin.

Info: Mém. de la Soc. d'anthrop. 2e série, t. II, p. 137

Commentaires: 0

A l'entrée du nid fonctionne un sévère contrôle : les apprenties ou les novices qui apportent naïvement de menus cailloux, des débris de porcelaine ou des semences non comestibles sont vivement rabrouées et priées d'aller déposer ailleurs leurs petites erreurs. Je n'insisterai pas sur les drames qui se déroulent aux portes des couloirs, quand il s'agit d'y introduire des glumes trop volumineux ou un bout d'épi qui se met toujours en travers. C'est un spectacle qu'il est facile de s'offrir durant l'été, entre Saint Raphaël et Menton, et qui, pour peu l'imagination qui le transpose à l'échelle humain, en vaut bien d'autres que l'on vient chercher sur la côte d'Azur.

Auteur: Maeterlinck Maurice

Info: La vie des fourmis, p 188

[ analogie ] [ insectes ]

Commenter

Commentaires: 0

alexandrin

"Le geai gélatineux geignait dans le jasmin"

Voici, mes zinfints

Sans en avoir l’air

Le plus beau vers

De la langue française.

Ai, eu, ai, in

Le geai gélatineux geignait dans le jasmin…

Le poite aurait pu dire

Tout à son aise :

"Le geai volumineux picorait des pois fins"

Eh bien ! non, mes zinfints.

Le poite qui a du génie

Jusque dans son délire

D’une main moite a écrit :

"C’était l’heure divine où, sous le ciel gamin,

LE GEAI GÉLATINEUX GEIGNAIT DANS LE JASMIN"

Auteur: Obaldia René de

Info: Anthologie de la poésie française du 20e siècle. Page 149

[ autodérision ] [ allitération ] [ graphèmes ]

Commenter

Commentaires: 0

Ajouté à la BD par Plouin

vivre

Quiconque veut comprendre les êtres humains devra accrocher la toge doctorale, dire adieu aux études et se mettre à marcher au milieu du monde le cœur ouvert. Là, au milieu des horreurs de la prison, de l'asile et de l'hôpital, dans les tavernes, les bordels et les tripots, dans les cercles élégants et à la bourse, dans les assemblées socialistes, dans les églises et dans les réunions de sectes, à travers l'amour et la haine, à travers l'expérience de la passion dans sa propre chair, il trouvera, sous toutes les formes, un capital de savoir beaucoup plus riche que ne pourront jamais lui donner des traités volumineux. C'est alors que, en véritable connaisseur de l'âme humaine, il saura comment guérir le malade.

Auteur: Jung Carl Gustav

Info:

[ expérimenter ] [ rapports humains ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

famille

Ma propre mère avait écrit d'inutiles pages de mémoires à l'attention de son petit-fils, dans le dessein de conserver pour lui la substantifique moelle de l'affaire une fois le volumineux dossier judiciaire broyé par le tri sélectif de la France devenue, comme dans la chanson de Camille Dalmais, "celle des photocopies". Si je me souviens de ses feuilles graisseuses et dont la taille des caractères variait sans cesse, au gré de l'importance présumée de l'exploit familial narré, c'est parce que je les ai jetées moi-même, et avec quelle assurance ! Sans douter le moins du monde du caractère indispensable de ce geste d'assainissement. Bien qu'elle ne soit pas réellement au courant, je crois que pour une fois elle ne serait pas en désaccord avec ma destruction. Peut-être écrivait-elle pour ne pas faire le ménage ?

Auteur: Danoux Gabrielle

Info: Le chemin du fort, Ma Nouvelle. p. 152

[ tri transgénérationnel ] [ mère-fille ]

Commenter

Commentaires: 2

Ajouté à la BD par miguel

ostracisme

Un cours sur les goitres (goïteurs, en anglais), parce que je ne vois vraiment pas comment je pourrais renverser la tendance de trois mille ans de civilisation où d'abord on lapide les goitreux, ensuite on les met à l'isolement en les associant aux crétins, puis on les traite à l'hôpital. Touche autobiographique : j'habite dans les Alpes (basses - les Basses-Alpes) : d'où sensibilité accrue - ou cliché ? On a supprimé tous les goitreux ; en quinze ans, je n'en ai pas vu un seul (population non grata, pour le moins). À bien y réfléchir, je n'ai pas croisé un seul crétin non plus - ah si, une fois, un garçon volumineux avec une tête énorme ; il aura échappé à l'eugénisme (détendu, dans nos sociétés, un eugénisme décontracté). Il n'y a pas beaucoup de goitreux dans les livres. Il n'y a pas de chars nazis dans les corsos fleuris. Ça m'a frappée, hier, en assistant au défilé des chars alors que j'étais venue chercher dans la foule un goitreux échappé au carnage. Un cours est toujours une enquête.

Auteur: Quintane Nathalie

Info: "Cours sur les goitres", paru dans la revue "Nioques", n°11, p.137

[ pédagogie ] [ tare ] [ ironie ] [ bienséance ] [ glande thyroïde ] [ tumeur ] [ malformation pathologique ]

Commenter

Commentaires: 0

Ajouté à la BD par Benslama

femmes-hommes

Abraham, juif religieux, se demande un jour si les relations sexuelles sont vraiment compatibles avec le shabbat. Comme il n'est pas absolument sûr que ce soit un jeu et non un travail, il a peur que ce ne soit un pêché.

Son voisin de palier est un prêtre catholique, et il va lui demander ce qu'il en pense. Le prêtre réfléchit quelques instants, consulte plusieurs ouvrages aussi poussiéreux que volumineux et finit par lui répondre : "Mon fils, tout ce que j'ai trouvé concorde à laisser penser que l’œuvre de chair étant un devoir, c'est assimilé à un travail. J'ai bien peur que vous ne puissiez donc la pratiquer durant le sabbat."

Un peu refroidit, Abraham se dit in petto : "Pfff... Je suis bête d'être allé poser cette question à un prêtre catholique. Qu'est-ce qu'il sait sur le sexe, après tout ?"

Il décide donc d'aller demander à un pasteur de ses amis ce qu'il en pense. Après tout, le pasteur est marié, et en sait certainement plus qu'un prêtre voué au célibat. Il va donc le voir et lui demande son avis. Après mûre réflexion et force de recherches dans de vénérables in-folios, le pasteur lui répond : "Malgré quelques références contradictoires, je crains que les relations sexuelles ne relèvent du travail, les rendant par-là même incompatibles avec shabbat."

De plus en plus agité, Abraham entreprend ce qu'il aurait dû faire depuis le début : interroger le rabbin. Après tout, c'est lui le spécialiste du shabbat. Il prend donc son courage à deux mains, traverse la moitié de la ville et va poser la question au rabbin.

Ce dernier n'a nul besoin de consulter quelque ouvrage que ce soit. Il lui répond immédiatement : "Ne t'inquiète pas, il n'y a aucun doute : les relations sexuelles sont un jeu, pas un travail." Soulagé Abraham est tout de même curieux de la raison qui donne une telle certitude au rabbin.

- Mais, rabbin, pourquoi êtes-vous sûr que c'est un jeu et non un travail, alors que beaucoup d'autres soutiennent le contraire ?

Le rabbin répond doucement :

- Si c'était un travail, ma femme demanderait à la bonne de s'en occuper...

Auteur: Ouaknin Marc-Alain

Info: Tout l'humour juif

[ libido ] [ monopole ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

emploi du temps

L’été, à Iasnaïa Poliana, Lev Nikolaïevitch [Tolstoï] se lève entre dix heures et dix heures et demie. Après avoir fait sa toilette et revêtu toujours la même blouse noire, il boit son café et du thé en compagnie de sa femme. Il en boit à son content, sans se presser. S’il fait beau, le thé est servi en plein air, dans le jardin, entre les acacias, sous un grand tilleul à la vaste frondaison ; s’il pleut, la comtesse attend Lev Nikolaïevitch au salon.

Une fois terminé son thé, qu’il accompagne de deux œufs à la coque, Lev Nikolaïevitch descend dans son petit cabinet de travail aux murs entièrement couverts de rayonnages à livres de facture toute simple et se plonge dans son activité intellectuelle.

Il s’y consacre assidûment, sérieusement, jusqu’à trois heures et plus, après quoi il va travailler dans les champs s’il a quelque chose à y faire. ce n’est pas toujours le cas, car le comte ne travaille que pour les pauvres, les faibles, les veuves et les orphelins. S’il n’a rien à faire aux champs, Lev Nikolaïevitch prend un panier et s’en va en forêt ramasser des champignons, ce qui lui permet de passer quelques heures seul avec la nature et avec lui-même.

Il arrive qu’il consacre ce temps entre trois et six heures à un hôte de passage. Des personnes de connaissance ou totalement inconnues viennent parfois exprès de régions très lointaines de Russie ou de pays étrangers pour lui poser les questions les plus diverses sur la vie.

[...]

Lev Nikolaïevitch revient vers six heures et retrouve pour le repas sa nombreuse famille qui comprend dix enfants de tous âges, depuis son fils aîné de 26 ans à un nourrisson de deux mois. Il faut y ajouter les invités, les camarades des fils, les cousines et les amies des filles, les précepteurs, les gouvernantes et parfois des amis du comte et de la comtesse venus leur rendre visite. Une immense table traverse sur toute sa longueur la grande salle blanche de la vieille demeure familiale aux murs couverts de portraits d’ancêtres, qui résonne durant le repas de conversations joyeuses et bruyantes de tous les âges sur les sujets les plus divers.

Après le repas, Lev Nikolaïevitch trie et lit le volumineux courrier qui vient de lui être apporté de Toula : des lettres, des revues, des brochures et diverses correspondances en provenance du monde entier. Il est aidé dans cette tâche très fatigante par sa fille aînée Tatiana, qui souvent rédige aussi les réponses selon les instructions de son père.

Vers neuf heures, toute la famille, à l’exception des plus petits, qui vont se coucher, se réunit à nouveau dans la grande salle pour le thé du soir accompagné de fruits et se livre aux divertissements les plus variés. C’est tantôt la lecture à haute voix d’une œuvre littéraire [...], tantôt du chant [...].

Auteur: Répine Ilia

Info: "Le Comte Lev Nikolaïevitch Tolstoï. Souvenirs personnels", dans "Lettres à Tolstoï et à sa famille", trad. Laure Troubetzkoy, éditions Vendémiaire, 2021

[ organisation des journées ]

Commenter

Commentaires: 0

Ajouté à la BD par Coli Masson

spéléo

Grand spécialiste de la plongée spéléo le français Eric Establie (1964 - 2010) se retrouva bloqué par pure malchance au fond d'une rivière souterraine immergée. Les meilleurs plongeurs européens convergèrent rapidement pour le secourir, dont les deux pointes anglaises, Richard "Rick" Stanton et John Volanthen, qui connaissaient le français pour l'avoir déjà croisé dans le milieu confidentiel de la spéléo sous-marine. Ils ont raconté leurs plongées afin d'essayer de le secourir. Ce duet de bénévoles était peut-être le seul au monde capable d'effectuer un sauvetage si difficile. En 10 jours, ils plongèrent trois fois à l'intérieur du dangereux conduit de la "Dragonnière de Gaud" au sud de l'Ardèche en France. John raconte : - La visibilité était au maximum de quelques mètres, très difficile d'agir dans ces conditions. A certains moments les sédiments étaient si épais qu'on pouvait à peine voir les lumières de nos casques...
Après 740m de conduit ils tombèrent sur une avalanche sous-marine qui avait complètement brassé la boue de la grotte piégeant le plongeur français par un entassement de gravier limoneux qui obturait la conduit sur plusieurs mètres. Lors de cette deuxième tentative les plongeurs trouvèrent une "étroiture" permettant de passer de l'autre côté, mais leurs équipements trop volumineux les en empêchaient. Toujours avec l'aide de nombreux autres plongeurs en soutien et en relais, ils repartirent allégés pour un troisième essai au cours duquel ils réussirent à passer l'étranglement. Pour trouver une eau plus claire de l'autre côté. Mais pas de plongeur français.
Rick raconte : - Après l'éboulement nous avons nagé peut-être 150 mètres quand, au milieu d'un passage élargi, nous avons vu le corps d'Eric cinq mètres au-dessous de nous. Comme nous ne l'avions pas aperçu de l'autre côté de l'obstruction nous espérions le trouver plus loin dans un espace à l'air libre. Ce fut donc une surprise... Les anglais purent constater ensuite que le français avait essayé de creuser pour passer la partie bouchée. Sans savoir pourquoi son corps était si loin dans le tunnel. (Afin d'essayer de parvenir à une poche d'air ?...) Rick, pompier à Coventry, précise : - La chose la plus importante était de récupérer son ordinateur de plongée de poignet. Nous avons ensuite jeté un coup d'oeil alentours mais pas très longtemps parce que nous étions quand-même dans une situation extrême... (Il reconnaîtra plus tard que c'est à ce jour la plongée la plus difficile à laquelle il ait été confronté). L'ordinateur bracelet fut ensuite remis à la police française, révélant qu'Establie avait poursuivi l'exploration au-delà des repères connus à 1040 m (environ 200 m plus loin) avant de revenir et se retrouver à se battre jusqu'à être probablement victime d'une hypoxie, car la visibilité ne permettait plus de lire correctement les instruments qui permettent de régler les mélanges gazeux qu'il respirait. Le procureur de Privas a déclaré :
"Son ordinateur a enregistré soit une remontée du boyau vers la surface soit l'existence d'une poche d'air."
La paire anglaise, en accord avec les secouristes français, décida de ne pas prendre le risque de remonter la dépouille. "Au retour il y avait un danger qu'il reste coincé dans le passage étroit au-dessus de l'éboulement. Comme l'un de nous aurait dû rester derrière le corps il pouvait se faire piéger." Ajoutant finalement : - Nous savons qu'il aurait fait la même chose pour nous si nous avions été en difficulté.
Le corps d'Eric Establie reste prisonnier de la Dragonnière de Gaud.

Auteur: Mg

Info: 20 août 2014, grand merci à Arthur, dit le crapaud, fils d'Eric Establie, pour les précisions.

[ plongée ] [ denières paroles ]

Commenter

Commentaires: 0

intelligence artificielle

Apprendre l'anglais n'est pas une tâche facile, comme le savent d'innombrables étudiants. Mais lorsque l'étudiant est un ordinateur, une approche fonctionne étonnamment bien : Il suffit d'alimenter un modèle mathématique géant, appelé réseau neuronal, avec des montagnes de textes provenant d'Internet. C'est le principe de fonctionnement des modèles linguistiques génératifs tels que ChatGPT d'OpenAI, dont la capacité à tenir une conversation cohérente (à défaut d'être toujours sincère) sur un large éventail de sujets a surpris les chercheurs et le public au cours de l'année écoulée.

Mais cette approche présente des inconvénients. D'une part, la procédure de "formation" nécessaire pour transformer de vastes archives textuelles en modèles linguistiques de pointe est coûteuse et prend beaucoup de temps. D'autre part, même les personnes qui forment les grands modèles linguistiques ont du mal à comprendre leur fonctionnement interne, ce qui, à son tour, rend difficile la prévision des nombreuses façons dont ils peuvent échouer.

Face à ces difficultés, certains chercheurs ont choisi d'entraîner des modèles plus petits sur des ensembles de données plus restreints, puis d'étudier leur comportement. "C'est comme le séquençage du génome de la drosophile par rapport au séquençage du génome humain", explique Ellie Pavlick, chercheuse sur les modèles de langage à l'université de Brown.

Dans un article récemment publié sur le serveur scientifique arxiv.org, deux chercheurs de Microsoft ont présenté une nouvelle méthode pour former de minuscules modèles de langage : Les élever avec un régime strict d'histoires pour enfants.

RÉSEAUX NEURONAUX

Des chercheurs acquièrent une nouvelle compréhension à partir d'une simple IA

Les chercheurs en apprentissage automatique ont compris cette leçon. GPT-3.5, le grand modèle linguistique qui alimente l'interface ChatGPT, compte près de 200 milliards de paramètres et a été entraîné sur un ensemble de données comprenant des centaines de milliards de mots (OpenAI n'a pas publié les chiffres correspondants pour son successeur, GPT-4). L'entraînement de modèles aussi vastes nécessite généralement au moins 1 000 processeurs spécialisés, appelés GPU, fonctionnant en parallèle pendant des semaines. Seules quelques entreprises peuvent réunir les ressources nécessaires, sans parler de l'entraînement et de la comparaison de différents modèles.

Les deux chercheurs ont montré que des modèles linguistiques des milliers de fois plus petits que les systèmes de pointe actuels apprenaient rapidement à raconter des histoires cohérentes et grammaticalement justes lorsqu'ils étaient formés de cette manière. Leurs résultats indiquent de nouvelles pistes de recherche qui pourraient être utiles pour former des modèles plus importants et comprendre leur comportement.

"J'ai trouvé tout ça très instructif", a déclaré Chandra Bhagavatula, chercheur sur les modèles de langage à l'Allen Institute for Artificial Intelligence de Seattle. "Le concept lui-même est très intéressant.

Il était une fois

Les réseaux neuronaux au cœur des modèles de langage sont des structures mathématiques vaguement inspirées du cerveau humain. Chacun d'entre eux contient de nombreux neurones artificiels disposés en couches, avec des connexions entre les neurones des couches adjacentes. Le comportement du réseau neuronal est régi par la force de ces connexions, appelées paramètres. Dans un modèle linguistique, les paramètres contrôlent les mots que le modèle peut produire ensuite, compte tenu d'une invite initiale et des mots qu'il a déjà générés.

Un modèle ne prend véritablement vie qu'au cours de la formation, lorsqu'il compare de manière répétée ses propres résultats au texte de son ensemble de données de formation et qu'il ajuste ses paramètres afin d'accroître la ressemblance. Un réseau non entraîné avec des paramètres aléatoires est trivialement facile à assembler à partir de quelques lignes de code, mais il ne produira que du charabia. Après l'entraînement, il peut souvent poursuivre de manière plausible un texte peu familier. Les modèles de plus grande taille sont souvent soumis à des réglages plus fins qui leur apprennent à répondre à des questions et à suivre des instructions, mais l'essentiel de la formation consiste à maîtriser la prédiction des mots.

Pour réussir à prédire des mots, un modèle linguistique doit maîtriser de nombreuses compétences différentes. Par exemple, les règles de la grammaire anglaise suggèrent que le mot suivant le mot "going" sera probablement "to", quel que soit le sujet du texte. En outre, un système a besoin de connaissances factuelles pour compléter "la capitale de la France est", et compléter un passage contenant le mot "not" nécessite une connaissance rudimentaire de la logique.

"Le langage brut est très compliqué", explique Timothy Nguyen, chercheur en apprentissage automatique chez DeepMind. "Pour que des capacités linguistiques intéressantes apparaissent, les gens ont eu recours à l'idée que plus il y a de données, mieux c'est".

(photo) Ronen Eldan s'est rendu compte qu'il pouvait utiliser les histoires d'enfants générées par de grands modèles linguistiques pour en entraîner rapidement de plus petits.

Introduction

Ronen Eldan, mathématicien qui a rejoint Microsoft Research en 2022 pour étudier les modèles de langage génératifs, souhaitait développer un moyen moins coûteux et plus rapide d'explorer leurs capacités. Le moyen naturel d'y parvenir était d'utiliser un petit ensemble de données, ce qui signifiait qu'il devait entraîner les modèles à se spécialiser dans une tâche spécifique, afin qu'ils ne s'éparpillent pas. Au départ, il voulait entraîner les modèles à résoudre une certaine catégorie de problèmes mathématiques, mais un après-midi, après avoir passé du temps avec sa fille de 5 ans, il s'est rendu compte que les histoires pour enfants convenaient parfaitement. "L'idée m'est venue littéralement après lui avoir lu une histoire", a-t-il déclaré.

Pour générer des histoires cohérentes pour les enfants, un modèle de langage devrait apprendre des faits sur le monde, suivre les personnages et les événements, et observer les règles de grammaire - des versions plus simples des défis auxquels sont confrontés les grands modèles. Mais les grands modèles formés sur des ensembles de données massives apprennent d'innombrables détails non pertinents en même temps que les règles qui comptent vraiment. Eldan espérait que la brièveté et le vocabulaire limité des histoires pour enfants rendraient l'apprentissage plus gérable pour les petits modèles, ce qui les rendrait à la fois plus faciles à former et plus faciles à comprendre.

Dans le monde des modèles de langage, cependant, le terme "petit" est relatif : Un ensemble de données mille fois plus petit que celui utilisé pour former GPT-3.5 devrait encore contenir des millions d'histoires. "Je ne sais pas combien d'argent vous voulez dépenser, mais je suppose que vous n'allez pas engager des professionnels pour écrire quelques millions de nouvelles", a déclaré M. Nguyen.

Il faudrait un auteur extraordinairement prolifique pour satisfaire des lecteurs aussi voraces, mais Eldan avait quelques candidats en tête. Qui peut mieux écrire pour un public de petits modèles linguistiques que pour de grands modèles ?

Toys stories

Eldan a immédiatement entrepris de créer une bibliothèque d'histoires synthétiques pour enfants générées par de grands modèles linguistiques. Mais il a rapidement découvert que même les modèles de pointe ne sont pas naturellement très créatifs. Si l'on demande à GPT-4 d'écrire des histoires adaptées à des enfants de 4 ans, explique Eldan, "environ un cinquième des histoires concernera des enfants qui vont au parc et qui ont peur des toboggans". C'est apparemment la quintessence des histoires pour enfants d'âge préscolaire, selon l'Internet.

La solution a consisté à ajouter un peu d'aléatoire dans le message. Tout d'abord, Eldan a utilisé le GPT-4 pour générer une liste de 1 500 noms, verbes et adjectifs qu'un enfant de 4 ans pourrait connaître - suffisamment courte pour qu'il puisse facilement la vérifier lui-même. Il a ensuite écrit un programme informatique simple qui demanderait à plusieurs reprises à GPT-3.5 ou à GPT-4 de générer une histoire adaptée à l'âge de l'enfant, comprenant trois mots aléatoires de la liste, ainsi qu'un détail supplémentaire choisi au hasard, comme une fin heureuse ou un rebondissement de l'intrigue. Les histoires obtenues, heureusement, étaient moins axées sur des diapositives effrayantes.

Eldan disposait désormais d'une procédure pour produire des données de formation à la demande, mais il n'avait aucune idée du nombre d'histoires dont il aurait besoin pour former un modèle fonctionnel, ni de la taille de ce modèle. C'est alors qu'il s'est associé à Yuanzhi Li, chercheur en apprentissage automatique chez Microsoft et à l'université Carnegie Mellon, pour essayer différentes possibilités, en tirant parti du fait que les petits modèles peuvent être formés très rapidement. La première étape consistait à décider comment évaluer leurs modèles.

Introduction

Dans la recherche sur les modèles de langage - comme dans toute salle de classe - la notation est un sujet délicat. Il n'existe pas de rubrique parfaite qui englobe tout ce que les chercheurs veulent savoir, et les modèles qui excellent dans certaines tâches échouent souvent de manière spectaculaire dans d'autres. Au fil du temps, les chercheurs ont mis au point divers critères de référence standard basés sur des questions dont les réponses ne sont pas ambiguës, ce qui est une bonne approche si vous essayez d'évaluer des compétences spécifiques. Mais Eldan et Li se sont intéressés à quelque chose de plus nébuleux : quelle doit être la taille réelle des modèles linguistiques si l'on simplifie le langage autant que possible ?

"Pour vérifier directement si le modèle parle anglais, je pense que la seule chose à faire est de laisser le modèle générer de l'anglais de manière ouverte", a déclaré M. Eldan.

Il n'y a que deux façons de mesurer les performances d'un modèle sur des questions aussi qualitatives : S'appuyer sur des évaluateurs humains ou se tourner à nouveau vers le GPT-4. Les deux chercheurs ont opté pour cette dernière solution, laissant les grands modèles à la fois rédiger les manuels et noter les dissertations.

Bhagavatula a déclaré qu'il aurait aimé voir comment les évaluations de GPT-4 se comparaient à celles des correcteurs humains - GPT-4 peut être biaisé en faveur des modèles qu'il a aidé à former, et l'opacité des modèles de langage rend difficile la quantification de tels biais. Mais il ne pense pas que de telles subtilités affecteraient les comparaisons entre différents modèles formés sur des ensembles similaires d'histoires synthétiques - l'objectif principal du travail d'Eldan et Li.

Eldan et Li ont utilisé une procédure en deux étapes pour évaluer chacun de leurs petits modèles après la formation. Tout d'abord, ils ont présenté au petit modèle la première moitié d'une histoire distincte de celles de l'ensemble des données d'apprentissage, de manière à ce qu'il génère une nouvelle fin, en répétant ce processus avec 50 histoires de test différentes. Ensuite, ils ont demandé à GPT-4 d'évaluer chacune des fins du petit modèle en fonction de trois catégories : créativité, grammaire et cohérence avec le début de l'histoire. Ils ont ensuite fait la moyenne des notes obtenues dans chaque catégorie, obtenant ainsi trois notes finales par modèle.

Avec cette procédure en main, Eldan et Li étaient enfin prêts à comparer les différents modèles et à découvrir quels étaient les étudiants les plus brillants.

Résultats des tests

Après quelques explorations préliminaires, les deux chercheurs ont opté pour un ensemble de données de formation contenant environ 2 millions d'histoires. Ils ont ensuite utilisé cet ensemble de données, baptisé TinyStories, pour entraîner des modèles dont la taille varie de 1 million à 30 millions de paramètres, avec un nombre variable de couches. Le travail a été rapide : En utilisant seulement quatre GPU, l'entraînement du plus grand de ces modèles n'a pas pris plus d'une journée.

Les plus petits modèles ont eu du mal. Par exemple, l'une des histoires testées commence par un homme à l'air méchant qui dit à une fille qu'il va lui prendre son chat. Un modèle à un million de paramètres s'est retrouvé bloqué dans une boucle où la fille répète sans cesse à l'homme qu'elle veut être son amie. Mais les modèles plus grands, qui sont encore des milliers de fois plus petits que GPT-3.5, ont obtenu des résultats surprenants. La version à 28 millions de paramètres racontait une histoire cohérente, même si la fin était sinistre : "Katie s'est mise à pleurer, mais l'homme s'en fichait. Il a emporté le chat et Katie n'a plus jamais revu son chat. Fin de l'histoire".

En plus de tester leurs propres modèles, Eldan et Li ont soumis le même défi au GPT-2 d'OpenAI, un modèle de 1,5 milliard de paramètres publié en 2019. Le résultat a été bien pire - avant la fin abrupte de l'histoire, l'homme menace d'emmener la jeune fille au tribunal, en prison, à l'hôpital, à la morgue et enfin au crématorium.

Introduction

Selon M. Nguyen, il est passionnant que des modèles aussi petits soient aussi fluides, mais il n'est peut-être pas surprenant que GPT-2 ait eu du mal à accomplir la tâche : il s'agit d'un modèle plus grand, mais loin de l'état de l'art, et il a été formé sur un ensemble de données très différent. "Un enfant en bas âge qui ne s'entraînerait qu'à des tâches d'enfant en bas âge, comme jouer avec des jouets, obtiendrait de meilleurs résultats que vous ou moi", a-t-il fait remarquer. "Nous ne nous sommes pas spécialisés dans cette chose simple.

Les comparaisons entre les différents modèles de TinyStories ne souffrent pas des mêmes facteurs de confusion. Eldan et Li ont observé que les réseaux comportant moins de couches mais plus de neurones par couche étaient plus performants pour répondre aux questions nécessitant des connaissances factuelles ; inversement, les réseaux comportant plus de couches et moins de neurones par couche étaient plus performants pour garder en mémoire les personnages et les points de l'intrigue situés plus tôt dans l'histoire. Bhagavatula a trouvé ce résultat particulièrement intriguant. S'il peut être reproduit dans des modèles plus vastes, "ce serait un résultat vraiment intéressant qui pourrait découler de ce travail", a-t-il déclaré.

Eldan et Li ont également étudié comment les capacités de leurs petits modèles dépendaient de la durée de la période de formation. Dans tous les cas, les modèles maîtrisaient d'abord la grammaire, puis la cohérence. Pour Eldan, ce schéma illustre comment les différences dans les structures de récompense entraînent des différences dans les schémas d'acquisition du langage entre les réseaux neuronaux et les enfants. Pour les modèles de langage, qui apprennent en prédisant des mots, "l'incitation pour les mots "je veux avoir" est aussi importante que pour les mots "crème glacée"", a-t-il déclaré. Les enfants, en revanche, "ne se soucient pas de savoir s'ils disent 'j'aimerais avoir de la glace' ou simplement 'glace, glace, glace'".

Qualité contre quantité

Eldan et Li espèrent que cette étude incitera d'autres chercheurs à entraîner différents modèles sur l'ensemble des données de TinyStories et à comparer leurs capacités. Mais il est souvent difficile de prédire quelles caractéristiques des petits modèles apparaîtront également dans les plus grands.

"Peut-être que les modèles de vision chez la souris sont de très bons substituts de la vision humaine, mais les modèles de dépression chez la souris sont-ils de bons modèles de la dépression chez l'homme ? a déclaré M. Pavlick. "Pour chaque cas, c'est un peu différent.

Le succès des modèles TinyStories suggère également une leçon plus large. L'approche standard pour compiler des ensembles de données de formation consiste à aspirer des textes sur l'internet, puis à filtrer les déchets. Le texte synthétique généré par des modèles de grande taille pourrait constituer une autre façon d'assembler des ensembles de données de haute qualité qui n'auraient pas besoin d'être aussi volumineux.

"Nous avons de plus en plus de preuves que cette méthode est très efficace, non seulement pour les modèles de la taille de TinyStories, mais aussi pour les modèles plus importants", a déclaré M. Eldan. Ces preuves proviennent d'une paire d'articles de suivi sur les modèles à un milliard de paramètres, rédigés par Eldan, Li et d'autres chercheurs de Microsoft. Dans le premier article, ils ont entraîné un modèle à apprendre le langage de programmation Python en utilisant des extraits de code générés par GPT-3.5 ainsi que du code soigneusement sélectionné sur l'internet. Dans le second, ils ont complété l'ensemble de données d'entraînement par des "manuels" synthétiques couvrant un large éventail de sujets, afin d'entraîner un modèle linguistique à usage général. Lors de leurs tests, les deux modèles ont été comparés favorablement à des modèles plus importants formés sur des ensembles de données plus vastes. Mais l'évaluation des modèles linguistiques est toujours délicate, et l'approche des données d'entraînement synthétiques n'en est qu'à ses balbutiements - d'autres tests indépendants sont nécessaires.

Alors que les modèles linguistiques de pointe deviennent de plus en plus volumineux, les résultats surprenants de leurs petits cousins nous rappellent qu'il y a encore beaucoup de choses que nous ne comprenons pas, même pour les modèles les plus simples. M. Nguyen s'attend à ce que de nombreux autres articles explorent l'approche inaugurée par TinyStories.

"La question est de savoir où et pourquoi la taille a de l'importance", a-t-il déclaré. "Il devrait y avoir une science à ce sujet, et cet article est, je l'espère, le début d'une riche histoire.

Auteur: Internet

Info: https://www.quantamagazine.org/ Ben Brubaker, 5 octobre 2023

[ synthèse ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

Paramètres de recherches