Les fils de la pensée

sciences

Le terme relativité se réfère au temps et à l'espace. Selon Galilée et Newton, temps et espace étaient des entités absolues, et les systèmes en mouvement de l'univers dépendaient de ce temps et de cet espace absolus. C'est sur cette conception que s'est construite la science de la mécanique. Les formules qui en résultent suffisent pour tous les mouvements lents, mais on constate qu'elles ne sont pas adaptées aux mouvements rapides de l'électrodynamique.

Auteur: Lorentz Hendrik Antoon

Info:

[ saut conceptuel ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

pensée-de-femme

Tout le monde a besoin d'une épouse. Même les épouses. Les épouses soignent, elles veillent. Leurs oreilles sont deux instruments jumeaux très sensibles, des satellites qui captent le moindre soupçon de mécontentement. Les épouses apportent le bouillon, nous apportons les trombones, nous nous apportons nous-mêmes, avec nos corps malléables et chauds. Nous savons exactement quoi raconter aux hommes qui, pour une raison ou une autre, ont le plus grand mal à prendre régulièrement soin d'eux-mêmes ou de qui que ce soit d'autre. "Écoute, leur affirmons-nous. Tout va bien se passer." Et ensuite, comme si nos vies en dépendaient, nous nous en assurons.

Auteur: Wolitzer Meg

Info: La doublure

[ femmes-par-femmes ]

Commenter

Commentaires: 0

entremetteur

Les eunuques, par leur statut hors-norme (et méprisable) au sein de la société, leur origine souvent plébéienne, ont traditionnellement occupé en Chine un rôle essentiel auprès des souverains. Ils étaient en effet les seuls à avoir un accès direct, intime et continu à l'empereur, dont ils dépendaient totalement, et à ses femmes, puisque aucun homme ne pouvait pénétrer dans les appartements privés du palais. Possédant souvent une culture lettrée, ils étaient les seuls à pouvoir oeuvrer dans les deux espaces du palais, l'intérieur et l'extérieur, le privé et l'officiel. Tout en servant d'intermédiaires obligés, les eunuques maintenaient une distance, quasiment une barrière mystérieuse, entre la personne divine de l'empereur et le commun des mortels.

Auteur: Bujard Marianne

Info: Les Dynasties Qin et Han, p. 139

[ intermédiaire ] [ castrat ] [ prescripteur ]

Commenter

Commentaires: 0

prière

HAPPY NEW YEAR

Écoute, je ne demande pas grand-chose,
seulement ta main, la tenir
comme une rainette qui dort contente ainsi.
J'ai besoin de cette porte que tu m'offrais
pour entrer dans ton monde, ce petit bout
de sucre vert, joyeux de sa rondeur.
Me prêtes-tu ta main cette nuit
de fin d'année et de chouettes enrouées ?
Tu ne le peux pas pour des raisons techniques. Alors
je la tisse avec l'air, ourdissant chaque doigt,
la pêche soyeuse de la paume
et le verso, ce pays d'arbres bleus.
Je la prends ainsi et je la soutiens, comme
si de cela dépendaient
beaucoup des biens du monde,
la suite des quatre saisons,
le chant des coqs, l'amour des hommes.

Auteur: Cortazar Julio

Info: Crépuscule d'automne, 31-12-1951

[ poème ]

Commenter

Commentaires: 1

Ajouté à la BD par miguel

crépuscule

Vingt heures. Venu du sud, comme un insecte noir rampant sur une nappe bleue froissée, un vieux cargo fatigué se frayait un passage dans la houle des Caraïbes, vers l'entrée du port de Santiago à Cuba. La fumée de son unique cheminée s'envolait dans une brume bleutée, poussée par un vent d'est, tandis que le soleil s'enfonçait sous la ligne d'horizon, ne formant plus qu'une énorme balle orange magnifiée par l'atmosphère terrestre. C'était l'un de ces derniers cargos qui traversaient les océans à la demande, en direction de ports exotiques aux quatre coins du monde, sans suivre d'itinéraire fixe. Leurs horaires dépendaient des exigences du fret et de ses propriétaires, et ainsi les destinations changeaient à chaque port. Ils accostaient, déchargeaient leur cargaison et repartaient au loin comme des spectres dans la nuit.

Auteur: Cussler Clive

Info: Bouddha

[ mer ] [ bateau ]

Commenter

Commentaires: 0

évolution humaine

La naissance prématurée de petits enfants très sensibles a aussi ses inconvénients. Ces esprits intelligents habitaient des corps minuscules et pathétiquement sans défense. Pourtant - cela est étrange - la famille et la civilisation viennent de l’impuissance de ses nouveaux nés. Les femelles étaient forcées de modifier leur stratégie de sélection sexuelle. Elles désiraient un nouveau type d'homme singe. Les jeunes mères s'attachaient à des mâles qui s'occuperaient d'elles pendant qu'elles prendraient soin de leurs enfants, fragiles et pas encore formés. Les femelles choisissent des mâles pourvus d'un gros cerveau et les mâles pourvus d'un gros cerveau choisissaient des femelles avec des hanches larges : des boucles de rétroaction s’amorçaient. L'intelligence commençait à engendrer l'intelligence. Plus précisément, les anthropologues pensent que les premiers hommes, en jetant des pierres, en assommant ou en tuant des petites proies, ont été catapultés dans une nouvelle niche évolutive. Les talents psychomoteurs nécessaires pour estimer la trajectoire des projectiles, pour tuer à distance, dépendaient de l'augmentation de la taille de l'hémisphère gauche du cerveau. Les facultés du langage (associées à l'hémisphère gauche du cerveau qui commande la main droite) sont peut-être apparues fortuitement en même temps que cette augmentation de la taille du cerveau.

Auteur: Margulis Lynn

Info: L'univers bactériel, l'homme égocentrique, pp 233 et 234

[ nourrissons ] [ palier ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

progrès

Les technologies qui eurent les effets les plus profonds sur la vie humaine sont généralement simples. Un bon exemple d'une technologie simple avec des conséquences historiques profondes est le foin. Personne ne sait qui a inventé le foin, cette idée de couper l'herbe en automne et de la stocker en assez grande quantité pour maintenir vivants les chevaux et les vaches pendant l'hiver. Tout que nous savons est que la technologie du foin était inconnue pendant l'empire romain mais était utilisée dans chaque village de l'Europe médiévale. Comme beaucoup d'autres technologies crucialement importantes, le foin a émergé de manière anonyme pendant les prétendus âges sombres. Selon la théorie du "Foin dans l'Histoire", son invention fut l'événement décisif qui déplaça le centre de gravité de la civilisation urbaine du bassin méditerranéen vers Europe du nord et de l'ouest. L'empire romain n'avait pas besoin de foin parce que dans le climat méditerranéen l'herbe se développe suffisamment en hiver pour que les animaux se nourrissent. Au nord des Alpes, les grandes villes qui dépendaient des chevaux et des boeufs pour la puissance motrice ne pourraient pas exister sans foin. Ainsi c'est le foin qui a permis à ces populations de se développer et à ces civilisations de s'épanouir au milieu des forêts de l'Europe nordique. Le foin a déplacé la grandeur de Rome vers Paris et Londres, et, un peu plus tard vers Berlin, Moscou et New York.

Auteur: Dyson Freeman

Info: Infinite in All Directions, p. 135, Harper and Row, 1988

[ historique ] [ civilisation ] [ agriculture ] [ granges ]

Commenter

Commentaires: 0

paliers évolutionnaires

Des chercheurs découvrent une extinction de masse jusqu’alors inconnue de l’histoire de la Terre

Une extinction de masse désigne un événement ayant entraîné la disparition d’au moins 75 % des espèces présentes sur Terre. Les paléobiologistes affirment que notre planète a déjà connu cinq principaux épisodes de ce type ; certains estiment que nous sommes en train de vivre la sixième extinction. Mais la liste ne s’arrête pas là : des chercheurs de Virginia Tech ont découvert que la Terre aurait subi une extinction de masse il y a environ 550 millions d’années. Ce serait ainsi la toute première extinction que notre planète ait connu.

À ce jour, l’extinction de l’Ordovicien-Silurien, survenue il y a environ 440 millions d’années, est considérée comme la première extinction massive de notre planète. Celle-ci s’est vraisemblablement produite à la suite d’une grande glaciation, à laquelle auraient succombé près de 85% des espèces, faute de réussir à s’adapter à ces nouvelles conditions. Mais des preuves suggèrent aujourd’hui qu’un autre événement d’extinction l’aurait précédée : une diminution de la disponibilité mondiale d’oxygène aurait entraîné la perte d’une majorité d’animaux présents vers la fin de l’Édiacarien, il y a environ 550 millions d’années.

La première extinction de l’histoire de la Terre

Le déclin soudain de la diversité fossile il y a 550 millions d’années est connu depuis longtemps, mais les scientifiques n’avaient pas pu en déterminer la cause avec certitude. Il était possible que les espèces en présence soient entrées en compétition pour la survie, s’éliminant les unes les autres, ou simplement que les conditions environnementales de l’époque n’étaient pas propices à la préservation des fossiles édiacariens. Une nouvelle étude publiée dans Proceedings of the National Academy of Sciences permet aujourd’hui d’affirmer que ce déclin résulte bel et bien d’une extinction de masse.

Notre planète compte cinq extinctions de masse connues, les "Big Five", selon Shuhai Xiao, professeur de géobiologie à Virginia Tech : l’extinction de l’Ordovicien-Silurien (il y a 440 millions d’années), l’extinction du Dévonien tardif (il y a 370 millions d’années), l’extinction du Permien-Trias (il y a 250 millions d’années), l’extinction du Trias-Jurassique (il y a 200 millions d’années) et enfin, l’extinction du Crétacé-Paléogène (il y a 65 millions d’années), qui a anéanti environ 75 % des plantes et des animaux, y compris les dinosaures non aviens.

Toutes sont liées à des changements environnementaux majeurs et à grande échelle. Un changement climatique ou un événement de désoxygénation peuvent entraîner une extinction massive d’animaux, ainsi qu’une perturbation et une réorganisation profondes des écosystèmes. Ce premier événement d’extinction survenu lors de l’Édiacarien n’échappe pas à la règle : lui aussi a été induit par une modification significative de l’environnement.

Près de 80 % des animaux vivant sur Terre auraient disparu lors de cette première extinction massive. "Cela comprenait la perte de nombreux types d’animaux différents, mais ceux dont les plans corporels et les comportements indiquent qu’ils dépendaient d’importantes quantités d’oxygène semblent avoir été particulièrement touchés", explique Scott Evans, chercheur postdoctoral au Département des géosciences de Virginia Tech et premier auteur de l’étude décrivant l’événement.

Un "coup de pouce" à l’évolution ?

Les fossiles à corps mou du biote d’Ediacara – du nom des collines situées au sud de l’Australie où ont été découverts ces fossiles en 1946 – font partie des plus anciens organismes pluricellulaires complexes connus. Les empreintes fossiles datant de la période édiacarienne – soit d’environ -635 à -539 millions d’années – montrent que les animaux qui ont péri lors de cette extinction de masse avaient une apparence très étrange, en forme de feuille, de plume ou de tube.

Selon Evans, les organismes de l’époque semblaient expérimenter différentes façons de construire leurs grands corps multicellulaires. Par conséquent, les fossiles mis au jour datant d’avant l’extinction, ne correspondent pas toujours aux classifications actuelles des animaux. "Cette extinction a peut-être contribué à ouvrir la voie à l’évolution des animaux tels que nous les connaissons", conclut le chercheur. À savoir que la plupart des plans d’organisation animaux existant aujourd’hui sont apparus au cours du Cambrien (soit la période qui succède à l’Édiacarien).

Evans et ses collègues ont scrupuleusement examiné et catalogué l’ensemble des fossiles de la période édiacarienne décrits dans la littérature. Ils ont ainsi identifié 70 genres d’animaux, dont seuls 14 existaient encore quelque 10 millions d’années plus tard. L’équipe n’a toutefois trouvé aucun signe suggérant que ces animaux étaient en concurrence avec les premiers animaux du Cambrien, ni rien qui pouvait expliquer la non-préservation des fossiles.

En revanche, les animaux qui ont survécu arboraient tous un plan d’organisation favorisant la survie en cas d’anoxie : une surface corporelle relativement élevée par rapport à leur volume. Des preuves géochimiques confirment par ailleurs une faible disponibilité d’oxygène dans les océans il y a 550 millions d’années.

Une anoxie dont la cause reste à éclaircir

Qu’est-ce qui a causé cette baisse de la disponibilité globale de l’oxygène ? "La réponse courte à la façon dont cela s’est produit est que nous ne savons pas vraiment", a déclaré Evans. En réalité, plusieurs événements, individuels ou combinés, pourraient être à l’origine du phénomène explique le scientifique : éruptions volcaniques, mouvements de plaques tectoniques, impact d’astéroïde, etc. Des changements dans les niveaux de nutriments des océans pourraient être une autre cause possible.

Dans tous les cas, cette extinction a largement influencé l’évolution de la vie sur Terre et cette étude nous donne un aperçu de l’impact à long terme du manque d’oxygène sur la vie aquatique. Il se trouve que dans une autre étude, les scientifiques de Virginia Tech ont récemment découvert que les lacs d’eaux douces du monde perdaient actuellement rapidement de l’oxygène.

Ce phénomène est lié non seulement au réchauffement des eaux induit par le changement climatique, mais aussi à l’excès de ruissellement de substances polluantes (phosphore, azote) lié aux pratiques agricoles : "le réchauffement des eaux diminue la capacité de l’eau douce à retenir l’oxygène, tandis que la dégradation des nutriments dans le ruissellement par les microbes d’eau douce engloutit l’oxygène", expliquent les chercheurs.

En d’autres termes, la découverte de cette nouvelle extinction donne un aperçu des dangers de la crise climatique actuelle pour la vie animale.

Auteur: Internet

Info: https://www.science-et-vie.com, 7 déc 2022 Fleur Brosseau

[ stases ] [ Gaïa ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

intelligence artificielle

Apprendre l'anglais n'est pas une tâche facile, comme le savent d'innombrables étudiants. Mais lorsque l'étudiant est un ordinateur, une approche fonctionne étonnamment bien : Il suffit d'alimenter un modèle mathématique géant, appelé réseau neuronal, avec des montagnes de textes provenant d'Internet. C'est le principe de fonctionnement des modèles linguistiques génératifs tels que ChatGPT d'OpenAI, dont la capacité à tenir une conversation cohérente (à défaut d'être toujours sincère) sur un large éventail de sujets a surpris les chercheurs et le public au cours de l'année écoulée.

Mais cette approche présente des inconvénients. D'une part, la procédure de "formation" nécessaire pour transformer de vastes archives textuelles en modèles linguistiques de pointe est coûteuse et prend beaucoup de temps. D'autre part, même les personnes qui forment les grands modèles linguistiques ont du mal à comprendre leur fonctionnement interne, ce qui, à son tour, rend difficile la prévision des nombreuses façons dont ils peuvent échouer.

Face à ces difficultés, certains chercheurs ont choisi d'entraîner des modèles plus petits sur des ensembles de données plus restreints, puis d'étudier leur comportement. "C'est comme le séquençage du génome de la drosophile par rapport au séquençage du génome humain", explique Ellie Pavlick, chercheuse sur les modèles de langage à l'université de Brown.

Dans un article récemment publié sur le serveur scientifique arxiv.org, deux chercheurs de Microsoft ont présenté une nouvelle méthode pour former de minuscules modèles de langage : Les élever avec un régime strict d'histoires pour enfants.

RÉSEAUX NEURONAUX

Des chercheurs acquièrent une nouvelle compréhension à partir d'une simple IA

Les chercheurs en apprentissage automatique ont compris cette leçon. GPT-3.5, le grand modèle linguistique qui alimente l'interface ChatGPT, compte près de 200 milliards de paramètres et a été entraîné sur un ensemble de données comprenant des centaines de milliards de mots (OpenAI n'a pas publié les chiffres correspondants pour son successeur, GPT-4). L'entraînement de modèles aussi vastes nécessite généralement au moins 1 000 processeurs spécialisés, appelés GPU, fonctionnant en parallèle pendant des semaines. Seules quelques entreprises peuvent réunir les ressources nécessaires, sans parler de l'entraînement et de la comparaison de différents modèles.

Les deux chercheurs ont montré que des modèles linguistiques des milliers de fois plus petits que les systèmes de pointe actuels apprenaient rapidement à raconter des histoires cohérentes et grammaticalement justes lorsqu'ils étaient formés de cette manière. Leurs résultats indiquent de nouvelles pistes de recherche qui pourraient être utiles pour former des modèles plus importants et comprendre leur comportement.

"J'ai trouvé tout ça très instructif", a déclaré Chandra Bhagavatula, chercheur sur les modèles de langage à l'Allen Institute for Artificial Intelligence de Seattle. "Le concept lui-même est très intéressant.

Il était une fois

Les réseaux neuronaux au cœur des modèles de langage sont des structures mathématiques vaguement inspirées du cerveau humain. Chacun d'entre eux contient de nombreux neurones artificiels disposés en couches, avec des connexions entre les neurones des couches adjacentes. Le comportement du réseau neuronal est régi par la force de ces connexions, appelées paramètres. Dans un modèle linguistique, les paramètres contrôlent les mots que le modèle peut produire ensuite, compte tenu d'une invite initiale et des mots qu'il a déjà générés.

Un modèle ne prend véritablement vie qu'au cours de la formation, lorsqu'il compare de manière répétée ses propres résultats au texte de son ensemble de données de formation et qu'il ajuste ses paramètres afin d'accroître la ressemblance. Un réseau non entraîné avec des paramètres aléatoires est trivialement facile à assembler à partir de quelques lignes de code, mais il ne produira que du charabia. Après l'entraînement, il peut souvent poursuivre de manière plausible un texte peu familier. Les modèles de plus grande taille sont souvent soumis à des réglages plus fins qui leur apprennent à répondre à des questions et à suivre des instructions, mais l'essentiel de la formation consiste à maîtriser la prédiction des mots.

Pour réussir à prédire des mots, un modèle linguistique doit maîtriser de nombreuses compétences différentes. Par exemple, les règles de la grammaire anglaise suggèrent que le mot suivant le mot "going" sera probablement "to", quel que soit le sujet du texte. En outre, un système a besoin de connaissances factuelles pour compléter "la capitale de la France est", et compléter un passage contenant le mot "not" nécessite une connaissance rudimentaire de la logique.

"Le langage brut est très compliqué", explique Timothy Nguyen, chercheur en apprentissage automatique chez DeepMind. "Pour que des capacités linguistiques intéressantes apparaissent, les gens ont eu recours à l'idée que plus il y a de données, mieux c'est".

(photo) Ronen Eldan s'est rendu compte qu'il pouvait utiliser les histoires d'enfants générées par de grands modèles linguistiques pour en entraîner rapidement de plus petits.

Introduction

Ronen Eldan, mathématicien qui a rejoint Microsoft Research en 2022 pour étudier les modèles de langage génératifs, souhaitait développer un moyen moins coûteux et plus rapide d'explorer leurs capacités. Le moyen naturel d'y parvenir était d'utiliser un petit ensemble de données, ce qui signifiait qu'il devait entraîner les modèles à se spécialiser dans une tâche spécifique, afin qu'ils ne s'éparpillent pas. Au départ, il voulait entraîner les modèles à résoudre une certaine catégorie de problèmes mathématiques, mais un après-midi, après avoir passé du temps avec sa fille de 5 ans, il s'est rendu compte que les histoires pour enfants convenaient parfaitement. "L'idée m'est venue littéralement après lui avoir lu une histoire", a-t-il déclaré.

Pour générer des histoires cohérentes pour les enfants, un modèle de langage devrait apprendre des faits sur le monde, suivre les personnages et les événements, et observer les règles de grammaire - des versions plus simples des défis auxquels sont confrontés les grands modèles. Mais les grands modèles formés sur des ensembles de données massives apprennent d'innombrables détails non pertinents en même temps que les règles qui comptent vraiment. Eldan espérait que la brièveté et le vocabulaire limité des histoires pour enfants rendraient l'apprentissage plus gérable pour les petits modèles, ce qui les rendrait à la fois plus faciles à former et plus faciles à comprendre.

Dans le monde des modèles de langage, cependant, le terme "petit" est relatif : Un ensemble de données mille fois plus petit que celui utilisé pour former GPT-3.5 devrait encore contenir des millions d'histoires. "Je ne sais pas combien d'argent vous voulez dépenser, mais je suppose que vous n'allez pas engager des professionnels pour écrire quelques millions de nouvelles", a déclaré M. Nguyen.

Il faudrait un auteur extraordinairement prolifique pour satisfaire des lecteurs aussi voraces, mais Eldan avait quelques candidats en tête. Qui peut mieux écrire pour un public de petits modèles linguistiques que pour de grands modèles ?

Toys stories

Eldan a immédiatement entrepris de créer une bibliothèque d'histoires synthétiques pour enfants générées par de grands modèles linguistiques. Mais il a rapidement découvert que même les modèles de pointe ne sont pas naturellement très créatifs. Si l'on demande à GPT-4 d'écrire des histoires adaptées à des enfants de 4 ans, explique Eldan, "environ un cinquième des histoires concernera des enfants qui vont au parc et qui ont peur des toboggans". C'est apparemment la quintessence des histoires pour enfants d'âge préscolaire, selon l'Internet.

La solution a consisté à ajouter un peu d'aléatoire dans le message. Tout d'abord, Eldan a utilisé le GPT-4 pour générer une liste de 1 500 noms, verbes et adjectifs qu'un enfant de 4 ans pourrait connaître - suffisamment courte pour qu'il puisse facilement la vérifier lui-même. Il a ensuite écrit un programme informatique simple qui demanderait à plusieurs reprises à GPT-3.5 ou à GPT-4 de générer une histoire adaptée à l'âge de l'enfant, comprenant trois mots aléatoires de la liste, ainsi qu'un détail supplémentaire choisi au hasard, comme une fin heureuse ou un rebondissement de l'intrigue. Les histoires obtenues, heureusement, étaient moins axées sur des diapositives effrayantes.

Eldan disposait désormais d'une procédure pour produire des données de formation à la demande, mais il n'avait aucune idée du nombre d'histoires dont il aurait besoin pour former un modèle fonctionnel, ni de la taille de ce modèle. C'est alors qu'il s'est associé à Yuanzhi Li, chercheur en apprentissage automatique chez Microsoft et à l'université Carnegie Mellon, pour essayer différentes possibilités, en tirant parti du fait que les petits modèles peuvent être formés très rapidement. La première étape consistait à décider comment évaluer leurs modèles.

Introduction

Dans la recherche sur les modèles de langage - comme dans toute salle de classe - la notation est un sujet délicat. Il n'existe pas de rubrique parfaite qui englobe tout ce que les chercheurs veulent savoir, et les modèles qui excellent dans certaines tâches échouent souvent de manière spectaculaire dans d'autres. Au fil du temps, les chercheurs ont mis au point divers critères de référence standard basés sur des questions dont les réponses ne sont pas ambiguës, ce qui est une bonne approche si vous essayez d'évaluer des compétences spécifiques. Mais Eldan et Li se sont intéressés à quelque chose de plus nébuleux : quelle doit être la taille réelle des modèles linguistiques si l'on simplifie le langage autant que possible ?

"Pour vérifier directement si le modèle parle anglais, je pense que la seule chose à faire est de laisser le modèle générer de l'anglais de manière ouverte", a déclaré M. Eldan.

Il n'y a que deux façons de mesurer les performances d'un modèle sur des questions aussi qualitatives : S'appuyer sur des évaluateurs humains ou se tourner à nouveau vers le GPT-4. Les deux chercheurs ont opté pour cette dernière solution, laissant les grands modèles à la fois rédiger les manuels et noter les dissertations.

Bhagavatula a déclaré qu'il aurait aimé voir comment les évaluations de GPT-4 se comparaient à celles des correcteurs humains - GPT-4 peut être biaisé en faveur des modèles qu'il a aidé à former, et l'opacité des modèles de langage rend difficile la quantification de tels biais. Mais il ne pense pas que de telles subtilités affecteraient les comparaisons entre différents modèles formés sur des ensembles similaires d'histoires synthétiques - l'objectif principal du travail d'Eldan et Li.

Eldan et Li ont utilisé une procédure en deux étapes pour évaluer chacun de leurs petits modèles après la formation. Tout d'abord, ils ont présenté au petit modèle la première moitié d'une histoire distincte de celles de l'ensemble des données d'apprentissage, de manière à ce qu'il génère une nouvelle fin, en répétant ce processus avec 50 histoires de test différentes. Ensuite, ils ont demandé à GPT-4 d'évaluer chacune des fins du petit modèle en fonction de trois catégories : créativité, grammaire et cohérence avec le début de l'histoire. Ils ont ensuite fait la moyenne des notes obtenues dans chaque catégorie, obtenant ainsi trois notes finales par modèle.

Avec cette procédure en main, Eldan et Li étaient enfin prêts à comparer les différents modèles et à découvrir quels étaient les étudiants les plus brillants.

Résultats des tests

Après quelques explorations préliminaires, les deux chercheurs ont opté pour un ensemble de données de formation contenant environ 2 millions d'histoires. Ils ont ensuite utilisé cet ensemble de données, baptisé TinyStories, pour entraîner des modèles dont la taille varie de 1 million à 30 millions de paramètres, avec un nombre variable de couches. Le travail a été rapide : En utilisant seulement quatre GPU, l'entraînement du plus grand de ces modèles n'a pas pris plus d'une journée.

Les plus petits modèles ont eu du mal. Par exemple, l'une des histoires testées commence par un homme à l'air méchant qui dit à une fille qu'il va lui prendre son chat. Un modèle à un million de paramètres s'est retrouvé bloqué dans une boucle où la fille répète sans cesse à l'homme qu'elle veut être son amie. Mais les modèles plus grands, qui sont encore des milliers de fois plus petits que GPT-3.5, ont obtenu des résultats surprenants. La version à 28 millions de paramètres racontait une histoire cohérente, même si la fin était sinistre : "Katie s'est mise à pleurer, mais l'homme s'en fichait. Il a emporté le chat et Katie n'a plus jamais revu son chat. Fin de l'histoire".

En plus de tester leurs propres modèles, Eldan et Li ont soumis le même défi au GPT-2 d'OpenAI, un modèle de 1,5 milliard de paramètres publié en 2019. Le résultat a été bien pire - avant la fin abrupte de l'histoire, l'homme menace d'emmener la jeune fille au tribunal, en prison, à l'hôpital, à la morgue et enfin au crématorium.

Introduction

Selon M. Nguyen, il est passionnant que des modèles aussi petits soient aussi fluides, mais il n'est peut-être pas surprenant que GPT-2 ait eu du mal à accomplir la tâche : il s'agit d'un modèle plus grand, mais loin de l'état de l'art, et il a été formé sur un ensemble de données très différent. "Un enfant en bas âge qui ne s'entraînerait qu'à des tâches d'enfant en bas âge, comme jouer avec des jouets, obtiendrait de meilleurs résultats que vous ou moi", a-t-il fait remarquer. "Nous ne nous sommes pas spécialisés dans cette chose simple.

Les comparaisons entre les différents modèles de TinyStories ne souffrent pas des mêmes facteurs de confusion. Eldan et Li ont observé que les réseaux comportant moins de couches mais plus de neurones par couche étaient plus performants pour répondre aux questions nécessitant des connaissances factuelles ; inversement, les réseaux comportant plus de couches et moins de neurones par couche étaient plus performants pour garder en mémoire les personnages et les points de l'intrigue situés plus tôt dans l'histoire. Bhagavatula a trouvé ce résultat particulièrement intriguant. S'il peut être reproduit dans des modèles plus vastes, "ce serait un résultat vraiment intéressant qui pourrait découler de ce travail", a-t-il déclaré.

Eldan et Li ont également étudié comment les capacités de leurs petits modèles dépendaient de la durée de la période de formation. Dans tous les cas, les modèles maîtrisaient d'abord la grammaire, puis la cohérence. Pour Eldan, ce schéma illustre comment les différences dans les structures de récompense entraînent des différences dans les schémas d'acquisition du langage entre les réseaux neuronaux et les enfants. Pour les modèles de langage, qui apprennent en prédisant des mots, "l'incitation pour les mots "je veux avoir" est aussi importante que pour les mots "crème glacée"", a-t-il déclaré. Les enfants, en revanche, "ne se soucient pas de savoir s'ils disent 'j'aimerais avoir de la glace' ou simplement 'glace, glace, glace'".

Qualité contre quantité

Eldan et Li espèrent que cette étude incitera d'autres chercheurs à entraîner différents modèles sur l'ensemble des données de TinyStories et à comparer leurs capacités. Mais il est souvent difficile de prédire quelles caractéristiques des petits modèles apparaîtront également dans les plus grands.

"Peut-être que les modèles de vision chez la souris sont de très bons substituts de la vision humaine, mais les modèles de dépression chez la souris sont-ils de bons modèles de la dépression chez l'homme ? a déclaré M. Pavlick. "Pour chaque cas, c'est un peu différent.

Le succès des modèles TinyStories suggère également une leçon plus large. L'approche standard pour compiler des ensembles de données de formation consiste à aspirer des textes sur l'internet, puis à filtrer les déchets. Le texte synthétique généré par des modèles de grande taille pourrait constituer une autre façon d'assembler des ensembles de données de haute qualité qui n'auraient pas besoin d'être aussi volumineux.

"Nous avons de plus en plus de preuves que cette méthode est très efficace, non seulement pour les modèles de la taille de TinyStories, mais aussi pour les modèles plus importants", a déclaré M. Eldan. Ces preuves proviennent d'une paire d'articles de suivi sur les modèles à un milliard de paramètres, rédigés par Eldan, Li et d'autres chercheurs de Microsoft. Dans le premier article, ils ont entraîné un modèle à apprendre le langage de programmation Python en utilisant des extraits de code générés par GPT-3.5 ainsi que du code soigneusement sélectionné sur l'internet. Dans le second, ils ont complété l'ensemble de données d'entraînement par des "manuels" synthétiques couvrant un large éventail de sujets, afin d'entraîner un modèle linguistique à usage général. Lors de leurs tests, les deux modèles ont été comparés favorablement à des modèles plus importants formés sur des ensembles de données plus vastes. Mais l'évaluation des modèles linguistiques est toujours délicate, et l'approche des données d'entraînement synthétiques n'en est qu'à ses balbutiements - d'autres tests indépendants sont nécessaires.

Alors que les modèles linguistiques de pointe deviennent de plus en plus volumineux, les résultats surprenants de leurs petits cousins nous rappellent qu'il y a encore beaucoup de choses que nous ne comprenons pas, même pour les modèles les plus simples. M. Nguyen s'attend à ce que de nombreux autres articles explorent l'approche inaugurée par TinyStories.

"La question est de savoir où et pourquoi la taille a de l'importance", a-t-il déclaré. "Il devrait y avoir une science à ce sujet, et cet article est, je l'espère, le début d'une riche histoire.

Auteur: Internet

Info: https://www.quantamagazine.org/ Ben Brubaker, 5 octobre 2023

[ synthèse ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

Paramètres de recherches