Les fils de la pensée

lettres

Qu'il est facile de confondre culture et érudition! En vérité, la culture ne dépend pas de l'accumulation de connaissances, même dans des domaines variés, mais de l'agencement de ces connaissances dans notre mémoire et de leur présence dans notre comportement. Les connaissances d'un homme cultivé peuvent ne pas être très nombreuses, mais elles sont toujours cohérentes, en harmonie, et surtout, en relation les unes avec les autres. Chez l'homme érudit, les connaissances semblent emmagasinées dans des espaces cloisonnés. Chez l'homme cultivé, elles sont réparties conformément à un ordre intérieur qui rend possible leur échange et leur fructification. Ses lectures, ses expériences sont en fermentation et engendrent continuellement de nouvelles richesses, tel un compte à intérêt. L'érudit, comme l'avare, conserve son patrimoine dans un bas de laine où il n'y a de place que pour la rouille et la répétition. Dans le premier cas, la connaissance engendre la connaissance. Dans le second la connaissance s'ajoute à la connaissance. Un homme qui connaît sur le bout des doigts tout le théâtre de Beaumarchais est un érudit, mais cultivé est l'homme qui, n'ayant lu que le Mariage de Figaro, a conscience du rapport qui existe entre cette oeuvre et la Révolution Française ou entre son auteur et les intellectuels de notre époque. C'est précisément pourquoi tel membre d'une tribu primitive qui possède le monde en dix notions de base est plus cultivé que le spécialiste d'art sacré byzantin incapable de faire cuire un oeuf.

Auteur: Ribeyro Julio Ramon

Info: Proses apatrides, Chap 21

[ instruction ] [ bagage ] [ synthèse ] [ citation s'appliquant à ce logiciel ] [ intelligence inductive ]

Commenter

Commentaires: 0

minéralogie

L'origine des roches nous permet de les classer classiquement en trois groupes:
- roche sédimentaire issue d'un sédiment
- roche magmatique, issue d'un magma
- roche métamorphique, issue d'une autre roche (sédimentaire ou magmatique)

a) Les roches sédimentaires sont issues d'un sédiment (aquatique ou éboulis) par diagénèse, au cours de laquelle, par augmentation de la pression et de la température par enfouissement, l'eau est expulsée et la vie se raréfie. Les roches semblent contenir des bactéries jusqu'à près de 3 kilomètres de profondeur. Les éléments d'origine biologique (squelettes, coquilles, tests, fragments de végétaux....) et de la précipitation par les organismes vivants d'éléments chimiques (calcaire et silice essentiellement) semblent être présents dans toutes les roches sédimentaires. (Exemples : calcaire, silices, calcite, grès, quartz, argiles...)
b) Les roches magmatiques sont issues d'un magma. Soit refroidies lentement et en profondeur, donc bien cristallisées (roches cristallines ou plutoniques). Soit elles peuvent s'être écoulées ou avoir été projetées par explosion en surface et donner des roches volcaniques en coulées (plus liquides) ou en amas, pitons ou cheminées, ou en dépôts de cendres ou autres produits de plus grande taille. Les roches volcaniques cristallisent plus rapidement que les roches plutoniques et possèdent souvent des cristaux de moins grande taille. Ces roches sont divisées en deux pôles : claires (feldspaths, basaltes, granites - à ne pas confondre avec granit !, etc.). Et sombres (amphibolites, pyroxénolites, péridotitesodiorite...)
c) Les roches métamorphiques, issues des deux précédentes catégories, ont subi un métamorphisme - ici les explications des géologues sont à explorer. (Exemples : schistes, gneiss, marbre, amphibolite, pyroxénite).

Auteur: Internet

Info: inspiré en partie de http://pst.chez-alice.fr/svtiufm/roches.htm

[ synthèse ] [ géologie ]

Commenter

Commentaires: 0

post-cybernétique tétrapode

Les quatre concepts de l’informatique

algorithme machine langage information

4 concepts antérieurs à l’informatique, déjà là dans l’antiquité

- algorithme : addition

- machine : moulin à eau

- langage : des nombres

- information : bibliothèque d’Alexandrie

(Sans lien : La méthode d’Euler et le fardier de Cugnot)

Au début du XXe siècle. Un mathématicien et un comptable, un physicien et un fabriquant de métiers à tisser, un grammairien et un traducteur de textes anciens, un agent du chiffre et un archiviste... sont coincés dans un ascenseur. Qu’ont-ils à se dire ?

L’informatique a tissé des liens entre ces quatre personnages/idées/concepts

- Programmation : expression d’un algorithme dans un langage

- Compilation : traduction d’un programme exprimé dans un langage pour qu’il soit exécuté par une machine

- Protocole réseau : algorithme pour faire fonctionner une machine

- Compression : un algorithme pour optimiser la représentation de l’information

Qu’est-ce que la pensée informatique ?

- Description algorithmique des phénomènes naturels (synthèse des proteines)

- Le fait de déléguer des taches a des machines (savez-vous faire une multiplication ?)

- Conception de langages pour décrire les phénomènes (grammaire des grammaires)

- Tout concevoir comme un flux d’information (Peut-on stocker une quantité infinie d’information dans un volume fini ?)

Quoi enseigner dans les cours d’informatique au lycée ?

- l’algorithmique

- l’architecture des machines

- la programmation

- l’utilisation d’un moteur de recherche

Auteur: Dowek Gilles

Info: Condensé et adaptation libre de ses slides de présentation, trouvés sur http://www.lsv.fr/~dowek/Slides/quatre.pdf

[ synthèse ]

Commenter

Mis dans la chaine

Commentaires: 0

Ajouté à la BD par miguel

indéterminisme

Certains artistes n'aiment pas photographier ou peindre un individu qui a eu de la chirurgie plastique - ils trouvent que c'est difficile à traiter parce que ça n'a jamais l'air... juste. Cette remarque me remet en mémoire l'observation d'une astrologue qui affirmait qu'on ne peut établir le profil astrologique de quelqu'un dont l'instant de la naissance a été modifié par une césarienne.

Qu'est-ce qui est naturel, qu'est-ce qui est artificiel ?

Balayant ces fariboles humaines j'aurai tendance à penser qu'il y a "ce qui est". Disons : une entité en interaction avec les autres entités et l'environnement général. Cette interaction étant, par effet miroir, le principe même de l'existence de qui rapporterait l'observation, quelle que soit la profondeur et l'étendue de l'univers qu'il refléterait, le contraste et la finesse du calibrage de ses examens. Comme on mesurerait les dimensions de sa prison jusqu'à l'absurde. Que reste-t'il alors ? L'esprit ? Comme un point infini qui ne s'arrête jamais.

Nous sommes un principe d'action... en action. Sitôt qu'on stoppe le temps, comme par exemple lors de la mesure du lieu et de la vitesse d'un électron en physique quantique, on perd les repères. Le temps arrêté n'a aucun sens. Je suis un point infime de l'univers, planté au milieu de ses 800 octaves. (Sa taille telle que nous somme capable de la mesurer ce jour, considérant que la plus petite est l'électron et la plus grande l'étendue maximale du cosmos).

Alors : constat de l'observateur humain. Si je vais vers le minuscule visuel, tout s'accélère, alors que vers l'immense je m'englue dans un ralentissement majestueux et d'apparence quasi figée (Pensons ici aux extraordinaires images d'Eta Carinae en train d'exploser depuis 160 ans.)

Comme dans la musique. N'est qu'en musique plus on monte en vitesse de vibrations plus ça devient lumineux, ça s'élève. Au contraire du grave, sombre, lent et profond, qui possède quelque chose du tellurique de la "roche mère". Il y a là une inversion qui fait immanquablement penser à celle des couleurs lumières et des couleurs matières... devant nos sens ébahis. Nous sommes de complexes robots, limités. La mesure de la réalité, sous forme de temps et d'espace, n'est que la durée de nos vies, éventuellement de l'espèce et du monde couplée à la portée de nos yeux et celle de notre imagination.

Auteur: Mg

Info: 5 novembre 2012

[ limitation ] [ quête ] [ corps-esprit ] [ symbole ] [ contingences ] [ synthèse additive soustractive ] [ humano solipsisme ]

Commenter

Commentaires: 1

exactitude

Avant d'aborder quelques constatations théoriques sur le langage, le sens et la vérité, il faut examiner de plus près le concept sous un angle historique. Tout d'abord la classification d'un grand nombre de philosophes du 20e siècle en deux grands camps opposés est, au mieux, une entreprise hasardeuse. Les philosophes sont des individualistes notoires et les écoles ou mouvements philosophiques sont, pour cette raison, caractérisés aussi souvent par leurs tensions et divisions internes que par leurs accords. Mais le langage, le sens et la vérité, sont des préoccupations omniprésentes dans la pensée du 20e siècle - au-delà des frontières des écoles individuelles - et que les différences dans la façon dont ces concepts sont compris deviennent parfois définitives pour certaines écoles philosophiques. On notera aussi qu'une grande partie de la philosophie du 20e siècle montre un intérêt particulier pour le concept de vérité, dû à une insatisfaction à grande échelle de la conception classique de la vérité en tant que correspondance, et que différents philosophes cherchent à appréhender le concept de vérité de manière très différente. Une brève liste de ce que les philosophes et groupes de philosophes ont dit sur la vérité rend cela évident :

Les pragmatistes : la vérité est l'utilité.

Nietzsche : la vérité est interprétation.

Frege : la vérité est simple et indéfinissable et ne ressemble à aucun autre prédicat.

Moore et Russell à leurs débuts : la vérité est simple, indéfinissable et exactement comme tout autre prédicat.

Les positivistes logiques : il faut remplacer le concept de vérité par celui de vérification/falsification.

Heidegger : la vérité est la non-divulgation (a-letheia qui, selon Parménide, oppose le domaine de la Vérité - alètheia - à celui de l'opinion, ou doxa. Selon les Définitions jointes aux manuscrits de Platon, l’alètheia est la "disposition qui permet l’affirmation et la négation". Selon Parménide, on peut opposer le domaine de la Vérité alètheia à celui de l'opinion, ou doxa.

Wittgenstein à ses débuts : la vérité est un miroir, mais dire cela n'a vraiment aucun sens.

Wittgenstein plus tard : les tentatives de caractériser la vérité sont vides.

Foucault : la vérité est un système de procédures liées dans une relation circulaire au pouvoir.

Ces variations montrent non seulement l'intensité des discussions sur le concept de vérité, mais aussi qu'on ne peut pas facilement réduire cette multiplicité à une opposition entre ceux qui considèrent que la vérité est définissable et ceux qui ne le font pas. Le caractère définissable ou indéfinissable de la vérité n'est qu'une des questions qui divisent les philosophes. Des divisions tout aussi fondamentales découlent de la question de savoir si la vérité doit être considérée comme un concept sémantique, pragmatique ou ontologique.

Une autre division fondamentale semble exister entre ceux qui veulent adhérer à une certaine notion de la vérité et ceux, comme les positivistes logiques, qui cherchent à la mettre de côté comme un résidu de la métaphysique traditionnelle.

Auteur: Hintikka Jaakko

Info: Tel que rapporté par Hans Sluga sur http://www.truthandpower.com/

[ étymologie ] [ relativité ] [ langage ] [ mathématiques ] [ synthèse ] [ aléthique ] [ triade ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

résumé de livre

À force d’entendre les têtes plates citer en toute occasion Le Choc des civilisations de Samuel P. Huntington, j’ai voulu me faire une idée. À mesure que je progressais dans les chapitres, je me suis rendu compte que lesdites têtes plates n'avaient jamais ouvert leur bréviaire. Sans se soucier le moins du monde de son contenu, elles pensent tenir là, dans ces pages émaillées de schémas et de courbes, une sorte de rapport dans lequel un expert visionnaire fournit la preuve scientifique du péril que l’islam représente pour la civilisation occidentale. Fussent-elles allées dans leur lecture au-delà du titre, elles eussent déchanté. Le Choc des civilisations n’a rien d’un livre apocalyptique ni même d’un traité belliciste néoconservateur. Huntington entend simplement démontrer que la mondialisation du modèle techno-scientifique et consumériste occidental n’ayant pas abouti à l’homogénéisation des cultures, ni à un consensus sur la démocratie libérale, elle risque d’entraîner le réveil d'identités culturelles, et, très probablement, leurs affrontements.

Contrastant avec la brutalité marketing du titre — choisi pour trancher avec le livre de Francis Fukuyama, paru en 1992, La Fin de l’Histoire — le texte reste très prudent, son vocabulaire très politiquement correct. Huntington use du mot "conflit" plutôt que du mot "guerre", écrit "influence" au lieu de "domination", ne parle pas de terrorisme. Quant à l’islam — et à sa "résurgence" —, il ne lui consacre qu’une cinquantaine de pages dans un volume qui en contient cinq cents.

Concernant l’avenir du monde, rien n’y est affirmé, tout y est conjecturé. Le livre date de 1996. Sous un ton docte, Huntington ne fait qu’exprimer le désarroi dans lequel se trouvent, à cette époque, les "stratèges" du gouvernement des Etats-Unis. Avant la chute du Mur de Berlin, deux mondes s’affrontaient : le monde dit libre et le monde dit totalitaire. Le bloc soviétique effondré, comment la civilisation suprême redessinerait-elle la carte du monde — autrement dit, quelle place donnerait-elle ou confisquerait-elle aux Européens, aux Asiatiques, aux Africains, aux Russes, aux Arabes, aux Latino-Américains, bref, aux non-étasuniens? Telle est, n’en déplaise aux têtes plates, la seule interrogation de Huntington, interrogation qui lui permet d’avancer la thèse selon laquelle, désormais, les nations ne s’entrechoqueront plus à cause de rivalités économiques ou territoriales mais à cause de différences culturelles — ou, inversement, les nations ne se regrouperont et ne s’allieront plus contre d’autres selon des convergences stratégiques mais par affinités de mœurs et de cultes. Quand on voit les rivalités intracontinentales des pays européens, africains, latino-américains, asiatiques, rien ne semble plus fantasque que la thèse de Huntington. Que dire des nations du "monde musulman" où, plus que partout ailleurs, l’inimitié fait rage — entre sunnites et chiites, entre kurdes et turcs, entre perses et arabes, etc. — les unes et les autres soutenues par des États occidentaux et "chrétiens" eux-mêmes rivaux. Qui peut croire que c’est en raison de proximités culturelles et cultuelles que les États-Unis et Israël sont les alliés de l’Arabie saoudite, du Pakistan et de l’Égypte, la Russie l’amie de l’Iran, de la Syrie et à présent de la Turquie?

Avant de lire Huntington, je m’attendais à tomber sur un disciple de Carl Schmitt qui reprendrait la dualité ami/ennemi, or j'ai eu affaire à un sage rejeton de Kant défendant l’idée que toutes les cultures et toutes les religions — y compris, bien sûr, les diverses obédiences mahométanes —, par-delà leurs différences, ont des "valeurs fondamentales communes" et que c’est en établissant à une échelle supranationale la "règle des points communs" que les dirigeants des pays œuvreront à une Civilisation universelle. Et, pour montrer qu'un tel idéal est possible, Huntington prône in fine comme modèle la cité moderne de… Singapour ! En lisant ce dernier chapitre, je ne doutai plus qu'il y avait tromperie sur la marchandise, qu'il eût été plus honnête de la part du bon professeur Huntington d'intituler son livre: Vers la paix entre les civilisations.

Auteur: Schiffter Frédéric

Info: Publication facebook, 05.10.2021

[ idéologies ] [ géopolitiques ] [ synthèse ]

Commenter

Commentaires: 0

Ajouté à la BD par Coli Masson

intelligence artificielle

Apprendre l'anglais n'est pas une tâche facile, comme le savent d'innombrables étudiants. Mais lorsque l'étudiant est un ordinateur, une approche fonctionne étonnamment bien : Il suffit d'alimenter un modèle mathématique géant, appelé réseau neuronal, avec des montagnes de textes provenant d'Internet. C'est le principe de fonctionnement des modèles linguistiques génératifs tels que ChatGPT d'OpenAI, dont la capacité à tenir une conversation cohérente (à défaut d'être toujours sincère) sur un large éventail de sujets a surpris les chercheurs et le public au cours de l'année écoulée.

Mais cette approche présente des inconvénients. D'une part, la procédure de "formation" nécessaire pour transformer de vastes archives textuelles en modèles linguistiques de pointe est coûteuse et prend beaucoup de temps. D'autre part, même les personnes qui forment les grands modèles linguistiques ont du mal à comprendre leur fonctionnement interne, ce qui, à son tour, rend difficile la prévision des nombreuses façons dont ils peuvent échouer.

Face à ces difficultés, certains chercheurs ont choisi d'entraîner des modèles plus petits sur des ensembles de données plus restreints, puis d'étudier leur comportement. "C'est comme le séquençage du génome de la drosophile par rapport au séquençage du génome humain", explique Ellie Pavlick, chercheuse sur les modèles de langage à l'université de Brown.

Dans un article récemment publié sur le serveur scientifique arxiv.org, deux chercheurs de Microsoft ont présenté une nouvelle méthode pour former de minuscules modèles de langage : Les élever avec un régime strict d'histoires pour enfants.

RÉSEAUX NEURONAUX

Des chercheurs acquièrent une nouvelle compréhension à partir d'une simple IA

Les chercheurs en apprentissage automatique ont compris cette leçon. GPT-3.5, le grand modèle linguistique qui alimente l'interface ChatGPT, compte près de 200 milliards de paramètres et a été entraîné sur un ensemble de données comprenant des centaines de milliards de mots (OpenAI n'a pas publié les chiffres correspondants pour son successeur, GPT-4). L'entraînement de modèles aussi vastes nécessite généralement au moins 1 000 processeurs spécialisés, appelés GPU, fonctionnant en parallèle pendant des semaines. Seules quelques entreprises peuvent réunir les ressources nécessaires, sans parler de l'entraînement et de la comparaison de différents modèles.

Les deux chercheurs ont montré que des modèles linguistiques des milliers de fois plus petits que les systèmes de pointe actuels apprenaient rapidement à raconter des histoires cohérentes et grammaticalement justes lorsqu'ils étaient formés de cette manière. Leurs résultats indiquent de nouvelles pistes de recherche qui pourraient être utiles pour former des modèles plus importants et comprendre leur comportement.

"J'ai trouvé tout ça très instructif", a déclaré Chandra Bhagavatula, chercheur sur les modèles de langage à l'Allen Institute for Artificial Intelligence de Seattle. "Le concept lui-même est très intéressant.

Il était une fois

Les réseaux neuronaux au cœur des modèles de langage sont des structures mathématiques vaguement inspirées du cerveau humain. Chacun d'entre eux contient de nombreux neurones artificiels disposés en couches, avec des connexions entre les neurones des couches adjacentes. Le comportement du réseau neuronal est régi par la force de ces connexions, appelées paramètres. Dans un modèle linguistique, les paramètres contrôlent les mots que le modèle peut produire ensuite, compte tenu d'une invite initiale et des mots qu'il a déjà générés.

Un modèle ne prend véritablement vie qu'au cours de la formation, lorsqu'il compare de manière répétée ses propres résultats au texte de son ensemble de données de formation et qu'il ajuste ses paramètres afin d'accroître la ressemblance. Un réseau non entraîné avec des paramètres aléatoires est trivialement facile à assembler à partir de quelques lignes de code, mais il ne produira que du charabia. Après l'entraînement, il peut souvent poursuivre de manière plausible un texte peu familier. Les modèles de plus grande taille sont souvent soumis à des réglages plus fins qui leur apprennent à répondre à des questions et à suivre des instructions, mais l'essentiel de la formation consiste à maîtriser la prédiction des mots.

Pour réussir à prédire des mots, un modèle linguistique doit maîtriser de nombreuses compétences différentes. Par exemple, les règles de la grammaire anglaise suggèrent que le mot suivant le mot "going" sera probablement "to", quel que soit le sujet du texte. En outre, un système a besoin de connaissances factuelles pour compléter "la capitale de la France est", et compléter un passage contenant le mot "not" nécessite une connaissance rudimentaire de la logique.

"Le langage brut est très compliqué", explique Timothy Nguyen, chercheur en apprentissage automatique chez DeepMind. "Pour que des capacités linguistiques intéressantes apparaissent, les gens ont eu recours à l'idée que plus il y a de données, mieux c'est".

(photo) Ronen Eldan s'est rendu compte qu'il pouvait utiliser les histoires d'enfants générées par de grands modèles linguistiques pour en entraîner rapidement de plus petits.

Introduction

Ronen Eldan, mathématicien qui a rejoint Microsoft Research en 2022 pour étudier les modèles de langage génératifs, souhaitait développer un moyen moins coûteux et plus rapide d'explorer leurs capacités. Le moyen naturel d'y parvenir était d'utiliser un petit ensemble de données, ce qui signifiait qu'il devait entraîner les modèles à se spécialiser dans une tâche spécifique, afin qu'ils ne s'éparpillent pas. Au départ, il voulait entraîner les modèles à résoudre une certaine catégorie de problèmes mathématiques, mais un après-midi, après avoir passé du temps avec sa fille de 5 ans, il s'est rendu compte que les histoires pour enfants convenaient parfaitement. "L'idée m'est venue littéralement après lui avoir lu une histoire", a-t-il déclaré.

Pour générer des histoires cohérentes pour les enfants, un modèle de langage devrait apprendre des faits sur le monde, suivre les personnages et les événements, et observer les règles de grammaire - des versions plus simples des défis auxquels sont confrontés les grands modèles. Mais les grands modèles formés sur des ensembles de données massives apprennent d'innombrables détails non pertinents en même temps que les règles qui comptent vraiment. Eldan espérait que la brièveté et le vocabulaire limité des histoires pour enfants rendraient l'apprentissage plus gérable pour les petits modèles, ce qui les rendrait à la fois plus faciles à former et plus faciles à comprendre.

Dans le monde des modèles de langage, cependant, le terme "petit" est relatif : Un ensemble de données mille fois plus petit que celui utilisé pour former GPT-3.5 devrait encore contenir des millions d'histoires. "Je ne sais pas combien d'argent vous voulez dépenser, mais je suppose que vous n'allez pas engager des professionnels pour écrire quelques millions de nouvelles", a déclaré M. Nguyen.

Il faudrait un auteur extraordinairement prolifique pour satisfaire des lecteurs aussi voraces, mais Eldan avait quelques candidats en tête. Qui peut mieux écrire pour un public de petits modèles linguistiques que pour de grands modèles ?

Toys stories

Eldan a immédiatement entrepris de créer une bibliothèque d'histoires synthétiques pour enfants générées par de grands modèles linguistiques. Mais il a rapidement découvert que même les modèles de pointe ne sont pas naturellement très créatifs. Si l'on demande à GPT-4 d'écrire des histoires adaptées à des enfants de 4 ans, explique Eldan, "environ un cinquième des histoires concernera des enfants qui vont au parc et qui ont peur des toboggans". C'est apparemment la quintessence des histoires pour enfants d'âge préscolaire, selon l'Internet.

La solution a consisté à ajouter un peu d'aléatoire dans le message. Tout d'abord, Eldan a utilisé le GPT-4 pour générer une liste de 1 500 noms, verbes et adjectifs qu'un enfant de 4 ans pourrait connaître - suffisamment courte pour qu'il puisse facilement la vérifier lui-même. Il a ensuite écrit un programme informatique simple qui demanderait à plusieurs reprises à GPT-3.5 ou à GPT-4 de générer une histoire adaptée à l'âge de l'enfant, comprenant trois mots aléatoires de la liste, ainsi qu'un détail supplémentaire choisi au hasard, comme une fin heureuse ou un rebondissement de l'intrigue. Les histoires obtenues, heureusement, étaient moins axées sur des diapositives effrayantes.

Eldan disposait désormais d'une procédure pour produire des données de formation à la demande, mais il n'avait aucune idée du nombre d'histoires dont il aurait besoin pour former un modèle fonctionnel, ni de la taille de ce modèle. C'est alors qu'il s'est associé à Yuanzhi Li, chercheur en apprentissage automatique chez Microsoft et à l'université Carnegie Mellon, pour essayer différentes possibilités, en tirant parti du fait que les petits modèles peuvent être formés très rapidement. La première étape consistait à décider comment évaluer leurs modèles.

Introduction

Dans la recherche sur les modèles de langage - comme dans toute salle de classe - la notation est un sujet délicat. Il n'existe pas de rubrique parfaite qui englobe tout ce que les chercheurs veulent savoir, et les modèles qui excellent dans certaines tâches échouent souvent de manière spectaculaire dans d'autres. Au fil du temps, les chercheurs ont mis au point divers critères de référence standard basés sur des questions dont les réponses ne sont pas ambiguës, ce qui est une bonne approche si vous essayez d'évaluer des compétences spécifiques. Mais Eldan et Li se sont intéressés à quelque chose de plus nébuleux : quelle doit être la taille réelle des modèles linguistiques si l'on simplifie le langage autant que possible ?

"Pour vérifier directement si le modèle parle anglais, je pense que la seule chose à faire est de laisser le modèle générer de l'anglais de manière ouverte", a déclaré M. Eldan.

Il n'y a que deux façons de mesurer les performances d'un modèle sur des questions aussi qualitatives : S'appuyer sur des évaluateurs humains ou se tourner à nouveau vers le GPT-4. Les deux chercheurs ont opté pour cette dernière solution, laissant les grands modèles à la fois rédiger les manuels et noter les dissertations.

Bhagavatula a déclaré qu'il aurait aimé voir comment les évaluations de GPT-4 se comparaient à celles des correcteurs humains - GPT-4 peut être biaisé en faveur des modèles qu'il a aidé à former, et l'opacité des modèles de langage rend difficile la quantification de tels biais. Mais il ne pense pas que de telles subtilités affecteraient les comparaisons entre différents modèles formés sur des ensembles similaires d'histoires synthétiques - l'objectif principal du travail d'Eldan et Li.

Eldan et Li ont utilisé une procédure en deux étapes pour évaluer chacun de leurs petits modèles après la formation. Tout d'abord, ils ont présenté au petit modèle la première moitié d'une histoire distincte de celles de l'ensemble des données d'apprentissage, de manière à ce qu'il génère une nouvelle fin, en répétant ce processus avec 50 histoires de test différentes. Ensuite, ils ont demandé à GPT-4 d'évaluer chacune des fins du petit modèle en fonction de trois catégories : créativité, grammaire et cohérence avec le début de l'histoire. Ils ont ensuite fait la moyenne des notes obtenues dans chaque catégorie, obtenant ainsi trois notes finales par modèle.

Avec cette procédure en main, Eldan et Li étaient enfin prêts à comparer les différents modèles et à découvrir quels étaient les étudiants les plus brillants.

Résultats des tests

Après quelques explorations préliminaires, les deux chercheurs ont opté pour un ensemble de données de formation contenant environ 2 millions d'histoires. Ils ont ensuite utilisé cet ensemble de données, baptisé TinyStories, pour entraîner des modèles dont la taille varie de 1 million à 30 millions de paramètres, avec un nombre variable de couches. Le travail a été rapide : En utilisant seulement quatre GPU, l'entraînement du plus grand de ces modèles n'a pas pris plus d'une journée.

Les plus petits modèles ont eu du mal. Par exemple, l'une des histoires testées commence par un homme à l'air méchant qui dit à une fille qu'il va lui prendre son chat. Un modèle à un million de paramètres s'est retrouvé bloqué dans une boucle où la fille répète sans cesse à l'homme qu'elle veut être son amie. Mais les modèles plus grands, qui sont encore des milliers de fois plus petits que GPT-3.5, ont obtenu des résultats surprenants. La version à 28 millions de paramètres racontait une histoire cohérente, même si la fin était sinistre : "Katie s'est mise à pleurer, mais l'homme s'en fichait. Il a emporté le chat et Katie n'a plus jamais revu son chat. Fin de l'histoire".

En plus de tester leurs propres modèles, Eldan et Li ont soumis le même défi au GPT-2 d'OpenAI, un modèle de 1,5 milliard de paramètres publié en 2019. Le résultat a été bien pire - avant la fin abrupte de l'histoire, l'homme menace d'emmener la jeune fille au tribunal, en prison, à l'hôpital, à la morgue et enfin au crématorium.

Introduction

Selon M. Nguyen, il est passionnant que des modèles aussi petits soient aussi fluides, mais il n'est peut-être pas surprenant que GPT-2 ait eu du mal à accomplir la tâche : il s'agit d'un modèle plus grand, mais loin de l'état de l'art, et il a été formé sur un ensemble de données très différent. "Un enfant en bas âge qui ne s'entraînerait qu'à des tâches d'enfant en bas âge, comme jouer avec des jouets, obtiendrait de meilleurs résultats que vous ou moi", a-t-il fait remarquer. "Nous ne nous sommes pas spécialisés dans cette chose simple.

Les comparaisons entre les différents modèles de TinyStories ne souffrent pas des mêmes facteurs de confusion. Eldan et Li ont observé que les réseaux comportant moins de couches mais plus de neurones par couche étaient plus performants pour répondre aux questions nécessitant des connaissances factuelles ; inversement, les réseaux comportant plus de couches et moins de neurones par couche étaient plus performants pour garder en mémoire les personnages et les points de l'intrigue situés plus tôt dans l'histoire. Bhagavatula a trouvé ce résultat particulièrement intriguant. S'il peut être reproduit dans des modèles plus vastes, "ce serait un résultat vraiment intéressant qui pourrait découler de ce travail", a-t-il déclaré.

Eldan et Li ont également étudié comment les capacités de leurs petits modèles dépendaient de la durée de la période de formation. Dans tous les cas, les modèles maîtrisaient d'abord la grammaire, puis la cohérence. Pour Eldan, ce schéma illustre comment les différences dans les structures de récompense entraînent des différences dans les schémas d'acquisition du langage entre les réseaux neuronaux et les enfants. Pour les modèles de langage, qui apprennent en prédisant des mots, "l'incitation pour les mots "je veux avoir" est aussi importante que pour les mots "crème glacée"", a-t-il déclaré. Les enfants, en revanche, "ne se soucient pas de savoir s'ils disent 'j'aimerais avoir de la glace' ou simplement 'glace, glace, glace'".

Qualité contre quantité

Eldan et Li espèrent que cette étude incitera d'autres chercheurs à entraîner différents modèles sur l'ensemble des données de TinyStories et à comparer leurs capacités. Mais il est souvent difficile de prédire quelles caractéristiques des petits modèles apparaîtront également dans les plus grands.

"Peut-être que les modèles de vision chez la souris sont de très bons substituts de la vision humaine, mais les modèles de dépression chez la souris sont-ils de bons modèles de la dépression chez l'homme ? a déclaré M. Pavlick. "Pour chaque cas, c'est un peu différent.

Le succès des modèles TinyStories suggère également une leçon plus large. L'approche standard pour compiler des ensembles de données de formation consiste à aspirer des textes sur l'internet, puis à filtrer les déchets. Le texte synthétique généré par des modèles de grande taille pourrait constituer une autre façon d'assembler des ensembles de données de haute qualité qui n'auraient pas besoin d'être aussi volumineux.

"Nous avons de plus en plus de preuves que cette méthode est très efficace, non seulement pour les modèles de la taille de TinyStories, mais aussi pour les modèles plus importants", a déclaré M. Eldan. Ces preuves proviennent d'une paire d'articles de suivi sur les modèles à un milliard de paramètres, rédigés par Eldan, Li et d'autres chercheurs de Microsoft. Dans le premier article, ils ont entraîné un modèle à apprendre le langage de programmation Python en utilisant des extraits de code générés par GPT-3.5 ainsi que du code soigneusement sélectionné sur l'internet. Dans le second, ils ont complété l'ensemble de données d'entraînement par des "manuels" synthétiques couvrant un large éventail de sujets, afin d'entraîner un modèle linguistique à usage général. Lors de leurs tests, les deux modèles ont été comparés favorablement à des modèles plus importants formés sur des ensembles de données plus vastes. Mais l'évaluation des modèles linguistiques est toujours délicate, et l'approche des données d'entraînement synthétiques n'en est qu'à ses balbutiements - d'autres tests indépendants sont nécessaires.

Alors que les modèles linguistiques de pointe deviennent de plus en plus volumineux, les résultats surprenants de leurs petits cousins nous rappellent qu'il y a encore beaucoup de choses que nous ne comprenons pas, même pour les modèles les plus simples. M. Nguyen s'attend à ce que de nombreux autres articles explorent l'approche inaugurée par TinyStories.

"La question est de savoir où et pourquoi la taille a de l'importance", a-t-il déclaré. "Il devrait y avoir une science à ce sujet, et cet article est, je l'espère, le début d'une riche histoire.

Auteur: Internet

Info: https://www.quantamagazine.org/ Ben Brubaker, 5 octobre 2023

[ synthèse ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

Paramètres de recherches