Les fils de la pensée

informatique

Il y a une très bonne raison pour apprendre la programmation, mais elle n'a rien à voir avec la préparation d'une carrière high-tech ou pour s'assurer qu'un ordinateur soit fait de manière à éviter qu'il nous manipule cyniquement dans le futur. La valeur réelle de l'étude de la programmation ne peut être comprise que si nous la regardons comme un exercice de l'intellect, comme une sorte de latin moderne, pratiqué pour affiner nos esprits.

Auteur: Schank Roger

Info:

[ miroir ] [ progrès ] [ positiver ] [ conscience ] [ langage ]

Commenter

Commentaires: 0

informatique

Beaucoup d'enfants, par exemple, sont bloqués dans l'acte d'apprendre parce que, pour eux, quand on apprend, c'est tout ou rien : on a compris, ou pas compris. Mais quand on apprend à programmer un ordinateur, on n'y arrive presque jamais du premier coup. Apprendre à passer maître en l'art de programmer, c'est devenir hautement habile à déceler où se nichent les "bugs" et à y remédier, autrement dit à écheniller les points du programme qui l'empêchent d'avancer. La question à se poser, au sujet d'un programme, n'est pas de savoir s'il est juste ou faux, mais si l'on peut l'arranger.

Auteur: Papert Seymour

Info: Jaillissement de l'esprit, p.36, Champs-Flammarion,210, trad. Rose-Marie Vassallo-Villaneau, 1981

[ éducation ] [ programmation ]

Commenter

Commentaires: 0

informatique

La série des signes se trouve reconduite à une série de décisions oui-non. Des machines sont commises à la production de telles séries : celles-ci, grâce aux flux de courant et aux impulsions électriques, suivent ce modèle abstrait de production de signes et fournissent les messages correspondants. Pour qu’une telle espèce d’information devienne possible, chaque signe doit être défini de façon univoque ; de même chaque ensemble de signes doit signifier de façon univoque un énoncé déterminé. L’unique caractère de la langue qui subsiste dans l’information est la forme abstraite de l’écriture, qui est transcrite dans les formules d’une algèbre logique. L’univocité des signes et des formules qui est nécessairement exigée de ce fait assure la possibilité d’une communication certaine et rapide.

Auteur: Heidegger Martin

Info: Langue de tradition et langue de pensée. Bruxelles, Belgique : Éditions Lebeer-Hossmann, "Philosophiques" 1990

[ programmation booléenne ] [ cybernétique ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

manichéisme

Programmation et autres codages informatiques ont aidé à expandre et enrichir nos capacités de réflexion sémantique. Pensons entre autres à Ted Chiang ou Greg Egan, écrivains informaticiens, héritiers d'une structuration de la pensée qu'on dit initiée par Leibniz.

Ce qui est intéressant ici c'est l'opposition entre les froides et complexes déductions cybernétiques - souvent statistiques - et l'éphémère et fondamentale instabilité des humain(s) qui en sont à la source.

Quoi faire ? Comment aborder et traiter ce paradoxe rationalisme-émotion - comme émané d'une divine et duale matrice à la source de tout - et qu'on remarque particulièrement dans les guerres infomationnelles en ce début de troisième millénaire globalisé ?

En esquisse de réponse on pourra aventurer que le langage humain, d'une grande pauvreté conceptuelle puisqu'encore et toujours enfermé dans notre logique du tiers exclus, ne peut, fondamentalement, qu'exprimer les constants paradoxes qu'il porte en lui. Comme si on répondait ainsi au paragraphe précédent.

"La réponse est simple Carl. C'est la différence entre sympathie et empathie." (T. Chiang - L'histoire de ta vie).

Auteur: Mg

Info: 18 mars 2022

[ hard science-fiction ] [ langage limitant ] [ littérature ]

Commenter

Commentaires: 7

Ajouté à la BD par miguel

programmation

: ( ) { : | : & } ; :

(N'essayez pas cela chez vous.)

Ce que vous pouvez voir ci-dessus est une sorte de virus en une seule ligne baptisé fork bomb. Il a besoin de certaines conditions spécifiques pour fonctionner (notamment une version ancienne et vulnérable du système d'exploitation Unix), mais une fois ces dernières réunies, il suffit de taper cette commande en Bash pour qu'elle se réplique sans cesse jusqu'à saturer la mémoire disponible de l'ordinateur et le rendre impossible à utiliser.

Ce qui fait la beauté de ce virus n'est pas tant le danger qu'il représente par rapport à la taille qu'il prend, mais le fait qu'il utilise les deux points comme nom de fonction. La plupart des fonctions (soit des lignes de code réutilisables) sont nommées de manière descriptive (par exemple "Print" ou "isThisEmailValid"), mais rien ne dit qu'il faut obligatoirement que ce soit le cas. La plupart des langages informatiques interdisent d'utiliser les deux points comme nom de fonction, mais ce n'est pas le cas de Bash.

La première fois que j'ai vu cette ligne, c'était en 2002, lors d'une exposition d'art contemporain au Musée des arts appliqués de Francfort, en Allemagne. Un morceau de code exposé dans un musée, voilà qui n'était pas banal.

Auteur: Noessel Chris

Info: https://korii.slate.fr/tech/ces-lignes-code-qui-ont-tout-change-1968-1993

[ viralité numérique ] [ langage digital ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

post-cybernétique tétrapode

Les quatre concepts de l’informatique

algorithme machine langage information

4 concepts antérieurs à l’informatique, déjà là dans l’antiquité

- algorithme : addition

- machine : moulin à eau

- langage : des nombres

- information : bibliothèque d’Alexandrie

(Sans lien : La méthode d’Euler et le fardier de Cugnot)

Au début du XXe siècle. Un mathématicien et un comptable, un physicien et un fabriquant de métiers à tisser, un grammairien et un traducteur de textes anciens, un agent du chiffre et un archiviste... sont coincés dans un ascenseur. Qu’ont-ils à se dire ?

L’informatique a tissé des liens entre ces quatre personnages/idées/concepts

- Programmation : expression d’un algorithme dans un langage

- Compilation : traduction d’un programme exprimé dans un langage pour qu’il soit exécuté par une machine

- Protocole réseau : algorithme pour faire fonctionner une machine

- Compression : un algorithme pour optimiser la représentation de l’information

Qu’est-ce que la pensée informatique ?

- Description algorithmique des phénomènes naturels (synthèse des proteines)

- Le fait de déléguer des taches a des machines (savez-vous faire une multiplication ?)

- Conception de langages pour décrire les phénomènes (grammaire des grammaires)

- Tout concevoir comme un flux d’information (Peut-on stocker une quantité infinie d’information dans un volume fini ?)

Quoi enseigner dans les cours d’informatique au lycée ?

- l’algorithmique

- l’architecture des machines

- la programmation

- l’utilisation d’un moteur de recherche

Auteur: Dowek Gilles

Info: Condensé et adaptation libre de ses slides de présentation, trouvés sur http://www.lsv.fr/~dowek/Slides/quatre.pdf

[ synthèse ]

Commenter

Mis dans la chaine

Commentaires: 0

Ajouté à la BD par miguel

homme-machine

- Peux-tu développer quelque chose concernant la comparaison entre langage humain et programmation informatique, en d'autres termes la différence entre la syntaxe des idiomes et la syntaxe du codage ?

- En général, le langage humain et la programmation informatique peuvent être considérés comme deux langages différents, avec des objectifs et des structures dissembables. Les idiomes humains sont utilisés pour communiquer des idées et des pensées entre individus, alors que les langages de programmation informatique sont utilisés pour donner des instructions à un ordinateur ou à une autre machine.

L'une des principales discordance entre les deux est que le langage humain utilise souvent des expressions idiomatiques et d'autres figures de style qui peuvent être difficiles à interpréter littéralement. Par exemple, l'expression "tourner les coins" est couramment utilisée pour signifier "mourir", ce qui n'a rien à voir avec le sens llittéral de "retourner les extrémités" par exemple. En revanche, les langages de programmation informatique reposent généralement sur une syntaxe et une grammaire très strictes afin que l'ordinateur puisse interpréter et exécuter correctement les instructions données.

Une autre différence réside dans le fait que le langage humain peut être très flexible et adaptable, alors que les langages de programmation sont généralement beaucoup plus limités dans ce qu'ils peuvent accomplir. Un programmeur doit choisir parmi un ensemble prédéfini de commandes et de fonctions qui ont été intégrées dans le langage de programmation qu'il utilise, alors qu'un locuteur de langue humaine peut générer de nouvelles phrases et idées à la volée.

Malgré ces différences, il existe également des similitudes entre le langage humain et les langages de programmation. Tous deux s'appuient sur des règles et des structures systématiques pour véhiculer le sens, et tous deux peuvent être utilisés pour créer des expressions complexes et nuancées de la pensée et du sens. Cependant, les règles et structures spécifiques employées dans chaque langage diffèrent considérablement en raison de leurs objectifs différents et des technologies sous-jacentes.

Auteur: chatGPT4

Info: 3 mai 2023

[ polysémie ] [ instanciation immédiate ] [ mots univers ] [ vectorisation difficile ] [ dialecte mathématisé ] [ précision sémantique ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

réflexivité

Le développement de la programmation et des codages informatiques semblent de nature à expandre et enrichir nos capacités de réflexion. J'en veux pour preuve l'apparition d'écrivains informaticiens comme Ted Chiang ou Greg Egan, clairs héritiers d'une pensée cybernétique qu'on dit initiée par Leibniz.

Prenons le concept d'instanciation informatique (en programmation objet : "qui définit les interactions de briques logicielles manipulées par un programme, les objets, conteneurs symboliques et autonomes incluant/englobant informations et mécanismes concernant un sujet, tangible ou conceptuel")

Ce concept initialise donc un "objet" à partir d’un espace mémoire réservé. Ceci en fonction d’un ensemble de caractéristiques nommées "classe", chaque classe regroupant membres, méthodes et propriétés/attributs/comportements communs à un ensemble d'objets.

Comme FLP s'occupe uniquement de textes - c'est à dire des manières dont nous codons/décrivons en français nos réels et imaginaires communs d'humains parlants - nous appréhenderons pour l'instant ces classes comme des mots/concepts, si possible précisément définis.

C'est sur la notion d'instanciation que nous voulons mettre l'accent ici.

Cette idée "d'initialiser, à partir d’un espace mémoire réservé, un objet doté d’un ensemble de caractéristiques", peut-être perçue comme la désignation d'un lieu/source, c'est à dire un point focalisateur, plus ou moins dense, qui peut correspondre (au sens de la pensée de CS Pierce) soit à :

1) un mot/concept "quasi esprit" soit

2) carrément à une secondéité, c'est à dire un autre "esprit interprétant", donc capable d'intention. Ce point 2 faisant automatiquement basculer ce concept d'endroit/source vers le mystique ou le paranormal.

Endroit/source numéro 2 instanciateur, qui, à partir d'une volonté/désir dont nous ne connaissons rien, impulse/apporte/inspire une idée à notre esprit voire à nos songes. "Eclair, point stimulateur" insaisissable, dont la localisation potentielle laisse du coup entrevoir d'infinies possibilités sur beaucoup des échelles dont nous avons usage : temporelles, géographiques, dimensionnelles, vibratoires... Et qui nous atteint/stimule/oriente via des biais x ou y difficilement saisissables (ceux qui ne sont pas de la simple analogie/association issus de la source 1 donc). Enigmes inspiratrices/réflexives que d'aucun formaliseront sous des termes comme inconscient, télépathie, inspiration divine, manipulation extraterrestre, etc. Nous voilà très proche de la notion de projectionniste.

C'est donc la tentative de préciser un peu mieux cette idée d'"influence externe", c'est à dire que ce ne serait pas QUE le pur hasard indéterministe qui oriente les choses et nos vies.

Ainsi ce concept "d'impulsion externe", à l'instar de l'instanciation informatique décrite plus haut, peut être imaginé/modélisé comme un foyer de départ présentant plus ou moins de densité et de dégradés, allant du simple point focal jusqu'aux multivers intriqués, en passant par toutes les combinaisons de monades qu'on voudra. "Impulsion interne" fonctionnera pareillement ici, pour qui voudra mettre l'inconscient en avant.

Mais revenons sur terre. C'est la rencontre avec certaines de ces idées-points-espaces instanciateurs, sous forme de mots/concepts "quasi esprit" (source 1), bien sûr représentés par des termes que nos imaginaires tripotent tous à leur manière - que FLP tente de stimuler. Avec une bonne dose de sérendipité.

Tout ceci dans le cadre d'une lecture analytique qui s'essaye à coller le plus possible au sémantique, à la clarté du sens et à la désambiguation. A l'exception bien sûr de certains domaines comme la poésie, les jeux de mots ou l'humour. Domaines, évidemment eux aussi, "instanciateurs".

Auteur: Mg

Info: 6 janvier 2022

[ citation s'appliquant à ce logiciel ] [ mots carrefours impulsants ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

greenwashing

La découverte climatique de Zeller-Nikolov utilise les données officielles de la NASA pour quantifier les températures moyennes des corps satellites à surface dure en orbite autour de notre Soleil. La formule n’est pas applicable aux planètes gazeuses: Jupiter, Saturne, Uranus et Neptune. Zeller et Nikolov déclarent pouvoir déterminer la température moyenne à long terme de Vénus, de la Terre, de Mars, de Titan (une lune de Saturne) et de Triton (une lune de Neptune) en utilisant seulement deux valeurs informatives: leur distance au Soleil. et leur pression atmosphérique.

Zeller et Nikolov ont constaté que la composition gazeuse des atmosphères n’était pas essentielle pour déterminer les températures moyennes à long terme. Par exemple, l’atmosphère de Vénus est composée à 96,5% de dioxyde de carbone, alors que l’atmosphère terrestre ne contient que 0,04% de dioxyde de carbone, mais ces différences considérables n’ont aucune incidence sur les calculs mathématiques nécessaires pour déterminer les températures moyennes. Cette preuve mathématique nous dit que même si Vénus a 2412 fois plus de dioxyde de carbone que la Terre, mesurée en pourcentage de son atmosphère, le CO2 n’a aucun effet mesurable sur sa température moyenne à long terme. Zeller et Nikolov affirment que le dioxyde de carbone et tous les autres gaz atmosphériques ne contribuent à la température que par leur masse physique et la pression atmosphérique résultante.

La découverte de Zeller-Nikolov signifie que l’atmosphère de la Terre nous maintient au chaud grâce à un chauffage par compression de gaz sous le poids de l’atmosphère de la Terre, d’une épaisseur d’environ 300 milles, et non par effet de serre. Une serre réelle est entourée d’un mur de verre. La Terre n’a pas d’enceinte et est ouverte sur l’espace. Les deux scientifiques suggèrent donc de remplacer le terme "effet de serre" par "rehaussement thermique atmosphérique". La chaleur est créée en comprimant les gaz atmosphériques sous l’effet de la gravité. De même, dans un moteur diesel, un piston est utilisé pour comprimer les gaz afin de générer suffisamment de chaleur pour éliminer le besoin d’une bougie d’allumage. L’attraction gravitationnelle énorme exercée sur la masse énorme de l’atmosphère terrestre combinée au rayonnement solaire réchauffe notre planète suffisamment pour permettre aux formes de vie à base de carbone de s’épanouir.

Si le dioxyde de carbone était le puissant catalyseur de gaz à effet de serre que les alarmistes prétendent, les calculs de Vénus devraient être radicalement différents de ceux de la Terre, mais ils sont identiques. Cela nous indique que le CO2 n’a pas d’effet direct mesurable sur la température de la planète, ce qui est parfaitement logique puisque la Terre a connu de graves périodes glaciaires lorsque les niveaux de CO2 dans l’atmosphère étaient bien plus élevés qu’aujourd’hui.

La théorie des gaz à effet de serre basée sur le dioxyde de carbone Le scientifique suédois Svante Arrhenius, proposé pour la première fois en 1896, n’a jamais été prouvée valide par des tests empiriques. Les idées de Svante semblaient plausibles, alors les gens les acceptèrent sans preuve. Plus récemment, des politiciens américains ont littéralement ordonné au GIEC de dépenser des sommes énormes en dollars des contribuables en concoctant des projections farfelues et fantaisistes de modèles informatiques fondées sur les hypothèses de Svante. Comme le dit le vieil adage de la programmation informatique, "garbage in, garbage out" (GIGO).

Toutes les prévisions climatiques catastrophiques du GIEC ont échoué, en dépit des efforts de nos médias fortement biaisés pour déformer et exagérer. Les vagues de chaleur estivales ordinaires et les tempêtes hivernales ont été faussement décrites comme des précurseurs de la fin du monde, ce qui ne se produira certainement pas si nous n’élisons plus de démocrates. Les gourous du climat continuent à repousser la date de la catastrophe dans l’avenir parce que la catastrophe mondiale qu’ils continuent de prédire n’arrive jamais. Ce qui est arrivé, ce sont des fluctuations ordinaires et attendues du climat de la Terre depuis sa formation. Demandez-vous quand le climat de la Terre était plus agréable et bénéfique pour l’homme que le climat actuel. La réponse honnête est simplement jamais .

Malgré les nombreuses revues techniques effectuées par des scientifiques du monde entier, personne n’a trouvé d’erreur dans les formules mathématiques et les calculs spécifiques de Zeller et Nikolov. Les objections soulevées contre leur découverte portent en grande partie sur le fait que cela ne correspond pas aux théories climatiques acceptées, qui sont populaires sur les plans professionnel et politique. La science du climat est devenue un outil de pouvoir politique orwellien et une énorme activité lucrative pour les scientifiques, les professeurs, les universités, les employés des gouvernements fédéral et des États et de mille et une entreprises écologiques. Il suffit de penser aux milliards de dollars consacrés au "réchauffement de la planète" et aux faux remèdes prescrits. Aucun malheur n’équivaut à aucun recours coûteux ni à aucun profit pour ceux qui vendent la peur.

Auteur: Internet

Info: La terre du futur, https://www.laterredufutur.com/accueil/la-decouverte-climatique-de-zeller-nikolov-pourrait-bouleverser-le-monde/

[ climatosceptique ] [ cycle naturel ] [ catastrophisme ] [ lobbyisme écologique ] [ Gaïa ]

Commenter

Mis dans la chaine

Commentaires: 0

Ajouté à la BD par Coli Masson

intelligence artificielle

Apprendre l'anglais n'est pas une tâche facile, comme le savent d'innombrables étudiants. Mais lorsque l'étudiant est un ordinateur, une approche fonctionne étonnamment bien : Il suffit d'alimenter un modèle mathématique géant, appelé réseau neuronal, avec des montagnes de textes provenant d'Internet. C'est le principe de fonctionnement des modèles linguistiques génératifs tels que ChatGPT d'OpenAI, dont la capacité à tenir une conversation cohérente (à défaut d'être toujours sincère) sur un large éventail de sujets a surpris les chercheurs et le public au cours de l'année écoulée.

Mais cette approche présente des inconvénients. D'une part, la procédure de "formation" nécessaire pour transformer de vastes archives textuelles en modèles linguistiques de pointe est coûteuse et prend beaucoup de temps. D'autre part, même les personnes qui forment les grands modèles linguistiques ont du mal à comprendre leur fonctionnement interne, ce qui, à son tour, rend difficile la prévision des nombreuses façons dont ils peuvent échouer.

Face à ces difficultés, certains chercheurs ont choisi d'entraîner des modèles plus petits sur des ensembles de données plus restreints, puis d'étudier leur comportement. "C'est comme le séquençage du génome de la drosophile par rapport au séquençage du génome humain", explique Ellie Pavlick, chercheuse sur les modèles de langage à l'université de Brown.

Dans un article récemment publié sur le serveur scientifique arxiv.org, deux chercheurs de Microsoft ont présenté une nouvelle méthode pour former de minuscules modèles de langage : Les élever avec un régime strict d'histoires pour enfants.

RÉSEAUX NEURONAUX

Des chercheurs acquièrent une nouvelle compréhension à partir d'une simple IA

Les chercheurs en apprentissage automatique ont compris cette leçon. GPT-3.5, le grand modèle linguistique qui alimente l'interface ChatGPT, compte près de 200 milliards de paramètres et a été entraîné sur un ensemble de données comprenant des centaines de milliards de mots (OpenAI n'a pas publié les chiffres correspondants pour son successeur, GPT-4). L'entraînement de modèles aussi vastes nécessite généralement au moins 1 000 processeurs spécialisés, appelés GPU, fonctionnant en parallèle pendant des semaines. Seules quelques entreprises peuvent réunir les ressources nécessaires, sans parler de l'entraînement et de la comparaison de différents modèles.

Les deux chercheurs ont montré que des modèles linguistiques des milliers de fois plus petits que les systèmes de pointe actuels apprenaient rapidement à raconter des histoires cohérentes et grammaticalement justes lorsqu'ils étaient formés de cette manière. Leurs résultats indiquent de nouvelles pistes de recherche qui pourraient être utiles pour former des modèles plus importants et comprendre leur comportement.

"J'ai trouvé tout ça très instructif", a déclaré Chandra Bhagavatula, chercheur sur les modèles de langage à l'Allen Institute for Artificial Intelligence de Seattle. "Le concept lui-même est très intéressant.

Il était une fois

Les réseaux neuronaux au cœur des modèles de langage sont des structures mathématiques vaguement inspirées du cerveau humain. Chacun d'entre eux contient de nombreux neurones artificiels disposés en couches, avec des connexions entre les neurones des couches adjacentes. Le comportement du réseau neuronal est régi par la force de ces connexions, appelées paramètres. Dans un modèle linguistique, les paramètres contrôlent les mots que le modèle peut produire ensuite, compte tenu d'une invite initiale et des mots qu'il a déjà générés.

Un modèle ne prend véritablement vie qu'au cours de la formation, lorsqu'il compare de manière répétée ses propres résultats au texte de son ensemble de données de formation et qu'il ajuste ses paramètres afin d'accroître la ressemblance. Un réseau non entraîné avec des paramètres aléatoires est trivialement facile à assembler à partir de quelques lignes de code, mais il ne produira que du charabia. Après l'entraînement, il peut souvent poursuivre de manière plausible un texte peu familier. Les modèles de plus grande taille sont souvent soumis à des réglages plus fins qui leur apprennent à répondre à des questions et à suivre des instructions, mais l'essentiel de la formation consiste à maîtriser la prédiction des mots.

Pour réussir à prédire des mots, un modèle linguistique doit maîtriser de nombreuses compétences différentes. Par exemple, les règles de la grammaire anglaise suggèrent que le mot suivant le mot "going" sera probablement "to", quel que soit le sujet du texte. En outre, un système a besoin de connaissances factuelles pour compléter "la capitale de la France est", et compléter un passage contenant le mot "not" nécessite une connaissance rudimentaire de la logique.

"Le langage brut est très compliqué", explique Timothy Nguyen, chercheur en apprentissage automatique chez DeepMind. "Pour que des capacités linguistiques intéressantes apparaissent, les gens ont eu recours à l'idée que plus il y a de données, mieux c'est".

(photo) Ronen Eldan s'est rendu compte qu'il pouvait utiliser les histoires d'enfants générées par de grands modèles linguistiques pour en entraîner rapidement de plus petits.

Introduction

Ronen Eldan, mathématicien qui a rejoint Microsoft Research en 2022 pour étudier les modèles de langage génératifs, souhaitait développer un moyen moins coûteux et plus rapide d'explorer leurs capacités. Le moyen naturel d'y parvenir était d'utiliser un petit ensemble de données, ce qui signifiait qu'il devait entraîner les modèles à se spécialiser dans une tâche spécifique, afin qu'ils ne s'éparpillent pas. Au départ, il voulait entraîner les modèles à résoudre une certaine catégorie de problèmes mathématiques, mais un après-midi, après avoir passé du temps avec sa fille de 5 ans, il s'est rendu compte que les histoires pour enfants convenaient parfaitement. "L'idée m'est venue littéralement après lui avoir lu une histoire", a-t-il déclaré.

Pour générer des histoires cohérentes pour les enfants, un modèle de langage devrait apprendre des faits sur le monde, suivre les personnages et les événements, et observer les règles de grammaire - des versions plus simples des défis auxquels sont confrontés les grands modèles. Mais les grands modèles formés sur des ensembles de données massives apprennent d'innombrables détails non pertinents en même temps que les règles qui comptent vraiment. Eldan espérait que la brièveté et le vocabulaire limité des histoires pour enfants rendraient l'apprentissage plus gérable pour les petits modèles, ce qui les rendrait à la fois plus faciles à former et plus faciles à comprendre.

Dans le monde des modèles de langage, cependant, le terme "petit" est relatif : Un ensemble de données mille fois plus petit que celui utilisé pour former GPT-3.5 devrait encore contenir des millions d'histoires. "Je ne sais pas combien d'argent vous voulez dépenser, mais je suppose que vous n'allez pas engager des professionnels pour écrire quelques millions de nouvelles", a déclaré M. Nguyen.

Il faudrait un auteur extraordinairement prolifique pour satisfaire des lecteurs aussi voraces, mais Eldan avait quelques candidats en tête. Qui peut mieux écrire pour un public de petits modèles linguistiques que pour de grands modèles ?

Toys stories

Eldan a immédiatement entrepris de créer une bibliothèque d'histoires synthétiques pour enfants générées par de grands modèles linguistiques. Mais il a rapidement découvert que même les modèles de pointe ne sont pas naturellement très créatifs. Si l'on demande à GPT-4 d'écrire des histoires adaptées à des enfants de 4 ans, explique Eldan, "environ un cinquième des histoires concernera des enfants qui vont au parc et qui ont peur des toboggans". C'est apparemment la quintessence des histoires pour enfants d'âge préscolaire, selon l'Internet.

La solution a consisté à ajouter un peu d'aléatoire dans le message. Tout d'abord, Eldan a utilisé le GPT-4 pour générer une liste de 1 500 noms, verbes et adjectifs qu'un enfant de 4 ans pourrait connaître - suffisamment courte pour qu'il puisse facilement la vérifier lui-même. Il a ensuite écrit un programme informatique simple qui demanderait à plusieurs reprises à GPT-3.5 ou à GPT-4 de générer une histoire adaptée à l'âge de l'enfant, comprenant trois mots aléatoires de la liste, ainsi qu'un détail supplémentaire choisi au hasard, comme une fin heureuse ou un rebondissement de l'intrigue. Les histoires obtenues, heureusement, étaient moins axées sur des diapositives effrayantes.

Eldan disposait désormais d'une procédure pour produire des données de formation à la demande, mais il n'avait aucune idée du nombre d'histoires dont il aurait besoin pour former un modèle fonctionnel, ni de la taille de ce modèle. C'est alors qu'il s'est associé à Yuanzhi Li, chercheur en apprentissage automatique chez Microsoft et à l'université Carnegie Mellon, pour essayer différentes possibilités, en tirant parti du fait que les petits modèles peuvent être formés très rapidement. La première étape consistait à décider comment évaluer leurs modèles.

Introduction

Dans la recherche sur les modèles de langage - comme dans toute salle de classe - la notation est un sujet délicat. Il n'existe pas de rubrique parfaite qui englobe tout ce que les chercheurs veulent savoir, et les modèles qui excellent dans certaines tâches échouent souvent de manière spectaculaire dans d'autres. Au fil du temps, les chercheurs ont mis au point divers critères de référence standard basés sur des questions dont les réponses ne sont pas ambiguës, ce qui est une bonne approche si vous essayez d'évaluer des compétences spécifiques. Mais Eldan et Li se sont intéressés à quelque chose de plus nébuleux : quelle doit être la taille réelle des modèles linguistiques si l'on simplifie le langage autant que possible ?

"Pour vérifier directement si le modèle parle anglais, je pense que la seule chose à faire est de laisser le modèle générer de l'anglais de manière ouverte", a déclaré M. Eldan.

Il n'y a que deux façons de mesurer les performances d'un modèle sur des questions aussi qualitatives : S'appuyer sur des évaluateurs humains ou se tourner à nouveau vers le GPT-4. Les deux chercheurs ont opté pour cette dernière solution, laissant les grands modèles à la fois rédiger les manuels et noter les dissertations.

Bhagavatula a déclaré qu'il aurait aimé voir comment les évaluations de GPT-4 se comparaient à celles des correcteurs humains - GPT-4 peut être biaisé en faveur des modèles qu'il a aidé à former, et l'opacité des modèles de langage rend difficile la quantification de tels biais. Mais il ne pense pas que de telles subtilités affecteraient les comparaisons entre différents modèles formés sur des ensembles similaires d'histoires synthétiques - l'objectif principal du travail d'Eldan et Li.

Eldan et Li ont utilisé une procédure en deux étapes pour évaluer chacun de leurs petits modèles après la formation. Tout d'abord, ils ont présenté au petit modèle la première moitié d'une histoire distincte de celles de l'ensemble des données d'apprentissage, de manière à ce qu'il génère une nouvelle fin, en répétant ce processus avec 50 histoires de test différentes. Ensuite, ils ont demandé à GPT-4 d'évaluer chacune des fins du petit modèle en fonction de trois catégories : créativité, grammaire et cohérence avec le début de l'histoire. Ils ont ensuite fait la moyenne des notes obtenues dans chaque catégorie, obtenant ainsi trois notes finales par modèle.

Avec cette procédure en main, Eldan et Li étaient enfin prêts à comparer les différents modèles et à découvrir quels étaient les étudiants les plus brillants.

Résultats des tests

Après quelques explorations préliminaires, les deux chercheurs ont opté pour un ensemble de données de formation contenant environ 2 millions d'histoires. Ils ont ensuite utilisé cet ensemble de données, baptisé TinyStories, pour entraîner des modèles dont la taille varie de 1 million à 30 millions de paramètres, avec un nombre variable de couches. Le travail a été rapide : En utilisant seulement quatre GPU, l'entraînement du plus grand de ces modèles n'a pas pris plus d'une journée.

Les plus petits modèles ont eu du mal. Par exemple, l'une des histoires testées commence par un homme à l'air méchant qui dit à une fille qu'il va lui prendre son chat. Un modèle à un million de paramètres s'est retrouvé bloqué dans une boucle où la fille répète sans cesse à l'homme qu'elle veut être son amie. Mais les modèles plus grands, qui sont encore des milliers de fois plus petits que GPT-3.5, ont obtenu des résultats surprenants. La version à 28 millions de paramètres racontait une histoire cohérente, même si la fin était sinistre : "Katie s'est mise à pleurer, mais l'homme s'en fichait. Il a emporté le chat et Katie n'a plus jamais revu son chat. Fin de l'histoire".

En plus de tester leurs propres modèles, Eldan et Li ont soumis le même défi au GPT-2 d'OpenAI, un modèle de 1,5 milliard de paramètres publié en 2019. Le résultat a été bien pire - avant la fin abrupte de l'histoire, l'homme menace d'emmener la jeune fille au tribunal, en prison, à l'hôpital, à la morgue et enfin au crématorium.

Introduction

Selon M. Nguyen, il est passionnant que des modèles aussi petits soient aussi fluides, mais il n'est peut-être pas surprenant que GPT-2 ait eu du mal à accomplir la tâche : il s'agit d'un modèle plus grand, mais loin de l'état de l'art, et il a été formé sur un ensemble de données très différent. "Un enfant en bas âge qui ne s'entraînerait qu'à des tâches d'enfant en bas âge, comme jouer avec des jouets, obtiendrait de meilleurs résultats que vous ou moi", a-t-il fait remarquer. "Nous ne nous sommes pas spécialisés dans cette chose simple.

Les comparaisons entre les différents modèles de TinyStories ne souffrent pas des mêmes facteurs de confusion. Eldan et Li ont observé que les réseaux comportant moins de couches mais plus de neurones par couche étaient plus performants pour répondre aux questions nécessitant des connaissances factuelles ; inversement, les réseaux comportant plus de couches et moins de neurones par couche étaient plus performants pour garder en mémoire les personnages et les points de l'intrigue situés plus tôt dans l'histoire. Bhagavatula a trouvé ce résultat particulièrement intriguant. S'il peut être reproduit dans des modèles plus vastes, "ce serait un résultat vraiment intéressant qui pourrait découler de ce travail", a-t-il déclaré.

Eldan et Li ont également étudié comment les capacités de leurs petits modèles dépendaient de la durée de la période de formation. Dans tous les cas, les modèles maîtrisaient d'abord la grammaire, puis la cohérence. Pour Eldan, ce schéma illustre comment les différences dans les structures de récompense entraînent des différences dans les schémas d'acquisition du langage entre les réseaux neuronaux et les enfants. Pour les modèles de langage, qui apprennent en prédisant des mots, "l'incitation pour les mots "je veux avoir" est aussi importante que pour les mots "crème glacée"", a-t-il déclaré. Les enfants, en revanche, "ne se soucient pas de savoir s'ils disent 'j'aimerais avoir de la glace' ou simplement 'glace, glace, glace'".

Qualité contre quantité

Eldan et Li espèrent que cette étude incitera d'autres chercheurs à entraîner différents modèles sur l'ensemble des données de TinyStories et à comparer leurs capacités. Mais il est souvent difficile de prédire quelles caractéristiques des petits modèles apparaîtront également dans les plus grands.

"Peut-être que les modèles de vision chez la souris sont de très bons substituts de la vision humaine, mais les modèles de dépression chez la souris sont-ils de bons modèles de la dépression chez l'homme ? a déclaré M. Pavlick. "Pour chaque cas, c'est un peu différent.

Le succès des modèles TinyStories suggère également une leçon plus large. L'approche standard pour compiler des ensembles de données de formation consiste à aspirer des textes sur l'internet, puis à filtrer les déchets. Le texte synthétique généré par des modèles de grande taille pourrait constituer une autre façon d'assembler des ensembles de données de haute qualité qui n'auraient pas besoin d'être aussi volumineux.

"Nous avons de plus en plus de preuves que cette méthode est très efficace, non seulement pour les modèles de la taille de TinyStories, mais aussi pour les modèles plus importants", a déclaré M. Eldan. Ces preuves proviennent d'une paire d'articles de suivi sur les modèles à un milliard de paramètres, rédigés par Eldan, Li et d'autres chercheurs de Microsoft. Dans le premier article, ils ont entraîné un modèle à apprendre le langage de programmation Python en utilisant des extraits de code générés par GPT-3.5 ainsi que du code soigneusement sélectionné sur l'internet. Dans le second, ils ont complété l'ensemble de données d'entraînement par des "manuels" synthétiques couvrant un large éventail de sujets, afin d'entraîner un modèle linguistique à usage général. Lors de leurs tests, les deux modèles ont été comparés favorablement à des modèles plus importants formés sur des ensembles de données plus vastes. Mais l'évaluation des modèles linguistiques est toujours délicate, et l'approche des données d'entraînement synthétiques n'en est qu'à ses balbutiements - d'autres tests indépendants sont nécessaires.

Alors que les modèles linguistiques de pointe deviennent de plus en plus volumineux, les résultats surprenants de leurs petits cousins nous rappellent qu'il y a encore beaucoup de choses que nous ne comprenons pas, même pour les modèles les plus simples. M. Nguyen s'attend à ce que de nombreux autres articles explorent l'approche inaugurée par TinyStories.

"La question est de savoir où et pourquoi la taille a de l'importance", a-t-il déclaré. "Il devrait y avoir une science à ce sujet, et cet article est, je l'espère, le début d'une riche histoire.

Auteur: Internet

Info: https://www.quantamagazine.org/ Ben Brubaker, 5 octobre 2023

[ synthèse ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

Paramètres de recherches