Les fils de la pensée

L'impartialité naît d'une disposition à juger favorablement des hommes et des choses.

Info: Carnets t.1, p.121, nrf/Gallimard, 1994

Commentaires: 0

Béni sois l'inventeur de la photographie ! Je le place même au-dessus de l'inventeur du chloroforme ! Il a donné plus de plaisir à notre pauvre et souffrante humanité que toute autre chose qui a été "moulé" par notre temps. Un art par lequel même les pauvres peuvent posséder des copies de qualité de leurs chèrs absents. Et n'est-ce pas agir favorablement sur la moralité du pays ?

Auteur: Carlyle Jane Welsh Baillie

Info:

[ enthousiasme ]

Commenter

Commentaires: 0

unicité

...le synéchiste n'admettra pas que les phénomènes physiques et psychiques sont entièrement distincts, - même s'ils appartiennent à des catégories différentes de substances, ou qu'ils soient sur des faces totalement séparées du même bouclier, - mais il insistera sur le fait que tous les phénomènes sont du même caractère, même si certains sont plus mentaux et spontanés et d'autres plus matériels et réguliers. Pourtant, tous présentent ce mélange de liberté et de contrainte, ce qui leur permet d'être, bien au contraire, téléologiques ou intentionnels.

Auteur: Peirce Charles Sanders

Info: Immortality in the Light of Synechism. Article, soumis le 4 mai 1893 à l'hebdomadaire The Open Court et favorablement considéré pour The Monist, mais non publié en raison d'un malentendu entre Peirce et l'éditeur, Paul Carus.

[ panpsychisme ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

hérésie

Cet auteur [Spinoza] impie par une présomption prodigieuse qui l’aveuglait [le péché d’orgueil est un péché originel], a poussé l’impudence et l’impiété jusqu’à soutenir que les prophéties ne sont fondées que sur l’imagination des prophètes, qu’ils étaient sujets à l’illusion aussi bien que les apôtres, et que les uns et les autres avaient écrit naturellement suivant leurs propres lumières, sans aucune révélation ni ordre de Dieu ; qu’ils avaient, au reste, accommodé la religion autant qu’ils avaient pu au génie des hommes qui vivaient alors et l’avaient établie sur les principes connus en ces temps-là, et reçus favorablement d’un chacun.

Auteur: Spitzel Gottlieb

Info: A propos de Baruch Spinoza et de la publication de son Traité théologico-politique

[ accusation ] [ sécularisation ]

Commenter

Commentaires: 0

Ajouté à la BD par Coli Masson

contemplation

L'homme peu averti s'attache au langage fleuri des Vedas, qui enseignent diverses pratiques pour atteindre les planètes de délices, renaître favorablement, gagner la puissance et d'autres bienfaits. Enflammé de désir pour les joies d'une vie opulente, il ne voit pas au-delà. Trop attaché aux plaisirs des sens, à la richesse et à la gloire, égaré par ces désirs, nul ne connaît jamais la ferme volonté de servir le Seigneur Suprême avec amour et dévotion. Dépasse, ô Arjuna, les trois gunas, ces influences de la nature matérielle qui des Vedas font l'objet premier. Libère-toi de la dualité, abandonne tout désir de possession et de paix matérielle; soit fermement uni au Suprême.

Auteur: Bhagavad-Gita

Info: chapitre II verset 42-45

[ transcendance ] [ unicité ]

Commenter

Commentaires: 0

anecdote

En 1536 tandis que l'armée de François Ier ravageait le midi de la France pour couper les vivres à Charles-Quint, la famine et l'épidémie désolaient les soldats.
Un jeune empirique provençal arriva au camp, se prétendant possesseur d'un merveilleux secret pour guérir toutes les maladies. On le crut, il empocha joyeusement force pistoles, et fit avec ses onguents un effroyable massacre de tous les malheureux qui se confièrent à lui, si bien que, averti par la clameur universelle, le connétable de Montmorency ordonna de le pendre, sans autre forme de procès. Comme on le menait à la potence, il fut rencontré par le dauphin Henri, à qui il demanda merci, avec accompagnement de grimaces et de lazzi qui disposèrent favorablement le prince. Celui-ci lui accorda sa grâce, et le charlatan, troquant sa robe de docteur contre celle de fou de cour, qui lui allait beaucoup mieux, devint le célèbre Brusquet.

Auteur: Fournel François-Victor

Info:

[ fou du roi ]

Commenter

Commentaires: 0

hétérosexualité féminine

On ne saurait trop insister sur l’immense effort psychique, intellectuel et affectif qu’une femme doit faire pour trouver l’autre sexe comme objet érotique. [...] Si déjà la découverte de son vagin invisible demande à la femme un immense effort sensoriel, spéculatif et intellectuel, le passage à l’ordre symbolique en même temps qu’à un objet sexuel d’un autre sexe que celui de l’objet maternel primordial représente une élaboration gigantesque dans laquelle une femme investit un potentiel psychique supérieur à celui exigé du sexe mâle. Lorsque ce processus s’accomplit favorablement, l’éveil précoce des petites filles, leurs performances intellectuelles souvent plus brillantes à l’âge scolaire, la maturité féminine permanente en sont le témoignage. Elles se paient cependant par cette propension à célébrer sans cesse le deuil problématique de l’objet perdu... pas si perdu que ça, et qui reste lancinant dans la "crypte" de l’aisance et de la maturité féminines. A moins qu’une introjection massive de l’idéal ne parvienne à satisfaire, en même temps, le narcissisme avec son versant négatif et l’aspiration à être présente sur l’arène où se joue le pouvoir du monde.

Auteur: Kristeva Julia

Info: Dans "Soleil noir", éditions Gallimard, 1987, pages 40-41

[ femmes-par-femmes ] [ femmes-hommes ]

Commenter

Commentaires: 2

Ajouté à la BD par Coli Masson

surnaturel

Les scientifiques ont-ils finalement démontré des phénomènes psychiques ? De nouvelles études montrent que les gens peuvent prévoir des événements futurs.
Dans "au travers du miroir" de Lewis Carroll, la reine blanche dit a Alice que dans son pays, la mémoire travaille dans deux sens. Non seulement la reine peut se rappeler de choses du passé, mais elle se rappelle également de "choses qui se produiront la semaine d'après." Alice essaye de discuter avec la reine, énonçant : "je suis sûr que la mienne ne va que dans un sens... je ne peut me rappeler de choses avant qu'elles ne se produisent." La reine répond, "c'est une sorte de faiblesse, si ta mémoire ne fonctionne qu'en arrière."
Combien nos vies seraient meilleures si nous pouvions vivre dans le royaume de la reine blanche, où notre mémoire travaillerait en arrière et en avant. Dans un tel monde, par exemple, on pourrais faire un examen et étudier après coup pour s'assurer qu'on l'a bien réussi dans le passé. Bon, la bonne nouvelle est que selon une série récente d'études scientifiques de Daryl Bem, nous vivons déjà dans pareil monde !
Le Dr.Bem, psychologue social à l'université de Cornell, a entrepris une série d'études qui seront bientôt publiées dans un des journaux de psychologie les plus prestigieux. Au travers de neuf expériences, Bem a examiné l'idée que notre cerveau a la capacité de réfléchir non seulement sur des expériences antérieures, mais peut également en prévoir de futures. Cette capacité de "voir" est souvent désignée comme phénomène psi.
Bien que des recherches antérieures aient été conduites sur de tel phénomènes - nous avons tous vu ces films où des personnes regardent fixement des cartes de Zener avec une étoile ou des lignes ondulées dessus - de telles études n'arrivent pas vraiment à atteindre le statut seuil "de recherche scientifique." Les études de Bem sont uniques du fait qu'elles présentent des méthodes scientifiques standard et se fondent sur des principes bien établis en psychologie. Cela donne essentiellement des résultats qui sont considérés comme valides et fiables en psychologie. Par exemple, l'étude améliore la mémoire, et facilite le temps de réponse - mais ici on inverse simplement l'ordre chronologique.
Par exemple, nous savons tous que répéter un ensemble de mots rend plus facile le fait de s'en souvenir dans l'avenir, mais si la répétition se produit après le rappel ?... Dans une des études, on a donné une liste de mots à lire à des étudiants et, après lecture de la liste, on les a confrontés à un test surprise pour voir de combien de mots ils se rappelaient. Ensuite, un ordinateur a aléatoirement choisi certains des mots sur la liste et on a demandé aux participants de les retaper plusieurs fois à la machine. Les résultats de l'étude ont montré que les étudiants étaient meilleurs pour se remémorer les mots apparus dans l'exercice qui avait suivi, donné par surprise et fait au hasard. Selon Bem, la pratique de ces mots après le test a permis d'une façon ou d'une autre aux participants "de revenir en arrière dans le temps pour faciliter le souvenir."
Dans une autre étude, Bem examiné si l'effet bien connu d'amorçage pouvait également être inversé. Dans une étude typique d'amorçage, on montre à des gens une photo et ils doivent rapidement indiquer si la photo représente une image négative ou positive. Si la photo est un chaton câlin, on appuie sur le bouton "positif" et si la photo représente des larves sur de la viande en décomposition, on appuie sur le bouton "négatif". Une recherche de masse a montré combien l'amorçage subliminal peut accélérer la capacité à classer ces photos. L'amorçage subliminal se produit quand un mot est clignoté sur l'écran tellement rapidement que le cerveau conscient ne l'identifie pas, mais le cerveau inconscient le fait. Ainsi on voit juste un flash, et si on vous demande de dire ce que vous avez vu, vous ne pouvez pas. Mais, profondément, votre cerveau inconscient a vu le mot et l'a traité. Dans l'étude d'amorçage, on constate uniformément que les gens qui s'amorcent avec un mot conformé à la valence de la photo la classeront par catégorie plus vite. Ainsi si on clignote rapidement le mot "heureux" avant l'image de chaton, la personne cliquera le bouton "positif" encore plus vite, mais on clignote à la place le mot "laid" avant, la personne prendra plus longtemps pour répondre. C'est parce que l'amorçage avec le mot "heureux" fait que l'esprit de la personne est prêt à recevoir un truc heureux.
Dans l'étude rétroactive d'amorçage de Bem, on a simplement inversé l'ordre du temps, faisant clignoter le mot amorcé après que la personne ait classé la photo. Ainsi on montre l'image du chaton, la personne sélectionne si elle est positive ou négative, et alors on choisit aléatoirement d'amorcer avec un bon ou mauvais mot. Les résultats ont prouvé que les gens sont plus rapides à classer des photos par catégorie quand elle était suivie d'un mot amorce cohérent. A tel point que non seulement le fait qu'on classe le chaton plus vite quand il est précédé par un bon mot, on le classera également plus vite par catégorie si il est suivit du bon mot après coup. C'est comme si, alors que les participants classaient la photo, leur cerveau savait quel mot viendrait après, qui facilite leur décision.
Voilà juste deux exemples des études que Bem conduit, mais les autres ont montrés des effets "rétroactifs" semblables. Les résultats suggèrent clairement que des gens moyens "non psychiques" semblent pouvoir prévoir des événement futurs.
La question qu'on peut se poser est "quel est l'ordre de grandeur de la différence ?" Ce fait d'étudier un essai après qu'il se soit produit, ou l'amorçage qu'on a eu avec un mot après avoir classé la photo donne un changement énorme, ou est-ce juste une légère bosse dans les statistiques ? Quelle est la taille de effet ?. Il est vrai que les tailles d'effet dans les études de Bem sont petites (par exemple, seulement légèrement plus grandes que la chance). Mais il y a plusieurs raisons pour lesquelles nous ne devons pas négliger ces résultats basés sur de petites, mais fortement conformées, tailles d'effet.
Tout d'abord, au travers ses études, Bem a constaté que certaines personnes ont des résultats plus forts que d'autres. En particulier les gens en grande quête de stimulus - aspect d'extraversion où les gens répondent plus favorablement aux nouveau stimulus. Pour des différences de l'ordre d'environ deux fois plus d'efficacité qu'une personne moyenne. Ceci suggère que des gens sont plus sensibles aux effets psi que d'autres.
Deuxièmement ces petites tailles d'effet ne sont pas rare en psychologie (et pour d'autres sciences). Par exemple la moyenne les études de Bem eut pour résultat des tailles d'effets assez petites, mais tout aussi grandes - ou plus grandes - que certains effets bien établis : lien entre l'aspirine et l'empêchement de crise cardiaque, prise de calcium et os améliorés, fumée et cancer du poumon, utilisation de condom et protection du HIV, etc.... Cohen précise que de telles tailles d'effet se produisent plus facilement quand on est dans les premiers stades d'exploration d'une matière, quand les scientifiques commencent juste à découvrir pourquoi l'effet se produit et quand il est le plus susceptible de se produire.
Ainsi si nous prenons ces phénomènes psi comme vrai, comment pouvons nous alors les expliquer sans jeter à la poubelle notre compréhension du temps et de la physique ? Bon, la vérité est que ces effets ressemblent vraiment beaucoup à ce que la physique moderne dit du temps et de l'espace. Par exemple, Einstein a cru que le seul acte d'observer quelque chose pouvait affecter cette chose là, phénomène qu'il appela "spooky action à distance."
De même, la physique quantique moderne a démontré que les particules légères semblent savoir ce qui se trouve en avant d'elles dans le temps et qu'elles ajusteront leur comportement en conséquence, quoique le futur événement ne se soit pas produit encore. Par exemple dans l'expérience classique "de la double fente" les physiciens ont découvert que les particules légères répondent différemment si elles sont observées. Mais en 1999, les chercheurs ont poussé cette expérience plus loin en se demandant "ce qui se produirait si l'observation avait lieu après que les particules légères aient été déployées. "Tout à fait curieusement, ils ont démontré que les particules agissaient de la même manière, comme si elles savaient qu'elles seraient observées plus tard..." même si cela ne s'était pas encore produit.
De tels effets, "dingues", avec le temps semblent contredire le bon sens et essayer de les comprendre peut donner un sacré mal de tête. Mais les physiciens ont simplement appris à l'accepter. Comme disait une fois le Dr. Chiao, physicien de Berkeley, au sujet de la mécanique quantique, "c'est complètement contre intuitif et extérieur à notre expérience journalière, mais nous (les physiciens) y sommes habitués"
Ainsi, alors que les humains perçoivent le temps comme linéaire, cela ne signifie pas nécessairement qu'il en soit ainsi. Donc, en tant que bons scientifiques, nous ne devrions pas nous laisser influencer par les préjugés sur ce que nous étudions, même si ces idées préconçues reflètent nos idées de base sur la façon dont le temps et l'espace fonctionnent.
Le travail du DR. Bem est un provocation pour la pensée, et comme toute science révolutionnaire est censée faire, il apporte plus de questions que de réponses. Si nous mettons entre parenthèses nos croyances sur le temps et acceptons que le cerveau est capable d'une prise sur le futur, la prochaine question est : comment le fait-il ?. Ce n'est pas parce que l'effet semble "surnaturel" que cela signifie que la cause le soit. Beaucoup de découvertes scientifiques furent considérées comme exotiques par le passé, convenant davantage à la science-fiction (par exemple : la terre est ronde, il y a des organismes microscopiques, etc...). Une recherche future est nécessaire pour explorer les causes exactes des effets de ces études
Comme beaucoup de nouvelles explorations en science, les résultats de Bem peuvent avoir un effet profond sur ce que nous savons et avons accepté comme "vrai". Mais pour certains d'entre vous, peut-être que ces effets ne sont pas une si grande surprise, parce que quelque part, profondément à l'intérieur, nous savons déjà que nous en aurions connaissance aujourd'hui !

Auteur: Internet

Info: Fortean Times, Octobre 11, 2010

[ sciences ] [ prémonition ]

Commenter

Mis dans la chaine

Commentaires: 0

intelligence artificielle

Apprendre l'anglais n'est pas une tâche facile, comme le savent d'innombrables étudiants. Mais lorsque l'étudiant est un ordinateur, une approche fonctionne étonnamment bien : Il suffit d'alimenter un modèle mathématique géant, appelé réseau neuronal, avec des montagnes de textes provenant d'Internet. C'est le principe de fonctionnement des modèles linguistiques génératifs tels que ChatGPT d'OpenAI, dont la capacité à tenir une conversation cohérente (à défaut d'être toujours sincère) sur un large éventail de sujets a surpris les chercheurs et le public au cours de l'année écoulée.

Mais cette approche présente des inconvénients. D'une part, la procédure de "formation" nécessaire pour transformer de vastes archives textuelles en modèles linguistiques de pointe est coûteuse et prend beaucoup de temps. D'autre part, même les personnes qui forment les grands modèles linguistiques ont du mal à comprendre leur fonctionnement interne, ce qui, à son tour, rend difficile la prévision des nombreuses façons dont ils peuvent échouer.

Face à ces difficultés, certains chercheurs ont choisi d'entraîner des modèles plus petits sur des ensembles de données plus restreints, puis d'étudier leur comportement. "C'est comme le séquençage du génome de la drosophile par rapport au séquençage du génome humain", explique Ellie Pavlick, chercheuse sur les modèles de langage à l'université de Brown.

Dans un article récemment publié sur le serveur scientifique arxiv.org, deux chercheurs de Microsoft ont présenté une nouvelle méthode pour former de minuscules modèles de langage : Les élever avec un régime strict d'histoires pour enfants.

RÉSEAUX NEURONAUX

Des chercheurs acquièrent une nouvelle compréhension à partir d'une simple IA

Les chercheurs en apprentissage automatique ont compris cette leçon. GPT-3.5, le grand modèle linguistique qui alimente l'interface ChatGPT, compte près de 200 milliards de paramètres et a été entraîné sur un ensemble de données comprenant des centaines de milliards de mots (OpenAI n'a pas publié les chiffres correspondants pour son successeur, GPT-4). L'entraînement de modèles aussi vastes nécessite généralement au moins 1 000 processeurs spécialisés, appelés GPU, fonctionnant en parallèle pendant des semaines. Seules quelques entreprises peuvent réunir les ressources nécessaires, sans parler de l'entraînement et de la comparaison de différents modèles.

Les deux chercheurs ont montré que des modèles linguistiques des milliers de fois plus petits que les systèmes de pointe actuels apprenaient rapidement à raconter des histoires cohérentes et grammaticalement justes lorsqu'ils étaient formés de cette manière. Leurs résultats indiquent de nouvelles pistes de recherche qui pourraient être utiles pour former des modèles plus importants et comprendre leur comportement.

"J'ai trouvé tout ça très instructif", a déclaré Chandra Bhagavatula, chercheur sur les modèles de langage à l'Allen Institute for Artificial Intelligence de Seattle. "Le concept lui-même est très intéressant.

Il était une fois

Les réseaux neuronaux au cœur des modèles de langage sont des structures mathématiques vaguement inspirées du cerveau humain. Chacun d'entre eux contient de nombreux neurones artificiels disposés en couches, avec des connexions entre les neurones des couches adjacentes. Le comportement du réseau neuronal est régi par la force de ces connexions, appelées paramètres. Dans un modèle linguistique, les paramètres contrôlent les mots que le modèle peut produire ensuite, compte tenu d'une invite initiale et des mots qu'il a déjà générés.

Un modèle ne prend véritablement vie qu'au cours de la formation, lorsqu'il compare de manière répétée ses propres résultats au texte de son ensemble de données de formation et qu'il ajuste ses paramètres afin d'accroître la ressemblance. Un réseau non entraîné avec des paramètres aléatoires est trivialement facile à assembler à partir de quelques lignes de code, mais il ne produira que du charabia. Après l'entraînement, il peut souvent poursuivre de manière plausible un texte peu familier. Les modèles de plus grande taille sont souvent soumis à des réglages plus fins qui leur apprennent à répondre à des questions et à suivre des instructions, mais l'essentiel de la formation consiste à maîtriser la prédiction des mots.

Pour réussir à prédire des mots, un modèle linguistique doit maîtriser de nombreuses compétences différentes. Par exemple, les règles de la grammaire anglaise suggèrent que le mot suivant le mot "going" sera probablement "to", quel que soit le sujet du texte. En outre, un système a besoin de connaissances factuelles pour compléter "la capitale de la France est", et compléter un passage contenant le mot "not" nécessite une connaissance rudimentaire de la logique.

"Le langage brut est très compliqué", explique Timothy Nguyen, chercheur en apprentissage automatique chez DeepMind. "Pour que des capacités linguistiques intéressantes apparaissent, les gens ont eu recours à l'idée que plus il y a de données, mieux c'est".

(photo) Ronen Eldan s'est rendu compte qu'il pouvait utiliser les histoires d'enfants générées par de grands modèles linguistiques pour en entraîner rapidement de plus petits.

Introduction

Ronen Eldan, mathématicien qui a rejoint Microsoft Research en 2022 pour étudier les modèles de langage génératifs, souhaitait développer un moyen moins coûteux et plus rapide d'explorer leurs capacités. Le moyen naturel d'y parvenir était d'utiliser un petit ensemble de données, ce qui signifiait qu'il devait entraîner les modèles à se spécialiser dans une tâche spécifique, afin qu'ils ne s'éparpillent pas. Au départ, il voulait entraîner les modèles à résoudre une certaine catégorie de problèmes mathématiques, mais un après-midi, après avoir passé du temps avec sa fille de 5 ans, il s'est rendu compte que les histoires pour enfants convenaient parfaitement. "L'idée m'est venue littéralement après lui avoir lu une histoire", a-t-il déclaré.

Pour générer des histoires cohérentes pour les enfants, un modèle de langage devrait apprendre des faits sur le monde, suivre les personnages et les événements, et observer les règles de grammaire - des versions plus simples des défis auxquels sont confrontés les grands modèles. Mais les grands modèles formés sur des ensembles de données massives apprennent d'innombrables détails non pertinents en même temps que les règles qui comptent vraiment. Eldan espérait que la brièveté et le vocabulaire limité des histoires pour enfants rendraient l'apprentissage plus gérable pour les petits modèles, ce qui les rendrait à la fois plus faciles à former et plus faciles à comprendre.

Dans le monde des modèles de langage, cependant, le terme "petit" est relatif : Un ensemble de données mille fois plus petit que celui utilisé pour former GPT-3.5 devrait encore contenir des millions d'histoires. "Je ne sais pas combien d'argent vous voulez dépenser, mais je suppose que vous n'allez pas engager des professionnels pour écrire quelques millions de nouvelles", a déclaré M. Nguyen.

Il faudrait un auteur extraordinairement prolifique pour satisfaire des lecteurs aussi voraces, mais Eldan avait quelques candidats en tête. Qui peut mieux écrire pour un public de petits modèles linguistiques que pour de grands modèles ?

Toys stories

Eldan a immédiatement entrepris de créer une bibliothèque d'histoires synthétiques pour enfants générées par de grands modèles linguistiques. Mais il a rapidement découvert que même les modèles de pointe ne sont pas naturellement très créatifs. Si l'on demande à GPT-4 d'écrire des histoires adaptées à des enfants de 4 ans, explique Eldan, "environ un cinquième des histoires concernera des enfants qui vont au parc et qui ont peur des toboggans". C'est apparemment la quintessence des histoires pour enfants d'âge préscolaire, selon l'Internet.

La solution a consisté à ajouter un peu d'aléatoire dans le message. Tout d'abord, Eldan a utilisé le GPT-4 pour générer une liste de 1 500 noms, verbes et adjectifs qu'un enfant de 4 ans pourrait connaître - suffisamment courte pour qu'il puisse facilement la vérifier lui-même. Il a ensuite écrit un programme informatique simple qui demanderait à plusieurs reprises à GPT-3.5 ou à GPT-4 de générer une histoire adaptée à l'âge de l'enfant, comprenant trois mots aléatoires de la liste, ainsi qu'un détail supplémentaire choisi au hasard, comme une fin heureuse ou un rebondissement de l'intrigue. Les histoires obtenues, heureusement, étaient moins axées sur des diapositives effrayantes.

Eldan disposait désormais d'une procédure pour produire des données de formation à la demande, mais il n'avait aucune idée du nombre d'histoires dont il aurait besoin pour former un modèle fonctionnel, ni de la taille de ce modèle. C'est alors qu'il s'est associé à Yuanzhi Li, chercheur en apprentissage automatique chez Microsoft et à l'université Carnegie Mellon, pour essayer différentes possibilités, en tirant parti du fait que les petits modèles peuvent être formés très rapidement. La première étape consistait à décider comment évaluer leurs modèles.

Introduction

Dans la recherche sur les modèles de langage - comme dans toute salle de classe - la notation est un sujet délicat. Il n'existe pas de rubrique parfaite qui englobe tout ce que les chercheurs veulent savoir, et les modèles qui excellent dans certaines tâches échouent souvent de manière spectaculaire dans d'autres. Au fil du temps, les chercheurs ont mis au point divers critères de référence standard basés sur des questions dont les réponses ne sont pas ambiguës, ce qui est une bonne approche si vous essayez d'évaluer des compétences spécifiques. Mais Eldan et Li se sont intéressés à quelque chose de plus nébuleux : quelle doit être la taille réelle des modèles linguistiques si l'on simplifie le langage autant que possible ?

"Pour vérifier directement si le modèle parle anglais, je pense que la seule chose à faire est de laisser le modèle générer de l'anglais de manière ouverte", a déclaré M. Eldan.

Il n'y a que deux façons de mesurer les performances d'un modèle sur des questions aussi qualitatives : S'appuyer sur des évaluateurs humains ou se tourner à nouveau vers le GPT-4. Les deux chercheurs ont opté pour cette dernière solution, laissant les grands modèles à la fois rédiger les manuels et noter les dissertations.

Bhagavatula a déclaré qu'il aurait aimé voir comment les évaluations de GPT-4 se comparaient à celles des correcteurs humains - GPT-4 peut être biaisé en faveur des modèles qu'il a aidé à former, et l'opacité des modèles de langage rend difficile la quantification de tels biais. Mais il ne pense pas que de telles subtilités affecteraient les comparaisons entre différents modèles formés sur des ensembles similaires d'histoires synthétiques - l'objectif principal du travail d'Eldan et Li.

Eldan et Li ont utilisé une procédure en deux étapes pour évaluer chacun de leurs petits modèles après la formation. Tout d'abord, ils ont présenté au petit modèle la première moitié d'une histoire distincte de celles de l'ensemble des données d'apprentissage, de manière à ce qu'il génère une nouvelle fin, en répétant ce processus avec 50 histoires de test différentes. Ensuite, ils ont demandé à GPT-4 d'évaluer chacune des fins du petit modèle en fonction de trois catégories : créativité, grammaire et cohérence avec le début de l'histoire. Ils ont ensuite fait la moyenne des notes obtenues dans chaque catégorie, obtenant ainsi trois notes finales par modèle.

Avec cette procédure en main, Eldan et Li étaient enfin prêts à comparer les différents modèles et à découvrir quels étaient les étudiants les plus brillants.

Résultats des tests

Après quelques explorations préliminaires, les deux chercheurs ont opté pour un ensemble de données de formation contenant environ 2 millions d'histoires. Ils ont ensuite utilisé cet ensemble de données, baptisé TinyStories, pour entraîner des modèles dont la taille varie de 1 million à 30 millions de paramètres, avec un nombre variable de couches. Le travail a été rapide : En utilisant seulement quatre GPU, l'entraînement du plus grand de ces modèles n'a pas pris plus d'une journée.

Les plus petits modèles ont eu du mal. Par exemple, l'une des histoires testées commence par un homme à l'air méchant qui dit à une fille qu'il va lui prendre son chat. Un modèle à un million de paramètres s'est retrouvé bloqué dans une boucle où la fille répète sans cesse à l'homme qu'elle veut être son amie. Mais les modèles plus grands, qui sont encore des milliers de fois plus petits que GPT-3.5, ont obtenu des résultats surprenants. La version à 28 millions de paramètres racontait une histoire cohérente, même si la fin était sinistre : "Katie s'est mise à pleurer, mais l'homme s'en fichait. Il a emporté le chat et Katie n'a plus jamais revu son chat. Fin de l'histoire".

En plus de tester leurs propres modèles, Eldan et Li ont soumis le même défi au GPT-2 d'OpenAI, un modèle de 1,5 milliard de paramètres publié en 2019. Le résultat a été bien pire - avant la fin abrupte de l'histoire, l'homme menace d'emmener la jeune fille au tribunal, en prison, à l'hôpital, à la morgue et enfin au crématorium.

Introduction

Selon M. Nguyen, il est passionnant que des modèles aussi petits soient aussi fluides, mais il n'est peut-être pas surprenant que GPT-2 ait eu du mal à accomplir la tâche : il s'agit d'un modèle plus grand, mais loin de l'état de l'art, et il a été formé sur un ensemble de données très différent. "Un enfant en bas âge qui ne s'entraînerait qu'à des tâches d'enfant en bas âge, comme jouer avec des jouets, obtiendrait de meilleurs résultats que vous ou moi", a-t-il fait remarquer. "Nous ne nous sommes pas spécialisés dans cette chose simple.

Les comparaisons entre les différents modèles de TinyStories ne souffrent pas des mêmes facteurs de confusion. Eldan et Li ont observé que les réseaux comportant moins de couches mais plus de neurones par couche étaient plus performants pour répondre aux questions nécessitant des connaissances factuelles ; inversement, les réseaux comportant plus de couches et moins de neurones par couche étaient plus performants pour garder en mémoire les personnages et les points de l'intrigue situés plus tôt dans l'histoire. Bhagavatula a trouvé ce résultat particulièrement intriguant. S'il peut être reproduit dans des modèles plus vastes, "ce serait un résultat vraiment intéressant qui pourrait découler de ce travail", a-t-il déclaré.

Eldan et Li ont également étudié comment les capacités de leurs petits modèles dépendaient de la durée de la période de formation. Dans tous les cas, les modèles maîtrisaient d'abord la grammaire, puis la cohérence. Pour Eldan, ce schéma illustre comment les différences dans les structures de récompense entraînent des différences dans les schémas d'acquisition du langage entre les réseaux neuronaux et les enfants. Pour les modèles de langage, qui apprennent en prédisant des mots, "l'incitation pour les mots "je veux avoir" est aussi importante que pour les mots "crème glacée"", a-t-il déclaré. Les enfants, en revanche, "ne se soucient pas de savoir s'ils disent 'j'aimerais avoir de la glace' ou simplement 'glace, glace, glace'".

Qualité contre quantité

Eldan et Li espèrent que cette étude incitera d'autres chercheurs à entraîner différents modèles sur l'ensemble des données de TinyStories et à comparer leurs capacités. Mais il est souvent difficile de prédire quelles caractéristiques des petits modèles apparaîtront également dans les plus grands.

"Peut-être que les modèles de vision chez la souris sont de très bons substituts de la vision humaine, mais les modèles de dépression chez la souris sont-ils de bons modèles de la dépression chez l'homme ? a déclaré M. Pavlick. "Pour chaque cas, c'est un peu différent.

Le succès des modèles TinyStories suggère également une leçon plus large. L'approche standard pour compiler des ensembles de données de formation consiste à aspirer des textes sur l'internet, puis à filtrer les déchets. Le texte synthétique généré par des modèles de grande taille pourrait constituer une autre façon d'assembler des ensembles de données de haute qualité qui n'auraient pas besoin d'être aussi volumineux.

"Nous avons de plus en plus de preuves que cette méthode est très efficace, non seulement pour les modèles de la taille de TinyStories, mais aussi pour les modèles plus importants", a déclaré M. Eldan. Ces preuves proviennent d'une paire d'articles de suivi sur les modèles à un milliard de paramètres, rédigés par Eldan, Li et d'autres chercheurs de Microsoft. Dans le premier article, ils ont entraîné un modèle à apprendre le langage de programmation Python en utilisant des extraits de code générés par GPT-3.5 ainsi que du code soigneusement sélectionné sur l'internet. Dans le second, ils ont complété l'ensemble de données d'entraînement par des "manuels" synthétiques couvrant un large éventail de sujets, afin d'entraîner un modèle linguistique à usage général. Lors de leurs tests, les deux modèles ont été comparés favorablement à des modèles plus importants formés sur des ensembles de données plus vastes. Mais l'évaluation des modèles linguistiques est toujours délicate, et l'approche des données d'entraînement synthétiques n'en est qu'à ses balbutiements - d'autres tests indépendants sont nécessaires.

Alors que les modèles linguistiques de pointe deviennent de plus en plus volumineux, les résultats surprenants de leurs petits cousins nous rappellent qu'il y a encore beaucoup de choses que nous ne comprenons pas, même pour les modèles les plus simples. M. Nguyen s'attend à ce que de nombreux autres articles explorent l'approche inaugurée par TinyStories.

"La question est de savoir où et pourquoi la taille a de l'importance", a-t-il déclaré. "Il devrait y avoir une science à ce sujet, et cet article est, je l'espère, le début d'une riche histoire.

Auteur: Internet

Info: https://www.quantamagazine.org/ Ben Brubaker, 5 octobre 2023

[ synthèse ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

Paramètres de recherches