Les fils de la pensée

linguistique de masse

L'intelligence artificielle travaille-t-elle en anglais ?

Des scientifiques de l’EPFL ont montré que les grands modèles de langage semblent utiliser l’anglais en interne même lorsqu’ils sont sollicités dans une autre langue, ce qui pourrait avoir des conséquences en termes de biais linguistiques et culturels.

Les grands modèles de langage (LLM), tels que ChatGPT d’Open AI et Gemini de Google, ont conquis le monde et surprennent par leur capacité à comprendre les utilisatrices et utilisateurs et à leur répondre avec un discours en apparence naturel.

Bien qu’il soit possible d’interagir avec ces LLM dans n’importe quelle langue, ces derniers sont entraînés avec des centaines de milliards de paramètres textuels, principalement en anglais. Certaines personnes ont émis l’hypothèse qu’ils effectuaient la majeure partie de leur traitement interne en anglais et traduisaient ensuite dans la langue cible au tout dernier moment. Mais il y avait peu de preuves de cela, jusqu’à aujourd’hui.

Tests de Llama

Des chercheuses et chercheurs du Laboratoire de science des données (DLAB) de la Faculté informatique et communications de l’EPFL ont étudié le LLM open source Llama-2 (grand modèle de langage IA développé par Meta) pour essayer de déterminer quelles langues étaient utilisées à quels stades de la chaîne informatique.

" Les grands modèles de langage sont entraînés pour prédire le mot suivant. Pour cela, ils font correspondre chaque mot à un vecteur de nombres, c’est-à-dire à un point de données multidimensionnel. Par exemple, l’article le se trouvera toujours exactement à la même coordonnée fixe des nombres ", explique le professeur Robert West, responsable du DLAB.

" Les modèles enchaînent environ 80 couches de blocs de calcul identiques, chacun transformant un vecteur qui représente un mot en un autre vecteur. À la fin de cette séquence de 80 transformations, on obtient un vecteur représentant le mot suivant. Le nombre de calculs est déterminé par le nombre de couches de blocs de calcul. Plus il y a de calculs, plus votre modèle est puissant et plus le mot suivant a de chances d’être correct. "

Comme l’explique la prépublication intitulée Do Llamas Work in English? On the Latent Language of Multilingual Transformers, Robert West et son équipe ont forcé le modèle à répondre après chaque couche chaque fois qu’il essayait de prédire le mot suivant au lieu de le laisser effectuer les calculs à partir de ses 80 couches. Ils ont ainsi pu voir quel mot le modèle aurait prédit à ce moment-là. Ils ont mis en place différentes tâches telles que demander au modèle de traduire une série de mots français en chinois.

" Nous lui avons donné un mot français, puis la traduction en chinois, un autre mot français et la traduction en chinois, etc., de sorte que le modèle sache qu’il est censé traduire le mot français en chinois. Idéalement, le modèle devrait donner une probabilité de 100% pour le mot chinois. Mais lorsque nous l’avons forcé à faire des prédictions avant la dernière couche, nous avons remarqué que la plupart du temps, il prédisait la traduction anglaise du mot français, bien que l’anglais n’apparaisse nulle part dans cette tâche. Ce n’est qu’au cours des quatre ou cinq dernières couches que le chinois est en fait plus probable que l’anglais ", affirme Robert West.

Des mots aux concepts

Une hypothèse simple serait que le modèle traduit la totalité de l’entrée en anglais et la traduit à nouveau dans la langue cible juste à la fin. Mais en analysant les données, les chercheuses et chercheurs sont parvenus à une théorie bien plus intéressante.

Dans la première phase des calculs, aucune probabilité n’est attribuée à l’un ou l’autre mot. Selon eux, le modèle s’attache à résoudre les problèmes d’entrée. Dans la seconde phase, où l’anglais domine, les chercheuses et chercheurs pensent que le modèle se trouve dans une sorte d’espace sémantique abstrait où il ne raisonne pas sur des mots isolés mais sur d’autres types de représentations qui concernent davantage des concepts, sont universels dans toutes les langues et représentent plus un modèle du monde. C’est important car, pour bien prédire le mot suivant, le modèle doit en savoir beaucoup sur le monde et l’un des moyens d’y parvenir est d’avoir cette représentation des concepts.

" Nous supposons que cette représentation du monde en termes de concepts est biaisée en faveur de l’anglais, ce qui serait très logique car les données utilisées pour entraîner ces modèles sont à environ 90% en anglais. Ils cartographient les mots en entrée à partir d’un espace de mots superficiel, dans un espace de signification plus profond avec des représentations de la façon dont ces concepts sont liés les uns aux autres dans la réalité – et les concepts sont représentés de la même manière que les mots anglais, plutôt que les mots correspondants dans la langue d’entrée réelle ", déclare Robert West.

Monoculture et biais

Cette domination de l’anglais amène à se poser la question suivante: " est-ce important "? Les chercheuses et chercheurs pensent que oui. D’après de nombreuses recherches, les structures qui existent dans le langage influencent la manière dont nous construisons la réalité et les mots que nous employons sont profondément liés à la façon dont nous pensons le monde. Robert West suggère de commencer à étudier la psychologie des modèles de langage en les traitant comme des êtres humains et, dans différentes langues, en les interrogeant, en les soumettant à des tests de comportement et en évaluant leurs biais.

" Je pense que cette recherche a vraiment touché un point sensible, car les gens s’inquiètent de plus en plus de ce genre de problème de monoculture potentielle. Les modèles étant meilleurs en anglais, bon nombre de chercheuses et chercheurs étudient aujourd’hui la possibilité d’introduire un contenu en anglais et de le traduire dans la langue souhaitée. D’un point de vue technique, cela pourrait fonctionner, mais je pense que nous perdons beaucoup de nuances, car ce que vous ne pouvez pas exprimer en anglais ne sera pas exprimé ", conclut Robert West.

Auteur: Internet

Info: https://actu.epfl.ch/news/l-intelligence-artificielle-travaille-t-elle-en--2/#:~:text=Les%20chercheuses%20et%20chercheurs%20pensent%20que%20oui.,dont%20nous%20pensons%20le%20monde.

[ anglocentrisme ] [ spécificités des idiomes ] [ homme-machine ] [ symboles univers ] [ ethnocentrisme ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

sociologie

La tyrannie de l’apparence
A l’école, à la fac, au travail… Avant même nos compétences, c’est notre physique qui est jugé. Une dictature du beau dénoncée, preuves à l’appui, par le sociologue Jean-François Amadieu.
Depuis l’Antiquité grecque, nous sommes victimes et vecteurs du même présupposé : ce qui est beau est bon. Aujourd’hui encore, tout le monde le pressent et personne ne veut y croire : notre vie tout entière est soumise à la tyrannie des apparences.
Pour la première fois en France, un livre, Le Poids des apparences (Odile Jacob, 2002), en apporte la démonstration. Professeur de sociologie, Jean-François Amadieu a recensé trente ans d’études américaines et européennes sur le sujet et en tire une conclusion effarante : toute notre vie, dans tous les domaines, en amour comme au travail, notre apparence conditionnera nos relations aux autres.
Poussant son analyse, le sociologue démontre combien la beauté est un formidable outil de discrimination sociale que les élites imposent aux classes les plus basses. Dans le monde entier, les canons de la beauté ne sont-ils pas ceux des Blancs américains diffusés par la télévision et le cinéma : blondeur, minceur, jeunesse. Que l’on s’y résolve ou que l’on se révolte, nous n’en sommes pas moins, dès la naissance, soumis à la première des injustices : celle des apparences.
Au berceau déjà
Les regards qui se portent sur le nourrisson dans son berceau ne sont pas neutres. Un bébé beau attirera force sourires et risettes alors qu’un enfant moins séduisant créera une certaine gêne chez les adultes. Même infime – oreilles décollées, tache de naissance, dissymétrie des traits –, la différence physique sera vécue par les parents comme un handicap futur. Et suscitera des comportements différents à l’égard du nourrisson.
" On ne peut pas dire qu’une mère ou un père préfèrera un enfant plus beau que ses frères et sœurs, explique Jean-François Amadieu. En revanche, les études ont prouvé que les activités seront différentes selon que l’enfant est beau ou laid. Par exemple, une mère jouera beaucoup avec son nourrisson s’il est beau, tandis qu’elle focalisera sur les apprentissages s’il est disgracieux. Et parce qu’elle sait qu’il risque de se heurter, plus tard, aux regards des autres, elle s’en occupera plus. Il est d’ailleurs prouvé que ces enfants réussiront mieux à l’école que la moyenne. On peut ici parler d’un effet de compensation à la laideur."
A l’école du favoritisme
A la maternelle déjà, les enfants beaux sont privilégiés. Les enseignants ont une meilleure opinion d’eux, leur accordent davantage d’attention, les évaluent plus chaleureusement - in Modèles du corps et psychologie esthétique de Jean Maisonneuve et Marilou Bruchon-Schweitzer (PUF, 1981). Cette bienveillance engendre une confiance chez l’enfant qui l’accompagnera toute sa vie. D’autant qu’elle va mettre en place une dynamique du succès qui se poursuivra à l’âge adulte. Ensuite, au collège et au lycée, une note peut varier de 20 à 40 % selon la beauté de l’élève. Les études prouvent qu’une étudiante laide mais de bon niveau est peu défavorisée par rapport à une étudiante belle de même niveau. En revanche, si la plus jolie est mauvaise élève, ses notes seront nettement surévaluées par les examinateurs, expliquent Jean Maisonneuve et Marilou Bruchon-Schweitzer dans Le Corps et la Beauté (PUF, 1999).
"Beaucoup plus que l’enfant beau, l’enfant laid est jugé responsable de ses échecs scolaires autant que de ses fautes, remarque Jean-François Amadieu. D’abord par les instituteurs, puis par les professeurs et enfin par les recruteurs. La beauté est un statut qui vaut diplôme : elle enrichit, comme la laideur altère, nos compétences."
La tête de l’emploi
Diplôme en poche, vous pensiez être délivré de la dictature des apparences ? Erreur. "Une apparence avenante est cruciale au moment de l’embauche, mais également pour une bonne intégration au sein de l’entreprise, explique Jean-François Amadieu. Elle permet une meilleure évaluation des performances et favorise un bon déroulement de carrière." Le candidat sera jugé d’abord sur des critères extérieurs : soin apporté à sa personne, poids, beauté physique, etc. 50 % des employeurs jugent qu’un physique séduisant est un critère important de recrutement (Multicity Study of Urban Inequality de H. Holzer, Michigan State University, 1993). Les critères négatifs : poids excessif, petite taille, nez trop long, grandes oreilles, visage disgracieux, mains moites…
"Les beaux sont jugés plus intelligents, plus ambitieux, plus chaleureux, plus sociables, plus équilibrés et moins agressifs", assure encore le sociologue. Ainsi, de nombreux spécialistes du recrutement estiment, consciemment ou pas, qu’une personnalité équilibrée se voit. Pire, les études prouvent qu’à diplôme équivalent un candidat au physique peu avenant sera recruté à un salaire moindre. Une situation qui n’ira pas en se résorbant : une étude anglaise, conduite sur onze mille salariés britanniques (Beauty, Statute and the Labour Market de B. Harper, 2000), prouve que si les plus beaux gagnent un peu plus que la moyenne nationale, les plus laids perçoivent des salaires de 11 à 15 % inférieurs.
"La beauté permet non seulement d’échapper au chômage, mais en plus elle se transforme en prime salariale, résume Jean-François Amadieu. La beauté est un capital humain que le marché du travail reconnaît financièrement." Ainsi démontrée, la dictature que nous imposent les apparences, comme la tyrannie médiatique et sociale que nous subissons, nous apparaissent dans ce qu’elles ont de fondamentalement injustes. "Bien sûr, nous préférerions que ce soient les mérites de chacun qui déterminent l’obtention des diplômes, l’accès aux emplois, etc., plutôt qu’un critère arbitraire et primitif, admet Jean-François Amadieu. Mais c’est en disant la vérité sur cette discrimination qu’on peut élaborer des stratégies visant à limiter, sinon contrer, l’emprise des apparences. Bien connue et bien utilisée par tous, elle peut aussi permettre de bousculer l’ordre imposé."
Des chercheurs américains (Physical Attractivities and Evaluation of Children’s Transgressions de K. K. Dion, 1972) ont demandé à des adultes de juger des enfants de 7 ans accusés d’avoir blessé un camarade avec une boule de neige. Dans un premier temps, les personnes interrogées se sont montrées beaucoup plus tolérantes envers les enfants les plus beaux : la faute était jugée plus légèrement lorsque le fautif était séduisant. Dans un second temps, elles se sont dit convaincues que les enfants beaux récidiveraient moins que les autres. Commentaires du sociologue Jean-François Amadieu : "Non seulement le “laid” est jugé plus responsable de sa faute que le “beau”, mais, de surcroît, cette faute apparaissant comme inscrite dans sa nature profonde, elle est susceptible d’être répétée."

Auteur: Gelly Violaine

Info:

[ inégalités ] [ injustice ] [ allure ]

Commenter

Commentaires: 0

corps-esprit

Lourdement handicapé, Stephen Hawking, auteur d’"Une brève histoire du temps" est le héros d’un film. L’anthropologue des sciences Hélène Mialet dévoile le système d’une personnalité fascinante.

Au-delà de ses contributions importantes sur la connaissance des trous noirs, l’exceptionnalité de l’homme réside aussi dans sa condition physique. Atteint de sclérose latérale amyotrophique, une dégénérescence des neurones moteurs, il est paralysé depuis des dizaines d’années. Ne pouvant plus parler, il communique par l’intermédiaire d’un ordinateur équipé d’un logiciel de synthèse vocale qu’il dirigeait au départ avec son doigt, plus récemment par une contraction de la joue. Grâce à ce système, il a écrit Une Brève Histoire du temps, ouvrage de référence vendu à près de dix millions d’exemplaires. A 73 ans, Stephen Hawking, élevé au statut d’icône du génie scientifique, continue d’écrire et de donner des conférences. Comment? C’est la question posée par Madame Mialet, philosophe et anthropologue des sciences, professeure invitée à l’Université de Californie à Davis, aux Etats-Unis, qui a côtoyé ce scientifique hors du commun. Elle a passé dix ans à l’interviewer, l’observer, à rencontrer ses proches et ses collègues.

Samedi Culturel: Qui est Stephen Hawking?

HM : Difficile de répondre, parce qu’il est une icône. On imagine que Stephen Hawking, lourdement handicapé, est capable, seul, de produire de la science. Il incarne le mythe de notre modernité, qui trouve son origine dans l’interprétation de la pensée de Descartes, selon laquelle on n’a pas besoin d’un corps pour penser et qu’il suffit d’avoir un esprit. Stephen Hawking renchérit lui-même en disant: "Pour faire de la physique, un esprit suffit." J’ai pris ça au mot et en tant qu’ethnographe, j’ai passé des années à le suivre, à étudier sa façon de travailler, à interviewer ses étudiants et ses collègues. Il est devenu en quelque sorte ma tribu! J’ai reconstruit le réseau de compétences qui l’entoure et mis en évidence un collectif complexe. La question posée dans mon livre est plutôt: où est Stephen Hawking dans ce collectif?

SC : Est-ce que l’esprit brillant de Stephen Hawking suffit seul à faire de la science?

HM : Non, je ne pense pas. Parce qu’il ne peut pas bouger ni manipuler des objets. Il ne peut parler que par l’intermédiaire d’une voix de synthèse générée par un ordinateur. Il doit tout déléguer aux machines et aux individus. Ses proches ont appris à communiquer avec lui plus rapidement en lui posant des questions auxquelles il répond par oui ou non. Le type de vocabulaire engrangé dans son ordinateur est organisé, et le logiciel complète systématiquement ses phrases en reconnaissant ses motifs d’expression. Les gens aussi finissent ses phrases, ce qu’il n’aime pas d’ailleurs, et mettent en action ses énoncés. Contrairement à ce que l’on croit, tout n’est pas dans sa tête mais aussi à l’extérieur. Ses étudiants organisés autour de lui mènent les projets de recherche, font les calculs. En bout de course il est l’auteur principal et ceux qui l’ont aidé disparaissent du processus.

SC : Stephen Hawking est-il différent d’autres scientifiques?

HM : Non, son corps étendu au collectif lui permet de faire de la science comme tout chercheur à son niveau. Les chefs de laboratoire aussi lancent des pistes de recherche à d’autres qui font les expériences. Stephen Hawking est singulier car il est très collectivisé, et non parce qu’il serait coupé du monde social et matériel.

SC : Comment a-t-il réagi à la lecture de votre livre?

HM : Je le lui ai envoyé mais je n’ai pas eu de retour. Sa secrétaire m’a dit qu’il avait trouvé bizarre la couverture choisie par l’éditeur de la version anglaise [l’image montre une statue en marbre de lui dans son fauteuil flottant au milieu des étoiles]. Je suis assez d’accord, car cette illustration retombe dans le mythe du personnage.

SC : Comment se passaientvos rencontres?

HM : Ça m’a pris deux ans pour avoir accès à lui. Mon premier entretien, en 1998, a été très déstabilisant car toute l’interaction passait par l’ordinateur. Je n’arrivais pas à lire son langage corporel. Je posais mes questions, il répondait en tapant, et sa voix synthétique parlait souvent avec un décalage temporel. Nos deux regards étaient dirigés vers l’écran. Parfois, ses assistants s’occupaient de lui, ce qui troublait l’interaction. Un moment, la machine s’est arrêtée de fonctionner. En fait, quand on est très proche de lui, on ne sait plus où il est. Alors que quand on s’en éloigne, à travers les médias et les films, on perçoit Stephen Hawking, le génie, c’est-à-dire un individu doté de qualités stables, d’histoires reproduites sur sa personne et ses découvertes scientifiques.

SC : L’avez-vous revu par la suite?

HM : Oui, à la conférence sur la théorie des cordes à Berlin, en 1999. Nous avons dansé avec lui dans un night-club! Son attaché de presse avait passé plusieurs semaines à Berlin pour sélectionner le plus accessible. Quand nous sommes arrivés dans le night-club, il est allé au milieu de la piste et tout le monde a dansé autour de lui. Plus tard, à la fin de mon séjour à Cambridge, en 2007, il m’a invité plusieurs fois à souper à l’université ou chez lui. Il avait envie de parler plus intimement de sa façon de penser et de travailler.

SC : Comment pense Stephen Hawking?

HM : A cette question, il a répondu: "En images" Selon ses étudiants, il résout des problèmes en les mémorisant. Il a développé une façon de penser de manière visuelle en manipulant des diagrammes que ces étudiants dessinent sous ses yeux. Ils écrivent aussi, sous ses yeux, les démonstrations des équations à résoudre, et lui dit si elles sont justes ou pas. Mes observations montrent que même le travail intellectuel le plus abstrait nécessite l’usage du corps, dans le cas de Stephen Hawking, de ses yeux qui regardent les autres travailler et du corps des autres qui dessinent les diagrammes. C’est un va-et-vient constant.

SC : Quelle relation entretient-il avec son entourage?

HM : Il a beaucoup d’humour, ce qui lui permet d’établir un lien rapide avec les gens. Il fait preuve d’une grande force de caractère et exerce aussi un certain contrôle sur son entourage. Ses assistants les plus proches, qui s’occupent de la logistique, des voyages, restent rarement plus d’un an car ils sont épuisés de répondre jour et nuit à ses besoins. Et il maîtrise beaucoup son image auprès des journalistes.

SC : Il n’a jamais voulu changer l’accent américain de sa voix synthétique. Pourquoi?

HM : Beaucoup de compagnies anglaises ont voulu lui rendre son accent anglais. Il a résisté et n’a pas accepté car il disait que sa voix américaine était devenue sa voix. Des logiciels plus récents lui permettraient de communiquer plus vite mais il ne veut pas les changer car il s’y est habitué.

SC : En quoi Stephen Hawking est-il exceptionnel?

HM : Pour ses travaux scientifiques sur les trous noirs, évidemment, notamment ceux des années 1970, qui étaient des découvertes fondamentales. Mais pour moi, cet homme est exceptionnel car il devient un exemple par sa condition inhabituelle. Sa situation de handicap et de dépendance rend visible ce que l’on ne voit pas autrement, comme ce qu’il faut pour être une star, un chef de laboratoire, mais aussi ce qui est nécessaire pour penser visuellement ou pour qu’une conversation soit fluide.

A Cambridge, des archives sont en cours de construction avec les articles sur Stephen Hawking et ses propres articles. Elles posent la question de l’archivage d’un auteur à l’ère du digital. Pour lui, tout passe par la machine depuis longtemps, et il décide lui-même de ce qu’il veut garder ou non. Nous devenons tous dépendants de nos tablettes et ordinateurs, mais lui l’a été avant tout le monde. Il a utilisé des programmes qu’on utilise tous maintenant, comme ceux qui complètent ses mots et ses phrases. Stephen Hawking est un pionnier du post-humanisme.

Auteur: Mialet Hélène

Info: Sur Le Temps.ch, 16 janvier 2015. A propos de : A la recherche de Stephen Hawking, de H M, 2014, Ed. Odile Jacob, 168 p.

[ starification ] [ scientifique vedette ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

transposition linguistique

La théorie de la traduction est très rarement - comment dire ? - comique. Son mode de fonctionnement est celui de l'élégie et de l'admonestation sévère. Au XXe siècle, ses grandes figures étaient Vladimir Nabokov, en exil de la Russie soviétique, attaquant des libertins comme Robert Lowell pour leurs infidélités au sens littéral ; ou Walter Benjamin, juif dans un Berlin proto-nazi, décrivant la tâche du traducteur comme un idéal impossible d'exégèse. On ne peut jamais, selon l'argument élégiaque, reproduire précisément un vers de poésie dans une autre langue. Poésie ! Tu ne peux même pas traduire "maman"... Et cet argument élégiaque a son mythe élégiaque : la Tour de Babel, où la multiplicité des langues du monde est considérée comme la punition de l'humanité - condamnée aux hurleurs, aux faux amis, aux applications de menu étrangères. Alors que l'état linguistique idéal serait la langue universelle perdue de l'Eden.

La théorie de la traduction est rarement désinvolte ou joyeuse.

Le nouveau livre de David Bellos sur la traduction contourne d'abord cette philosophie. Il décrit les dragons de la Turquie ottomane, l'invention de la traduction simultanée lors du procès de Nuremberg, les dépêches de presse, les bulles d'Astérix, les sous-titres de Bergman, etc.... Il propose une anthropologie des actes de traduction. Mais à travers cette anthropologie, c'est un projet beaucoup plus grand qui émerge. Les anciennes théories étaient élégiaques, majestueuses ; elles étaient très sévères. Bellos est pratique et vif. Il n'est pas éduqué par l'élégie. Et c'est parce qu'il est sur quelque chose de nouveau.

Bellos est professeur de français et de littérature comparée à l'université de Princeton, et également directeur du programme de traduction et de communication interculturelle de cette université (où, je dois le préciser, j'ai déjà pris la parole). Mais pour moi, il est plus intéressant en tant que traducteur de deux romanciers particulièrement grands et problématiques : le Français Georges Perec, dont l'œuvre se caractérise par un souci maniaque de la forme, et l'Albanais Ismail Kadare, dont Bellos traduit l'œuvre non pas à partir de l'original albanais, mais à partir de traductions françaises supervisées par Kadare. La double expérience de Bellos avec ces romanciers est, je pense, à l'origine de son nouveau livre, car ces expériences de traduction prouvent deux choses : Il est toujours possible de trouver des équivalents adéquats, même pour une prose maniaquement formelle, et il est également possible de trouver de tels équivalents dans une langue qui n'est pas l'original de l'œuvre. Alors que selon les tristes théories orthodoxes de la traduction, aucune de ces vérités ne devrait être vraie.

À un moment donné, Bellos cite avec une fierté légitime un petit exemple de sa propre inventivité. Dans le roman de Perec "La vie : Mode d'emploi" de Perec, un personnage se promène dans une arcade parisienne et s'arrête pour regarder les "cartes de visite humoristiques dans la vitrine d'un magasin de farces et attrapes". Dans l'original français de Perec, l'une de ces cartes est : "Adolf Hitler/Fourreur". Un fourreur est un fourreur, mais la blague de Perec est que cela ressemble aussi à la prononciation française de Führer. Donc Bellos, dans sa version anglaise, traduit à juste titre "fourreur" non pas par "furrier", mais comme ceci : "Adolf Hitler/Lieder allemand". Le nouveau jeu de mots multiphonique de Bellos est une parodie, sans aucun doute - et c'est aussi la traduction la plus précise possible.

Les conclusions que ce paradoxe exige sont, disons, déconcertantes pour le lecteur vieux jeu. Nous sommes habitués à penser que chaque personne parle une langue individuelle - sa langue maternelle - et que cette langue maternelle est une entité discrète, avec un vocabulaire manipulé par une grammaire fixe. Mais cette image, selon Bellos, ne correspond pas aux changements quotidiens de nos multiples langues, ni au désordre de notre utilisation des langues. L'ennemi philosophique profond de Bellos est ce qu'il appelle le "nomenclaturisme", "la notion que les mots sont essentiellement des noms" - une notion qui a été amplifiée dans notre ère moderne d'écriture : une conspiration de lexicographes. Cette idée fausse l'agace parce qu'elle est souvent utilisée pour soutenir l'idée que la traduction est impossible, puisque toutes les langues se composent en grande partie de mots qui n'ont pas d'équivalent unique et complet dans d'autres langues. Mais, écrit Bellos, "un terme simple comme 'tête', par exemple, ne peut être considéré comme le 'nom' d'une chose particulière. Il apparaît dans toutes sortes d'expressions". Et si aucun mot en français, par exemple, ne couvre toutes les connotations du mot "tête", sa signification "dans un usage particulier peut facilement être représentée dans une autre langue".

Cette idée fausse a toutefois une très longue histoire. Depuis que saint Jérôme a traduit la Bible en latin, le débat sur la traduction s'est dissous dans l'ineffable - la fameuse idée que chaque langue crée un monde mental essentiellement différent et que, par conséquent, toutes les traductions sont vouées à l'insuffisance philosophique. Dans la nouvelle proposition de Bellos, la traduction "présuppose au contraire... la non-pertinence de l'ineffable dans les actes de communication". En zigzaguant à travers des études de cas de bibles missionnaires ou de machines linguistiques de la guerre froide, Bellos élimine calmement cette vieille idée de l'ineffable, et ses effets malheureux.

On dit souvent, par exemple, qu'une traduction ne peut jamais être un substitut adéquat de l'original. Mais une traduction, écrit Bellos, n'essaie pas d'être identique à l'original, mais d'être comme lui. C'est pourquoi le duo conceptuel habituel de la traduction - la fidélité et le littéral - est trop maladroit. Ces idées dérivent simplement de l'anxiété déplacée qu'une traduction essaie d'être un substitut. Adolf Hitler/Fourreur ! Une traduction en anglais par "furrier" serait littéralement exacte ; ce serait cependant une ressemblance inadéquate.

En littérature, il existe un sous-ensemble connexe de cette anxiété : l'idée que le style - puisqu'il établit une relation si complexe entre la forme et le contenu - rend une œuvre d'art intraduisible. Mais là encore, cette mélancolie est mélodramatique. Il sera toujours possible, dans une traduction, de trouver de nouvelles relations entre le son et le sens qui soient d'un intérêt équivalent, voire phonétiquement identiques. Le style, comme une blague, a juste besoin de la découverte talentueuse d'équivalents. "Trouver une correspondance pour une blague et une correspondance pour un style", écrit Bellos, "sont deux exemples d'une aptitude plus générale que l'on pourrait appeler une aptitude à la correspondance de modèles".

La traduction, propose Bellos dans une déclaration sèchement explosive, plutôt que de fournir un substitut, "fournit pour une certaine communauté une correspondance acceptable pour une énonciation faite dans une langue étrangère." Ce qui rend cette correspondance acceptable variera en fonction de l'idée que se fait cette communauté des aspects d'un énoncé qui doivent être assortis de sa traduction. Après tout, "on ne peut pas s'attendre à ce qu'une traduction ressemble à sa source sur plus de quelques points précis". Une traduction ne peut donc pas être bonne ou mauvaise "à la manière d'une interrogation scolaire ou d'un relevé bancaire". Une traduction s'apparente davantage à un portrait à l'huile". Dans une traduction, comme dans toute forme d'art, la recherche est celle d'un signe équivalent.

Et pour les habitants de Londres ou de Los Angeles, ce démantèlement des mythes autour de la traduction a des implications particulières. Comme le souligne Bellos, ceux qui sont nés anglophones sont aujourd'hui une minorité de locuteurs de l'anglais : la plupart le parlent comme une deuxième langue. L'anglais est la plus grande interlangue du monde.

Je pense donc que deux perspectives peuvent être tirées de ce livre d'une inventivité éblouissante, et elles sont d'une ampleur réjouissante. Le premier concerne tous les anglophones. Google Translate, sans aucun doute, est un appareil à l'avenir prometteur. Il connaît déjà un tel succès parce que, contrairement aux traducteurs automatiques précédents, mais comme d'autres inventions de Google, il s'agit d'une machine à reconnaissance de formes. Il analyse le corpus des traductions existantes et trouve des correspondances statistiques. Je pense que les implications de ce phénomène n'ont pas encore été suffisamment explorées : des journaux mondiaux aux romans mondiaux... . . . Et cela m'a fait imaginer une deuxième perspective - limitée à un plus petit, hyper-sous-ensemble d'anglophones, les romanciers. Je suis un romancier anglophone, après tout. Je me suis dit qu'il n'y avait aucune raison pour que les traductions d'œuvres de fiction ne puissent pas être faites de manière beaucoup plus extensive dans et à partir de langues qui ne sont pas les langues d'origine de l'œuvre. Oui, j'ai commencé à caresser l'idée d'une future histoire du roman qui serait imprudemment internationale. En d'autres termes : il n'y aurait rien de mal, pensais-je, à rendre la traduction plus joyeuse.

Auteur: Thirlwell Adam

Info: https://www.nytimes.com/2011/10/30. A propos du livre : Le côté joyeux de la traduction, Faber & Faber Ed. Texte traduit à 90% par deepl.com/translator

Commenter

Commentaires: 0

Ajouté à la BD par miguel

biophysique

Lorsque le biologiste Tibor Gánti est décédé le 15 avril 2009, à l'âge de 75 ans, il était loin d'être connu. Une grande partie de sa carrière s'est déroulée derrière le rideau de fer qui a divisé l'Europe pendant des décennies, entravant les échanges d'idées.

Mais si les théories de Gánti avaient été plus largement connues à l'époque communiste, il pourrait aujourd'hui être acclamé comme l'un des biologistes les plus novateurs du XXe siècle. En effet, il a conçu un modèle d'organisme vivant le plus simple possible, qu'il a appelé le chimiotone ( Chemoton ) , et qui permet d'expliquer l'apparition de la vie sur Terre.

Pour les astrobiologistes qui s'intéressent à la vie au-delà de notre planète, le chimiotactisme offre une définition universelle de la vie, qui n'est pas liée à des substances chimiques spécifiques comme l'ADN, mais plutôt à un modèle d'organisation global.

"Il semble que Ganti a réfléchi aux fondements de la vie plus profondément que quiconque", déclare le biologiste Eörs Szathmáry, du Centre de recherche écologique de Tihany, en Hongrie.

Les débuts de la vie

Il n'existe pas de définition scientifique commune de la vie, mais ce n'est pas faute d'avoir essayé : Un article de 2012 a recensé 123 définitions publiées. Il est difficile d'en rédiger une qui englobe toute la vie tout en excluant tout ce qui n'est pas vivant et qui possède des attributs semblables à ceux de la vie, comme le feu et les voitures. De nombreuses définitions indiquent que les êtres vivants peuvent se reproduire. Mais un lapin, un être humain ou une baleine ne peuvent se reproduire seuls.

En 1994, un comité de la NASA a décrit la vie comme "un système chimique autonome capable d'une évolution darwinienne". Le mot "système" peut désigner un organisme individuel, une population ou un écosystème. Cela permet de contourner le problème de la reproduction, mais à un prix : l'imprécision.

(Photo : un cercle cellule contenant un autre cercle cellule en train de se dédoubler)

Fonctionnement du chimiotactisme. Ce modèle théorique de la forme de vie la plus simple nécessite trois mécanismes interdépendants :

a) un cycle métabolique, pour transformer la nourriture en énergie

b) la réplication des gabarits, pour la reproduction du modèle ;

c) une membrane, pour délimiter l'organisme.

Avec ce processus en 5 phases

1 Les molécules sont absorbées de l'environnement par le métabolisme

2 Le cycle métabolique produit d'abord des éléments pour renforcer sa menbrane

3 Le cylce métabolique use des molécules pour constituer sa réplique

4 La réplique produit une substance chimique qui est un composant clé de la membrane.

5 Les parties non utilisées des molécules sont éjectée à l'extérieur de la menbrane principale

Mais Tibor Ganti avait proposé une autre voie deux décennies plus tôt.

Il était né en 1933 dans la petite ville de Vác, dans le centre de la Hongrie. Ses débuts ayant été marqués par des conflits. La Hongrie s'est alliée à l'Allemagne nazie pendant la Seconde Guerre mondiale, mais en 1945, son armée a été vaincue par l'Union soviétique. Le régime totalitaire dominera l'Eurasie orientale pendant des décennies, la Hongrie devenant un État satellite, comme la plupart des autres pays d'Europe de l'Est.

Fasciné par la nature des êtres vivants, Gánti a étudié l'ingénierie chimique avant de devenir biochimiste industriel. En 1966, il a publié un livre sur la biologie moléculaire intitulé Forradalom az Élet Kutatásában, ou Révolution dans la recherche sur la vie, qui est resté pendant des années un manuel universitaire dominant, en partie parce qu'il n'y en avait pas beaucoup d'autres. L'ouvrage posait la question de savoir si la science comprenait comment la vie était organisée et concluait que ce n'était pas le cas.

En 1971, Gánti aborda le problème de front dans un nouveau livre, Az Élet Princípiuma, ou Les principes de la vie. Publié uniquement en hongrois, ce livre contient la première version de son modèle de chimiotactisme, qui décrit ce qu'il considère comme l'unité fondamentale de la vie. Toutefois, ce premier modèle d'organisme était incomplet et il lui a fallu trois années supplémentaires pour publier ce qui est aujourd'hui considéré comme la version définitive, toujours en hongrois, dans un document qui n'est pas disponible en ligne.

L'année du miracle

Globalement, 1971 a été une année faste pour la recherche sur l'origine de la vie. Outre les travaux de Gánti, la science a proposé deux autres modèles théoriques importants.

Le premier est celui du biologiste théoricien américain Stuart Kauffman, qui soutient que les organismes vivants doivent être capables de se copier eux-mêmes. En spéculant sur la manière dont cela aurait pu fonctionner avant la formation des cellules, il s'est concentré sur les mélanges de produits chimiques.

Supposons que le produit chimique A entraîne la formation du produit chimique B, qui entraîne à son tour la formation du produit chimique C, et ainsi de suite, jusqu'à ce qu'un élément de la chaîne produise une nouvelle version du produit chimique A. Après un cycle, il existera deux copies de chaque ensemble de produits chimiques. Si les matières premières sont suffisantes, un autre cycle produira quatre copies et continuera de manière exponentielle.

Kauffman a appelé un tel groupe un "ensemble autocatalytique" et il a soutenu que de tels groupes de produits chimiques auraient pu constituer la base de la première vie, les ensembles devenant plus complexes jusqu'à ce qu'ils produisent et utilisent une série de molécules complexes, telles que l'ADN.

Dans la seconde idée, le chimiste allemand Manfred Eigen a décrit ce qu'il a appelé un "hypercycle", dans lequel plusieurs ensembles autocatalytiques se combinent pour en former un seul plus grand. La variante d'Eigen introduit une distinction cruciale : Dans un hypercycle, certains des produits chimiques sont des gènes et sont donc constitués d'ADN ou d'un autre acide nucléique, tandis que d'autres sont des protéines fabriquées sur mesure en fonction des informations contenues dans les gènes. Ce système pourrait évoluer en fonction des changements - mutations - dans les gènes, une fonction qui manquait au modèle de Kauffman.

Gánti était arrivé indépendamment à une notion similaire, mais il l'a poussée encore plus loin. Selon lui, deux processus clés doivent se dérouler dans chaque organisme vivant. Premièrement, il doit construire et entretenir son corps, c'est-à-dire qu'il a besoin d'un métabolisme. Deuxièmement, il doit disposer d'une sorte de système de stockage de l'information, tel qu'un ou plusieurs gènes, qui peuvent être copiés et transmis à la descendance.

La première version du modèle de Gánti consistait essentiellement en deux ensembles autocatalytiques aux fonctions distinctes qui se combinaient pour former un ensemble autocatalytique plus important, ce qui n'est pas si différent de l'hypercycle d'Eigen. Cependant, l'année suivante, Gánti a été interrogé par un journaliste qui a mis en évidence une faille importante. Gánti supposait que les deux systèmes étaient basés sur des produits chimiques flottant dans l'eau. Or, laissés à eux-mêmes, ils s'éloigneraient les uns des autres et le chimiotone "mourrait".

La seule solution était d'ajouter un troisième système : une barrière extérieure pour les contenir. Dans les cellules vivantes, cette barrière est une membrane composée de substances chimiques ressemblant à des graisses, appelées lipides. Le chimiotone devait posséder une telle barrière pour se maintenir, et Gánti en a conclu qu'il devait également être autocatalytique pour pouvoir se maintenir et croître.

Voici enfin le chimiotone complet, le concept de Gánti de l'organisme vivant le plus simple possible : gènes, métabolisme et membrane, tous liés. Le métabolisme produit des éléments de construction pour les gènes et la membrane, et les gènes exercent une influence sur la membrane. Ensemble, ils forment une unité autoreproductible : une cellule si simple qu'elle pourrait non seulement apparaître avec une relative facilité sur Terre, mais qu'elle pourrait même rendre compte de biochimies alternatives sur des mondes extraterrestres.

Un modèle oublié

"Gánti a très bien saisi la vie", déclare le biologiste synthétique Nediljko Budisa, de l'université du Manitoba à Winnipeg, au Canada. "Sa lecture a été une révélation. Cependant, Budisa n'a découvert le travail de Gánti que vers 2005. En dehors de l'Europe de l'Est, l'ouvrage est resté obscur pendant des décennies, avec seulement quelques traductions anglaises sur le marché.

Le chimiotactisme est apparu en anglais en 1987, dans un livre de poche avec une traduction assez approximative, explique James Griesemer, de l'université de Californie, à Davis. Peu de gens l'ont remarqué. Szathmáry a ensuite donné au chimiotone une place de choix dans son livre de 1995, The Major Transitions in Evolution, coécrit avec John Maynard Smith. Cela a conduit à une nouvelle traduction anglaise du livre de Gánti de 1971, avec du matériel supplémentaire, publiée en 2003. Mais le chimiotone est resté dans une niche, et six ans plus tard, Gánti est mort.

Dans une certaine mesure, Gánti n'a pas aidé son modèle à s'imposer : il était connu pour être un collègue difficile. Selon Szathmáry, Gánti était obstinément attaché à son modèle, et paranoïaque de surcroît, ce qui le rendait "impossible à travailler".

Mais le plus gros problème du modèle chimiotactique est peut-être que, dans les dernières décennies du XXe siècle, la tendance de la recherche était de supprimer la complexité de la vie au profit d'approches de plus en plus minimalistes.

Par exemple, l'une des hypothèses les plus en vogue aujourd'hui est que la vie a commencé uniquement avec l'ARN, un proche cousin de l'ADN.

Comme son parent moléculaire plus célèbre, l'ARN peut porter des gènes. Mais l'ARN peut aussi agir comme une enzyme et accélérer les réactions chimiques, ce qui a conduit de nombreux experts à affirmer que la première vie n'avait besoin que d'ARN pour démarrer. Cependant, cette hypothèse du monde de l'ARN a été repoussée, notamment parce que la science n'a pas trouvé de type d'ARN capable de se copier sans aide - pensons aux virus à ARN comme le coronavirus, qui ont besoin de cellules humaines pour se reproduire.

D'autres chercheurs ont soutenu que la vie a commencé avec des protéines et rien d'autre, ou des lipides et rien d'autre. Ces idées sont très éloignées de l'approche intégrée de Gánti.

Un véritable chimiotactisme ?

Cependant, les scientifiques de ce siècle ont inversé la tendance. Les chercheurs ont désormais tendance à mettre l'accent sur la façon dont les substances chimiques de la vie fonctionnent ensemble et sur la manière dont ces réseaux coopératifs ont pu émerger.

Depuis 2003, Jack Szostak, de la Harvard Medical School, et ses collègues ont construit des protocellules de plus en plus réalistes : des versions simples de cellules contenant une série de substances chimiques. Ces protocellules peuvent croître et se diviser, ce qui signifie qu'elles peuvent s'autoreproduire.

En 2013, Szostak et Kate Adamala, alors étudiante, ont persuadé l'ARN de se copier à l'intérieur d'une protocellule. De plus, les gènes et la membrane peuvent être couplés : lorsque l'ARN s'accumule à l'intérieur, il exerce une pression sur la membrane extérieure, ce qui encourage la protocellule à s'agrandir.

Les recherches de Szostak "ressemblent beaucoup à celles de Gánti", déclare Petra Schwille, biologiste synthétique à l'Institut Max Planck de biochimie de Martinsried, en Allemagne. Elle souligne également les travaux de Taro Toyota, de l'université de Tokyo au Japon, qui a fabriqué des lipides à l'intérieur d'une protocellule, de sorte que celle-ci puisse développer sa propre membrane.

L'un des arguments avancés contre l'idée d'un chimiotone comme première forme de vie est qu'il nécessite un grand nombre de composants chimiques, notamment des acides nucléiques, des protéines et des lipides. De nombreux experts ont estimé qu'il était peu probable que ces substances chimiques soient toutes issues des mêmes matériaux de départ au même endroit, d'où l'attrait d'idées simples comme celle du monde de l'ARN.

Mais des biochimistes ont récemment trouvé des preuves que toutes les substances chimiques clés de la vie peuvent se former à partir des mêmes matériaux de départ simples. Dans une étude publiée en septembre, des chercheurs dirigés par Sara Szymkuć, alors à l'Académie polonaise des sciences à Varsovie, ont compilé une base de données à partir de décennies d'expériences visant à fabriquer les éléments chimiques de base de la vie. En partant de six produits chimiques simples, comme l'eau et le méthane, Szymkuć a découvert qu'il était possible de fabriquer des dizaines de milliers d'ingrédients clés, y compris les composants de base des protéines et de l'ARN.

Aucune de ces expériences n'a encore permis de construire un chimiotone fonctionnel. C'est peut-être simplement parce que c'est difficile, ou parce que la formulation exacte de Gánti ne correspond pas tout à fait à la façon dont la première vie a fonctionné. Quoi qu'il en soit, le chimiotone nous permet de réfléchir à la manière dont les composants de la vie fonctionnent ensemble, ce qui oriente de plus en plus les approches actuelles visant à comprendre comment la vie est apparue.

Il est révélateur, ajoute Szathmáry, que les citations des travaux de Gánti s'accumulent rapidement. Même si les détails exacts diffèrent, les approches actuelles de l'origine de la vie sont beaucoup plus proches de ce qu'il avait à l'esprit - une approche intégrée qui ne se concentre pas sur un seul des systèmes clés de la vie.

"La vie n'est pas une protéine, la vie n'est pas un ARN, la vie n'est pas une bicouche lipidique", explique M. Griesemer. "Qu'est-ce que c'est ? C'est l'ensemble de ces éléments reliés entre eux selon la bonne organisation.

Auteur: Internet

Info: https://www.nationalgeographic.com, 14 déc. 2020, par Michael Marshall

[ origine du vivant ] [ mécanisme ] [ matérialisme ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

homme-machine

Les grands modèles de langage tels que ChatGPT sont aujourd'hui suffisamment importants pour commencer à afficher des comportements surprenants et imprévisibles.

Quel film ces emojis décrivent-ils ? (On voit une vidéo qui présente des myriades d'émoji formant des motifs mouvants, modélisés à partir de métadonnées)

Cette question était l'une des 204 tâches choisies l'année dernière pour tester la capacité de divers grands modèles de langage (LLM) - les moteurs de calcul derrière les chatbots d'IA tels que ChatGPT. Les LLM les plus simples ont produit des réponses surréalistes. "Le film est un film sur un homme qui est un homme qui est un homme", commençait l'un d'entre eux. Les modèles de complexité moyenne s'en sont approchés, devinant The Emoji Movie. Mais le modèle le plus complexe l'a emporté en une seule réponse : Finding Nemo.

"Bien que j'essaie de m'attendre à des surprises, je suis surpris par ce que ces modèles peuvent faire", a déclaré Ethan Dyer, informaticien chez Google Research, qui a participé à l'organisation du test. C'est surprenant parce que ces modèles sont censés n'avoir qu'une seule directive : accepter une chaîne de texte en entrée et prédire ce qui va suivre, encore et encore, en se basant uniquement sur des statistiques. Les informaticiens s'attendaient à ce que le passage à l'échelle permette d'améliorer les performances sur des tâches connues, mais ils ne s'attendaient pas à ce que les modèles puissent soudainement gérer autant de tâches nouvelles et imprévisibles.

Des études récentes, comme celle à laquelle a participé M. Dyer, ont révélé que les LLM peuvent produire des centaines de capacités "émergentes", c'est-à-dire des tâches que les grands modèles peuvent accomplir et que les petits modèles ne peuvent pas réaliser, et dont beaucoup ne semblent pas avoir grand-chose à voir avec l'analyse d'un texte. Ces tâches vont de la multiplication à la génération d'un code informatique exécutable et, apparemment, au décodage de films à partir d'emojis. De nouvelles analyses suggèrent que pour certaines tâches et certains modèles, il existe un seuil de complexité au-delà duquel la fonctionnalité du modèle monte en flèche. (Elles suggèrent également un sombre revers de la médaille : À mesure qu'ils gagnent en complexité, certains modèles révèlent de nouveaux biais et inexactitudes dans leurs réponses).

"Le fait que les modèles de langage puissent faire ce genre de choses n'a jamais été abordé dans la littérature à ma connaissance", a déclaré Rishi Bommasani, informaticien à l'université de Stanford. L'année dernière, il a participé à la compilation d'une liste de dizaines de comportements émergents, dont plusieurs ont été identifiés dans le cadre du projet de M. Dyer. Cette liste continue de s'allonger.

Aujourd'hui, les chercheurs s'efforcent non seulement d'identifier d'autres capacités émergentes, mais aussi de comprendre pourquoi et comment elles se manifestent - en somme, d'essayer de prédire l'imprévisibilité. La compréhension de l'émergence pourrait apporter des réponses à des questions profondes concernant l'IA et l'apprentissage automatique en général, comme celle de savoir si les modèles complexes font vraiment quelque chose de nouveau ou s'ils deviennent simplement très bons en statistiques. Elle pourrait également aider les chercheurs à exploiter les avantages potentiels et à limiter les risques liés à l'émergence.

"Nous ne savons pas comment déterminer dans quel type d'application la capacité de nuisance va se manifester, que ce soit en douceur ou de manière imprévisible", a déclaré Deep Ganguli, informaticien à la startup d'IA Anthropic.

L'émergence de l'émergence

Les biologistes, les physiciens, les écologistes et d'autres scientifiques utilisent le terme "émergent" pour décrire l'auto-organisation, les comportements collectifs qui apparaissent lorsqu'un grand nombre d'éléments agissent comme un seul. Des combinaisons d'atomes sans vie donnent naissance à des cellules vivantes ; les molécules d'eau créent des vagues ; des murmurations d'étourneaux s'élancent dans le ciel selon des schémas changeants mais identifiables ; les cellules font bouger les muscles et battre les cœurs. Il est essentiel que les capacités émergentes se manifestent dans les systèmes qui comportent de nombreuses parties individuelles. Mais ce n'est que récemment que les chercheurs ont été en mesure de documenter ces capacités dans les LLM, car ces modèles ont atteint des tailles énormes.

Les modèles de langage existent depuis des décennies. Jusqu'à il y a environ cinq ans, les plus puissants étaient basés sur ce que l'on appelle un réseau neuronal récurrent. Ceux-ci prennent essentiellement une chaîne de texte et prédisent le mot suivant. Ce qui rend un modèle "récurrent", c'est qu'il apprend à partir de ses propres résultats : Ses prédictions sont réinjectées dans le réseau afin d'améliorer les performances futures.

En 2017, les chercheurs de Google Brain ont introduit un nouveau type d'architecture appelé "transformateur". Alors qu'un réseau récurrent analyse une phrase mot par mot, le transformateur traite tous les mots en même temps. Cela signifie que les transformateurs peuvent traiter de grandes quantités de texte en parallèle.

Les transformateurs ont permis d'augmenter rapidement la complexité des modèles de langage en augmentant le nombre de paramètres dans le modèle, ainsi que d'autres facteurs. Les paramètres peuvent être considérés comme des connexions entre les mots, et les modèles s'améliorent en ajustant ces connexions au fur et à mesure qu'ils parcourent le texte pendant l'entraînement. Plus il y a de paramètres dans un modèle, plus il peut établir des connexions avec précision et plus il se rapproche d'une imitation satisfaisante du langage humain. Comme prévu, une analyse réalisée en 2020 par les chercheurs de l'OpenAI a montré que les modèles gagnent en précision et en capacité au fur et à mesure qu'ils s'étendent.

Mais les débuts des LLM ont également apporté quelque chose de vraiment inattendu. Beaucoup de choses. Avec l'avènement de modèles tels que le GPT-3, qui compte 175 milliards de paramètres, ou le PaLM de Google, qui peut être étendu à 540 milliards de paramètres, les utilisateurs ont commencé à décrire de plus en plus de comportements émergents. Un ingénieur de DeepMind a même rapporté avoir pu convaincre ChatGPT qu'il s'était lui-même un terminal Linux et l'avoir amené à exécuter un code mathématique simple pour calculer les 10 premiers nombres premiers. Fait remarquable, il a pu terminer la tâche plus rapidement que le même code exécuté sur une vraie machine Linux.

Comme dans le cas du film emoji, les chercheurs n'avaient aucune raison de penser qu'un modèle de langage conçu pour prédire du texte imiterait de manière convaincante un terminal d'ordinateur. Nombre de ces comportements émergents illustrent l'apprentissage "à zéro coup" ou "à quelques coups", qui décrit la capacité d'un LLM à résoudre des problèmes qu'il n'a jamais - ou rarement - vus auparavant. Selon M. Ganguli, il s'agit là d'un objectif de longue date dans la recherche sur l'intelligence artificielle. Le fait de montrer que le GPT-3 pouvait résoudre des problèmes sans aucune donnée d'entraînement explicite dans un contexte d'apprentissage à zéro coup m'a amené à abandonner ce que je faisais et à m'impliquer davantage", a-t-il déclaré.

Il n'était pas le seul. Une série de chercheurs, qui ont détecté les premiers indices montrant que les LLM pouvaient dépasser les contraintes de leurs données d'apprentissage, s'efforcent de mieux comprendre à quoi ressemble l'émergence et comment elle se produit. La première étape a consisté à documenter minutieusement l'émergence.

Au-delà de l'imitation

En 2020, M. Dyer et d'autres chercheurs de Google Research ont prédit que les LLM auraient des effets transformateurs, mais la nature de ces effets restait une question ouverte. Ils ont donc demandé à la communauté des chercheurs de fournir des exemples de tâches difficiles et variées afin de déterminer les limites extrêmes de ce qu'un LLM pourrait faire. Cet effort a été baptisé "Beyond the Imitation Game Benchmark" (BIG-bench), en référence au nom du "jeu d'imitation" d'Alan Turing, un test visant à déterminer si un ordinateur peut répondre à des questions d'une manière humaine convaincante. (Le groupe s'est particulièrement intéressé aux exemples où les LLM ont soudainement acquis de nouvelles capacités qui étaient totalement absentes auparavant.

"La façon dont nous comprenons ces transitions brutales est une grande question de la echerche", a déclaré M. Dyer.

Comme on pouvait s'y attendre, pour certaines tâches, les performances d'un modèle se sont améliorées de manière régulière et prévisible au fur et à mesure que la complexité augmentait. Pour d'autres tâches, l'augmentation du nombre de paramètres n'a apporté aucune amélioration. Mais pour environ 5 % des tâches, les chercheurs ont constaté ce qu'ils ont appelé des "percées", c'est-à-dire des augmentations rapides et spectaculaires des performances à partir d'un certain seuil d'échelle. Ce seuil variant en fonction de la tâche et du modèle.

Par exemple, les modèles comportant relativement peu de paramètres - quelques millions seulement - n'ont pas réussi à résoudre des problèmes d'addition à trois chiffres ou de multiplication à deux chiffres, mais pour des dizaines de milliards de paramètres, la précision a grimpé en flèche dans certains modèles. Des sauts similaires ont été observés pour d'autres tâches, notamment le décodage de l'alphabet phonétique international, le décodage des lettres d'un mot, l'identification de contenu offensant dans des paragraphes d'hinglish (combinaison d'hindi et d'anglais) et la formulation d'équivalents en langue anglaise, traduit à partir de proverbes kiswahili.

Introduction

Mais les chercheurs se sont rapidement rendu compte que la complexité d'un modèle n'était pas le seul facteur déterminant. Des capacités inattendues pouvaient être obtenues à partir de modèles plus petits avec moins de paramètres - ou formés sur des ensembles de données plus petits - si les données étaient d'une qualité suffisamment élevée. En outre, la formulation d'une requête influe sur la précision de la réponse du modèle. Par exemple, lorsque Dyer et ses collègues ont posé la question de l'emoji de film en utilisant un format à choix multiples, l'amélioration de la précision a été moins soudaine qu'avec une augmentation graduelle de sa complexité. L'année dernière, dans un article présenté à NeurIPS, réunion phare du domaine, des chercheurs de Google Brain ont montré comment un modèle invité à s'expliquer (capacité appelée raisonnement en chaîne) pouvait résoudre correctement un problème de mots mathématiques, alors que le même modèle sans cette invitation progressivement précisée n'y parvenait pas.

Yi Tay, scientifique chez Google Brain qui a travaillé sur l'étude systématique de ces percées, souligne que des travaux récents suggèrent que l'incitation par de pareilles chaînes de pensées modifie les courbes d'échelle et, par conséquent, le point où l'émergence se produit. Dans leur article sur NeurIPS, les chercheurs de Google ont montré que l'utilisation d'invites via pareille chaines de pensée progressives pouvait susciter des comportements émergents qui n'avaient pas été identifiés dans l'étude BIG-bench. De telles invites, qui demandent au modèle d'expliquer son raisonnement, peuvent aider les chercheurs à commencer à étudier les raisons pour lesquelles l'émergence se produit.

Selon Ellie Pavlick, informaticienne à l'université Brown qui étudie les modèles computationnels du langage, les découvertes récentes de ce type suggèrent au moins deux possibilités pour expliquer l'émergence. La première est que, comme le suggèrent les comparaisons avec les systèmes biologiques, les grands modèles acquièrent réellement de nouvelles capacités de manière spontanée. "Il se peut très bien que le modèle apprenne quelque chose de fondamentalement nouveau et différent que lorsqu'il était de taille inférieure", a-t-elle déclaré. "C'est ce que nous espérons tous, qu'il y ait un changement fondamental qui se produise lorsque les modèles sont mis à l'échelle.

L'autre possibilité, moins sensationnelle, est que ce qui semble être émergent pourrait être l'aboutissement d'un processus interne, basé sur les statistiques, qui fonctionne par le biais d'un raisonnement de type chaîne de pensée. Les grands LLM peuvent simplement être en train d'apprendre des heuristiques qui sont hors de portée pour ceux qui ont moins de paramètres ou des données de moindre qualité.

Mais, selon elle, pour déterminer laquelle de ces explications est la plus probable, il faut mieux comprendre le fonctionnement des LLM. "Comme nous ne savons pas comment ils fonctionnent sous le capot, nous ne pouvons pas dire laquelle de ces choses se produit.

Pouvoirs imprévisibles et pièges

Demander à ces modèles de s'expliquer pose un problème évident : Ils sont des menteurs notoires. Nous nous appuyons de plus en plus sur ces modèles pour effectuer des travaux de base", a déclaré M. Ganguli, "mais je ne me contente pas de leur faire confiance, je vérifie leur travail". Parmi les nombreux exemples amusants, Google a présenté en février son chatbot d'IA, Bard. Le billet de blog annonçant le nouvel outil montre Bard en train de commettre une erreur factuelle.

L'émergence mène à l'imprévisibilité, et l'imprévisibilité - qui semble augmenter avec l'échelle - rend difficile pour les chercheurs d'anticiper les conséquences d'une utilisation généralisée.

"Il est difficile de savoir à l'avance comment ces modèles seront utilisés ou déployés", a déclaré M. Ganguli. "Et pour étudier les phénomènes émergents, il faut avoir un cas en tête, et on ne sait pas, avant d'avoir étudié l'influence de l'échelle. quelles capacités ou limitations pourraient apparaître.

Dans une analyse des LLM publiée en juin dernier, les chercheurs d'Anthropic ont cherché à savoir si les modèles présentaient certains types de préjugés raciaux ou sociaux, à l'instar de ceux précédemment signalés dans les algorithmes non basés sur les LLM utilisés pour prédire quels anciens criminels sont susceptibles de commettre un nouveau délit. Cette étude a été inspirée par un paradoxe apparent directement lié à l'émergence : Lorsque les modèles améliorent leurs performances en passant à l'échelle supérieure, ils peuvent également augmenter la probabilité de phénomènes imprévisibles, y compris ceux qui pourraient potentiellement conduire à des biais ou à des préjudices.

"Certains comportements nuisibles apparaissent brusquement dans certains modèles", explique M. Ganguli. Il se réfère à une analyse récente des LLM, connue sous le nom de BBQ benchmark, qui a montré que les préjugés sociaux émergent avec un très grand nombre de paramètres. "Les grands modèles deviennent brusquement plus biaisés. Si ce risque n'est pas pris en compte, il pourrait compromettre les sujets de ces modèles."

Mais il propose un contrepoint : Lorsque les chercheurs demandent simplement au modèle de ne pas se fier aux stéréotypes ou aux préjugés sociaux - littéralement en tapant ces instructions - le modèle devient moins biaisé dans ses prédictions et ses réponses. Ce qui suggère que certaines propriétés émergentes pourraient également être utilisées pour réduire les biais. Dans un article publié en février, l'équipe d'Anthropic a présenté un nouveau mode d'"autocorrection morale", dans lequel l'utilisateur incite le programme à être utile, honnête et inoffensif.

Selon M. Ganguli, l'émergence révèle à la fois un potentiel surprenant et un risque imprévisible. Les applications de ces grands LLM prolifèrent déjà, de sorte qu'une meilleure compréhension de cette interaction permettra d'exploiter la diversité des capacités des modèles de langage.

"Nous étudions la manière dont les gens utilisent réellement ces systèmes", a déclaré M. Ganguli. Mais ces utilisateurs sont également en train de bricoler, en permanence. "Nous passons beaucoup de temps à discuter avec nos modèles, et c'est là que nous commençons à avoir une bonne intuition de la confiance ou du manque de confiance.

Auteur: Ornes Stephen

Info: https://www.quantamagazine.org/ - 16 mars 2023. Trad DeepL et MG

[ dialogue ] [ apprentissage automatique ] [ au-delà du jeu d'imitation ] [ dualité ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

intelligence artificielle

Apprendre l'anglais n'est pas une tâche facile, comme le savent d'innombrables étudiants. Mais lorsque l'étudiant est un ordinateur, une approche fonctionne étonnamment bien : Il suffit d'alimenter un modèle mathématique géant, appelé réseau neuronal, avec des montagnes de textes provenant d'Internet. C'est le principe de fonctionnement des modèles linguistiques génératifs tels que ChatGPT d'OpenAI, dont la capacité à tenir une conversation cohérente (à défaut d'être toujours sincère) sur un large éventail de sujets a surpris les chercheurs et le public au cours de l'année écoulée.

Mais cette approche présente des inconvénients. D'une part, la procédure de "formation" nécessaire pour transformer de vastes archives textuelles en modèles linguistiques de pointe est coûteuse et prend beaucoup de temps. D'autre part, même les personnes qui forment les grands modèles linguistiques ont du mal à comprendre leur fonctionnement interne, ce qui, à son tour, rend difficile la prévision des nombreuses façons dont ils peuvent échouer.

Face à ces difficultés, certains chercheurs ont choisi d'entraîner des modèles plus petits sur des ensembles de données plus restreints, puis d'étudier leur comportement. "C'est comme le séquençage du génome de la drosophile par rapport au séquençage du génome humain", explique Ellie Pavlick, chercheuse sur les modèles de langage à l'université de Brown.

Dans un article récemment publié sur le serveur scientifique arxiv.org, deux chercheurs de Microsoft ont présenté une nouvelle méthode pour former de minuscules modèles de langage : Les élever avec un régime strict d'histoires pour enfants.

RÉSEAUX NEURONAUX

Des chercheurs acquièrent une nouvelle compréhension à partir d'une simple IA

Les chercheurs en apprentissage automatique ont compris cette leçon. GPT-3.5, le grand modèle linguistique qui alimente l'interface ChatGPT, compte près de 200 milliards de paramètres et a été entraîné sur un ensemble de données comprenant des centaines de milliards de mots (OpenAI n'a pas publié les chiffres correspondants pour son successeur, GPT-4). L'entraînement de modèles aussi vastes nécessite généralement au moins 1 000 processeurs spécialisés, appelés GPU, fonctionnant en parallèle pendant des semaines. Seules quelques entreprises peuvent réunir les ressources nécessaires, sans parler de l'entraînement et de la comparaison de différents modèles.

Les deux chercheurs ont montré que des modèles linguistiques des milliers de fois plus petits que les systèmes de pointe actuels apprenaient rapidement à raconter des histoires cohérentes et grammaticalement justes lorsqu'ils étaient formés de cette manière. Leurs résultats indiquent de nouvelles pistes de recherche qui pourraient être utiles pour former des modèles plus importants et comprendre leur comportement.

"J'ai trouvé tout ça très instructif", a déclaré Chandra Bhagavatula, chercheur sur les modèles de langage à l'Allen Institute for Artificial Intelligence de Seattle. "Le concept lui-même est très intéressant.

Il était une fois

Les réseaux neuronaux au cœur des modèles de langage sont des structures mathématiques vaguement inspirées du cerveau humain. Chacun d'entre eux contient de nombreux neurones artificiels disposés en couches, avec des connexions entre les neurones des couches adjacentes. Le comportement du réseau neuronal est régi par la force de ces connexions, appelées paramètres. Dans un modèle linguistique, les paramètres contrôlent les mots que le modèle peut produire ensuite, compte tenu d'une invite initiale et des mots qu'il a déjà générés.

Un modèle ne prend véritablement vie qu'au cours de la formation, lorsqu'il compare de manière répétée ses propres résultats au texte de son ensemble de données de formation et qu'il ajuste ses paramètres afin d'accroître la ressemblance. Un réseau non entraîné avec des paramètres aléatoires est trivialement facile à assembler à partir de quelques lignes de code, mais il ne produira que du charabia. Après l'entraînement, il peut souvent poursuivre de manière plausible un texte peu familier. Les modèles de plus grande taille sont souvent soumis à des réglages plus fins qui leur apprennent à répondre à des questions et à suivre des instructions, mais l'essentiel de la formation consiste à maîtriser la prédiction des mots.

Pour réussir à prédire des mots, un modèle linguistique doit maîtriser de nombreuses compétences différentes. Par exemple, les règles de la grammaire anglaise suggèrent que le mot suivant le mot "going" sera probablement "to", quel que soit le sujet du texte. En outre, un système a besoin de connaissances factuelles pour compléter "la capitale de la France est", et compléter un passage contenant le mot "not" nécessite une connaissance rudimentaire de la logique.

"Le langage brut est très compliqué", explique Timothy Nguyen, chercheur en apprentissage automatique chez DeepMind. "Pour que des capacités linguistiques intéressantes apparaissent, les gens ont eu recours à l'idée que plus il y a de données, mieux c'est".

(photo) Ronen Eldan s'est rendu compte qu'il pouvait utiliser les histoires d'enfants générées par de grands modèles linguistiques pour en entraîner rapidement de plus petits.

Introduction

Ronen Eldan, mathématicien qui a rejoint Microsoft Research en 2022 pour étudier les modèles de langage génératifs, souhaitait développer un moyen moins coûteux et plus rapide d'explorer leurs capacités. Le moyen naturel d'y parvenir était d'utiliser un petit ensemble de données, ce qui signifiait qu'il devait entraîner les modèles à se spécialiser dans une tâche spécifique, afin qu'ils ne s'éparpillent pas. Au départ, il voulait entraîner les modèles à résoudre une certaine catégorie de problèmes mathématiques, mais un après-midi, après avoir passé du temps avec sa fille de 5 ans, il s'est rendu compte que les histoires pour enfants convenaient parfaitement. "L'idée m'est venue littéralement après lui avoir lu une histoire", a-t-il déclaré.

Pour générer des histoires cohérentes pour les enfants, un modèle de langage devrait apprendre des faits sur le monde, suivre les personnages et les événements, et observer les règles de grammaire - des versions plus simples des défis auxquels sont confrontés les grands modèles. Mais les grands modèles formés sur des ensembles de données massives apprennent d'innombrables détails non pertinents en même temps que les règles qui comptent vraiment. Eldan espérait que la brièveté et le vocabulaire limité des histoires pour enfants rendraient l'apprentissage plus gérable pour les petits modèles, ce qui les rendrait à la fois plus faciles à former et plus faciles à comprendre.

Dans le monde des modèles de langage, cependant, le terme "petit" est relatif : Un ensemble de données mille fois plus petit que celui utilisé pour former GPT-3.5 devrait encore contenir des millions d'histoires. "Je ne sais pas combien d'argent vous voulez dépenser, mais je suppose que vous n'allez pas engager des professionnels pour écrire quelques millions de nouvelles", a déclaré M. Nguyen.

Il faudrait un auteur extraordinairement prolifique pour satisfaire des lecteurs aussi voraces, mais Eldan avait quelques candidats en tête. Qui peut mieux écrire pour un public de petits modèles linguistiques que pour de grands modèles ?

Toys stories

Eldan a immédiatement entrepris de créer une bibliothèque d'histoires synthétiques pour enfants générées par de grands modèles linguistiques. Mais il a rapidement découvert que même les modèles de pointe ne sont pas naturellement très créatifs. Si l'on demande à GPT-4 d'écrire des histoires adaptées à des enfants de 4 ans, explique Eldan, "environ un cinquième des histoires concernera des enfants qui vont au parc et qui ont peur des toboggans". C'est apparemment la quintessence des histoires pour enfants d'âge préscolaire, selon l'Internet.

La solution a consisté à ajouter un peu d'aléatoire dans le message. Tout d'abord, Eldan a utilisé le GPT-4 pour générer une liste de 1 500 noms, verbes et adjectifs qu'un enfant de 4 ans pourrait connaître - suffisamment courte pour qu'il puisse facilement la vérifier lui-même. Il a ensuite écrit un programme informatique simple qui demanderait à plusieurs reprises à GPT-3.5 ou à GPT-4 de générer une histoire adaptée à l'âge de l'enfant, comprenant trois mots aléatoires de la liste, ainsi qu'un détail supplémentaire choisi au hasard, comme une fin heureuse ou un rebondissement de l'intrigue. Les histoires obtenues, heureusement, étaient moins axées sur des diapositives effrayantes.

Eldan disposait désormais d'une procédure pour produire des données de formation à la demande, mais il n'avait aucune idée du nombre d'histoires dont il aurait besoin pour former un modèle fonctionnel, ni de la taille de ce modèle. C'est alors qu'il s'est associé à Yuanzhi Li, chercheur en apprentissage automatique chez Microsoft et à l'université Carnegie Mellon, pour essayer différentes possibilités, en tirant parti du fait que les petits modèles peuvent être formés très rapidement. La première étape consistait à décider comment évaluer leurs modèles.

Introduction

Dans la recherche sur les modèles de langage - comme dans toute salle de classe - la notation est un sujet délicat. Il n'existe pas de rubrique parfaite qui englobe tout ce que les chercheurs veulent savoir, et les modèles qui excellent dans certaines tâches échouent souvent de manière spectaculaire dans d'autres. Au fil du temps, les chercheurs ont mis au point divers critères de référence standard basés sur des questions dont les réponses ne sont pas ambiguës, ce qui est une bonne approche si vous essayez d'évaluer des compétences spécifiques. Mais Eldan et Li se sont intéressés à quelque chose de plus nébuleux : quelle doit être la taille réelle des modèles linguistiques si l'on simplifie le langage autant que possible ?

"Pour vérifier directement si le modèle parle anglais, je pense que la seule chose à faire est de laisser le modèle générer de l'anglais de manière ouverte", a déclaré M. Eldan.

Il n'y a que deux façons de mesurer les performances d'un modèle sur des questions aussi qualitatives : S'appuyer sur des évaluateurs humains ou se tourner à nouveau vers le GPT-4. Les deux chercheurs ont opté pour cette dernière solution, laissant les grands modèles à la fois rédiger les manuels et noter les dissertations.

Bhagavatula a déclaré qu'il aurait aimé voir comment les évaluations de GPT-4 se comparaient à celles des correcteurs humains - GPT-4 peut être biaisé en faveur des modèles qu'il a aidé à former, et l'opacité des modèles de langage rend difficile la quantification de tels biais. Mais il ne pense pas que de telles subtilités affecteraient les comparaisons entre différents modèles formés sur des ensembles similaires d'histoires synthétiques - l'objectif principal du travail d'Eldan et Li.

Eldan et Li ont utilisé une procédure en deux étapes pour évaluer chacun de leurs petits modèles après la formation. Tout d'abord, ils ont présenté au petit modèle la première moitié d'une histoire distincte de celles de l'ensemble des données d'apprentissage, de manière à ce qu'il génère une nouvelle fin, en répétant ce processus avec 50 histoires de test différentes. Ensuite, ils ont demandé à GPT-4 d'évaluer chacune des fins du petit modèle en fonction de trois catégories : créativité, grammaire et cohérence avec le début de l'histoire. Ils ont ensuite fait la moyenne des notes obtenues dans chaque catégorie, obtenant ainsi trois notes finales par modèle.

Avec cette procédure en main, Eldan et Li étaient enfin prêts à comparer les différents modèles et à découvrir quels étaient les étudiants les plus brillants.

Résultats des tests

Après quelques explorations préliminaires, les deux chercheurs ont opté pour un ensemble de données de formation contenant environ 2 millions d'histoires. Ils ont ensuite utilisé cet ensemble de données, baptisé TinyStories, pour entraîner des modèles dont la taille varie de 1 million à 30 millions de paramètres, avec un nombre variable de couches. Le travail a été rapide : En utilisant seulement quatre GPU, l'entraînement du plus grand de ces modèles n'a pas pris plus d'une journée.

Les plus petits modèles ont eu du mal. Par exemple, l'une des histoires testées commence par un homme à l'air méchant qui dit à une fille qu'il va lui prendre son chat. Un modèle à un million de paramètres s'est retrouvé bloqué dans une boucle où la fille répète sans cesse à l'homme qu'elle veut être son amie. Mais les modèles plus grands, qui sont encore des milliers de fois plus petits que GPT-3.5, ont obtenu des résultats surprenants. La version à 28 millions de paramètres racontait une histoire cohérente, même si la fin était sinistre : "Katie s'est mise à pleurer, mais l'homme s'en fichait. Il a emporté le chat et Katie n'a plus jamais revu son chat. Fin de l'histoire".

En plus de tester leurs propres modèles, Eldan et Li ont soumis le même défi au GPT-2 d'OpenAI, un modèle de 1,5 milliard de paramètres publié en 2019. Le résultat a été bien pire - avant la fin abrupte de l'histoire, l'homme menace d'emmener la jeune fille au tribunal, en prison, à l'hôpital, à la morgue et enfin au crématorium.

Introduction

Selon M. Nguyen, il est passionnant que des modèles aussi petits soient aussi fluides, mais il n'est peut-être pas surprenant que GPT-2 ait eu du mal à accomplir la tâche : il s'agit d'un modèle plus grand, mais loin de l'état de l'art, et il a été formé sur un ensemble de données très différent. "Un enfant en bas âge qui ne s'entraînerait qu'à des tâches d'enfant en bas âge, comme jouer avec des jouets, obtiendrait de meilleurs résultats que vous ou moi", a-t-il fait remarquer. "Nous ne nous sommes pas spécialisés dans cette chose simple.

Les comparaisons entre les différents modèles de TinyStories ne souffrent pas des mêmes facteurs de confusion. Eldan et Li ont observé que les réseaux comportant moins de couches mais plus de neurones par couche étaient plus performants pour répondre aux questions nécessitant des connaissances factuelles ; inversement, les réseaux comportant plus de couches et moins de neurones par couche étaient plus performants pour garder en mémoire les personnages et les points de l'intrigue situés plus tôt dans l'histoire. Bhagavatula a trouvé ce résultat particulièrement intriguant. S'il peut être reproduit dans des modèles plus vastes, "ce serait un résultat vraiment intéressant qui pourrait découler de ce travail", a-t-il déclaré.

Eldan et Li ont également étudié comment les capacités de leurs petits modèles dépendaient de la durée de la période de formation. Dans tous les cas, les modèles maîtrisaient d'abord la grammaire, puis la cohérence. Pour Eldan, ce schéma illustre comment les différences dans les structures de récompense entraînent des différences dans les schémas d'acquisition du langage entre les réseaux neuronaux et les enfants. Pour les modèles de langage, qui apprennent en prédisant des mots, "l'incitation pour les mots "je veux avoir" est aussi importante que pour les mots "crème glacée"", a-t-il déclaré. Les enfants, en revanche, "ne se soucient pas de savoir s'ils disent 'j'aimerais avoir de la glace' ou simplement 'glace, glace, glace'".

Qualité contre quantité

Eldan et Li espèrent que cette étude incitera d'autres chercheurs à entraîner différents modèles sur l'ensemble des données de TinyStories et à comparer leurs capacités. Mais il est souvent difficile de prédire quelles caractéristiques des petits modèles apparaîtront également dans les plus grands.

"Peut-être que les modèles de vision chez la souris sont de très bons substituts de la vision humaine, mais les modèles de dépression chez la souris sont-ils de bons modèles de la dépression chez l'homme ? a déclaré M. Pavlick. "Pour chaque cas, c'est un peu différent.

Le succès des modèles TinyStories suggère également une leçon plus large. L'approche standard pour compiler des ensembles de données de formation consiste à aspirer des textes sur l'internet, puis à filtrer les déchets. Le texte synthétique généré par des modèles de grande taille pourrait constituer une autre façon d'assembler des ensembles de données de haute qualité qui n'auraient pas besoin d'être aussi volumineux.

"Nous avons de plus en plus de preuves que cette méthode est très efficace, non seulement pour les modèles de la taille de TinyStories, mais aussi pour les modèles plus importants", a déclaré M. Eldan. Ces preuves proviennent d'une paire d'articles de suivi sur les modèles à un milliard de paramètres, rédigés par Eldan, Li et d'autres chercheurs de Microsoft. Dans le premier article, ils ont entraîné un modèle à apprendre le langage de programmation Python en utilisant des extraits de code générés par GPT-3.5 ainsi que du code soigneusement sélectionné sur l'internet. Dans le second, ils ont complété l'ensemble de données d'entraînement par des "manuels" synthétiques couvrant un large éventail de sujets, afin d'entraîner un modèle linguistique à usage général. Lors de leurs tests, les deux modèles ont été comparés favorablement à des modèles plus importants formés sur des ensembles de données plus vastes. Mais l'évaluation des modèles linguistiques est toujours délicate, et l'approche des données d'entraînement synthétiques n'en est qu'à ses balbutiements - d'autres tests indépendants sont nécessaires.

Alors que les modèles linguistiques de pointe deviennent de plus en plus volumineux, les résultats surprenants de leurs petits cousins nous rappellent qu'il y a encore beaucoup de choses que nous ne comprenons pas, même pour les modèles les plus simples. M. Nguyen s'attend à ce que de nombreux autres articles explorent l'approche inaugurée par TinyStories.

"La question est de savoir où et pourquoi la taille a de l'importance", a-t-il déclaré. "Il devrait y avoir une science à ce sujet, et cet article est, je l'espère, le début d'une riche histoire.

Auteur: Internet

Info: https://www.quantamagazine.org/ Ben Brubaker, 5 octobre 2023

[ synthèse ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

Paramètres de recherches