Les fils de la pensée

codages linguistiques

Au troisième millénaire avant J.-C., la lecture peut donc avoir consisté à décrypter le cunéiforme, c'est-à-dire à se représenter le discours en regardant ses symboles imagés, plutôt qu'à lire visuellement les syllabes au sens où nous l'entendons.

Auteur: Jaynes Julian

Info: “The Origin of Consciousness in the Breakdown of the Bicameral Mind”, p.192, Houghton Mifflin Harcourt, 2000

[ comparés ] [ reconnaissance des formes ] [ historique ] [ écriture interface ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

communication

L’absence de truchements l’inquiétait au plus haut point. Cette communauté rassemblée à la hâte ne verrait jamais naître une cohésion sociale tant qu’il n’existerait pas de langue commune qui permettrait aux travailleurs de vivre ensemble. Tout en déplorant cette lacune, David lui-même ne s’était cependant jamais donné la peine d’apprendre le créole.

Auteur: Tarcau Miruna

Info: L'apprentissage du silence, p 150

[ psycho-sociologie ] [ idiomes redondants ] [ interface linguistique ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

bijection

Les graphes conceptuels et la logique floue sont deux formalismes logiques qui mettent l'accent sur la cible du langage naturel. Chacun d'entre eux se concentre sur l'une des deux caractéristiques souhaitées mentionnées d'une logique pour le traitement du langage naturel. Les graphes conceptuels, basés sur les réseaux sémantiques et les graphes existentiels de Peirce, combinent l'avantage visuel des langages graphiques et la puissance expressive de la logique.

Auteur: Sowa John Florian

Info:

[ mathématiques bijectives ] [ linguistique ] [ interface ] [ homme-machine ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

citation s'appliquant à ce logiciel

Avec FLP vous vous retrouvez face à vous-même, via l'interface d'un ou deux mots (ou plus avec un peu d'entrainement). Ca marche aussi avec des bouts de mots.

Face à vous-même au sens où ce(s) mot(s), décontextualisé(s), et donc en quelque sorte désincarné(s), comparent les associations que vous en faites avec celles des autres. Ainsi voilà votre singularité linguistique interprétative confrontée avec UNE formulation/citation (il faut les prendre une par une n'est-ce pas) et donc confortée, affinée, confrontée... ou autre.

Encore plus lorsque vous ferez mouliner votre entendement en examinant/comparant les tags-catégories avec le corpus du texte - en ayant bien sûr connaissance des 2 règles de base de l'insertion sur FLP.

Vous avez de surcroit la possibilité de mettre en commentaire toute remarque ou correction, formulée de manière compréhensible svp, pour nous au premier chef. L'objectif demeurant encore et toujours, via une forme de compréhension/désambiguation commune, la création continue d'un dictionnaire qui va au-delà des mots uniques. C'est à dire un dictionnaire qui recense aussi les combinaisons de deux mots, préfixes ou commencement de mots... Et beaucoup plus.

Et ces combinaisons génèrent des idées.

Ainsi, si tout va bien, FLP permet le développement de certaines idées, via des contintinuités construites, consensuellement ou pas, offertes par les fonctionnalités de citations liées, ou de chaines d'extraits. Le logiciel qui turbine derrière tout ceci permettant encore beaucoup d'autres choses.

Auteur: Mg

Info: 8 mars 2021

[ slow slow thinking ] [ marche à suivre FLP ] [ réfléchir ] [ réflexion ]

Commenter

Commentaires: 5

Ajouté à la BD par miguel

citation s'appliquant à ce logiciel

Le langage des hommes, surtout écrit, s'étendant et s'affinant continuellement, permet d'appréhender tout et son contraire, c'est à dire tant le réél tangible que les mondes imaginaires, oniriques, introspectifs, anciens ou potentiels.

Ainsi, à l'aide du support linguistique, français en l'occurrence, et dans la lignée de C.S. Peirce - pour qui chaque mot est un "quasi esprit", FLP s'essaye à quelque chose de pas facile à formuler.

A l'aide de la technologie numérique, tout en ayant conscience d'un positionnement temporel "éphémère et subjectif", cette application tente d'établir un dictionnaire polynomial communautaire qui, ambition supplémentaire, voudrait tout conserver ouvert, ne pas se mettre de limites en terme de mémoire (taille) et donc demeurer adaptable à tout développement ultérieur.

Représentation de FLP (début 2021).

Grâce à cet outil, les idées/pensées collectives issues de la sphère Gaïa peuvent se développer au sein d'une auto/classification/structuration sémantique collective apte à se positionner aux miroitantes et changeantes interfaces des mondes incarnés/passés et non incarnés/imaginaires/futurs. En clair FLP se voudrait être capable d'accueillir/intégrer/répertorier tout ce que les idiomes sont capables d'énoncer, coder, décrire ou traduire de façon cohérente, compréhensible et, si possible, ramassée et élégante : descriptifs visuels, univers parallèles, sentiments, définitions, sensations, réflexions contextualisées et développées, termes spécifiques, impressions subjectives, reflets de l'histoire des hommes - ou de civilisations extraterrestres, modes vibratoires du monde astral, etc.. Mélanges de focales et de points de vues qui pourra peut-être s'approcher d'une idée de cosmos holographique.

Ainsi les Fils de la Pensée s'amusent à développer un monde scriptural virtuel intermédiaire, si possible avec un fort fondement littéraire pour ce qui est des témoignages humains, ah ah ah. (En effet, pour ceux venus d'ailleurs, animaux et autres aliens, nous serons moins difficiles. Re ha ha ha... Bien qu'une telle intervention externe ne soit pas inimaginable.)

Tout ceci étant soigneusement intégré (paramétré) dans la base de données par des lecteurs-inserteurs attentifs. FLP devenant aussi du coup un outil de recherche sémantique qui permet de vaquer de mille manières dans cet univers idiomatique intermédiaire puisque le lecteur quêteur a la possibilité de jongler/mélanger/croiser les fonctions de recherche suivantes :

- par mot, bout de mots et additions/mélanges de ces derniers

- par chaines de caractère (mises entre " " )

- par taille de l'extrait (du plus petit au plus grand ou le contraire)

- par ordre alphabétique (catégories, auteurs, etc.)

- par sexe de l'auteur de l'extrait

- par localisation - pays - continent - autre planète...

- par profession, ou caractéristique de l'auteur, si paramétré (non-voyant, sportif, oulipien...)

- par situation temporelle, si elle est paramétrée (date de la création de la citation ou de l'auteur - formacja)

- par époque-courant historique - si paramétrée

- en supprimant telle ou telle chaine de caractères en mettant un - devant elle.

- en affinant une recherche donnéepar l'usage des fonctions avancées

- par tag ou catégories uniquement (ou mélange des deux)

- Etc.

***

A moyen terme sont envisagées les possibilités de recherches/classements suivants

- étymologique (cladistique) = filiation = continuité temporelle = évolution (vision horizontale). CONSTATIF

- lexicographique - sens, efficacité sémantique (phénétique) = emploi contextualisé = présence à un présent x = mode/pouvoir/politiquement correct/contraintes d'un moment donné (vision verticale). PERFORMATIF.

Deux axes susceptibles d'entrer dans la réflexion FLPienne quant aux prémisses d'une classification trétravalente ou pré-mémétique

***

Avec, en point de mire beaucoup plus lointain, littéraire, ésotérique... Une utopie - de science-fiction astrale dirons-nous, puisqu'il s'agirait d'un classement/strucure en septénaires intricables et communiquants (imaginez les interconnexions de boules à 7 facettes survolées de 7 satellites hepta-facés ) : avec, en première perspective de structuration, l'idée de s'inspirer des interconnexions entre les 7 degrés de bases de la pensée FLP (lettres, mots, phrases, tags/catégories, chaines, sujets, domaines) et les 7 grands domaines (PSY - POLITIQUE - ARTS-CULTURE - ENSEIGNEMENT - REFLEXION SUR LE LANGAGE - SCIENCES ET RATIONALISME - TRANSCENDANCE ET SPIRITUALITE). chaque idée/insert présentant une partie de son particularisme au travers de la présentation de son degré de proximité avec les 6 autres via une disposition réfléchie de ces derniers, c'est à dire collectivement concertée par les participants de de FLP.

(Classifications listes bien évidemment sans cesse en cours de réflexions élaboratives).

Auteur: Mg

Info: Dès 2021 , en cours

[ prospective ] [ cogitation ] [ dualité ]

Commenter

Commentaires: 1

Ajouté à la BD par miguel

épistémologie

Le premier chapitre de l’ouvrage montre que la période grecque est déterminante pour les développements ultérieurs de la connaissance, elle a posé certains principes fondamentaux qui seront discutés jusqu’à nos jours. En synthétisant les apports de penseurs grecs d’Héraclite et Parménide, de Socrate à Platon, Aristote et Épicure, Martine Bocquet pointe qu’à cette époque le signe (séméïon) est secondaire, il est considéré comme un signe de la nature que l’on peut interpréter (symptôme de maladies, foudre, etc.). Il s’oppose au mot qui, lui, repose sur une relation conventionnelle. Martine Bocquet montre qu’Aristote est important pour la sémiotique, de Deely en particulier. Réaffirmant l’importance du rapport sensible au monde, face à Platon, il a placé le séméïon au fondement de la connaissance et orienté ses recherches vers la relation comme catégorie discursive (pp. 33-45), notion qui sera au cœur des discussions des scoliastes.

Le chapitre deux montre l’évolution importante des notions de signe et de relation à la période latine médiévale et scolastique. Suivant l’étude de Deely, Martine Bocquet souligne le rôle d’Augustin d’Hippone. En traduisant le séméïon grec en signum, il a proposé la première formulation générale du signe qui subsume l’opposition entre nature et culture entre lesquelles il fonctionne comme une interface (p. 65, 68). Bien qu’elle demeure imparfaite, l’approche d’Augustin pose d’une part les fondements d’une théorie relationnelle de la connaissance ; d’autre part, en maintenant une distinction entre signe naturel (signum naturale, séméïon) et signe conventionnel (signum datum), elle ouvre sur une conception de la communication, tout à fait intéressante, engageant tous les êtres vivants (animaux, plantes) (p. 67, 69). D’une autre façon, la problématisation de la relation apparaît tout aussi importante à cette période. En distinguant, chez Aristote, la relatio secundum dici (relation transcendantale) — relation exprimée par le discours — et la relatio secundum esse (relation ontologique) — relation en tant qu’entité particulière (p. 70) — Boèce permet de concevoir l’existence de relations ontologiques, indépendantes de la pensée (p. 73) — fondamentales chez Poinsot, Peirce et Deely. Cette distinction aura son incidence puisqu’elle posera les termes de la querelle des universaux, tournant épistémologique majeur de l’histoire des connaissances.

Initiée par Pierre Abélard, la "querelle des universaux" est abordée par Martine Bocquet au chapitre trois et apparaît comme le point pivot de l’ouvrage (pp. 107-112) dans la mesure où elle aura une incidence sur le rapport au monde et à la connaissance. La dispute, qui porte sur la nature de l’objectivité et du statut de réalité des entités dépendantes ou non de la pensée, par le biais de la catégorie aristotélicienne de relation, et, par extension, de celle de signe, oppose les réalistes aux nominalistes.

Les penseurs dits "réalistes", parmi lesquels Thomas d’Aquin, Roger Bacon, Duns Scot, considèrent que le signe est constitué d’une relation indépendante de la pensée, dite ontologique, à la nature. Le traitement de Martine Bocquet montre clairement que Deely se retrouve dans la pensée de ces auteurs, dont il a avant tout souligné la contribution à la sémiotique de Peirce : (i) le signe subsume l’activité cognitive (pp. 80-81) (ii) la relation de signe est dans tous les cas triadique (p. 82), (iii) les signes se constituent de manière dynamique, ce qui leur permet d’agir (sémiosis) et de jouer un rôle dans l’expérience et la connaissance (pp. 83-86).

Martine Bocquet met particulièrement en évidence la pensée de Jean Poinsot (Jean de St-Thomas), en soulignant son influence sur Deely. L’originalité de ce dernier est d’avoir considéré Poinsot comme le précurseur d’une sémiotique voisine de celle de Peirce, plus ontologique encore. Pour le résumer en quelques points, Poinsot défend avant tout que la nature et la réalité du signe sont ontologiques (secundum esse), c’est-à-dire que le signe est une relation dont le véhicule est indifférent à ce qu’il communique (p. 102). Ce point est essentiel car il permet de doter le signe d’une nature proprement relationnelle : (i) il pointe vers autre chose (une autre réalité physique ou psychique), (ii) il permet d’articuler la subjectivité et l’intersubjectivité et (iii) opère la médiation entre les choses (indépendantes de la pensée) et les objets (dépendants de la pensée) (pp. 105-106) ; ce que la représentation, où l’objet pointe vers lui-même, n’autorise pas. Le point de vue de Poinsot est déterminant, car les nombreux retours vers sa pensée réalisés tout au long de l’ouvrage, montrent que c’est au prisme de ces principes que Deely réévaluait les pensées modernes.

De l’autre côté, les "nominalistes" comme Guillaume d’Ockham considèrent que la réalité est extra mentale, que seules les causes externes sont réelles, et qu’en conséquence, les relations intersubjectives n’existent que dans la pensée. Malgré l’intervention des successeurs d’Ockham qui, contrairement à celui-ci, admettront le signe, divisé en deux entités — signes instrumentaux (physiques, accessibles aux sens) et signes formels (concepts) — à partir de 1400 environ, les concepts (signes formels) seront considérés comme des représentations (p. 91). Martine Bocquet montre bien que le principe nominaliste, souvent simplifié, sera largement adopté par les sciences empiriques qu’il permettra de développer, mais cela, et c’est l’enjeu de la démarche de Deely, au détriment du rapport entre le monde et les sens.

Dans le quatrième chapitre consacré à la modernité, Martine Bocquet montre comment Deely a pointé les problèmes et les limites posés par l’héritage du nominalisme, en mettant notamment en perspective les travaux des empiristes (John Locke, David Hume), puis ceux de Kant, avec les propositions de Poinsot. Elle montre d’emblée que le rationalisme de Descartes, où la raison est indépendante et supérieure à la perception, conduira à renégocier la place de la perception dans la connaissance. En concevant les qualités des sens comme des images mentales, les modernes renversent l’ordre de la perception sensorielle reconnu par les scoliastes, les qualités sensorielles (couleurs, odeurs, sons) autrefois premières sont reléguées au second plan (p. 117). Les empiristes (John Locke, George Berkeley, David Hume) contribueront à considérer l’ensemble des sensations comme des images mentales, ils ne seront alors plus capables de s’extraire de la subjectivité (p. 121-124). À ce titre, Martine Bocquet porte à notre attention que Deely avait bien montré que l’empirisme et le rationalisme éludaient la description du phénomène de cognition.

L’approche de Kant apparaît dans l’ouvrage comme point culminant, ou synthèse, de la pensée moderne. En suivant les pas de Deely, Martine Bocquet prend le soin de mettre son travail en perspective avec la pensée de Poinsot, ce qui permet de réaffirmer sa pertinence dans le projet sémiotique de Deely. Kant a eu le mérite d’envisager des relations objectives. Toutefois, en limitant la cognition aux représentations, il la sépare de la signification, c’est-à-dire du supplément de sens contenu dans l’objectivité (au sens de Poinsot), et se coupe de l’expérience de l’environnement sensible qui permet à l’homme de connaître et de constituer le monde (pp. 130-131). Martine Bocquet insiste sur le fait que, selon Deely, la pensée kantienne est lourde de conséquences puisqu’en inversant les concepts d’objectivité et de subjectivité, elle enferme l’individu dans sa propre pensée (p. 134), reléguant la communication au rang d’illusion.

Le dernier chapitre de l’ouvrage est consacré aux chercheurs post-modernes, qui ont marqué la fin du modernisme et opéré un retour vers le signe. On y trouve notamment les apports d’Hegel et de Darwin, entre autres, qui ont permis d’affirmer le rôle concret de la relation ontologique dans la cognition, et la prise des facultés cognitives avec l’environnement physique. Martine Bocquet consacre une grande partie du chapitre à la sémiotique en tant que discipline, ce qui lui permet de réaffirmer l’ancrage de Deely dans l’héritage peircien qui est ici clairement distingué des modèles de Saussure et Eco.

Martine Bocquet rappelle d’abord que la pensée de Peirce s’inspire des réalistes (d’Aquin, Duns Scot) et considère donc que les produits de la pensée sont bien réels, et non de simples constructions des sens. La sémiotique qu’il développe appréhende la signification comme un parcours de pensée dynamique entre expérience et cognition. Dans son modèle ternaire, présenté en détail, la relation de tiercité caractérise le fonctionnement de la cognition humaine depuis la perception d’indices jusqu’à la constitution d’un système de signification ; elle est propre à l’homme qui peut se référer à la réalité mais aussi évoquer des choses imaginées (p. 146). L’intérêt de ce modèle est de permettre d’envisager que les non-humains utilisent aussi des signes, possibilité envisagée par Peirce dans sa « grande vision », doctrine qui selon Bocquet fascine Deely. Ce projet consistait à étendre la sémiotique au vivant, considérant que l’action des signes est enracinée dans toutes les choses du monde. Il ouvre sur un vaste champ de recherche abordé en conclusion, sur lequel nous reviendrons.

Contrairement à la sémiotique peircienne, Bocquet montre que John Deely considère que la sémiologie de Saussure, reposant sur le signe linguistique, est limitée car elle ne s’occupe que des signes conventionnels, culturels. De ce fait, elle se montre non seulement incapable d’approcher le signe naturel mais elle court aussi le risque de faire de la réalité une construction de l’esprit (idéalisme). En dépit d’un substrat peircien partagé, la même critique sera adressée à la théorie des codes d’Eco puis, plus loin dans la conclusion de Martine Bocquet (pp. 171-172), au structuralisme (Greimas, Lévi-Strauss). En somme, ces sémiotiques sont très efficaces pour étudier les systèmes de signes spécifiquement humains, mais, enfermées dans le langage et la culture, elles sont incapables de traiter les signes naturels, toute tentative révèle leur idéalisme. À cet endroit, l’auteure met bien en évidence l’opposition irréductible entre, d’un côté, ces théories qui ne rendent compte ni du signe naturel ni de la reconnaissance des phénomènes de la nature, et de l’autre, la posture de Deely qui défend l’idée que les données des sens ne sont jamais déconnectées et que la perception comprend une structure d’objectivité car les relations sont réelles (p. 165). Finalement, au travers de l’ouvrage, Bocquet montre que Deely prônait un retour à l’universalité du signe.

La conclusion du livre indique que Deely plaçait le signe et la sémiotique au cœur d’une pensée postmoderne capable de rétablir le dialogue entre les sciences dures et les sciences de la communication. Ce dialogue répondrait à la nécessité de comprendre l’action des signes autant dans la nature que dans la culture. Pour concrétiser cela, Deely propose un retour au réalisme oublié des scoliastes latins pour réviser les théories des modernes afin de renouer le lien avec la nature, en tenant compte des entités dépendantes et indépendantes de la pensée (p. 168).

Cette posture s’inscrirait, selon Martine Bocquet, dans un projet sémioéthique au sein duquel l’homme prendrait conscience de ses responsabilités vis-à-vis de la nature. Finalement, la solution à adopter correspond à la "grande vision" de Peirce, introduite en amont, c’est-à-dire une doctrine des signes qui, d’une part, intègre l’ensemble de la connaissance humaine du sensoriel aux interactions sociales et à la culture et, d’autre part, étend la sémiotique à l’ensemble du monde vivant, considéré comme un réseau de significations entre humains et non-humains, et noué sur une relation ontologique présente dans toute chose (pp. 169-170). Mis en application dans les années 1960, ce projet a donné lieu à un ensemble de sémiotiques spécifiques étudiant aussi bien le vivant, comme la physiosémiotique, la phytosémiotique, la zoosémiotique, la biosémiotique, que l’homme avec l’anthroposémiotique. Nous soulignons que certaines de ces disciplines sont aujourd’hui émergentes pour répondre aux questions environnementales actuelles en termes de climat, de cohabitation entre espèces et d’habitabilité du monde.

La restitution des travaux de Deely par Martine Bocquet semble tout à fait pertinente pour les sciences de la communication. Tout d’abord, parce que la démarche historique de Deely invitant à réévaluer nos acquis au prisme de modèles plus anciens, parfois moins connus, est tout à fait d’actualité et nécessaire dans notre réseau de recherche pluridisciplinaire. Ensuite, du fait de la structure détaillée du livre de Martine Bocquet qui permettra autant aux étudiants qu’aux chercheurs de trouver une formulation des concepts et des problèmes qui sous-tendent encore le domaine de la communication.

D’autre part, le grand intérêt de l’ouvrage réside dans le parti pris épistémologique de la sémiotique de Deely. En adoptant la relation ontologique de Poinsot, présente en creux chez Peirce, Deely ouvre des perspectives importantes pour le champ des sciences de la communication puisqu’il attire notre attention sur un concept universel de signe capable de réaffirmer la place du sensible dans la communication et de problématiser les interactions entre humains et non-humains. À ce titre, la pensée de Deely rapportée par Martine Bocquet est tout à fait en phase avec la recherche de ces quinze dernières années où différentes disciplines ont cherché à étudier la signification au-delà des particularités entre humains mais aussi entre êtres vivants, soit en adoptant un point de vue ontologique soit en intégrant les sciences physiques ou cognitives. Citons par exemple la biosémiotique, la zoosémiotique mais aussi l’anthropologie de la nature de Philippe Descola, "l’anthropologie au-delà de l’humain" d’Eduardo Kohn, la sémiophysique de René Thom et Jean Petitot ou encore la sémiotique cognitive.

Auteur: Chatenet Ludovic

Info: résumé critique de : Martine Bocquet, Sur les traces du signe avec John Deely : une histoire de la sémiotique Limoges, Éditions Lambert Lucas, 2019, 200 p.

[ panorama sémiologique ] [ anthropocentrisme ] [ xénolinguistique ] [ philologie ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

intelligence artificielle

Apprendre l'anglais n'est pas une tâche facile, comme le savent d'innombrables étudiants. Mais lorsque l'étudiant est un ordinateur, une approche fonctionne étonnamment bien : Il suffit d'alimenter un modèle mathématique géant, appelé réseau neuronal, avec des montagnes de textes provenant d'Internet. C'est le principe de fonctionnement des modèles linguistiques génératifs tels que ChatGPT d'OpenAI, dont la capacité à tenir une conversation cohérente (à défaut d'être toujours sincère) sur un large éventail de sujets a surpris les chercheurs et le public au cours de l'année écoulée.

Mais cette approche présente des inconvénients. D'une part, la procédure de "formation" nécessaire pour transformer de vastes archives textuelles en modèles linguistiques de pointe est coûteuse et prend beaucoup de temps. D'autre part, même les personnes qui forment les grands modèles linguistiques ont du mal à comprendre leur fonctionnement interne, ce qui, à son tour, rend difficile la prévision des nombreuses façons dont ils peuvent échouer.

Face à ces difficultés, certains chercheurs ont choisi d'entraîner des modèles plus petits sur des ensembles de données plus restreints, puis d'étudier leur comportement. "C'est comme le séquençage du génome de la drosophile par rapport au séquençage du génome humain", explique Ellie Pavlick, chercheuse sur les modèles de langage à l'université de Brown.

Dans un article récemment publié sur le serveur scientifique arxiv.org, deux chercheurs de Microsoft ont présenté une nouvelle méthode pour former de minuscules modèles de langage : Les élever avec un régime strict d'histoires pour enfants.

RÉSEAUX NEURONAUX

Des chercheurs acquièrent une nouvelle compréhension à partir d'une simple IA

Les chercheurs en apprentissage automatique ont compris cette leçon. GPT-3.5, le grand modèle linguistique qui alimente l'interface ChatGPT, compte près de 200 milliards de paramètres et a été entraîné sur un ensemble de données comprenant des centaines de milliards de mots (OpenAI n'a pas publié les chiffres correspondants pour son successeur, GPT-4). L'entraînement de modèles aussi vastes nécessite généralement au moins 1 000 processeurs spécialisés, appelés GPU, fonctionnant en parallèle pendant des semaines. Seules quelques entreprises peuvent réunir les ressources nécessaires, sans parler de l'entraînement et de la comparaison de différents modèles.

Les deux chercheurs ont montré que des modèles linguistiques des milliers de fois plus petits que les systèmes de pointe actuels apprenaient rapidement à raconter des histoires cohérentes et grammaticalement justes lorsqu'ils étaient formés de cette manière. Leurs résultats indiquent de nouvelles pistes de recherche qui pourraient être utiles pour former des modèles plus importants et comprendre leur comportement.

"J'ai trouvé tout ça très instructif", a déclaré Chandra Bhagavatula, chercheur sur les modèles de langage à l'Allen Institute for Artificial Intelligence de Seattle. "Le concept lui-même est très intéressant.

Il était une fois

Les réseaux neuronaux au cœur des modèles de langage sont des structures mathématiques vaguement inspirées du cerveau humain. Chacun d'entre eux contient de nombreux neurones artificiels disposés en couches, avec des connexions entre les neurones des couches adjacentes. Le comportement du réseau neuronal est régi par la force de ces connexions, appelées paramètres. Dans un modèle linguistique, les paramètres contrôlent les mots que le modèle peut produire ensuite, compte tenu d'une invite initiale et des mots qu'il a déjà générés.

Un modèle ne prend véritablement vie qu'au cours de la formation, lorsqu'il compare de manière répétée ses propres résultats au texte de son ensemble de données de formation et qu'il ajuste ses paramètres afin d'accroître la ressemblance. Un réseau non entraîné avec des paramètres aléatoires est trivialement facile à assembler à partir de quelques lignes de code, mais il ne produira que du charabia. Après l'entraînement, il peut souvent poursuivre de manière plausible un texte peu familier. Les modèles de plus grande taille sont souvent soumis à des réglages plus fins qui leur apprennent à répondre à des questions et à suivre des instructions, mais l'essentiel de la formation consiste à maîtriser la prédiction des mots.

Pour réussir à prédire des mots, un modèle linguistique doit maîtriser de nombreuses compétences différentes. Par exemple, les règles de la grammaire anglaise suggèrent que le mot suivant le mot "going" sera probablement "to", quel que soit le sujet du texte. En outre, un système a besoin de connaissances factuelles pour compléter "la capitale de la France est", et compléter un passage contenant le mot "not" nécessite une connaissance rudimentaire de la logique.

"Le langage brut est très compliqué", explique Timothy Nguyen, chercheur en apprentissage automatique chez DeepMind. "Pour que des capacités linguistiques intéressantes apparaissent, les gens ont eu recours à l'idée que plus il y a de données, mieux c'est".

(photo) Ronen Eldan s'est rendu compte qu'il pouvait utiliser les histoires d'enfants générées par de grands modèles linguistiques pour en entraîner rapidement de plus petits.

Introduction

Ronen Eldan, mathématicien qui a rejoint Microsoft Research en 2022 pour étudier les modèles de langage génératifs, souhaitait développer un moyen moins coûteux et plus rapide d'explorer leurs capacités. Le moyen naturel d'y parvenir était d'utiliser un petit ensemble de données, ce qui signifiait qu'il devait entraîner les modèles à se spécialiser dans une tâche spécifique, afin qu'ils ne s'éparpillent pas. Au départ, il voulait entraîner les modèles à résoudre une certaine catégorie de problèmes mathématiques, mais un après-midi, après avoir passé du temps avec sa fille de 5 ans, il s'est rendu compte que les histoires pour enfants convenaient parfaitement. "L'idée m'est venue littéralement après lui avoir lu une histoire", a-t-il déclaré.

Pour générer des histoires cohérentes pour les enfants, un modèle de langage devrait apprendre des faits sur le monde, suivre les personnages et les événements, et observer les règles de grammaire - des versions plus simples des défis auxquels sont confrontés les grands modèles. Mais les grands modèles formés sur des ensembles de données massives apprennent d'innombrables détails non pertinents en même temps que les règles qui comptent vraiment. Eldan espérait que la brièveté et le vocabulaire limité des histoires pour enfants rendraient l'apprentissage plus gérable pour les petits modèles, ce qui les rendrait à la fois plus faciles à former et plus faciles à comprendre.

Dans le monde des modèles de langage, cependant, le terme "petit" est relatif : Un ensemble de données mille fois plus petit que celui utilisé pour former GPT-3.5 devrait encore contenir des millions d'histoires. "Je ne sais pas combien d'argent vous voulez dépenser, mais je suppose que vous n'allez pas engager des professionnels pour écrire quelques millions de nouvelles", a déclaré M. Nguyen.

Il faudrait un auteur extraordinairement prolifique pour satisfaire des lecteurs aussi voraces, mais Eldan avait quelques candidats en tête. Qui peut mieux écrire pour un public de petits modèles linguistiques que pour de grands modèles ?

Toys stories

Eldan a immédiatement entrepris de créer une bibliothèque d'histoires synthétiques pour enfants générées par de grands modèles linguistiques. Mais il a rapidement découvert que même les modèles de pointe ne sont pas naturellement très créatifs. Si l'on demande à GPT-4 d'écrire des histoires adaptées à des enfants de 4 ans, explique Eldan, "environ un cinquième des histoires concernera des enfants qui vont au parc et qui ont peur des toboggans". C'est apparemment la quintessence des histoires pour enfants d'âge préscolaire, selon l'Internet.

La solution a consisté à ajouter un peu d'aléatoire dans le message. Tout d'abord, Eldan a utilisé le GPT-4 pour générer une liste de 1 500 noms, verbes et adjectifs qu'un enfant de 4 ans pourrait connaître - suffisamment courte pour qu'il puisse facilement la vérifier lui-même. Il a ensuite écrit un programme informatique simple qui demanderait à plusieurs reprises à GPT-3.5 ou à GPT-4 de générer une histoire adaptée à l'âge de l'enfant, comprenant trois mots aléatoires de la liste, ainsi qu'un détail supplémentaire choisi au hasard, comme une fin heureuse ou un rebondissement de l'intrigue. Les histoires obtenues, heureusement, étaient moins axées sur des diapositives effrayantes.

Eldan disposait désormais d'une procédure pour produire des données de formation à la demande, mais il n'avait aucune idée du nombre d'histoires dont il aurait besoin pour former un modèle fonctionnel, ni de la taille de ce modèle. C'est alors qu'il s'est associé à Yuanzhi Li, chercheur en apprentissage automatique chez Microsoft et à l'université Carnegie Mellon, pour essayer différentes possibilités, en tirant parti du fait que les petits modèles peuvent être formés très rapidement. La première étape consistait à décider comment évaluer leurs modèles.

Introduction

Dans la recherche sur les modèles de langage - comme dans toute salle de classe - la notation est un sujet délicat. Il n'existe pas de rubrique parfaite qui englobe tout ce que les chercheurs veulent savoir, et les modèles qui excellent dans certaines tâches échouent souvent de manière spectaculaire dans d'autres. Au fil du temps, les chercheurs ont mis au point divers critères de référence standard basés sur des questions dont les réponses ne sont pas ambiguës, ce qui est une bonne approche si vous essayez d'évaluer des compétences spécifiques. Mais Eldan et Li se sont intéressés à quelque chose de plus nébuleux : quelle doit être la taille réelle des modèles linguistiques si l'on simplifie le langage autant que possible ?

"Pour vérifier directement si le modèle parle anglais, je pense que la seule chose à faire est de laisser le modèle générer de l'anglais de manière ouverte", a déclaré M. Eldan.

Il n'y a que deux façons de mesurer les performances d'un modèle sur des questions aussi qualitatives : S'appuyer sur des évaluateurs humains ou se tourner à nouveau vers le GPT-4. Les deux chercheurs ont opté pour cette dernière solution, laissant les grands modèles à la fois rédiger les manuels et noter les dissertations.

Bhagavatula a déclaré qu'il aurait aimé voir comment les évaluations de GPT-4 se comparaient à celles des correcteurs humains - GPT-4 peut être biaisé en faveur des modèles qu'il a aidé à former, et l'opacité des modèles de langage rend difficile la quantification de tels biais. Mais il ne pense pas que de telles subtilités affecteraient les comparaisons entre différents modèles formés sur des ensembles similaires d'histoires synthétiques - l'objectif principal du travail d'Eldan et Li.

Eldan et Li ont utilisé une procédure en deux étapes pour évaluer chacun de leurs petits modèles après la formation. Tout d'abord, ils ont présenté au petit modèle la première moitié d'une histoire distincte de celles de l'ensemble des données d'apprentissage, de manière à ce qu'il génère une nouvelle fin, en répétant ce processus avec 50 histoires de test différentes. Ensuite, ils ont demandé à GPT-4 d'évaluer chacune des fins du petit modèle en fonction de trois catégories : créativité, grammaire et cohérence avec le début de l'histoire. Ils ont ensuite fait la moyenne des notes obtenues dans chaque catégorie, obtenant ainsi trois notes finales par modèle.

Avec cette procédure en main, Eldan et Li étaient enfin prêts à comparer les différents modèles et à découvrir quels étaient les étudiants les plus brillants.

Résultats des tests

Après quelques explorations préliminaires, les deux chercheurs ont opté pour un ensemble de données de formation contenant environ 2 millions d'histoires. Ils ont ensuite utilisé cet ensemble de données, baptisé TinyStories, pour entraîner des modèles dont la taille varie de 1 million à 30 millions de paramètres, avec un nombre variable de couches. Le travail a été rapide : En utilisant seulement quatre GPU, l'entraînement du plus grand de ces modèles n'a pas pris plus d'une journée.

Les plus petits modèles ont eu du mal. Par exemple, l'une des histoires testées commence par un homme à l'air méchant qui dit à une fille qu'il va lui prendre son chat. Un modèle à un million de paramètres s'est retrouvé bloqué dans une boucle où la fille répète sans cesse à l'homme qu'elle veut être son amie. Mais les modèles plus grands, qui sont encore des milliers de fois plus petits que GPT-3.5, ont obtenu des résultats surprenants. La version à 28 millions de paramètres racontait une histoire cohérente, même si la fin était sinistre : "Katie s'est mise à pleurer, mais l'homme s'en fichait. Il a emporté le chat et Katie n'a plus jamais revu son chat. Fin de l'histoire".

En plus de tester leurs propres modèles, Eldan et Li ont soumis le même défi au GPT-2 d'OpenAI, un modèle de 1,5 milliard de paramètres publié en 2019. Le résultat a été bien pire - avant la fin abrupte de l'histoire, l'homme menace d'emmener la jeune fille au tribunal, en prison, à l'hôpital, à la morgue et enfin au crématorium.

Introduction

Selon M. Nguyen, il est passionnant que des modèles aussi petits soient aussi fluides, mais il n'est peut-être pas surprenant que GPT-2 ait eu du mal à accomplir la tâche : il s'agit d'un modèle plus grand, mais loin de l'état de l'art, et il a été formé sur un ensemble de données très différent. "Un enfant en bas âge qui ne s'entraînerait qu'à des tâches d'enfant en bas âge, comme jouer avec des jouets, obtiendrait de meilleurs résultats que vous ou moi", a-t-il fait remarquer. "Nous ne nous sommes pas spécialisés dans cette chose simple.

Les comparaisons entre les différents modèles de TinyStories ne souffrent pas des mêmes facteurs de confusion. Eldan et Li ont observé que les réseaux comportant moins de couches mais plus de neurones par couche étaient plus performants pour répondre aux questions nécessitant des connaissances factuelles ; inversement, les réseaux comportant plus de couches et moins de neurones par couche étaient plus performants pour garder en mémoire les personnages et les points de l'intrigue situés plus tôt dans l'histoire. Bhagavatula a trouvé ce résultat particulièrement intriguant. S'il peut être reproduit dans des modèles plus vastes, "ce serait un résultat vraiment intéressant qui pourrait découler de ce travail", a-t-il déclaré.

Eldan et Li ont également étudié comment les capacités de leurs petits modèles dépendaient de la durée de la période de formation. Dans tous les cas, les modèles maîtrisaient d'abord la grammaire, puis la cohérence. Pour Eldan, ce schéma illustre comment les différences dans les structures de récompense entraînent des différences dans les schémas d'acquisition du langage entre les réseaux neuronaux et les enfants. Pour les modèles de langage, qui apprennent en prédisant des mots, "l'incitation pour les mots "je veux avoir" est aussi importante que pour les mots "crème glacée"", a-t-il déclaré. Les enfants, en revanche, "ne se soucient pas de savoir s'ils disent 'j'aimerais avoir de la glace' ou simplement 'glace, glace, glace'".

Qualité contre quantité

Eldan et Li espèrent que cette étude incitera d'autres chercheurs à entraîner différents modèles sur l'ensemble des données de TinyStories et à comparer leurs capacités. Mais il est souvent difficile de prédire quelles caractéristiques des petits modèles apparaîtront également dans les plus grands.

"Peut-être que les modèles de vision chez la souris sont de très bons substituts de la vision humaine, mais les modèles de dépression chez la souris sont-ils de bons modèles de la dépression chez l'homme ? a déclaré M. Pavlick. "Pour chaque cas, c'est un peu différent.

Le succès des modèles TinyStories suggère également une leçon plus large. L'approche standard pour compiler des ensembles de données de formation consiste à aspirer des textes sur l'internet, puis à filtrer les déchets. Le texte synthétique généré par des modèles de grande taille pourrait constituer une autre façon d'assembler des ensembles de données de haute qualité qui n'auraient pas besoin d'être aussi volumineux.

"Nous avons de plus en plus de preuves que cette méthode est très efficace, non seulement pour les modèles de la taille de TinyStories, mais aussi pour les modèles plus importants", a déclaré M. Eldan. Ces preuves proviennent d'une paire d'articles de suivi sur les modèles à un milliard de paramètres, rédigés par Eldan, Li et d'autres chercheurs de Microsoft. Dans le premier article, ils ont entraîné un modèle à apprendre le langage de programmation Python en utilisant des extraits de code générés par GPT-3.5 ainsi que du code soigneusement sélectionné sur l'internet. Dans le second, ils ont complété l'ensemble de données d'entraînement par des "manuels" synthétiques couvrant un large éventail de sujets, afin d'entraîner un modèle linguistique à usage général. Lors de leurs tests, les deux modèles ont été comparés favorablement à des modèles plus importants formés sur des ensembles de données plus vastes. Mais l'évaluation des modèles linguistiques est toujours délicate, et l'approche des données d'entraînement synthétiques n'en est qu'à ses balbutiements - d'autres tests indépendants sont nécessaires.

Alors que les modèles linguistiques de pointe deviennent de plus en plus volumineux, les résultats surprenants de leurs petits cousins nous rappellent qu'il y a encore beaucoup de choses que nous ne comprenons pas, même pour les modèles les plus simples. M. Nguyen s'attend à ce que de nombreux autres articles explorent l'approche inaugurée par TinyStories.

"La question est de savoir où et pourquoi la taille a de l'importance", a-t-il déclaré. "Il devrait y avoir une science à ce sujet, et cet article est, je l'espère, le début d'une riche histoire.

Auteur: Internet

Info: https://www.quantamagazine.org/ Ben Brubaker, 5 octobre 2023

[ synthèse ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

Paramètres de recherches