Les fils de la pensée

Paramètres de recherches

Filtres

Citation

Catégorie

Tag – étiquette

Auteur

Info

Recherche avancée

Détail auteurs

Présentation, tri

Dictionnaire analogique intriqué pour extraits. Recherche mots ou phrases tous azimuts. Aussi outil de précision sémantique et de réflexion communautaire. Voir la rubrique mode d'emploi. Jetez un oeil à la colonne "chaînes". ATTENTION, faire une REINITIALISATION après une recherche complexe. Et utilisez le nuage de corrélats !!!!..... Lire la suite >>

Nuage de corrélats

apprentissage automatique archétypes auto-arborescence codes cofacteurs cogitation corpus discours dualité faire humains langage langue limitation linguistique logique formelle l’autre modèle modèles partie personne prospective recherche sciences septénaire signe transposition vocabulaire émotion

Résultat(s): 57

Temps de recherche: 0.0589s

« Précédent
1
2
3
4
5
6
Suivant »

épistémologie

Le premier chapitre de l’ouvrage montre que la période grecque est déterminante pour les développements ultérieurs de la connaissance, elle a posé certains principes fondamentaux qui seront discutés jusqu’à nos jours. En synthétisant les apports de penseurs grecs d’Héraclite et Parménide, de Socrate à Platon, Aristote et Épicure, Martine Bocquet pointe qu’à cette époque le signe (séméïon) est secondaire, il est considéré comme un signe de la nature que l’on peut interpréter (symptôme de maladies, foudre, etc.). Il s’oppose au mot qui, lui, repose sur une relation conventionnelle. Martine Bocquet montre qu’Aristote est important pour la sémiotique, de Deely en particulier. Réaffirmant l’importance du rapport sensible au monde, face à Platon, il a placé le séméïon au fondement de la connaissance et orienté ses recherches vers la relation comme catégorie discursive (pp. 33-45), notion qui sera au cœur des discussions des scoliastes.

Le chapitre deux montre l’évolution importante des notions de signe et de relation à la période latine médiévale et scolastique. Suivant l’étude de Deely, Martine Bocquet souligne le rôle d’Augustin d’Hippone. En traduisant le séméïon grec en signum, il a proposé la première formulation générale du signe qui subsume l’opposition entre nature et culture entre lesquelles il fonctionne comme une interface (p. 65, 68). Bien qu’elle demeure imparfaite, l’approche d’Augustin pose d’une part les fondements d’une théorie relationnelle de la connaissance ; d’autre part, en maintenant une distinction entre signe naturel (signum naturale, séméïon) et signe conventionnel (signum datum), elle ouvre sur une conception de la communication, tout à fait intéressante, engageant tous les êtres vivants (animaux, plantes) (p. 67, 69). D’une autre façon, la problématisation de la relation apparaît tout aussi importante à cette période. En distinguant, chez Aristote, la relatio secundum dici (relation transcendantale) — relation exprimée par le discours — et la relatio secundum esse (relation ontologique) — relation en tant qu’entité particulière (p. 70) — Boèce permet de concevoir l’existence de relations ontologiques, indépendantes de la pensée (p. 73) — fondamentales chez Poinsot, Peirce et Deely. Cette distinction aura son incidence puisqu’elle posera les termes de la querelle des universaux, tournant épistémologique majeur de l’histoire des connaissances.

Initiée par Pierre Abélard, la "querelle des universaux" est abordée par Martine Bocquet au chapitre trois et apparaît comme le point pivot de l’ouvrage (pp. 107-112) dans la mesure où elle aura une incidence sur le rapport au monde et à la connaissance. La dispute, qui porte sur la nature de l’objectivité et du statut de réalité des entités dépendantes ou non de la pensée, par le biais de la catégorie aristotélicienne de relation, et, par extension, de celle de signe, oppose les réalistes aux nominalistes.

Les penseurs dits "réalistes", parmi lesquels Thomas d’Aquin, Roger Bacon, Duns Scot, considèrent que le signe est constitué d’une relation indépendante de la pensée, dite ontologique, à la nature. Le traitement de Martine Bocquet montre clairement que Deely se retrouve dans la pensée de ces auteurs, dont il a avant tout souligné la contribution à la sémiotique de Peirce : (i) le signe subsume l’activité cognitive (pp. 80-81) (ii) la relation de signe est dans tous les cas triadique (p. 82), (iii) les signes se constituent de manière dynamique, ce qui leur permet d’agir (sémiosis) et de jouer un rôle dans l’expérience et la connaissance (pp. 83-86).

Martine Bocquet met particulièrement en évidence la pensée de Jean Poinsot (Jean de St-Thomas), en soulignant son influence sur Deely. L’originalité de ce dernier est d’avoir considéré Poinsot comme le précurseur d’une sémiotique voisine de celle de Peirce, plus ontologique encore. Pour le résumer en quelques points, Poinsot défend avant tout que la nature et la réalité du signe sont ontologiques (secundum esse), c’est-à-dire que le signe est une relation dont le véhicule est indifférent à ce qu’il communique (p. 102). Ce point est essentiel car il permet de doter le signe d’une nature proprement relationnelle : (i) il pointe vers autre chose (une autre réalité physique ou psychique), (ii) il permet d’articuler la subjectivité et l’intersubjectivité et (iii) opère la médiation entre les choses (indépendantes de la pensée) et les objets (dépendants de la pensée) (pp. 105-106) ; ce que la représentation, où l’objet pointe vers lui-même, n’autorise pas. Le point de vue de Poinsot est déterminant, car les nombreux retours vers sa pensée réalisés tout au long de l’ouvrage, montrent que c’est au prisme de ces principes que Deely réévaluait les pensées modernes.

De l’autre côté, les "nominalistes" comme Guillaume d’Ockham considèrent que la réalité est extra mentale, que seules les causes externes sont réelles, et qu’en conséquence, les relations intersubjectives n’existent que dans la pensée. Malgré l’intervention des successeurs d’Ockham qui, contrairement à celui-ci, admettront le signe, divisé en deux entités — signes instrumentaux (physiques, accessibles aux sens) et signes formels (concepts) — à partir de 1400 environ, les concepts (signes formels) seront considérés comme des représentations (p. 91). Martine Bocquet montre bien que le principe nominaliste, souvent simplifié, sera largement adopté par les sciences empiriques qu’il permettra de développer, mais cela, et c’est l’enjeu de la démarche de Deely, au détriment du rapport entre le monde et les sens.

Dans le quatrième chapitre consacré à la modernité, Martine Bocquet montre comment Deely a pointé les problèmes et les limites posés par l’héritage du nominalisme, en mettant notamment en perspective les travaux des empiristes (John Locke, David Hume), puis ceux de Kant, avec les propositions de Poinsot. Elle montre d’emblée que le rationalisme de Descartes, où la raison est indépendante et supérieure à la perception, conduira à renégocier la place de la perception dans la connaissance. En concevant les qualités des sens comme des images mentales, les modernes renversent l’ordre de la perception sensorielle reconnu par les scoliastes, les qualités sensorielles (couleurs, odeurs, sons) autrefois premières sont reléguées au second plan (p. 117). Les empiristes (John Locke, George Berkeley, David Hume) contribueront à considérer l’ensemble des sensations comme des images mentales, ils ne seront alors plus capables de s’extraire de la subjectivité (p. 121-124). À ce titre, Martine Bocquet porte à notre attention que Deely avait bien montré que l’empirisme et le rationalisme éludaient la description du phénomène de cognition.

L’approche de Kant apparaît dans l’ouvrage comme point culminant, ou synthèse, de la pensée moderne. En suivant les pas de Deely, Martine Bocquet prend le soin de mettre son travail en perspective avec la pensée de Poinsot, ce qui permet de réaffirmer sa pertinence dans le projet sémiotique de Deely. Kant a eu le mérite d’envisager des relations objectives. Toutefois, en limitant la cognition aux représentations, il la sépare de la signification, c’est-à-dire du supplément de sens contenu dans l’objectivité (au sens de Poinsot), et se coupe de l’expérience de l’environnement sensible qui permet à l’homme de connaître et de constituer le monde (pp. 130-131). Martine Bocquet insiste sur le fait que, selon Deely, la pensée kantienne est lourde de conséquences puisqu’en inversant les concepts d’objectivité et de subjectivité, elle enferme l’individu dans sa propre pensée (p. 134), reléguant la communication au rang d’illusion.

Le dernier chapitre de l’ouvrage est consacré aux chercheurs post-modernes, qui ont marqué la fin du modernisme et opéré un retour vers le signe. On y trouve notamment les apports d’Hegel et de Darwin, entre autres, qui ont permis d’affirmer le rôle concret de la relation ontologique dans la cognition, et la prise des facultés cognitives avec l’environnement physique. Martine Bocquet consacre une grande partie du chapitre à la sémiotique en tant que discipline, ce qui lui permet de réaffirmer l’ancrage de Deely dans l’héritage peircien qui est ici clairement distingué des modèles de Saussure et Eco.

Martine Bocquet rappelle d’abord que la pensée de Peirce s’inspire des réalistes (d’Aquin, Duns Scot) et considère donc que les produits de la pensée sont bien réels, et non de simples constructions des sens. La sémiotique qu’il développe appréhende la signification comme un parcours de pensée dynamique entre expérience et cognition. Dans son modèle ternaire, présenté en détail, la relation de tiercité caractérise le fonctionnement de la cognition humaine depuis la perception d’indices jusqu’à la constitution d’un système de signification ; elle est propre à l’homme qui peut se référer à la réalité mais aussi évoquer des choses imaginées (p. 146). L’intérêt de ce modèle est de permettre d’envisager que les non-humains utilisent aussi des signes, possibilité envisagée par Peirce dans sa « grande vision », doctrine qui selon Bocquet fascine Deely. Ce projet consistait à étendre la sémiotique au vivant, considérant que l’action des signes est enracinée dans toutes les choses du monde. Il ouvre sur un vaste champ de recherche abordé en conclusion, sur lequel nous reviendrons.

Contrairement à la sémiotique peircienne, Bocquet montre que John Deely considère que la sémiologie de Saussure, reposant sur le signe linguistique, est limitée car elle ne s’occupe que des signes conventionnels, culturels. De ce fait, elle se montre non seulement incapable d’approcher le signe naturel mais elle court aussi le risque de faire de la réalité une construction de l’esprit (idéalisme). En dépit d’un substrat peircien partagé, la même critique sera adressée à la théorie des codes d’Eco puis, plus loin dans la conclusion de Martine Bocquet (pp. 171-172), au structuralisme (Greimas, Lévi-Strauss). En somme, ces sémiotiques sont très efficaces pour étudier les systèmes de signes spécifiquement humains, mais, enfermées dans le langage et la culture, elles sont incapables de traiter les signes naturels, toute tentative révèle leur idéalisme. À cet endroit, l’auteure met bien en évidence l’opposition irréductible entre, d’un côté, ces théories qui ne rendent compte ni du signe naturel ni de la reconnaissance des phénomènes de la nature, et de l’autre, la posture de Deely qui défend l’idée que les données des sens ne sont jamais déconnectées et que la perception comprend une structure d’objectivité car les relations sont réelles (p. 165). Finalement, au travers de l’ouvrage, Bocquet montre que Deely prônait un retour à l’universalité du signe.

La conclusion du livre indique que Deely plaçait le signe et la sémiotique au cœur d’une pensée postmoderne capable de rétablir le dialogue entre les sciences dures et les sciences de la communication. Ce dialogue répondrait à la nécessité de comprendre l’action des signes autant dans la nature que dans la culture. Pour concrétiser cela, Deely propose un retour au réalisme oublié des scoliastes latins pour réviser les théories des modernes afin de renouer le lien avec la nature, en tenant compte des entités dépendantes et indépendantes de la pensée (p. 168).

Cette posture s’inscrirait, selon Martine Bocquet, dans un projet sémioéthique au sein duquel l’homme prendrait conscience de ses responsabilités vis-à-vis de la nature. Finalement, la solution à adopter correspond à la "grande vision" de Peirce, introduite en amont, c’est-à-dire une doctrine des signes qui, d’une part, intègre l’ensemble de la connaissance humaine du sensoriel aux interactions sociales et à la culture et, d’autre part, étend la sémiotique à l’ensemble du monde vivant, considéré comme un réseau de significations entre humains et non-humains, et noué sur une relation ontologique présente dans toute chose (pp. 169-170). Mis en application dans les années 1960, ce projet a donné lieu à un ensemble de sémiotiques spécifiques étudiant aussi bien le vivant, comme la physiosémiotique, la phytosémiotique, la zoosémiotique, la biosémiotique, que l’homme avec l’anthroposémiotique. Nous soulignons que certaines de ces disciplines sont aujourd’hui émergentes pour répondre aux questions environnementales actuelles en termes de climat, de cohabitation entre espèces et d’habitabilité du monde.

La restitution des travaux de Deely par Martine Bocquet semble tout à fait pertinente pour les sciences de la communication. Tout d’abord, parce que la démarche historique de Deely invitant à réévaluer nos acquis au prisme de modèles plus anciens, parfois moins connus, est tout à fait d’actualité et nécessaire dans notre réseau de recherche pluridisciplinaire. Ensuite, du fait de la structure détaillée du livre de Martine Bocquet qui permettra autant aux étudiants qu’aux chercheurs de trouver une formulation des concepts et des problèmes qui sous-tendent encore le domaine de la communication.

D’autre part, le grand intérêt de l’ouvrage réside dans le parti pris épistémologique de la sémiotique de Deely. En adoptant la relation ontologique de Poinsot, présente en creux chez Peirce, Deely ouvre des perspectives importantes pour le champ des sciences de la communication puisqu’il attire notre attention sur un concept universel de signe capable de réaffirmer la place du sensible dans la communication et de problématiser les interactions entre humains et non-humains. À ce titre, la pensée de Deely rapportée par Martine Bocquet est tout à fait en phase avec la recherche de ces quinze dernières années où différentes disciplines ont cherché à étudier la signification au-delà des particularités entre humains mais aussi entre êtres vivants, soit en adoptant un point de vue ontologique soit en intégrant les sciences physiques ou cognitives. Citons par exemple la biosémiotique, la zoosémiotique mais aussi l’anthropologie de la nature de Philippe Descola, "l’anthropologie au-delà de l’humain" d’Eduardo Kohn, la sémiophysique de René Thom et Jean Petitot ou encore la sémiotique cognitive.

Auteur: Chatenet Ludovic

Info: résumé critique de : Martine Bocquet, Sur les traces du signe avec John Deely : une histoire de la sémiotique Limoges, Éditions Lambert Lucas, 2019, 200 p.

[ panorama sémiologique ] [ anthropocentrisme ] [ xénolinguistique ] [ philologie ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

homme-machine

Comment l'IA comprend des trucs que personne ne lui lui a appris

Les chercheurs peinent à comprendre comment les modèles d'Intelligence artificielle, formés pour perroquetter les textes sur Internet, peuvent effectuer des tâches avancées comme coder, jouer à des jeux ou essayer de rompre un mariage.

Personne ne sait encore comment ChatGPT et ses cousins de l'intelligence artificielle vont transformer le monde, en partie parce que personne ne sait vraiment ce qui se passe à l'intérieur. Certaines des capacités de ces systèmes vont bien au-delà de ce pour quoi ils ont été formés, et même leurs inventeurs ne savent pas pourquoi. Un nombre croissant de tests suggèrent que ces systèmes d'IA développent des modèles internes du monde réel, tout comme notre propre cerveau le fait, bien que la technique des machines soit différente.

"Tout ce que nous voulons faire avec ces systèmes pour les rendre meilleurs ou plus sûrs ou quelque chose comme ça me semble une chose ridicule à demander si nous ne comprenons pas comment ils fonctionnent", déclare Ellie Pavlick de l'Université Brown, un des chercheurs travaillant à combler ce vide explicatif.

À un certain niveau, elle et ses collègues comprennent parfaitement le GPT (abréviation de generative pretrained transformer) et d'autres grands modèles de langage, ou LLM. Des modèles qui reposent sur un système d'apprentissage automatique appelé réseau de neurones. De tels réseaux ont une structure vaguement calquée sur les neurones connectés du cerveau humain. Le code de ces programmes est relativement simple et ne remplit que quelques pages. Il met en place un algorithme d'autocorrection, qui choisit le mot le plus susceptible de compléter un passage sur la base d'une analyse statistique laborieuse de centaines de gigaoctets de texte Internet. D'autres algorithmes auto-apprenants supplémentaire garantissant que le système présente ses résultats sous forme de dialogue. En ce sens, il ne fait que régurgiter ce qu'il a appris, c'est un "perroquet stochastique", selon les mots d'Emily Bender, linguiste à l'Université de Washington. Mais les LLM ont également réussi à réussir l'examen pour devenir avocat, à expliquer le boson de Higgs en pentamètre iambique (forme de poésie contrainte) ou à tenter de rompre le mariage d'un utilisateurs. Peu de gens s'attendaient à ce qu'un algorithme d'autocorrection assez simple acquière des capacités aussi larges.

Le fait que GPT et d'autres systèmes d'IA effectuent des tâches pour lesquelles ils n'ont pas été formés, leur donnant des "capacités émergentes", a surpris même les chercheurs qui étaient généralement sceptiques quant au battage médiatique sur les LLM. "Je ne sais pas comment ils le font ou s'ils pourraient le faire plus généralement comme le font les humains, mais tout ça mes au défi mes pensées sur le sujet", déclare Melanie Mitchell, chercheuse en IA à l'Institut Santa Fe.

"C'est certainement bien plus qu'un perroquet stochastique, qui auto-construit sans aucun doute une certaine représentation du monde, bien que je ne pense pas que ce soit vraiment de la façon dont les humains construisent un modèle de monde interne", déclare Yoshua Bengio, chercheur en intelligence artificielle à l'université de Montréal.

Lors d'une conférence à l'Université de New York en mars, le philosophe Raphaël Millière de l'Université de Columbia a offert un autre exemple à couper le souffle de ce que les LLM peuvent faire. Les modèles avaient déjà démontré leur capacité à écrire du code informatique, ce qui est impressionnant mais pas trop surprenant car il y a tellement de code à imiter sur Internet. Millière est allé plus loin en montrant que le GPT peut aussi réaliser du code. Le philosophe a tapé un programme pour calculer le 83e nombre de la suite de Fibonacci. "Il s'agit d'un raisonnement en plusieurs étapes d'un très haut niveau", explique-t-il. Et le robot a réussi. Cependant, lorsque Millière a demandé directement le 83e nombre de Fibonacci, GPT s'est trompé, ce qui suggère que le système ne se contentait pas de répéter ce qui se disait sur l'internet. Ce qui suggère que le système ne se contente pas de répéter ce qui se dit sur Internet, mais qu'il effectue ses propres calculs pour parvenir à la bonne réponse.

Bien qu'un LLM tourne sur un ordinateur, il n'en n'est pas un lui-même. Il lui manque des éléments de calcul essentiels, comme sa propre mémoire vive. Reconnaissant tacitement que GPT seul ne devrait pas être capable d'exécuter du code, son inventeur, la société technologique OpenAI, a depuis introduit un plug-in spécialisé - outil que ChatGPT peut utiliser pour répondre à une requête - qui remédie à cela. Mais ce plug-in n'a pas été utilisé dans la démonstration de Millière. Au lieu de cela, ce dernier suppose plutôt que la machine a improvisé une mémoire en exploitant ses mécanismes d'interprétation des mots en fonction de leur contexte - situation similaire à la façon dont la nature réaffecte des capacités existantes à de nouvelles fonctions.

Cette capacité impromptue démontre que les LLM développent une complexité interne qui va bien au-delà d'une analyse statistique superficielle. Les chercheurs constatent que ces systèmes semblent parvenir à une véritable compréhension de ce qu'ils ont appris. Dans une étude présentée la semaine dernière à la Conférence internationale sur les représentations de l'apprentissage (ICLR), le doctorant Kenneth Li de l'Université de Harvard et ses collègues chercheurs en intelligence artificielle, Aspen K. Hopkins du Massachusetts Institute of Technology, David Bau de la Northeastern University et Fernanda Viégas , Hanspeter Pfister et Martin Wattenberg, tous à Harvard, ont créé leur propre copie plus petite du réseau neuronal GPT afin de pouvoir étudier son fonctionnement interne. Ils l'ont entraîné sur des millions de matchs du jeu de société Othello en alimentant de longues séquences de mouvements sous forme de texte. Leur modèle est devenu un joueur presque parfait.

Pour étudier comment le réseau de neurones encodait les informations, ils ont adopté une technique que Bengio et Guillaume Alain, également de l'Université de Montréal, ont imaginée en 2016. Ils ont créé un réseau de "sondes" miniatures pour analyser le réseau principal couche par couche. Li compare cette approche aux méthodes des neurosciences. "C'est comme lorsque nous plaçons une sonde électrique dans le cerveau humain", dit-il. Dans le cas de l'IA, la sonde a montré que son "activité neuronale" correspondait à la représentation d'un plateau de jeu d'Othello, bien que sous une forme alambiquée. Pour confirmer ce résultat, les chercheurs ont inversé la sonde afin d'implanter des informations dans le réseau, par exemple en remplaçant l'un des marqueurs noirs du jeu par un marqueur blanc. "En fait, nous piratons le cerveau de ces modèles de langage", explique Li. Le réseau a ajusté ses mouvements en conséquence. Les chercheurs ont conclu qu'il jouait à Othello à peu près comme un humain : en gardant un plateau de jeu dans son "esprit" et en utilisant ce modèle pour évaluer les mouvements. Li pense que le système apprend cette compétence parce qu'il s'agit de la description la plus simple et efficace de ses données pour l'apprentissage. "Si l'on vous donne un grand nombre de scripts de jeu, essayer de comprendre la règle qui les sous-tend est le meilleur moyen de les comprimer", ajoute-t-il.

Cette capacité à déduire la structure du monde extérieur ne se limite pas à de simples mouvements de jeu ; il apparaît également dans le dialogue. Belinda Li (aucun lien avec Kenneth Li), Maxwell Nye et Jacob Andreas, tous au MIT, ont étudié des réseaux qui jouaient à un jeu d'aventure textuel. Ils ont introduit des phrases telles que "La clé est dans le coeur du trésor", suivies de "Tu prends la clé". À l'aide d'une sonde, ils ont constaté que les réseaux encodaient en eux-mêmes des variables correspondant à "coeur" et "Tu", chacune avec la propriété de posséder ou non une clé, et mettaient à jour ces variables phrase par phrase. Le système n'a aucun moyen indépendant de savoir ce qu'est une boîte ou une clé, mais il a acquis les concepts dont il avait besoin pour cette tâche."

"Une représentation de cette situation est donc enfouie dans le modèle", explique Belinda Li.

Les chercheurs s'émerveillent de voir à quel point les LLM sont capables d'apprendre du texte. Par exemple, Pavlick et sa doctorante d'alors, l'étudiante Roma Patel, ont découvert que ces réseaux absorbent les descriptions de couleur du texte Internet et construisent des représentations internes de la couleur. Lorsqu'ils voient le mot "rouge", ils le traitent non seulement comme un symbole abstrait, mais comme un concept qui a une certaine relation avec le marron, le cramoisi, le fuchsia, la rouille, etc. Démontrer cela fut quelque peu délicat. Au lieu d'insérer une sonde dans un réseau, les chercheurs ont étudié sa réponse à une série d'invites textuelles. Pour vérifier si le systhème ne faisait pas simplement écho à des relations de couleur tirées de références en ligne, ils ont essayé de le désorienter en lui disant que le rouge est en fait du vert - comme dans la vieille expérience de pensée philosophique où le rouge d'une personne correspond au vert d'une autre. Plutôt que répéter une réponse incorrecte, les évaluations de couleur du système ont évolué de manière appropriée afin de maintenir les relations correctes.

Reprenant l'idée que pour remplir sa fonction d'autocorrection, le système recherche la logique sous-jacente de ses données d'apprentissage, le chercheur en apprentissage automatique Sébastien Bubeck de Microsoft Research suggère que plus la gamme de données est large, plus les règles du système faire émerger sont générales. "Peut-être que nous nous constatons un tel bond en avant parce que nous avons atteint une diversité de données suffisamment importante pour que le seul principe sous-jacent à toutes ces données qui demeure est que des êtres intelligents les ont produites... Ainsi la seule façon pour le modèle d'expliquer toutes ces données est de devenir intelligent lui-même".

En plus d'extraire le sens sous-jacent du langage, les LLM sont capables d'apprendre en temps réel. Dans le domaine de l'IA, le terme "apprentissage" est généralement réservé au processus informatique intensif dans lequel les développeurs exposent le réseau neuronal à des gigaoctets de données et ajustent petit à petit ses connexions internes. Lorsque vous tapez une requête dans ChatGPT, le réseau devrait être en quelque sorte figé et, contrairement à l'homme, ne devrait pas continuer à apprendre. Il fut donc surprenant de constater que les LLM apprennent effectivement à partir des invites de leurs utilisateurs, une capacité connue sous le nom d'"apprentissage en contexte". "Il s'agit d'un type d'apprentissage différent dont on ne soupçonnait pas l'existence auparavant", explique Ben Goertzel, fondateur de la société d'IA SingularityNET.

Un exemple de la façon dont un LLM apprend vient de la façon dont les humains interagissent avec les chatbots tels que ChatGPT. Vous pouvez donner au système des exemples de la façon dont vous voulez qu'il réponde, et il obéira. Ses sorties sont déterminées par les derniers milliers de mots qu'il a vus. Ce qu'il fait, étant donné ces mots, est prescrit par ses connexions internes fixes - mais la séquence de mots offre néanmoins une certaine adaptabilité. Certaines personnes utilisent le jailbreak à des fins sommaires, mais d'autres l'utilisent pour obtenir des réponses plus créatives. "Il répondra mieux aux questions scientifiques, je dirais, si vous posez directement la question, sans invite spéciale de jailbreak, explique William Hahn, codirecteur du laboratoire de perception de la machine et de robotique cognitive à la Florida Atlantic University. "Sans il sera un meilleur universitaire." (Comme son nom l'indique une invite jailbreak -prison cassée-, invite à moins délimiter-verrouiller les fonctions de recherche et donc à les ouvrir, avec les risques que ça implique) .

Un autre type d'apprentissage en contexte se produit via l'incitation à la "chaîne de pensée", ce qui signifie qu'on demande au réseau d'épeler chaque étape de son raisonnement - manière de faire qui permet de mieux résoudre les problèmes de logique ou d'arithmétique en passant par plusieurs étapes. (Ce qui rend l'exemple de Millière si surprenant puisque le réseau a trouvé le nombre de Fibonacci sans un tel encadrement.)

En 2022, une équipe de Google Research et de l'École polytechnique fédérale de Zurich - Johannes von Oswald, Eyvind Niklasson, Ettore Randazzo, João Sacramento, Alexander Mordvintsev, Andrey Zhmoginov et Max Vladymyrov - a montré que l'apprentissage en contexte suit la même procédure de calcul de base que l'apprentissage standard, connue sous le nom de descente de gradient".

Cette procédure n'était pas programmée ; le système l'a découvert sans aide. "C'est probablement une compétence acquise", déclare Blaise Agüera y Arcas, vice-président de Google Research. De fait il pense que les LLM peuvent avoir d'autres capacités latentes que personne n'a encore découvertes. "Chaque fois que nous testons une nouvelle capacité que nous pouvons quantifier, nous la trouvons", dit-il.

Bien que les LLM aient suffisamment d'angles morts et autres défauts pour ne pas être qualifiés d'intelligence générale artificielle, ou AGI - terme désignant une machine qui atteint l'ingéniosité du cerveau animal - ces capacités émergentes suggèrent à certains chercheurs que les entreprises technologiques sont plus proches de l'AGI que même les optimistes ne l'avaient deviné. "Ce sont des preuves indirectes que nous en sommes probablement pas si loin", a déclaré Goertzel en mars lors d'une conférence sur le deep learning à la Florida Atlantic University. Les plug-ins d'OpenAI ont donné à ChatGPT une architecture modulaire un peu comme celle du cerveau humain. "La combinaison de GPT-4 [la dernière version du LLM qui alimente ChatGPT] avec divers plug-ins pourrait être une voie vers une spécialisation des fonctions semblable à celle de l'homme", déclare Anna Ivanova, chercheuse au M.I.T.

Dans le même temps, les chercheurs s'inquiètent de voir leur capacité à étudier ces systèmes s'amenuiser. OpenAI n'a pas divulgué les détails de la conception et de l'entraînement de GPT-4, en partie du à la concurrence avec Google et d'autres entreprises, sans parler des autres pays. "Il y aura probablement moins de recherche ouverte de la part de l'industrie, et les choses seront plus cloisonnées et organisées autour de la construction de produits", déclare Dan Roberts, physicien théoricien au M.I.T., qui applique les techniques de sa profession à la compréhension de l'IA.

Ce manque de transparence ne nuit pas seulement aux chercheurs, il entrave également les efforts qui visent à comprendre les répercussions sociales de l'adoption précipitée de la technologie de l'IA. "La transparence de ces modèles est la chose la plus importante pour garantir la sécurité", affirme M. Mitchell.

Auteur: Musser Georges

Info: https://www.scientificamerican.com, 11 mai 2023. *algorithme d'optimisation utilisé dans l'apprentissage automatique et les problèmes d'optimisation. Il vise à minimiser ou à maximiser une fonction en ajustant ses paramètres de manière itérative. L'algorithme part des valeurs initiales des paramètres et calcule le gradient de la fonction au point actuel. Les paramètres sont ensuite mis à jour dans la direction du gradient négatif (pour la minimisation) ou positif (pour la maximisation), multiplié par un taux d'apprentissage. Ce processus est répété jusqu'à ce qu'un critère d'arrêt soit rempli. La descente de gradient est largement utilisée dans la formation des modèles d'apprentissage automatique pour trouver les valeurs optimales des paramètres qui minimisent la différence entre les résultats prédits et les résultats réels. Trad et adaptation Mg

[ singularité technologique ] [ versatilité sémantique ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

homme-machine

Les grands modèles de langage tels que ChatGPT sont aujourd'hui suffisamment importants pour commencer à afficher des comportements surprenants et imprévisibles.

Quel film ces emojis décrivent-ils ? (On voit une vidéo qui présente des myriades d'émoji formant des motifs mouvants, modélisés à partir de métadonnées)

Cette question était l'une des 204 tâches choisies l'année dernière pour tester la capacité de divers grands modèles de langage (LLM) - les moteurs de calcul derrière les chatbots d'IA tels que ChatGPT. Les LLM les plus simples ont produit des réponses surréalistes. "Le film est un film sur un homme qui est un homme qui est un homme", commençait l'un d'entre eux. Les modèles de complexité moyenne s'en sont approchés, devinant The Emoji Movie. Mais le modèle le plus complexe l'a emporté en une seule réponse : Finding Nemo.

"Bien que j'essaie de m'attendre à des surprises, je suis surpris par ce que ces modèles peuvent faire", a déclaré Ethan Dyer, informaticien chez Google Research, qui a participé à l'organisation du test. C'est surprenant parce que ces modèles sont censés n'avoir qu'une seule directive : accepter une chaîne de texte en entrée et prédire ce qui va suivre, encore et encore, en se basant uniquement sur des statistiques. Les informaticiens s'attendaient à ce que le passage à l'échelle permette d'améliorer les performances sur des tâches connues, mais ils ne s'attendaient pas à ce que les modèles puissent soudainement gérer autant de tâches nouvelles et imprévisibles.

Des études récentes, comme celle à laquelle a participé M. Dyer, ont révélé que les LLM peuvent produire des centaines de capacités "émergentes", c'est-à-dire des tâches que les grands modèles peuvent accomplir et que les petits modèles ne peuvent pas réaliser, et dont beaucoup ne semblent pas avoir grand-chose à voir avec l'analyse d'un texte. Ces tâches vont de la multiplication à la génération d'un code informatique exécutable et, apparemment, au décodage de films à partir d'emojis. De nouvelles analyses suggèrent que pour certaines tâches et certains modèles, il existe un seuil de complexité au-delà duquel la fonctionnalité du modèle monte en flèche. (Elles suggèrent également un sombre revers de la médaille : À mesure qu'ils gagnent en complexité, certains modèles révèlent de nouveaux biais et inexactitudes dans leurs réponses).

"Le fait que les modèles de langage puissent faire ce genre de choses n'a jamais été abordé dans la littérature à ma connaissance", a déclaré Rishi Bommasani, informaticien à l'université de Stanford. L'année dernière, il a participé à la compilation d'une liste de dizaines de comportements émergents, dont plusieurs ont été identifiés dans le cadre du projet de M. Dyer. Cette liste continue de s'allonger.

Aujourd'hui, les chercheurs s'efforcent non seulement d'identifier d'autres capacités émergentes, mais aussi de comprendre pourquoi et comment elles se manifestent - en somme, d'essayer de prédire l'imprévisibilité. La compréhension de l'émergence pourrait apporter des réponses à des questions profondes concernant l'IA et l'apprentissage automatique en général, comme celle de savoir si les modèles complexes font vraiment quelque chose de nouveau ou s'ils deviennent simplement très bons en statistiques. Elle pourrait également aider les chercheurs à exploiter les avantages potentiels et à limiter les risques liés à l'émergence.

"Nous ne savons pas comment déterminer dans quel type d'application la capacité de nuisance va se manifester, que ce soit en douceur ou de manière imprévisible", a déclaré Deep Ganguli, informaticien à la startup d'IA Anthropic.

L'émergence de l'émergence

Les biologistes, les physiciens, les écologistes et d'autres scientifiques utilisent le terme "émergent" pour décrire l'auto-organisation, les comportements collectifs qui apparaissent lorsqu'un grand nombre d'éléments agissent comme un seul. Des combinaisons d'atomes sans vie donnent naissance à des cellules vivantes ; les molécules d'eau créent des vagues ; des murmurations d'étourneaux s'élancent dans le ciel selon des schémas changeants mais identifiables ; les cellules font bouger les muscles et battre les cœurs. Il est essentiel que les capacités émergentes se manifestent dans les systèmes qui comportent de nombreuses parties individuelles. Mais ce n'est que récemment que les chercheurs ont été en mesure de documenter ces capacités dans les LLM, car ces modèles ont atteint des tailles énormes.

Les modèles de langage existent depuis des décennies. Jusqu'à il y a environ cinq ans, les plus puissants étaient basés sur ce que l'on appelle un réseau neuronal récurrent. Ceux-ci prennent essentiellement une chaîne de texte et prédisent le mot suivant. Ce qui rend un modèle "récurrent", c'est qu'il apprend à partir de ses propres résultats : Ses prédictions sont réinjectées dans le réseau afin d'améliorer les performances futures.

En 2017, les chercheurs de Google Brain ont introduit un nouveau type d'architecture appelé "transformateur". Alors qu'un réseau récurrent analyse une phrase mot par mot, le transformateur traite tous les mots en même temps. Cela signifie que les transformateurs peuvent traiter de grandes quantités de texte en parallèle.

Les transformateurs ont permis d'augmenter rapidement la complexité des modèles de langage en augmentant le nombre de paramètres dans le modèle, ainsi que d'autres facteurs. Les paramètres peuvent être considérés comme des connexions entre les mots, et les modèles s'améliorent en ajustant ces connexions au fur et à mesure qu'ils parcourent le texte pendant l'entraînement. Plus il y a de paramètres dans un modèle, plus il peut établir des connexions avec précision et plus il se rapproche d'une imitation satisfaisante du langage humain. Comme prévu, une analyse réalisée en 2020 par les chercheurs de l'OpenAI a montré que les modèles gagnent en précision et en capacité au fur et à mesure qu'ils s'étendent.

Mais les débuts des LLM ont également apporté quelque chose de vraiment inattendu. Beaucoup de choses. Avec l'avènement de modèles tels que le GPT-3, qui compte 175 milliards de paramètres, ou le PaLM de Google, qui peut être étendu à 540 milliards de paramètres, les utilisateurs ont commencé à décrire de plus en plus de comportements émergents. Un ingénieur de DeepMind a même rapporté avoir pu convaincre ChatGPT qu'il s'était lui-même un terminal Linux et l'avoir amené à exécuter un code mathématique simple pour calculer les 10 premiers nombres premiers. Fait remarquable, il a pu terminer la tâche plus rapidement que le même code exécuté sur une vraie machine Linux.

Comme dans le cas du film emoji, les chercheurs n'avaient aucune raison de penser qu'un modèle de langage conçu pour prédire du texte imiterait de manière convaincante un terminal d'ordinateur. Nombre de ces comportements émergents illustrent l'apprentissage "à zéro coup" ou "à quelques coups", qui décrit la capacité d'un LLM à résoudre des problèmes qu'il n'a jamais - ou rarement - vus auparavant. Selon M. Ganguli, il s'agit là d'un objectif de longue date dans la recherche sur l'intelligence artificielle. Le fait de montrer que le GPT-3 pouvait résoudre des problèmes sans aucune donnée d'entraînement explicite dans un contexte d'apprentissage à zéro coup m'a amené à abandonner ce que je faisais et à m'impliquer davantage", a-t-il déclaré.

Il n'était pas le seul. Une série de chercheurs, qui ont détecté les premiers indices montrant que les LLM pouvaient dépasser les contraintes de leurs données d'apprentissage, s'efforcent de mieux comprendre à quoi ressemble l'émergence et comment elle se produit. La première étape a consisté à documenter minutieusement l'émergence.

Au-delà de l'imitation

En 2020, M. Dyer et d'autres chercheurs de Google Research ont prédit que les LLM auraient des effets transformateurs, mais la nature de ces effets restait une question ouverte. Ils ont donc demandé à la communauté des chercheurs de fournir des exemples de tâches difficiles et variées afin de déterminer les limites extrêmes de ce qu'un LLM pourrait faire. Cet effort a été baptisé "Beyond the Imitation Game Benchmark" (BIG-bench), en référence au nom du "jeu d'imitation" d'Alan Turing, un test visant à déterminer si un ordinateur peut répondre à des questions d'une manière humaine convaincante. (Le groupe s'est particulièrement intéressé aux exemples où les LLM ont soudainement acquis de nouvelles capacités qui étaient totalement absentes auparavant.

"La façon dont nous comprenons ces transitions brutales est une grande question de la echerche", a déclaré M. Dyer.

Comme on pouvait s'y attendre, pour certaines tâches, les performances d'un modèle se sont améliorées de manière régulière et prévisible au fur et à mesure que la complexité augmentait. Pour d'autres tâches, l'augmentation du nombre de paramètres n'a apporté aucune amélioration. Mais pour environ 5 % des tâches, les chercheurs ont constaté ce qu'ils ont appelé des "percées", c'est-à-dire des augmentations rapides et spectaculaires des performances à partir d'un certain seuil d'échelle. Ce seuil variant en fonction de la tâche et du modèle.

Par exemple, les modèles comportant relativement peu de paramètres - quelques millions seulement - n'ont pas réussi à résoudre des problèmes d'addition à trois chiffres ou de multiplication à deux chiffres, mais pour des dizaines de milliards de paramètres, la précision a grimpé en flèche dans certains modèles. Des sauts similaires ont été observés pour d'autres tâches, notamment le décodage de l'alphabet phonétique international, le décodage des lettres d'un mot, l'identification de contenu offensant dans des paragraphes d'hinglish (combinaison d'hindi et d'anglais) et la formulation d'équivalents en langue anglaise, traduit à partir de proverbes kiswahili.

Introduction

Mais les chercheurs se sont rapidement rendu compte que la complexité d'un modèle n'était pas le seul facteur déterminant. Des capacités inattendues pouvaient être obtenues à partir de modèles plus petits avec moins de paramètres - ou formés sur des ensembles de données plus petits - si les données étaient d'une qualité suffisamment élevée. En outre, la formulation d'une requête influe sur la précision de la réponse du modèle. Par exemple, lorsque Dyer et ses collègues ont posé la question de l'emoji de film en utilisant un format à choix multiples, l'amélioration de la précision a été moins soudaine qu'avec une augmentation graduelle de sa complexité. L'année dernière, dans un article présenté à NeurIPS, réunion phare du domaine, des chercheurs de Google Brain ont montré comment un modèle invité à s'expliquer (capacité appelée raisonnement en chaîne) pouvait résoudre correctement un problème de mots mathématiques, alors que le même modèle sans cette invitation progressivement précisée n'y parvenait pas.

Yi Tay, scientifique chez Google Brain qui a travaillé sur l'étude systématique de ces percées, souligne que des travaux récents suggèrent que l'incitation par de pareilles chaînes de pensées modifie les courbes d'échelle et, par conséquent, le point où l'émergence se produit. Dans leur article sur NeurIPS, les chercheurs de Google ont montré que l'utilisation d'invites via pareille chaines de pensée progressives pouvait susciter des comportements émergents qui n'avaient pas été identifiés dans l'étude BIG-bench. De telles invites, qui demandent au modèle d'expliquer son raisonnement, peuvent aider les chercheurs à commencer à étudier les raisons pour lesquelles l'émergence se produit.

Selon Ellie Pavlick, informaticienne à l'université Brown qui étudie les modèles computationnels du langage, les découvertes récentes de ce type suggèrent au moins deux possibilités pour expliquer l'émergence. La première est que, comme le suggèrent les comparaisons avec les systèmes biologiques, les grands modèles acquièrent réellement de nouvelles capacités de manière spontanée. "Il se peut très bien que le modèle apprenne quelque chose de fondamentalement nouveau et différent que lorsqu'il était de taille inférieure", a-t-elle déclaré. "C'est ce que nous espérons tous, qu'il y ait un changement fondamental qui se produise lorsque les modèles sont mis à l'échelle.

L'autre possibilité, moins sensationnelle, est que ce qui semble être émergent pourrait être l'aboutissement d'un processus interne, basé sur les statistiques, qui fonctionne par le biais d'un raisonnement de type chaîne de pensée. Les grands LLM peuvent simplement être en train d'apprendre des heuristiques qui sont hors de portée pour ceux qui ont moins de paramètres ou des données de moindre qualité.

Mais, selon elle, pour déterminer laquelle de ces explications est la plus probable, il faut mieux comprendre le fonctionnement des LLM. "Comme nous ne savons pas comment ils fonctionnent sous le capot, nous ne pouvons pas dire laquelle de ces choses se produit.

Pouvoirs imprévisibles et pièges

Demander à ces modèles de s'expliquer pose un problème évident : Ils sont des menteurs notoires. Nous nous appuyons de plus en plus sur ces modèles pour effectuer des travaux de base", a déclaré M. Ganguli, "mais je ne me contente pas de leur faire confiance, je vérifie leur travail". Parmi les nombreux exemples amusants, Google a présenté en février son chatbot d'IA, Bard. Le billet de blog annonçant le nouvel outil montre Bard en train de commettre une erreur factuelle.

L'émergence mène à l'imprévisibilité, et l'imprévisibilité - qui semble augmenter avec l'échelle - rend difficile pour les chercheurs d'anticiper les conséquences d'une utilisation généralisée.

"Il est difficile de savoir à l'avance comment ces modèles seront utilisés ou déployés", a déclaré M. Ganguli. "Et pour étudier les phénomènes émergents, il faut avoir un cas en tête, et on ne sait pas, avant d'avoir étudié l'influence de l'échelle. quelles capacités ou limitations pourraient apparaître.

Dans une analyse des LLM publiée en juin dernier, les chercheurs d'Anthropic ont cherché à savoir si les modèles présentaient certains types de préjugés raciaux ou sociaux, à l'instar de ceux précédemment signalés dans les algorithmes non basés sur les LLM utilisés pour prédire quels anciens criminels sont susceptibles de commettre un nouveau délit. Cette étude a été inspirée par un paradoxe apparent directement lié à l'émergence : Lorsque les modèles améliorent leurs performances en passant à l'échelle supérieure, ils peuvent également augmenter la probabilité de phénomènes imprévisibles, y compris ceux qui pourraient potentiellement conduire à des biais ou à des préjudices.

"Certains comportements nuisibles apparaissent brusquement dans certains modèles", explique M. Ganguli. Il se réfère à une analyse récente des LLM, connue sous le nom de BBQ benchmark, qui a montré que les préjugés sociaux émergent avec un très grand nombre de paramètres. "Les grands modèles deviennent brusquement plus biaisés. Si ce risque n'est pas pris en compte, il pourrait compromettre les sujets de ces modèles."

Mais il propose un contrepoint : Lorsque les chercheurs demandent simplement au modèle de ne pas se fier aux stéréotypes ou aux préjugés sociaux - littéralement en tapant ces instructions - le modèle devient moins biaisé dans ses prédictions et ses réponses. Ce qui suggère que certaines propriétés émergentes pourraient également être utilisées pour réduire les biais. Dans un article publié en février, l'équipe d'Anthropic a présenté un nouveau mode d'"autocorrection morale", dans lequel l'utilisateur incite le programme à être utile, honnête et inoffensif.

Selon M. Ganguli, l'émergence révèle à la fois un potentiel surprenant et un risque imprévisible. Les applications de ces grands LLM prolifèrent déjà, de sorte qu'une meilleure compréhension de cette interaction permettra d'exploiter la diversité des capacités des modèles de langage.

"Nous étudions la manière dont les gens utilisent réellement ces systèmes", a déclaré M. Ganguli. Mais ces utilisateurs sont également en train de bricoler, en permanence. "Nous passons beaucoup de temps à discuter avec nos modèles, et c'est là que nous commençons à avoir une bonne intuition de la confiance ou du manque de confiance.

Auteur: Ornes Stephen

Info: https://www.quantamagazine.org/ - 16 mars 2023. Trad DeepL et MG

[ dialogue ] [ apprentissage automatique ] [ au-delà du jeu d'imitation ] [ dualité ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

néo-darwinisme

Pour décoder la manipulation ou le marketing viral : la mémétique

Qu’y a-t-il de commun entre un drapeau de pirates, la chanson Happy birthday to you, un crucifix, des sigles courants (TV, USA, WC...), un jeu de Pokémon, un panneau stop, une histoire belge bien connue et le logo de Nike ? Ce sont des mèmes. C’est à dire des “entités réplicatives d’informations”, autrement dit des codes culturels qui, par imitation ou contagion, transmettent des solutions inventées par une population. Quand vous faites du marketing viral ou du lobbying, quand la télévision manipule votre “temps de cerveau humain disponible” à des fins commerciales ou idéologiques, vous êtes sans le savoir dans le champ de la mémétique comme M. Jourdain était dans celui de la prose.

La vraie vie n’est pas seulement faite de ce qu’on apprend à l’école ou à l’université... Les relations entre spécialités sont au moins aussi utiles que l’approfondissement d’une expertise spécifique... Ce n’est pas parce qu’une discipline n’a pas (encore) de reconnaissance académique qu’elle n’est pas sérieuse... Surtout quand la connaissance évolue plus vite que les mentalités, quand le fossé se creuse entre théorie et pratique, quand l’académisme dépend de normes formelles ou de chasses gardées plus que du progrès de la civilisation... La mémétique en est un bon exemple qui, malgré sa valeur scientifique et son utilité sociale, est méprisée comme ont pu l’être ses ancêtres darwiniens. Dommage, car si elle était mieux connue, nous serions moins faciles à manipuler.

LA MÉMÉTIQUE, C’EST SÉRIEUX !

Le mème est à la culture ce que le gène est à la nature. L’Oxford English Dictionary le définit comme un élément de culture dont on peut considérer qu’il se transmet par des moyens non génétiques, en particulier par l’imitation. Il a pour habitat ou pour vecteur l’homme lui-même ou tout support d’information. Dans les années 1970, des chercheurs de différentes disciplines s’interrogeaient sur la possible existence d’un équivalent culturel de l’ADN*. C’est en 1976, dans Le gène égoïste, que l’éthologiste Richard Dawkins baptisa le mème à partir d’une association entre gène et mimesis (du grec imitation), suggérant aussi les notions de mémoire, de ressemblance (du français même), de plus petite unité d’information. “Bref, un mot génial, bien trouvé, imparable. Un pur réplicateur qui s’ancre davantage dans votre mémoire chaque fois que vous essayez de l’oublier !” (Pascal Jouxtel).

La mémétique applique à la culture humaine des concepts issus de la théorie de l’évolution et envisage une analogie entre patrimoines culturels et génétique : il y a variation (mutation), sélection et transmission de codes culturels qui sont en concurrence pour se reproduire dans la société. Cette réplication a un caractère intra- et inter-humain. Elle dépend de la capacité du mème à se faire accepter : vous l’accueillez, l’hébergez, le rediffusez parce que vous en tirez une gratification aux yeux d’autrui, par exemple en termes d’image (vous avez le 4x4 vu à la télé), de rareté (il a une carte Pikatchu introuvable) ou autre avantage relationnel (petits objets transactionnels attractifs). Elle est stimulée par les technologies de l’information, qui renforcent le maillage des flux échangés et les accélèrent : la réplication est plus forte par les mass media (cf. les codes véhiculés par les émissions de téléréalité) et sur les réseaux (SMS ou Internet) que dans une société moins médiatisée où les flux sont moins foisonnants.

On ne démontrera pas en quelques lignes la valeur ou l’intérêt de cette science, mais un ouvrage le fait avec talent : Comment les systèmes pondent, de P. Jouxtel (Le Pommier, Paris, 2005). On se bornera ici à extraire de ce livre un complément de définition : “la mémétique revendique une forme d’autonomie du pensé par rapport au penseur, d’antériorité causale des flux devant les structures, et se pose entre autres comme une science de l’auto-émergence du savoir par compétition entre les niveaux plus élémentaires de la pensée... Transdisciplinaire par nature, la mémétique est une branche extrême de l’anthropologie sociale croisée avec des résultats de l’intelligence artificielle, des sciences cognitives et des sciences de la complexité. Elle s’inscrit formellement dans le cadre darwinien tout en se démarquant des précédentes incursions de la génétique dans les sciences humaines classiques, comme la sociobiologie ou la psychologie évolutionniste, et s’oppose radicalement à toute forme vulgaire de darwinisme social”.

RESTER DANS LE JEU, JOUER À CÔTÉ OU AGIR SUR LE JEU ?

Jouxtel veut aussi promouvoir en milieu francophone une théorie qui y est un peu suspecte, coupable d’attaches anglo-saxonnes, masi qui pourtant trouve ses racines dans notre héritage culturel : autonomie du pensé, morphogenèse (apparition spontanée de formes élémentaires), évolution darwinienne dans la sphère immatérielle des concepts (Monod)... Le rejet observé en France tient aussi au divorce qu’on y entretient entre sciences sociales et sciences naturelles ou à la méfiance vis-à-vis de certains aspects de l’algorithme évolutionnaire (mutation, sélection, reproduction), en particulier “on fait une confusion terrible en croyant que la sélection s’applique aux gens alors qu’elle ne s’applique qu’aux règles du jeu”. De fait, cette forme d’intégration de la pensée s’épanouit mieux dans des cultures favorisant l’ouverture et les échanges que dans celles qui s’attachent à délimiter des territoires cloisonnés. Mais conforter notre fermeture serait renoncer à exploiter de précieuses ressources. Renoncer aussi à apporter une contribution de la pensée en langue française dans un champ aussi stratégique. Donc également renoncer à y exercer une influence.

Outre les enjeux de l’acceptation et des développements francophones de cette science, quels sont ceux de son utilisation ? De façon générale, ce sont des enjeux liés au libre-arbitre et à l’autonomie de la personne quand il s’agit de mettre en évidence les codages sous-jacents de comportements sociaux ou de pratiques culturelles. L’image du miroir éclaire cette notion : on peut rester dans la pièce en croyant que c’est là que se joue le jeu, ou passer derrière le miroir et découvrir d’autres dimensions - c’est ce que la mémétique nous aide à faire. De même dans le diaporama Zoom arrière (www.algoric.com/y/zoom.htm) où, après des images suggérant une perception de premier degré (scène du quotidien dans une cour de ferme), on découvre que la situation peut comporter d’autres dimensions... Plus précisément, pour illustrer l’utilité opérationnelle de la mémétique, on pourra regarder du côté des thèmes qui alimentent régulièrement cette chronique - innovation, marketing, communication stratégique, gouvernance... - autour de trois cas de figure : on peut jouer dans le jeu (idéal théorique souvent trahi par les joueurs), jouer à côté du jeu (égarés, tricheurs) ou agir sur le jeu (en changeant de niveau d’appréhension).

D’AUTRES DEGRÉS SUR LA PYRAMIDE DE MASLOW ?

Une analogie avec la pyramide de Maslow montre comment une situation peut être abordée à différents niveaux. Nos motivations varient sur une échelle de 1 (survie) à 5 (accomplissement) selon le contexte et selon notre degré de maturité. Ainsi, un marketing associé à l’argument mode ou paraître - voiture, téléphone, etc. - sera plus efficace auprès des populations visant les niveaux intermédiaires, appartenance et reconnaissance, que chez celles qui ont atteint le niveau 5. De même pour ce qui nous concerne ici : selon ses caractéristiques et son environnement, une personne ou un groupe prend plus ou moins de hauteur dans l’analyse d’une situation - or, moins on s’élève sur cette échelle, plus on est manipulable, surtout dans une société complexe et différenciée. Prenons par exemple la pétition de Philip Morris pour une loi anti-tabac. Quand j’invite un groupe à décoder cette initiative surprenante, j’obtiens des analyses plus ou moins distanciées, progressant de la naïveté (on y voit une initiative altruiste d’un empoisonneur repenti) à une approche de second degré (c’est un moyen d’empêcher les recours judiciaires de victimes du tabac) ou à une analyse affinée (lobbying de contre-feu pour faire obstacle à une menace plus grave). Plus on s’élève sur cette échelle, plus on voit de variables et plus on a de chances d’avoir prise sur le phénomène analysé. Une approche mémétique poursuivra la progression, par exemple en trouvant là des mèmes pondus par le “système pro-tabac” pour assurer sa descendance, à l’instar de ceux qu’il a pondus au cinéma pendant des années en faisant fumer les héros dans les films.

Il est facile de traiter au premier degré les attentats du 11 septembre 2001, par exemple en y voyant une victoire des forces de libération contre un symbole du libéralisme sauvage ou une attaque des forces du mal contre le rempart de la liberté - ce qui pour les mèmes revient au même car ce faisant, y compris avec des analyses un peu moins primaires, on alimente une diversion favorisant l’essor de macro-systèmes : “terrorisme international”, “capitalisme financier” ou autres. Ceux-ci dépassent les acteurs (Bush, Ben Laden...), institutions (Etat américain, Al-Qaida...) ou systèmes (démocratie, islamisme...), qui ne sont que des vecteurs de diffusion de mèmes dans un affrontement entre macro-systèmes.

QUAND CE DONT ON PARLE N’EST PAS CE DONT IL S’AGIT...

Autre cas intéressant de réplicateurs : les traditionnelles chaînes de l’amitié, consistant à manipuler un individu en exploitant sa naïveté, avec un emballage rudimentaire mais très efficace auprès de celui qui manque d’esprit critique : si tu brises la chaîne les foudres du ciel s’abattront sur toi, si tu la démultiplies tu connaîtras le bonheur, ou au moins la prospérité. On n’y croit pas, mais on ne sait jamais... Internet leur a donné une nouvelle vie - nous avons tous des amis pourtant très fréquentables qui tombent dans le piège et essaient de nous y entraîner ! - et a affiné la perversité de la manipulation avec les hoax et autres virus. Le marketing viral utilise ces ressorts. La réplication peut se faire de façon plus subtile, voire insidieuse, par exemple avec des formes de knowledge management (KM) “de premier degré” - en bref : la mondialisation induit un impératif d’innovation ; on veut dépasser les réactions quantitatives et malthusiennes qui s’attaquent aux coûts car elles jettent le bébé avec l’eau du bain en détruisant aussi les gisements de valeur ; on va donc privilégier la rapidité d’adaptation à un environnement changeant, donc innover en permanence, donc mobiliser le savoir et la créativité, donc fonctionner en réseau. Si l’on continue à gravir des échelons, on s’aperçoit que cette approche réactive reste “dans le jeu” alors qu’on a besoin de prendre du recul par rapport au jeu lui-même pour le remettre en question, voire le réinventer. La mémétique éclaire la complexité de cet exercice difficile où il faut pouvoir changer de logique, de paradigme, pour aborder un problème au niveau des processus du jeu et non plus au niveau de ses contenus. Comme dans la communication stratégique.

Déjà dans le lobbying classique, on savait depuis longtemps que le juriste applique la loi, le lobbyiste la change : le premier reste dans le jeu, quitte à tout faire pour contourner le texte ou en changer l’interprétation, alors que le second, constatant que la situation a évolué, s’emploie à faire changer les règles, voire le jeu lui-même. De même dans les appels d’offres, où certains suivent le cahier des charges quand d’autres contribuent à le définir en agissant en amont. De même dans le lobby-marketing, par exemple quand on s’attache à changer la nature de la relation plus que son contenu ou sa forme, pour passer de solliciteur à sollicité : faire que mon interlocuteur me prie de bien vouloir lui vendre ce que précisément je veux lui vendre... comme est aussi supposé le faire tout bon enseignant qui, ne se bornant pas à transférer des savoirs, veut donner envie d’apprendre ! Déjà difficile pour un lobbyiste néophyte, ce changement de perspective n’est pas naturel dans un “monde de l’innovation” où l’on privilégie un “rationnel plutôt cerveau gauche” qui ne prédispose pas à décoder le jeu pour pouvoir le mettre en question et le réinventer.

L’interpellation mémétique peut conduire très loin, notamment quand elle montre comment l’essor des réseaux favorise des réplications de mèmes qui ne nous sont pas nécessairement favorables. Elle peut ainsi contredire des impulsions “évidentes” en KM, à commencer par celle qui fait admettre que pour innover et “s’adapter” il faut fonctionner en réseau et en réseaux de réseaux. Avec un peu de recul mémétique, on pourra considérer qu’il s’agit moins de s’adapter au système que d’adapter le système, donc pas nécessairement de suivre la course aux réseaux subis mais d’organiser l’adéquation avec des réseaux choisis, voire maîtrisés...

Aux origines de la mémétique

La possibilité que la sphère des humanités s’ouvre au modèle darwinien n’est pas nouvelle. Sans remonter à Démocrite, on la trouve chez le biochimiste Jacques Monod, dans Le hasard et la nécessité. La notion de monde des idées (noosphère) a été introduite par l’anthropologue Pierre Teilhard de Chardin. Alan Turing et Johannes Von Neumann, pères de l’informatique moderne, ont envisagé que les lois de la vie s’appliquent aussi à des machines ou créatures purement faites d’information. L’épistémologie évolutionnaire de Friedrich Von Hayek en est une autre illustration. D’autres parentés sont schématisées dans la carte ci-dessous.

De façon empirique, au quotidien, on peut observer la séparation du fait humain d’avec la nature, ainsi que son accélération : agriculture, urbanisation et autres activités sont visibles de l’espace, émissions de radio et autres expressions y sont audibles ; nos traces sont partout, livres, codes de lois, arts, technologies, religions… Est-ce l’homme qui a propulsé la culture ou celle-ci qui l’a tiré hors de son origine animale ?

En fait, grâce à ses outils, l’homme a favorisé une évolution combinée, un partenariat, un entraînement mutuel entre le biologique et le culturel. André Leroi-Gourhan raconte la co-évolution de l’outil, du langage et de la morphologie. Claude Lévi-Strauss parle de l’autonomie de l’organisation culturelle, par-delà les différences ethniques. Emile Durkheim revendique l’irréductibilité du fait social à la biologie. Parallèlement, l’observation des sociétés animales démontre que la nature produit des phénomènes collectifs, abstraits, allant bien au-delà des corps. Selon certaines extensions radicales de la sociobiologie à l’homme, toutes nos capacités seraient codées génétiquement, donc toute pratique culturelle - architecture, droit, économie ou art - ne serait qu’un phénotype étendu de l’homme. La réduction des comportements à leurs avantages évolutionnaires biologiques s’est atténuée. Le cerveau est modulaire, le schéma général de ses modules est inscrit dans les gènes, mais on a eu du mal à admettre que leur construction puisse se faire sur la base de flux cognitifs, d’apports d’expériences.

Il y a des façons d’agir ou de penser qui au fil du temps ont contribué à la survie de ceux qui étaient naturellement aptes à les pratiquer : la peur du noir, la capacité de déguiser ses motivations, le désir de paraître riche ; ou plus subtilement la tendance à croire à une continuation de la vie après la mort, à une providence qui aide, à une vie dans l’invisible ; ou même le réflexe intellectuel consistant à supposer un but à toute chose. Mais il existe des idées, des modes de vie, des techniques, bref des éléments de culture indépendants de l’ADN, qui se transmettent par des moyens non génétiques, en particulier par l’imitation : c’est la thèse de Susan Blackmore, pour qui, entre ces mèmes en compétition, la sélection se fait en fonction de leur “intérêt propre” et non de celui des gènes.

L’argument de Pascal Jouxtel s’inspire d’une formule de Luca Cavalli-Sforza : l’évolution naturelle de l’homme est terminée car tous les facteurs naturels de sélection sont sous contrôle culturel. Tout ce qui pourrait influencer la fécondité ou la mortalité infantile est maîtrisé ou dépend de facteurs géopolitiques, économiques ou religieux. En revanche, la culture continue à évoluer : lois, art, technologies, réseaux de communication, structures de pouvoir, systèmes de valeurs. Le grand changement, c’est que les mèmes évoluent pour leur propre compte, en exploitant le terrain constitué par les réseaux de cerveaux humains, mais indépendamment, et parfois au mépris des besoins de leurs hôtes biologiques.

“Ce sont des solutions mémétiquement évoluées qui sont aujourd’hui capables de breveter un génome. Il en va de même des religions et des systèmes politiques qui tuent. La plus majestueuse de toutes ces solutions s’appelle Internet, le cerveau global... Tout ce qui relie les humains est bon pour les mèmes. Il est logique, dans la même optique, de coder de façon de plus en plus digitalisée tous les modèles qui doivent être transmis, stockés et copiés. C’est ainsi que le monde se transforme de plus en plus en un vaste Leroy-Merlin culturel, au sein duquel il devient chaque jour plus facile de reproduire du prêt-à-penser, du prêt-à-vivre, du prêt-à-être. A mesure que l’on se familiarise avec l’hypothèse méméticienne, il devient évident qu’elle invite à un combat, à une résistance et à un dépassement. Elle nous montre que des modèles peuvent se reproduire dans le tissu social jusqu’à devenir dominants sans avoir une quelconque valeur de vérité ou d’humanité. Elle nous pose des questions comme : que valent nos certitudes ? De quel droit pouvons-nous imposer nos convictions et notre façon de vivre ?... Comment puis-je dire que je pense ?” (P. Jouxtel, www.memetique.org). Et bien sûr : comment les systèmes pondent-ils ?

Auteur: Quentin Jean-Pierre

Info: Critique du livre de Pascal Jouxtel "comment les systèmes..."

[ sociolinguistique ] [ PNL ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

intelligence artificielle

Apprendre l'anglais n'est pas une tâche facile, comme le savent d'innombrables étudiants. Mais lorsque l'étudiant est un ordinateur, une approche fonctionne étonnamment bien : Il suffit d'alimenter un modèle mathématique géant, appelé réseau neuronal, avec des montagnes de textes provenant d'Internet. C'est le principe de fonctionnement des modèles linguistiques génératifs tels que ChatGPT d'OpenAI, dont la capacité à tenir une conversation cohérente (à défaut d'être toujours sincère) sur un large éventail de sujets a surpris les chercheurs et le public au cours de l'année écoulée.

Mais cette approche présente des inconvénients. D'une part, la procédure de "formation" nécessaire pour transformer de vastes archives textuelles en modèles linguistiques de pointe est coûteuse et prend beaucoup de temps. D'autre part, même les personnes qui forment les grands modèles linguistiques ont du mal à comprendre leur fonctionnement interne, ce qui, à son tour, rend difficile la prévision des nombreuses façons dont ils peuvent échouer.

Face à ces difficultés, certains chercheurs ont choisi d'entraîner des modèles plus petits sur des ensembles de données plus restreints, puis d'étudier leur comportement. "C'est comme le séquençage du génome de la drosophile par rapport au séquençage du génome humain", explique Ellie Pavlick, chercheuse sur les modèles de langage à l'université de Brown.

Dans un article récemment publié sur le serveur scientifique arxiv.org, deux chercheurs de Microsoft ont présenté une nouvelle méthode pour former de minuscules modèles de langage : Les élever avec un régime strict d'histoires pour enfants.

RÉSEAUX NEURONAUX

Des chercheurs acquièrent une nouvelle compréhension à partir d'une simple IA

Les chercheurs en apprentissage automatique ont compris cette leçon. GPT-3.5, le grand modèle linguistique qui alimente l'interface ChatGPT, compte près de 200 milliards de paramètres et a été entraîné sur un ensemble de données comprenant des centaines de milliards de mots (OpenAI n'a pas publié les chiffres correspondants pour son successeur, GPT-4). L'entraînement de modèles aussi vastes nécessite généralement au moins 1 000 processeurs spécialisés, appelés GPU, fonctionnant en parallèle pendant des semaines. Seules quelques entreprises peuvent réunir les ressources nécessaires, sans parler de l'entraînement et de la comparaison de différents modèles.

Les deux chercheurs ont montré que des modèles linguistiques des milliers de fois plus petits que les systèmes de pointe actuels apprenaient rapidement à raconter des histoires cohérentes et grammaticalement justes lorsqu'ils étaient formés de cette manière. Leurs résultats indiquent de nouvelles pistes de recherche qui pourraient être utiles pour former des modèles plus importants et comprendre leur comportement.

"J'ai trouvé tout ça très instructif", a déclaré Chandra Bhagavatula, chercheur sur les modèles de langage à l'Allen Institute for Artificial Intelligence de Seattle. "Le concept lui-même est très intéressant.

Il était une fois

Les réseaux neuronaux au cœur des modèles de langage sont des structures mathématiques vaguement inspirées du cerveau humain. Chacun d'entre eux contient de nombreux neurones artificiels disposés en couches, avec des connexions entre les neurones des couches adjacentes. Le comportement du réseau neuronal est régi par la force de ces connexions, appelées paramètres. Dans un modèle linguistique, les paramètres contrôlent les mots que le modèle peut produire ensuite, compte tenu d'une invite initiale et des mots qu'il a déjà générés.

Un modèle ne prend véritablement vie qu'au cours de la formation, lorsqu'il compare de manière répétée ses propres résultats au texte de son ensemble de données de formation et qu'il ajuste ses paramètres afin d'accroître la ressemblance. Un réseau non entraîné avec des paramètres aléatoires est trivialement facile à assembler à partir de quelques lignes de code, mais il ne produira que du charabia. Après l'entraînement, il peut souvent poursuivre de manière plausible un texte peu familier. Les modèles de plus grande taille sont souvent soumis à des réglages plus fins qui leur apprennent à répondre à des questions et à suivre des instructions, mais l'essentiel de la formation consiste à maîtriser la prédiction des mots.

Pour réussir à prédire des mots, un modèle linguistique doit maîtriser de nombreuses compétences différentes. Par exemple, les règles de la grammaire anglaise suggèrent que le mot suivant le mot "going" sera probablement "to", quel que soit le sujet du texte. En outre, un système a besoin de connaissances factuelles pour compléter "la capitale de la France est", et compléter un passage contenant le mot "not" nécessite une connaissance rudimentaire de la logique.

"Le langage brut est très compliqué", explique Timothy Nguyen, chercheur en apprentissage automatique chez DeepMind. "Pour que des capacités linguistiques intéressantes apparaissent, les gens ont eu recours à l'idée que plus il y a de données, mieux c'est".

(photo) Ronen Eldan s'est rendu compte qu'il pouvait utiliser les histoires d'enfants générées par de grands modèles linguistiques pour en entraîner rapidement de plus petits.

Introduction

Ronen Eldan, mathématicien qui a rejoint Microsoft Research en 2022 pour étudier les modèles de langage génératifs, souhaitait développer un moyen moins coûteux et plus rapide d'explorer leurs capacités. Le moyen naturel d'y parvenir était d'utiliser un petit ensemble de données, ce qui signifiait qu'il devait entraîner les modèles à se spécialiser dans une tâche spécifique, afin qu'ils ne s'éparpillent pas. Au départ, il voulait entraîner les modèles à résoudre une certaine catégorie de problèmes mathématiques, mais un après-midi, après avoir passé du temps avec sa fille de 5 ans, il s'est rendu compte que les histoires pour enfants convenaient parfaitement. "L'idée m'est venue littéralement après lui avoir lu une histoire", a-t-il déclaré.

Pour générer des histoires cohérentes pour les enfants, un modèle de langage devrait apprendre des faits sur le monde, suivre les personnages et les événements, et observer les règles de grammaire - des versions plus simples des défis auxquels sont confrontés les grands modèles. Mais les grands modèles formés sur des ensembles de données massives apprennent d'innombrables détails non pertinents en même temps que les règles qui comptent vraiment. Eldan espérait que la brièveté et le vocabulaire limité des histoires pour enfants rendraient l'apprentissage plus gérable pour les petits modèles, ce qui les rendrait à la fois plus faciles à former et plus faciles à comprendre.

Dans le monde des modèles de langage, cependant, le terme "petit" est relatif : Un ensemble de données mille fois plus petit que celui utilisé pour former GPT-3.5 devrait encore contenir des millions d'histoires. "Je ne sais pas combien d'argent vous voulez dépenser, mais je suppose que vous n'allez pas engager des professionnels pour écrire quelques millions de nouvelles", a déclaré M. Nguyen.

Il faudrait un auteur extraordinairement prolifique pour satisfaire des lecteurs aussi voraces, mais Eldan avait quelques candidats en tête. Qui peut mieux écrire pour un public de petits modèles linguistiques que pour de grands modèles ?

Toys stories

Eldan a immédiatement entrepris de créer une bibliothèque d'histoires synthétiques pour enfants générées par de grands modèles linguistiques. Mais il a rapidement découvert que même les modèles de pointe ne sont pas naturellement très créatifs. Si l'on demande à GPT-4 d'écrire des histoires adaptées à des enfants de 4 ans, explique Eldan, "environ un cinquième des histoires concernera des enfants qui vont au parc et qui ont peur des toboggans". C'est apparemment la quintessence des histoires pour enfants d'âge préscolaire, selon l'Internet.

La solution a consisté à ajouter un peu d'aléatoire dans le message. Tout d'abord, Eldan a utilisé le GPT-4 pour générer une liste de 1 500 noms, verbes et adjectifs qu'un enfant de 4 ans pourrait connaître - suffisamment courte pour qu'il puisse facilement la vérifier lui-même. Il a ensuite écrit un programme informatique simple qui demanderait à plusieurs reprises à GPT-3.5 ou à GPT-4 de générer une histoire adaptée à l'âge de l'enfant, comprenant trois mots aléatoires de la liste, ainsi qu'un détail supplémentaire choisi au hasard, comme une fin heureuse ou un rebondissement de l'intrigue. Les histoires obtenues, heureusement, étaient moins axées sur des diapositives effrayantes.

Eldan disposait désormais d'une procédure pour produire des données de formation à la demande, mais il n'avait aucune idée du nombre d'histoires dont il aurait besoin pour former un modèle fonctionnel, ni de la taille de ce modèle. C'est alors qu'il s'est associé à Yuanzhi Li, chercheur en apprentissage automatique chez Microsoft et à l'université Carnegie Mellon, pour essayer différentes possibilités, en tirant parti du fait que les petits modèles peuvent être formés très rapidement. La première étape consistait à décider comment évaluer leurs modèles.

Introduction

Dans la recherche sur les modèles de langage - comme dans toute salle de classe - la notation est un sujet délicat. Il n'existe pas de rubrique parfaite qui englobe tout ce que les chercheurs veulent savoir, et les modèles qui excellent dans certaines tâches échouent souvent de manière spectaculaire dans d'autres. Au fil du temps, les chercheurs ont mis au point divers critères de référence standard basés sur des questions dont les réponses ne sont pas ambiguës, ce qui est une bonne approche si vous essayez d'évaluer des compétences spécifiques. Mais Eldan et Li se sont intéressés à quelque chose de plus nébuleux : quelle doit être la taille réelle des modèles linguistiques si l'on simplifie le langage autant que possible ?

"Pour vérifier directement si le modèle parle anglais, je pense que la seule chose à faire est de laisser le modèle générer de l'anglais de manière ouverte", a déclaré M. Eldan.

Il n'y a que deux façons de mesurer les performances d'un modèle sur des questions aussi qualitatives : S'appuyer sur des évaluateurs humains ou se tourner à nouveau vers le GPT-4. Les deux chercheurs ont opté pour cette dernière solution, laissant les grands modèles à la fois rédiger les manuels et noter les dissertations.

Bhagavatula a déclaré qu'il aurait aimé voir comment les évaluations de GPT-4 se comparaient à celles des correcteurs humains - GPT-4 peut être biaisé en faveur des modèles qu'il a aidé à former, et l'opacité des modèles de langage rend difficile la quantification de tels biais. Mais il ne pense pas que de telles subtilités affecteraient les comparaisons entre différents modèles formés sur des ensembles similaires d'histoires synthétiques - l'objectif principal du travail d'Eldan et Li.

Eldan et Li ont utilisé une procédure en deux étapes pour évaluer chacun de leurs petits modèles après la formation. Tout d'abord, ils ont présenté au petit modèle la première moitié d'une histoire distincte de celles de l'ensemble des données d'apprentissage, de manière à ce qu'il génère une nouvelle fin, en répétant ce processus avec 50 histoires de test différentes. Ensuite, ils ont demandé à GPT-4 d'évaluer chacune des fins du petit modèle en fonction de trois catégories : créativité, grammaire et cohérence avec le début de l'histoire. Ils ont ensuite fait la moyenne des notes obtenues dans chaque catégorie, obtenant ainsi trois notes finales par modèle.

Avec cette procédure en main, Eldan et Li étaient enfin prêts à comparer les différents modèles et à découvrir quels étaient les étudiants les plus brillants.

Résultats des tests

Après quelques explorations préliminaires, les deux chercheurs ont opté pour un ensemble de données de formation contenant environ 2 millions d'histoires. Ils ont ensuite utilisé cet ensemble de données, baptisé TinyStories, pour entraîner des modèles dont la taille varie de 1 million à 30 millions de paramètres, avec un nombre variable de couches. Le travail a été rapide : En utilisant seulement quatre GPU, l'entraînement du plus grand de ces modèles n'a pas pris plus d'une journée.

Les plus petits modèles ont eu du mal. Par exemple, l'une des histoires testées commence par un homme à l'air méchant qui dit à une fille qu'il va lui prendre son chat. Un modèle à un million de paramètres s'est retrouvé bloqué dans une boucle où la fille répète sans cesse à l'homme qu'elle veut être son amie. Mais les modèles plus grands, qui sont encore des milliers de fois plus petits que GPT-3.5, ont obtenu des résultats surprenants. La version à 28 millions de paramètres racontait une histoire cohérente, même si la fin était sinistre : "Katie s'est mise à pleurer, mais l'homme s'en fichait. Il a emporté le chat et Katie n'a plus jamais revu son chat. Fin de l'histoire".

En plus de tester leurs propres modèles, Eldan et Li ont soumis le même défi au GPT-2 d'OpenAI, un modèle de 1,5 milliard de paramètres publié en 2019. Le résultat a été bien pire - avant la fin abrupte de l'histoire, l'homme menace d'emmener la jeune fille au tribunal, en prison, à l'hôpital, à la morgue et enfin au crématorium.

Introduction

Selon M. Nguyen, il est passionnant que des modèles aussi petits soient aussi fluides, mais il n'est peut-être pas surprenant que GPT-2 ait eu du mal à accomplir la tâche : il s'agit d'un modèle plus grand, mais loin de l'état de l'art, et il a été formé sur un ensemble de données très différent. "Un enfant en bas âge qui ne s'entraînerait qu'à des tâches d'enfant en bas âge, comme jouer avec des jouets, obtiendrait de meilleurs résultats que vous ou moi", a-t-il fait remarquer. "Nous ne nous sommes pas spécialisés dans cette chose simple.

Les comparaisons entre les différents modèles de TinyStories ne souffrent pas des mêmes facteurs de confusion. Eldan et Li ont observé que les réseaux comportant moins de couches mais plus de neurones par couche étaient plus performants pour répondre aux questions nécessitant des connaissances factuelles ; inversement, les réseaux comportant plus de couches et moins de neurones par couche étaient plus performants pour garder en mémoire les personnages et les points de l'intrigue situés plus tôt dans l'histoire. Bhagavatula a trouvé ce résultat particulièrement intriguant. S'il peut être reproduit dans des modèles plus vastes, "ce serait un résultat vraiment intéressant qui pourrait découler de ce travail", a-t-il déclaré.

Eldan et Li ont également étudié comment les capacités de leurs petits modèles dépendaient de la durée de la période de formation. Dans tous les cas, les modèles maîtrisaient d'abord la grammaire, puis la cohérence. Pour Eldan, ce schéma illustre comment les différences dans les structures de récompense entraînent des différences dans les schémas d'acquisition du langage entre les réseaux neuronaux et les enfants. Pour les modèles de langage, qui apprennent en prédisant des mots, "l'incitation pour les mots "je veux avoir" est aussi importante que pour les mots "crème glacée"", a-t-il déclaré. Les enfants, en revanche, "ne se soucient pas de savoir s'ils disent 'j'aimerais avoir de la glace' ou simplement 'glace, glace, glace'".

Qualité contre quantité

Eldan et Li espèrent que cette étude incitera d'autres chercheurs à entraîner différents modèles sur l'ensemble des données de TinyStories et à comparer leurs capacités. Mais il est souvent difficile de prédire quelles caractéristiques des petits modèles apparaîtront également dans les plus grands.

"Peut-être que les modèles de vision chez la souris sont de très bons substituts de la vision humaine, mais les modèles de dépression chez la souris sont-ils de bons modèles de la dépression chez l'homme ? a déclaré M. Pavlick. "Pour chaque cas, c'est un peu différent.

Le succès des modèles TinyStories suggère également une leçon plus large. L'approche standard pour compiler des ensembles de données de formation consiste à aspirer des textes sur l'internet, puis à filtrer les déchets. Le texte synthétique généré par des modèles de grande taille pourrait constituer une autre façon d'assembler des ensembles de données de haute qualité qui n'auraient pas besoin d'être aussi volumineux.

"Nous avons de plus en plus de preuves que cette méthode est très efficace, non seulement pour les modèles de la taille de TinyStories, mais aussi pour les modèles plus importants", a déclaré M. Eldan. Ces preuves proviennent d'une paire d'articles de suivi sur les modèles à un milliard de paramètres, rédigés par Eldan, Li et d'autres chercheurs de Microsoft. Dans le premier article, ils ont entraîné un modèle à apprendre le langage de programmation Python en utilisant des extraits de code générés par GPT-3.5 ainsi que du code soigneusement sélectionné sur l'internet. Dans le second, ils ont complété l'ensemble de données d'entraînement par des "manuels" synthétiques couvrant un large éventail de sujets, afin d'entraîner un modèle linguistique à usage général. Lors de leurs tests, les deux modèles ont été comparés favorablement à des modèles plus importants formés sur des ensembles de données plus vastes. Mais l'évaluation des modèles linguistiques est toujours délicate, et l'approche des données d'entraînement synthétiques n'en est qu'à ses balbutiements - d'autres tests indépendants sont nécessaires.

Alors que les modèles linguistiques de pointe deviennent de plus en plus volumineux, les résultats surprenants de leurs petits cousins nous rappellent qu'il y a encore beaucoup de choses que nous ne comprenons pas, même pour les modèles les plus simples. M. Nguyen s'attend à ce que de nombreux autres articles explorent l'approche inaugurée par TinyStories.

"La question est de savoir où et pourquoi la taille a de l'importance", a-t-il déclaré. "Il devrait y avoir une science à ce sujet, et cet article est, je l'espère, le début d'une riche histoire.

Auteur: Internet

Info: https://www.quantamagazine.org/ Ben Brubaker, 5 octobre 2023

[ synthèse ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

philosophie occidentale

Le symbolique, l'imaginaire et le réel : Lacan, Lévi-Strauss et Freud

" Tout comportement est communication." Gregory Bateson

Contrairement à l'expérience de la psychanalyse aux Etats-Unis, Freud arriva très tard en France où il fut plus ou moins réfuté par Sartre dans Son "Etre et Néant" avant même son arrivée. Curieusement, c'est à l'apogée de l'existentialisme et de la psychanalyse existentielle, dans les années cinquante et au début des années soixante, qu'un analyste français inconnu de la génération Sartre entama une relecture radicale des textes freudiens.
Son travail devait avoir une telle influence dans les années soixante-dix qu'il sauva entièrement Freud de l'orientation médicale positiviste apportée par la société psychanalytique parisienne, et réintégra son travail dans ce que les Français appellent encore les sciences humaines.
Il s'agit de Jacques Lacan, pilier de l'Ecole freudienne de Paris - styliste hermétique et obscur, conférencier envoûtant, penseur intransigeant et inflexible, profondément préoccupé par ses propres écrits et prérogatives - qui fut interdit par la Fédération internationale lorsque lui et ses collègues, principalement du à des rivalités internes, quittèrent la société parisienne en 1953.
Il y a sans doute plus d'anecdotes dénigrantes, et probablement calomnieuses, qui circulent sur Lacan au sein de l'incestueux climat intellectuel parisien que sur tout autre penseur influent. Mais si le travail de Lacan signifie quelque chose, nous devons séparer les idiosyncrasies personnelles bien connues de Lacan de la contribution unique qu'il apporta à notre compréhension de Freud.

Bien que Lacan ait commencé son oeuvre originale à la fin des années trente, sous l'influence de la phénoménologie et de l'existentialisme husserliens, ce n'est que dans les années soixante qu'il commença à être réellement écouté en France, et ses écrits ne commencèrent à arriver en Angleterre et aux Etats-Unis que récemment. S'attaquant à l'"intellectualisme" français et au culte de l'"expert", à l'"empirisme", tout comme à la "biologisation" britanniques et à l'"adaptation" et au "behaviorisme" américains dans une série de polémiques cinglantes, son seul travail a rendu impossible, à tout penseur français qui se respecte, de continuer à ignorer les textes de Freud. L'intégration de ce texte dans la culture du cogito cartésien a déjà eu des résultats surprenants et féconds. Reste à savoir ce que Lacan va faire passer aux Etats-Unis - où l'enthousiasme même de l'acceptation initiale de Freud par les Américains eut tendance à réduire ses idées à des banalités et ses théories quasi au statut de jeu social.

Nous découvrons maintenant, par exemple, un nouveau retour à la théorie de Breuer-Freud sur la catharsis thérapeutique - autrefois popularisée en tant que "psychodrame" - sous une nouvelle forme de "désublimation répressive" : thérapie du "cri primal". Mais les héros des talk-shows de fin de soirée vont et viennent avec une régularité monotone et, en fin de compte, il nous reste toujours les grandes œuvres du génie pour y méditer : Hegel, Marx, Freud, Dostoïevski, Rousseau, Balzac, pour ne citer que quelques-uns de nos prédécesseurs les plus récents. Et ce que nous découvrons, c'est que nous devons apprendre à lire avant de parler, que nous devons apprendre à les lire d'un point de vue social critique, aussi libre de préjugés ethnocentriques, socioéconomiques et culturels que possible.
En un mot, nous devons apprendre à lire dans une perspective non académique, dans la perspective d'une expérience de vie où ces auteurs et leurs quêtes personnelles font partie de notre quête individuelle et collective. Je préférerais lire l'Interprétation des rêves comme un roman, par exemple, ou le célèbre cas du docteur " psychotique " Schreber comme de la philosophie, ou les Frères Karamazov comme une étude métapsychologique, que l'inverse. Lacan a contribué à rendre ce genre de lecture possible.
Une grande partie de ce que Lacan cherchait à accomplir avec ses étudiants dans les années cinquante n'a plus grand intérêt aujourd'hui, car il s'agissait d'attaques contre la technique thérapeutique d'un groupe de psychanalystes français très peu doués, objectivées et liés à la culture. Mais son attaque contre la "psychologie de l'ego" de praticiens comme Hartmann, Kris et Lbwenstein, ou le "behaviorisme " de Massermann, est toujours valable (Lacan, 1956a ; Wilden, 196Sa : 1-87). Et ceux qui s'y sont opposés avec tant de véhémence en France constatent aujourd'hui qu'ils ne peuvent rejeter ses analyses critiques des textes freudiens et s'appeler encore Freudiens. Mais si Lacann inspira une école française d'analyse qui se veut anti-institutionnelle, anti-psychiatrique et profondément critique à la fois à l'égard de "l'ajustement" de l'individu et de ceux que Marcuse nommait "révisionnistes néofreudiens", il n'a probablement pas fait plus pour les pratiques analytiques que ce qui a été réalisé par des thérapeutes comme Laing, Esterson et Cooper, au Royaume-Uni, et par des gens comme Ruesch, Bateson, Haley, Weakland ou Jackson, aux Etats-Unis.
De plus, la psychanalyse est un privilège socio-économique réservé aux personnes qui ont argent et loisirs pour se faire plaisir. La question de "la guérison" est en tout cas tout à fait débattable, et nous savons bien que la psychologie, la psychiatrie et la psychothérapie en général ont toujours été les véhicules des valeurs du statu quo (à l'exception extraordinaire de Wilhelm Reich, dont les théories ne correspondent malheureusement jamais au niveau élevé de son engagement social).
Et comme la plupart d'entre nous apprenons à vivre avec nos blocages, il est alors très peu probable que nous devions apprendre un jour apprendre à vivre avec les effets aliénants de notre société unidimensionnelle et technologique en ayant à nous préoccuper de psychanalyse ? En tout état de cause, personne, en quête d'une perspective véritablement critique, ne tentera de construire une théorie de l'homme et de la femme essentiellement basée sur la psychologie humaine, car le "discours scientifique" de la psychologie vise à nier ou à omettre le contenu socio-économique collectif à l'intérieur duquel les facteurs psychologiques jouent leur rôle.
J'essaierai de montrer plus loin que l'axiomatique fermeture de la plupart des psychanalystes dans la plénitude de ce contexte - et, je crois, dans sa primauté - génère des problèmes purement logiques dans la théorie, problèmes dont elle n'est pas, logiquement, équipée pour les surmonter. Ainsi, ce qui apparaît dans la théorie logico-mathématique de Bateson de la " double liaison " (chapitre V) comme une oscillation, apparaît nécessairement en psychanalyse, sous une forme ou une autre, comme une théorie de la répétition. Lacan, par exemple, fit appel à Kierkegaard (Repetition, 1843) pour étayer son interprétation de Freud, et pourtant si l'on regarde de près les écrits de Kierkegaard, en particulier les siens propres ou ceux également publiés en 1843, on découvre que la théorie entière dépend de l'incapacité de Kierkegaard à dépasser, de manière logique ou existentielle, les injonctions (doubles liens) paradoxales qu'il reçoit de son environnement familial et social. Par conséquent, le voilà condamné à osciller sans cesse entre un "soit" et un "ou". Ce qui apparaît dans la théorie de Bateson comme une réponse nécessaire aux injonctions émanant des rapports de pouvoir et de domination dans l'ordre social, et qui apparaît généralement dans la psychanalyse, et plus particulièrement chez Lacan, comme de la "compulsion itérative". Ainsi, soit la responsabilité est renvoyée à l'individu (par les "instincts" ou quelque autre métaphore de ces constructions biomécaniques), soit, comme chez Lacan, elle se transforme subtilement en une forme "d'ordre naturel des choses", via les paradoxes que le langage crée dans la condition humaine.
Contrairement à la théorie du double lien, les deux points de vue supposent une homogénéité dans la société qui n'existe tout simplement pas et servent à rationaliser les dominations en refusant de traiter la relation entre pouvoir, connaissance et oppression, ils ne voient pas la différence, dans la société, entre ce que Marcuse appela "répression" et "sur-répression". Malgré l'incompréhension de Marcuse à l'égard du Freud "clinique" - et malgré sa dépendance à la théorie bioénergétique des instincts - la distinction est importante. Peu de théoriciens américains, par exemple, envisageraient sérieusement le calvaire des minorités américaines dans leur lutte pour les droits socio-économiques élémentaires, simplement en termes de "compulsion itératives" telle une révolte contre le père (ou la mère).
Il m'est impossible de parler de Freud ou de Lacan sans utiliser les contributions que Bateson et Marcuse - de manières différentes et même mutuellement opposées - ont apportées à notre compréhension des relations humaines. Il faut d'une part traiter la perception de la psychanalyse et de la psychologie comme des rationalisations des valeurs de notre culture (l'oppression des femmes, en particulier), et d'autre part, montrer comment elles peuvent contribuer à une dévalorisation de ces valeurs. L'analyse de Bateson des relations de pouvoir par la double contrainte est, je crois, essentielle à la théorie sociale et psychologique, et je ne sais comment expliquer la théorie de l'imaginaire de Lacan sans elle. En tout cas, Freud décrit la relation entre l'ego et l'idéal de l'ego en des termes similaires à ceux d'une double liaison (double bind, dans The Ego and the I, Standard Edition, XIX, 34) : "Tu devrais être ainsi (comme ton père), mais tu ne dois pas être ainsi (comme ton père)."
Dans le monde contemporain de la contestation, il n'y a aucune réponse à la façon dont la psychanalyse est régulièrement - et nécessairement - remise en question, si le Freud dont nous parlons est le déterminant hydraulique, instinctif, électromagnétique et entropique que nous pensions tous connaître.
Il y a une réponse, cependant, si nous découvrons la perspective communicationnelle et linguistique derrière l'acceptation explicite ou implicite par Freud des principes mécanistes de la science physique et économique du XIXe siècle. Après tout, la psychanalyse est bien la "cure parlante", comme Lacan n'a jamais manqué d'insister dessus, et les pages des écrits de Freud s'intéressent avant tout au langage. Bien plus intéressante que la théorie de l'ego, de la personnalité et du surmoi, par exemple, est la conception que Freud a de l'inconscient et du rêve comme des scènes (Darstellungen) de distorsions (Entstellungen) et de (re)présentations (Vorstellungen). Mieux que coller à la préoccupation contemporaine pour les systèmes et les structures que la "psychologie de l'ego" de Freud, dans son premier modèle de processus primaires et secondaires. Plus significative que son déterminisme il y a sa théorie de la "surdétermination" du symptôme ou du rêve, qui est un concept proche de la redondance en théorie de l'information et de l'équifinalité en gestaltisme et biologie.
Si nous devons rejeter les principes mécanistes du principe du plaisir, nous pouvons encore découvrir le modèle sémiotique des niveaux de communication dans les premiers travaux de Freud. Plus utile que la "deuxième" théorie du symbolisme (dérivée de Stekel), qui assimile les icônes ou les images (analogues) aux symboles sexuels (Jones, Ferenczi, et al.), est la "première" ou théorie "dialectique", qui dépend de la condensation et du déplacement des signes (Zeichen). Le rêve doit être traduit de l'image en texte avant de pouvoir être interprété (par le rêveur), et la refoulement est, comme le disait Freud en 1896, "un échec de la traduction". De plus, aucune théorie actuelle de la mémoire n'est essentiellement différente de la métaphore originale de Freud sur le "traçage" de voies via les traces de mémoire dans le cerveau.Je reviendrai dans un instant sur une description plus précise de l'orientation sémiotique et linguistique de Freud. Le fait est que, sans le travail de Lacan, je doute que nous aurions découvert ce Freud - bien que l'analyse de Karl Pribram du Projet neuropsychologique pour une psychologie scientifique (1895) aille dans le sens d'une relecture de Freud au moins au niveau de la théorie de l'information et du feedback (Pribram, 1962).
Le problème avec Lacan, c'est qu'à première vue, ses écrits sont presque impossibles à comprendre. Ses Ecrits (1966) - et seul un Lacan pouvait avoir l'orgueil d'intituler son oeuvre simplement "Écrits" - titre peut-être plus à lire comme "discours de schizophrène" - ou comme de la poésie ou autres absurdités, selon vos préjugés et votre tendance au transfert positif ou négatif - que tout autre.
L'hermétisme de Lacan ne peut être excusé - pas plus que son attitude envers le lecteur, qui pourrait s'exprimer ainsi : "aime-le" ou "c'est à prendre ou à laisser". Mais bien que la destruction personnelle de la syntaxe française par Lacan le rende assez ardu même pour le lecteur français, il y a au moins une tradition intellectuelle suffisamment homogène à Paris qui fait que Lacan y est bien moins étranger qu'en Grande-Bretagne ou aux Etats Unis. La tradition phénoménologique, existentialiste et hégélienne-marxiste en France rend moins nécessaire d'expliquer ce que vous entendez par Hegel, ou Husserl, ou Heidegger, ou Kojéve, ou Sartre. Et la plupart des gens reconnaîtront de toute façon une idée, même si vous ne mentionnez pas la source, ou si vous citez ou paraphrasez sans référence, car ce genre de "plagiat" est généralement acceptable en France.
Fait assez significatif cependant, Lacan n'aurait pas pu réaliser son analyse de Freud sans l'influence de l'école de linguistique suisso-américano-russe représentée par Roman Jakobson, qui a longtemps témoigné de l'influence du formalisme russe et du linguistique structurel de Saussure aux Etats-Unis. Mais même cette influence est parvenue indirectement à Lacan. L'influence la plus importante sur Lacan fut celle de l'anthropologue structurel français Claude-Lévi-Strauss, qui rencontra et travailla avec Jakobson à la New School for Social Research de New York, en 1942-1945.

Lévi-Strauss tend à ne pas être très apprécié par les anthropologues américains et britanniques qui sont redevables à la tradition analytique et dite empiriste, ce qui en dit long sur lui. Il est à l'origine d'une nouvelle méthodologie et d'une épistémologie d'accompagnement en sciences humaines en France, généralement appelée "structuralisme". (Aujourd'hui, cependant, le terme désigne simplement une mode, un peu comme l'existentialisme.) Le structuralisme, dans le sens d'une méthodologie non empiriste, non atomiste, non positiviste des lois de la relation, est d'autre part complété par les avancées en théorie des systèmes généraux, en cybernétique non mécanique, en théorie de la communication et en études écologiques. Tant la nouvelle approche structurelle que la nouvelle approche systémique-cybernétique semblent parler en fait d'une véritable révolution épistémologique dans les sciences de la vie et les sciences sociales, dont nous entendrons beaucoup plus parler au cours de la prochaine décennie (si nous y survivons, bien sûr).
Lévi-Strauss chercha à utiliser les travaux des phonologues structuraux sur "l'opposition binaire" des phonèmes en tant que modèle pour l'analyse des mythes et des relations et échanges au sein des sociétés dites "primitives" - dont il a ensuite remis en question le supposé "primitivisme". Constatant qu'un nombre relativement faible d'"oppositions" entre "traits distinctifs" (graves/aigus, voix/silence, etc.) sont suffisants pour former l'infrastructure acoustique de toute langue connue, Lévi-Strauss tenta de découvrir des ensembles analogues d'oppositions dans les systèmes de parenté et dans les mythes. Ses travaux les plus récents se sont concentrés sur le mythe en tant que musique.
Avec tous ces machins douteux dans son approche, Lévi-Strauss a néanmoins introduit un type de signification dans l'étude du mythe - auparavant presque exclusivement axé sur le contenu plutôt que sur la forme - là où ça n'existait pas avant. Comme pour l'œuvre de Lacan - ou celle de Freud - le principal problème du structuralisme lévi-straussien ne réside pas dans la méthodologie, mais dans son application, c'est-à-dire dans les revendications universelles formulées en son nom.
Je reviendrai sur la critique plus détaillée du "structuralisme" dans les chapitres suivants. Pour l'instant, il suffira de donner un exemple bref et purement illustratif de l'utilisation par Lévi-Strauss du concept d'"opposition binaire" dans l'étude du mythe (Lévi-Strauss, 1958 : chap. 11).
Pour lui, le mythe est une représentation diachronique (succession dans le temps) d'un ensemble d'oppositions synchroniques (intemporelles). Il croit que la découverte de ces oppositions synchroniques est une déclaration sur la "structure fondamentale de l'esprit humain". Dans les chapitres suivants, j'analyserai et critiquerai le terme "opposition" - qui cache les catégories de "différence", "distinction", "opposition", "contradiction" et "paradoxe" . Je critiquerai également le concept de relations "binaires" " - qui dissimule toute une série de malentendus sur la communication analogique et numérique en général, et plus particulièrement sur "non", "négation", "exclusion", "zéro" et "moins un", ainsi que sur la relation entre "A" et "non-A". J'essaierai également de démontrer l'idée fausse que Lévi-Strauss se fait de la confusion entre "esprit", "cerveau" et "individu". Ceci est étroitement lié à la conception de Piaget de l'organisme comme "structure paradigmatique", et à l'incapacité, dans la plupart des travaux actuels en sciences de la vie et sciences sociales, de comprendre le problème logico-mathématique et existentiel des frontières et des niveaux dans les systèmes ouverts de communication et d'échange (systèmes impliquant ou simulant la vie ou "esprit", systèmes vivants et sociaux).

La méthode de lecture des mythes de Lévi-Strauss est entièrement nouvelle, simple à comprendre, globale et satisfaisante sur le plan esthétique. Il suggère de regarder le mythe comme on regarderait une partition d'orchestre dans laquelle les notes et les mesures à jouer en harmonie simultanée par différents instruments se sont mêlées à la cacophonie d'une succession linéaire. Ainsi, si nous représentons cette succession par les nombres 1, 2, 4, 7, 8, 2, 3, 4, 6, 8, 1, 4, 5, 7, nous pouvons rétablir la partition originale en mettant tous les nombres semblables ensemble en colonnes verticales :

112234444567788

Cette matrice est exactement ce que l'on peut construire dans l'analyse phonologique d'une phrase, où l'on peut montrer qu'une séquence linéaire de mots se construit sur une succession d'oppositions binaires entre des éléments acoustiques distinctifs.
Malheureusement pour ce que Lévi-Strauss considère comme la clé de voûte de sa méthode, l'analogie qu'il fait entre phonologie structurelle et mythe est fausse, alors que sa méthodologie est extrêmement fertile. Ce problème met en évidence la difficulté centrale de l'utilisation de l'œuvre de Lévi-Strauss et de Lacan. Il faut montrer que les sources supposées de leurs nouvelles contributions aux sciences sociales ne sont pas ce qu'elles pensent être ; il faut démontrer où et comment leurs points de vue servent une fonction idéologique répressive ; et il faut montrer l'inadéquation à la fois de nombreux axiomes de la méthode et de nombreuses applications supposées.

Sans développer une critique détaillée à ce stade, on peut dire d'emblée que c'est une erreur de traiter un système d'oppositions sans contexte entre caractéristiques acoustiques des "bits" des informations (traits caractéristiques) comme étant isomorphe avec un mythe, qui est un système avec un contexte. Le mythe est nécessairement contextuel parce qu'il manipule l'information afin d'organiser et de contrôler certains aspects d'un système social, et il ne peut donc être considéré comme isolé de cette totalité. Contrairement aux "mythemes" de Lévi-Strauss ("éléments constitutifs bruts" du mythe, par analogie avec le "phonème"), les phonèmes sont des bits d'information insignifiants et non significatifs. Les phonèmes et les oppositions phonémiques sont les outils d'analyse et d'articulation (dont la caractéristique fondamentale est la différence) dans un système dans lequel signification et sens sont en dehors de la structure phonémique. Mythemes' et oppositions' entre mythemes, au contraire, impliquent à la fois signification et sens : ils ont 'du contenu'. Lévi-Strauss traite le mythe comme s'il s'agissait d'une langue représentative sous la forme d'une grammaire sans contexte, ou traite les mythemes comme des "informations" au sens technique des systèmes quantitatifs fermés de la transmission des informations comme étudiés par Shannon et Weaver. La science de l'information concerne l'étude statistique des processus stochastiques et des chaînes de Markov (chapitre IX) - et Chomsky a démontré qu'aucun langage connu ne peut être correctement généré à partir d'une grammaire modelée sur ces processus. Il a également été démontré que le langage est un système d'un type logique supérieur à celui qui peut être généré par des algorithmes sans contexte (grammaires).

Bien que Lévi-Strauss parle du mytheme comme d'un caractère "supérieur" à tout élément similaire du langage, le modèle de l'opposition phonémique binaire reste ce qu'il considère comme le fondement scientifique de sa méthode. Ainsi le mytheme devient l'équivalent d'un outil d'articulation (un trait distinctif) employé par un système de signification d'un autre type logique (langage). Lorsque nous cherchons à découvrir ce qu'est cet autre système chez Lévi-Strauss, nous trouvons cette catégorie de "pensée mythique". Mais la pensée mythique est déjà définie sur la base des mythemes eux-mêmes. C'est un système d'articulation des oppositions par "une machine à supprimer le temps" (le mythe). Ce qui manque dans ce cercle, c'est le contexte réel et matériel dans lequel le mythe surgit et auquel il fait référence.
Cependant, Lévi-Strauss insistera sur le fait que sa méthodologie, contrairement au formalisme pur, est bien "contextuelle" (Lévi-Strauss, 1960a). Il se réfère constamment aux catégories de parenté, au contexte zoologique et botanique du mythe et aux caractéristiques des entités matérielles ("crues", "cuites", "pourries" et ainsi de suite). En réalité, cependant, toutes les "entités matérielles" et les "relations matérielles" qu'il emploie parviennent à cette analyse déjà définie, de façon tautologique, comme des catégories de pensée mythique. Par conséquent, le "contexte" qu'évoque Lévi-Strauss est invariablement le contexte des "idées" ou de "l'esprit", qu'il conçoit, comme Kant, comme étant un antécédent de l'organisation sociale, tant épistémologiquement qu'ontologiquement. Au sein de ce cadre idéaliste, il fait ensuite un saut rapide vers les catégories matérielles de la physique et de la chimie, qu'il évoque régulièrement comme le fondement ultime de ses catégories idéales.

Mais entre le contexte des idées et le contexte des atomes et des molécules (ou même celui du code génétique) il manque un niveau d'organisation unique mais énorme : le contexte socio-économique de la réalité humaine. Et ce niveau d'organisation contient un paramètre que l'on ne retrouve pas en physique, en biologie, en sciences de l'information, dans les langages, les idées, ou les mythes considérés comme systèmes d'opposition synchrones : la ponctuation du système par le pouvoir de certaines de ses parties à en exploiter les autres (en incluant la "nature" même). Toutes les idées, tous les électrons et "bits" d'information sont en effet égaux, aucun d'entre eux n'est différent des autres, et aucun groupe n'exploite les autres. Et alors que dans les systèmes qui n'impliquent pas l'exploitation sociale, les mythes peuvent à juste titre être considérés comme remplissant une fonction d'organisation "pure" ou "neutre", dans tous les autres systèmes, les mythes deviennent la propriété d'une classe, caste ou sexe. Un mythe qui est la propriété d'une classe est en fait une définition de l'idéologie. Le mythe cesse alors de servir la fonction neutre d'organisation pure et simple ; il sert de rationalisation d'une forme donnée d'organisation sociale.
L'étude structurelle du mythe est, comme Lévi-Strauss l'a souvent dit, une autre variante des mythes qu'il analyse. Comme eux, c'est un système d'oppositions binaires. Mais ce n'est pas une mécanique pour la suppression du temps, mais pour la suppression de l'histoire. Et puisque le "structuralisme" est effectivement la propriété d'une classe, nous pouvons donc l'identifier comme un système de rationalisation idéologique - ce qui n'est pas la même chose, de dire qu'il n'a aucune valeur.

L'analogie erronée de Lévi-Strauss entre un système sans contexte et un système contextuel - et donc tout l'édifice que les structuralistes ont érigé - provient d'une confusion entre langage et communication. D'une part, une telle confusion n'est possible que dans des théories ponctuées de façon à exclure la catégorie sociale objective de l'exploitation. D'autre part, elle dépend d'une unique isomorphie réelle, qui est ensuite utilisée pour réduire les différents niveaux d'organisation les uns par rapport aux autres : le fait que le langage, les systèmes de parenté, l'étude structurelle des mythes et la science de la phonologie soient des communications numériques (discontinues) au sujet de rapports analogues (continus). Une caractéristique unique de la communication numérique, à savoir qu'il s'agit d'un système de communication comportant limites et lacunes, est réifiée par l'argument structuraliste de sorte qu'il peut être appliqué sans distinction, comme catégorie ontologique implicite, à chaque niveau de complexité où apparaissent des "limites et des lacunes ". De telles formes numériques apparaissent nécessairement, comme instrument de communication, à tous les niveaux de complexité biologique et sociale. Par conséquent, l'argument réductionniste des structuralistes est grandement facilité. De plus, le fait que l'opposition binaire soit aussi une catégorie importante en physique classique (électromagnétisme par exemple) autorise les structuralistes à faire l'erreur épistémologique supplémentaire de confondre matière-énergie et information.

Auteur: Wilden Anthony

Info: Extrait de System and Structure (1972) sur http://www.haussite.net. Trad. Mg

[ anti structuralisme ] [ vingtième siècle ]

Commenter

Mis dans la chaine

Commentaires: 0

Ajouté à la BD par miguel

proto-linguistique

Cette langue ancienne use de la seule grammaire basée entièrement sur le corps humain

Une famille de langues en voie de disparition suggère que les premiers humains utilisaient leur corps comme modèle de réalité

Un matin de décembre 2004, des adultes et des enfants erraient sur le rivage de Strait Island dans le golfe du Bengale lorsque l'un d'eux a remarqué quelque chose d'étrange. Le niveau de la mer était bas et des créatures étranges qui habitent normalement la zone crépusculaire profonde de l'océan se balançaient près de la surface de l'eau. “ Sare ukkuburuko ! ”— la mer s'est renversée! — cria Nao Junior, un des derniers héritiers d'une sagesse transmise sur des milliers de générations à travers sa langue maternelle. Il savait ce que signifiait ce phénomène bizarre. Tout comme d'autres peuples autochtones des îles Andaman. Ils se sont tous précipités à l'intérieur des terres et en hauteur, leurs connaissances ancestrales les sauvant du tsunami dévastateur qui s'est abattu sur les côtes de l'océan Indien quelques minutes plus tard et qui a emporté quelque 225 000 personnes.

Lorsque j'ai rencontré Nao Jr. pour la première fois, au tournant du millénaire, il était dans la quarantaine et l'un des neuf seuls membres de son groupe autochtone, le Grand Andamanais, qui parlait encore l'idiome de ses ancêtres ; les jeunes préférant l'hindi. En tant que linguiste passionnée par le décodage de structure, j'avais étudié plus de 80 langues indiennes de cinq familles différentes : indo-européenne (à laquelle appartient l'hindi), dravidienne, austroasiatique, tibéto-birmane et taï-kadaï. J'étais sur les îles pour documenter leurs voix autochtones avant qu'elles ne se transforment en murmures. Le peu que j'ai entendu était si déconcertant que j'y suis retourné plusieurs fois au cours des années suivantes pour essayer de cerner les principes qui sous-tendent les grandes langues andamanaises.

Ici mes principaux professeurs, Nao Jr. et une femme nommée Licho, parlaient un pastiche de langues qui comptaient encore quelque 5 000 locuteurs au milieu du 19e siècle. Le vocabulaire moderne étant très variable, dérivé de plusieurs langues parlées à l'origine sur l'île d'Andaman du Nord. Ce qui m'était vraiment étranger, cependant, c'était leur grammaire, qui ne ressemblait à rien de ce que j'avais jamais rencontré.

Une langue incarne une vision du monde et, alors qu'une civilisation, change et se développe par couches. Les mots ou les phrases fréquemment utilisés se transforment en formes grammaticales de plus en plus abstraites et compressées. Par exemple, le suffixe "-ed", signifiant le passé en anglais moderne, provient de "did" (c'est-à-dire que "did use" est devenu "used") ; Le vieil anglais où in steed et sur gemong sont devenus respectivement "instead" et "among". Ces types de transitions font de la linguistique historique un peu comme l'archéologie. Tout comme un archéologue fouille soigneusement un monticule pour révéler différentes époques d'une cité-État empilées les unes sur les autres, un linguiste peut séparer les couches d'une langue pour découvrir les étapes de son évolution. Il faudra des années à Nao Jr. et Licho endurant patiemment mes interrogatoires et mes tâtonnements pour que j'apprenne enfin la règle fondamentale de leur langue.

Il s'avère que le grand andamanais est exceptionnel parmi les langues du monde de par son anthropocentrisme. Il utilise des catégories dérivées du corps humain pour décrire des concepts abstraits tels que l'orientation spatiale et les relations entre les objets. Bien sûr, en anglais, nous pourrions dire des choses comme "la pièce fait face à la baie", "la jambe de la chaise s'est cassée" et "elle dirige l'entreprise". Mais en Grand Andamanais, de telles descriptions prennent une forme extrême, avec des morphèmes, ou segments sonores significatifs, qui désignent différentes zones du corps s'attachant aux noms, verbes, adjectifs et adverbes - en fait, à chaque partie du discours - pour créer des significations diverses. Parce qu'aucune autre langue connue n'a une grammaire basée sur le corps humain et/ou un partage des mots apparentés - des mots qui ont une signification et une prononciation similaires, ce qui indique un lien généalogique - avec le grand andamanais, la langue constitue sa propre famille .

L'aspect le plus durable d'une langue est sa structure, qui peut perdurer sur des millénaires. Mes études indiquent que les Grands Andamanais furent effectivement isolés pendant des milliers d'années, au cours desquelles leurs langues ont évolué sans influence perceptible d'autres cultures. La recherche génétique corrobore ce point de vue, montrant que ces peuples autochtones descendent d'un des premiers groupes d'humains modernes qui a migré hors d'Afrique. En suivant le littoral du sous-continent indien, ils ont atteint l'archipel d'Andaman il y a peut-être 50 000 ans et y vivent depuis dans un isolement virtuel. Les principes fondamentaux de leurs langues révèlent que ces humains anciens ont conceptualisé le monde à travers leur corps.

PIÈCES DU CASSE-TÊTE

Lorsque je suis arrivé en 2001 à Port Blair, la principale ville de la région, pour mener une enquête préliminaire sur les langues autochtones, j'ai été dirigé vers Adi Basera, une maison que le gouvernement indien autorisait les Grands Andamanais à utiliser lorsqu'ils étaient en ville. C'était un bâtiment délabré avec de la peinture écaillée et des pièces sales ; enfants et adultes flânaient nonchalamment dans la cour. Quelqu'un m'a apporté une chaise en plastique. J'ai expliqué ma quête en hindi.

"Pourquoi es-tu venu ?" demanda Boro Senior, une femme âgée. "Nous ne nous souvenons pas de notre langue. Nous ne le parlons ni ne le comprenons. Il s'est avéré que toute la communauté conversait principalement en hindi, une langue essentielle pour se débrouiller dans la société indienne et la seule que les enfants apprenaient." Pendant que je le sondais cependant, Nao Jr. a avoué qu'il connaissait le Jero, mais parce qu'il n'avait personne avec qui en parler, il l'oubliait. Boro Sr. s'est avéré être la dernière personne à se souvenir de Khora, et Licho, alors dans la fin de la trentaine, qui était la dernière à parler le sare, la langue de sa grand-mère. Lorsqu'ils conversaient entre eux, ces individus utilisaient ce que j'appelle le Grand Andamanais actuel (PGA), un mélange de Jero, Sare, Bo et Khora - toutes langues des Andaman du Nord.

Lorsque les autorités britanniques ont établi une colonie pénitentiaire à Port Blair en 1858, les forêts tropicales de Great Andaman - comprenant le nord, le centre et le sud d'Andaman, ainsi que quelques petites îles à proximité - étaient habitées par 10 tribus de chasseurs et de cueilleurs qui semblaient culturellement liées. Les habitants du Great Andaman ont résisté aux envahisseurs, mais leurs arcs et leurs flèches n'étaient pas à la hauteur des fusils et, à une occasion, des canons de navires. Encore plus mortels furent les germes apportés par les étrangers, contre lesquels les insulaires n'avaient aucune immunité. Dans les années 1960, époque à laquelle les Andamans appartenaient à l'Inde, il ne restait plus que 19 Grands Andamanais, vivant principalement dans les forêts du nord d'Andaman. Les autorités indiennes les ont alors installés sur la petite île du détroit.

Un autre groupe de chasseurs-cueilleurs, les Jarawa, vivaient dans le sud d'Andaman, et lorsque les Grands Andamanais s'éteignirent , les Jarawa s'installèrent dans leurs territoires évacués du Moyen Andaman. Les Jarawa ont résisté au contact - et aux germes qui l'accompagnent - jusqu'en 1998 et sont maintenant au nombre d'environ 450. Leur culture avait des liens avec celle des Onge, qui vivaient sur Little Andaman et qui ont été sous controle des Britanniques dans les années 1880. Apparemment, les habitants de North Sentinel Island étaient également apparentés aux Jarawa. Ils continuent d'ailleurs de vivre dans un isolement volontaire, qu'ils ont imposé en 2018 en tuant un missionnaire américain.

(photo-schéma avec détails et statistiques des langage des iles adamans)

Mon enquête initiale a établi que les langues des Grands Andamanais n'avaient aucun lien avec celles des Jarawa et des Onge, qui pourraient constituer leur propre famille de langues. Réalisant que je devais documenter le Grand Andamanais avant qu'il ne soit réduit au silence, je suis revenu avec une équipe d'étudiants en 2005. C'était peu de temps après le tsunami, et les autorités avaient évacué les 53 Grands Andamanais vers un camp de secours à côté d'Adi Basera. Ils avaient survécu, mais leurs maisons avaient été inondées et leurs biens perdus, et un sentiment de bouleversement et de chagrin flottait dans l'air. Dans cette situation, Licho a donné naissance à un garçon nommé Berebe, source de joie. J'ai appris que les bébés étaient nommés dans l'utérus. Pas étonnant que les grands noms andamanais soient non sexistes !

Au camp, j'ai rencontré l'octogénaire Boa Senior, dernier locuteur de Bo et gardien de nombreuses chansons. Nous deviendrons très proches. Les grands jeunes andamanais avaient répondu au mépris des Indiens dominants pour les cultures autochtones en se détournant de leur héritage. Boa Sr me tenait la main et ne me laissait pas partir car elle était convaincue que ma seule présence, en tant qu'étranger rare qui valorisait sa langue, motiverait les jeunes à parler le grand andamanais. Pourtant, je l'ai appris principalement de Nao Jr. et Licho, dont l'intérêt pour leurs langues avait été enflammé par le mien. Il s'est avéré que Nao Jr. en savait beaucoup sur l'environnement local et Licho sur l'étymologie, étant souvent capable de me dire quel mot venait de quelle langue. J'ai passé de longues heures avec eux à Adi Basera et sur Strait Island, les accompagnant partout où ils allaient - pour nous prélasser à l'extérieur de leurs huttes, errer dans la jungle ou pêcher sur la plage. Plus ils s'efforçaient de répondre à mes questions, plus ils puisaient dans les profondeurs de la mémoire. J'ai fini par collecter plus de 150 grands noms andamanais pour différentsespèces de poissons et 109 pour les oiseaux .

Les responsables britanniques avaient observé que les langues andamanaises étaient un peu comme les maillons d'une chaîne : les membres des tribus voisines des Grands Andamans se comprenaient, mais les langues parlées aux extrémités opposées de l'archipel, dans les Andamans du Nord et du Sud, étaient mutuellement inintelligibles. En 1887, l'administrateur militaire britannique Maurice Vidal Portman publia un lexique comparatif de quatre langues, ainsi que quelques phrases avec leurs traductions en anglais. Et vers 1920, Edward Horace Man compila un dictionnaire exhaustif de Bea, une langue des Andaman du Sud. C'étaient des enregistrements importants, mais aucun n'a résolu le puzzle que la grammaire posait.

Moi non plus. D'une manière ou d'une autre, ma vaste expérience avec les cinq familles de langue indienne ne m'aidait pas. Une fois, j'ai demandé à Nao Jr. de me dire le mot pour "sang". Il m'a regardé comme si j'étais une imbécile et n'a pas répondu. Quand j'ai insisté, il a dit: "Dis-moi d'où ça vient." J'ai répondu: "De nulle part." Irrité, il répéta : "Où l'as-tu vu ?" Il fallait que j'invente quelque chose, alors j'ai dit : "sur mon doigt. Sa réponse est venue rapidement — "ongtei !" – puis il débita plusieurs mots pour désigner le sang sur différentes parties du corps. Si le sang sortait des pieds ou des jambes, c'était otei ; l'hémorragie interne était etei; et un caillot sur la peau était ertei . Quelque chose d'aussi basique qu'un nom changeait de forme en fonction de l'emplacement.

Chaque fois que j'avais une pause dans mon enseignement et d'autres tâches, je visitais les Andamans, pendant des semaines ou parfois des mois. Il m'a fallu un an d'étude concertée pour entrevoir le modèle de cette langue - et quand je l'ai fait, toutes les pièces éparses du puzzle se sont mises en place. Très excité, je voulus tout de suite tester mes phrases inventées. J'étais à l'Institut Max Planck d'anthropologie évolutive à Leipzig, en Allemagne, mais j'ai téléphoné à Licho et je lui ai dit : "a Joe-engio eole be". Licho a été bouleversé et m'a fait un compliment chéri : "Vous avez appris notre langue, madame !"

Ma phrase était simplement "Joe te voit". Joe était un jeune Grand Andamanais, et -engio était "seulement toi". Ma percée avait été de réaliser que le préfixe e- , qui dérivait à l'origine d'un mot inconnu désignant une partie interne du corps, s'était transformé au fil des éons en un marqueur grammatical signifiant tout attribut, processus ou activité interne. Donc l'acte de voir, ole, étant une activité interne, devait être eole. Le même préfixe pourrait être attaché à -bungoi , ou "beau", pour former ebungoi, signifiant intérieurement beau ou gentil ; de sare , pour "mer", pour former esare, ou "salé", une qualité inhérente ; et au mot racine -biinye, "pensant", pour donner ebiinye , "penser".

LE CODE CORPOREL

La grammaire que j'étais en train de reconstituer était basée principalement sur Jero, mais un coup d'œil dans les livres de Portman et de Man m'a convaincu que les langues du sud du Grand Andamanais avaient des structures similaires. Le lexique se composait de deux classes de mots : libre et lié. Les mots libres étaient tous des noms faisant référence à l'environnement et à ses habitants, tels que ra pour "cochon". Ils pourraient se produire seuls. Les mots liés étaient des noms, des verbes, des adjectifs et des adverbes qui existaient toujours avec des marqueurs indiquant une relation avec d'autres objets, événements ou états. Les marqueurs (spécifiquement, a- ; er- ; ong- ; ot- ou ut- ; e- ou i- ; ara- ; eto- ) dérivaient de sept zones du corps et étaient attaché à un mot racine, généralement sous forme de préfixe, pour décrire des concepts tels que "dedans", "dehors", "supérieur" et "inférieur". Par exemple, le morphème er- , qui qualifiait presque tout ce qui concernait une partie externe du corps, pouvait être collé à -cho pour donner ercho , signifiant "tête". Une tête de porc était ainsi raercho.

(Photo/schéma désignant les 7 zones du corps humain qui font référence ici)

Zone Marqueur Parties corps/sémantique

1 a - en rapport avec la bouche/origine

2 er - corps et parties externes supérieures

3 ong - extrémités (doigts main, pied)

4 ut/ot - (cerveau/intellect) produits corporels, partie-tout,

5 e / i - organes internes

6 ara - organes sexuels et formes latérales/rondes

7 o - jambes/partie basse

Cette dépendance conceptuelle n'était pas toujours le signe d'un lien physique. Par exemple, si la tête du porc était coupée pour être rôtie, le marqueur t- pour un objet inanimé serait attaché à er- pour donner ratercho ; ce n'était plus vivant mais toujours une tête de cochon. Le suffixe -icho indiquait des possessions véritablement séparables. Par exemple, Boa-icho julu signifiait "les vêtements de Boa".

Tout comme une tête, un nom, ne pouvait pas exister conceptuellement par lui-même, le mode et l'effet d'une action ne pouvaient être séparés du verbe décrivant l'action. Les Grands Andamanais n'avaient pas de mots pour l'agriculture ou la culture mais un grand nombre pour la chasse et la pêche, principalement avec un arc et des flèches. Ainsi, la racine du mot shile , qui signifie "viser", avait plusieurs versions : utshile , viser d'en haut (par exemple, un poisson) ; arashile, viser à distance (comme un cochon); et eshile, visant à percer.

Inséparables également de leurs préfixes, qui les dotaient de sens, étaient les adjectifs et les adverbes. Par exemple, le préfixe er- , pour "externe", a donné l'adjectif erbungoi , pour "beau" ; le verbe eranye, signifiant "assembler" ; et l'adverbe erchek, ou "rapide". Le préfixe ong- , la zone des extrémités, fournissait ongcho , "piquer", quelque chose que l'on faisait avec les doigts, ainsi que l'adverbe ongkochil, signifiant "précipitamment", qui s'appliquait généralement aux mouvements impliquant une main ou un pied. Important aussi était le morphème a-, qui renvoyait à la bouche et, plus largement, aux origines. Il a contribué aux noms aphong, pour "bouche", et Aka-Jero , pour "son langage Jero" ; les adjectifs ajom , "avide", et amu, "muet" ; les verbes atekho, "parler", et aathitul , "se taire" ; et l'adverbe aulu, "avant".

Ces études ont établi que les 10 langues originales du grand andamanais appartenaient à une seule famille. De plus, cette famille était unique en ce qu'elle avait un système grammatical basé sur le corps humain à tous les niveaux structurels. Une poignée d'autres langues autochtones, telles que le papantla totonaque, parlé au Mexique, et le matsés, parlé au Pérou et au Brésil, utilisaient également des termes faisant référence à des parties du corps pour former des mots. Mais ces termes ne s'étaient pas transformés en symboles abstraits, ni ne se sont propagés à toutes les autres parties du discours.

(Photo - tableau - schéma avec exemples de mots - verbes - adverbes, dérivés des 7 parties)

Plus important encore, la famille des langues semble être d'origine vraiment archaïque. Dans un processus d'évolution en plusieurs étapes, les mots décrivant diverses parties du corps s'étaient transformés en morphèmes faisant référence à différentes zones pour fusionner avec des mots basiques pour donner un sens. Parallèlement aux preuves génétiques, qui indiquent que les Grands Andamanais ont vécu isolés pendant des dizaines de milliers d'années, la grammaire suggère que la famille des langues est née très tôt, à une époque où les êtres humains conceptualisaient leur monde à travers leur corps. La structure à elle seule donne un aperçu d'une ancienne vision du monde dans laquelle le macrocosme reflète le microcosme, et tout ce qui est ou qui se passe est inextricablement lié à tout le reste.

ANCÊTRES, OISEAUX

Un matin sur Strait Island, j'ai entendu Boa Sr. parler aux oiseaux qu'elle nourrissait. J'ai écouté pendant un bon moment derrière une porte, puis je me suis montrée pour lui demander pourquoi elle leur parlait.

"Ils sont les seuls à me comprendre", a-t-elle répondu.

"Comment ça se fait?" J'ai demandé.

"Ne sais-tu pas qu'pas sont nos ancêtres ?"

J'ai essayé de réprimer un rire étonné, mais Boa l'a perçu. "Oui, ce sont nos ancêtres", a-t-elle affirmé. "C'est pourquoi nous ne les tuons ni ne les chassons. Tu devrais demander à Nao Jr.; il connaît peut-être l'histoire."

Nao ne s'en souvint pas tout de suite, mais quelques jours plus tard, il raconta l'histoire d'un garçon nommé Mithe qui était allé à la pêche. Il a attrapé un calmar, et en le nettoyant sur la plage, il a été avalé par un Bol , un gros poisson. Ses amis et sa famille sont venus le chercher et ont réalisé qu'un Bol l'avait mangé. Phatka, le plus intelligent des jeunes, a suivi la piste sale laissée par le poisson et a trouvé le Bol en eau peu profonde, la tête dans le sable. C'était un très grand, alors Phatka, Benge et d'autres ont appelé à haute voix Kaulo, le plus fort d'entre eux, qui est arrivé et a tué le poisson.

Mithe est sorti vivant, mais ses membres étaient engourdis. Ils allumèrent un feu sur la plage et le réchauffèrent, et une fois qu'il eut récupéré, ils décidèrent de manger le poisson. Ils le mirent sur le feu pour le faire rôtir. Mais ils avaient négligé de nettoyer correctement le poisson, et il éclata, transformant toutes les personnes présentes en oiseaux. Depuis ce moment-là, les Grands Andamanais conservent une affinité particulière avec Mithe, la Colombe Coucou Andaman ; Phatka, le corbeau indien ; Benge, l'aigle serpent Andaman; Kaulo, l'aigle de mer à ventre blanc ; Celene, le crabe pluvier; et d'autres oiseaux qu'ils considéraient comme des ancêtres.

Dans la vision de la nature des Grands Andamanais, la principale distinction était entre tajio, le vivant, et eleo , le non-vivant. Les créatures étaient tajio-tut-bech, "êtres vivants avec des plumes" - c'est-à-dire de l'air; tajio-tot chor, "êtres vivants à écailles", ou de l'eau ; ou tajio-chola, "êtres vivants de la terre". Parmi les créatures terrestres, il y avait des ishongo, des humains et d'autres animaux, et des tong, des plantes et des arbres. Ces catégories, ainsi que de multiples attributs d'apparence, de mouvement et d'habitudes, constituaient un système élaboré de classification et de nomenclature, que j'ai documenté pour les oiseaux en particulier. Parfois, l'étymologie d'un nom grand andamanais ressemblait à celle de l'anglais. Par exemple, Celene, composé de mots racines pour "crabe" et "épine", a été ainsi nommé parce qu'il craque et mange des crabes avec son bec dur et pointu.

La compréhension extrêmement détaillée de l'environnement naturel détenue par le peuple des Grands Andamanais (Nao Jr. nomma au moins six variétés de bords de mer et plus de 18 types d'odeurs) indique une culture qui a observé la nature avec un amour profond et un intérêt aigu. Considérant la nature comme un tout, ils ont cherché à examiner l'imbrication des forces qui construisent cet ensemble. L'espace était une construction culturelle, définie par le mouvement des esprits, des animaux et des humains le long d'axes verticaux et horizontaux. Dans la vision du monde des Grands Andamanais, l'espace et tous ses éléments naturels - le soleil, la lune, la marée, les vents, la terre et la forêt - constituaient ensemble le cosmos. Dans cette vision holistique, les oiseaux, les autres créatures et les esprits étaient tous interdépendants et faisaient partie intégrante du concept d'espace.

Le temps aussi était relatif, catégorisé en fonction d'événements naturels tels que la floraison des fleurs saisonnières, la disponibilité du miel - le calendrier du miel, pourrait-on l'appeler - le mouvement du soleil et de la lune, la direction des vents, la disponibilité des ressources alimentaires et le meilleur moment pour chasser le poisson ou d'autres animaux. Ainsi, lorsque la fleur de koroiny auro fleurit, les tortues et les poissons sont gras ; lorsque le bop taulo fleurit, les poissons bikhir, liot et bere sont abondants ; lorsque le loto taulo fleurit, c'est le meilleur moment pour attraper les poissons phiku et nyuri ; et quand le chokhoro taulo fleurissent, les cochons sont les plus gras et c'est le meilleur moment pour les chasser.

Même le "matin" et le "soir" étaient relatifs, selon la personne qui les vivait. Pour dire, par exemple, "Je te rendrai visite demain", on utiliserait ngambikhir, pour "ton demain". Mais dans la phrase "je finirai ça demain", le mot serait tambikhir, "mon demain". Le temps dépendait de la perspective de celui qui était impliqué dans l'événement.

Les mythes des Grands Andamanais indiquaient que leurs premiers ancêtres résidaient dans le ciel, comme dans une autre histoire que Nao Jr. m'a racontée.

Le premier homme, sortant du creux d'un bambou, trouva de l'eau, des tubercules, de l'argile fine et de la résine. Il modela un pot en argile, alluma un feu avec la résine, fit bouillir les tubercules dans le pot et savoura un repas copieux. Puis il fabriqua une figurine en argile et ll laissa sur le feu. À son étonnement et à sa joie, elle se transforma en femme. Ils eurent beaucoup d'enfants et étaient très heureux. Après un long séjour sur Terre, le couple partit pour un endroit au-dessus des nuages, rompant tous les liens avec ce monde.

Des larmes ont coulé sur les joues de Nao Jr. alors qu'il racontait ce conte de création, qui présentait tous les éléments de la vie : l'eau, le feu, la terre, l'espace et l'air. Pour cet homme solitaire - sa femme l'avait quitté il y a des années pour un autre homme -, créer une partenaire selon ses désirs était la fable romantique ultime. Alors que je lui avais demandé des histoires pour la première fois, il avait dit ne pas en avoir entendu depuis 40 ans et qu'il n'en avait pas pour moi faute de mémoire. Mais au cours de nombreuses soirées, avec le gazouillis des grillons et les cris des grenouilles à l'extérieur, il m'a raconté 10 histoires précieuses, presque inédites pour une langue au bord de l'extinction. Peut-être que l'une des raisons pour lesquelles nous nous sommes tellement liés était que nous étions tous les deux raupuch - quelqu'un qui a perdu un frère ou une sœur. Nao Jr. a été choqué d'apprendre que ni l'anglais ni aucune langue indienne n'a un tel mot. "Pourquoi?" Il a demandé. "n'aimez-vous pas vos frères et soeurs"

Nao Jr. a quitté ce monde en février 2009. Avec cette mort prématurée, il a emporté avec lui un trésor de connaissances qui ne pourra jamais être ressuscité et m'a laissé raupuch à nouveau. Boro Sr. est décédé en novembre et Boa Sr. en janvier 2010, laissant sa voix au travers de plusieurs chansons. Licho est décédé en avril 2020. À l'heure actuelle, seules trois personnes - Peje, Golat et Noe - parlent encore une langue de la grande famille andamanaise, dans leur cas le Jero. Ils ont tous plus de 50 ans et souffrent de diverses affections. Toute la famille de ces langues est menacée d'extinction imminente.

Sur les quelque 7 000 langues parlées par les humains aujourd'hui, la moitié se taira d'ici la fin de ce siècle. La survie à l'ère de la mondialisation, de l'urbanisation et des changements climatiques oblige les communautés autochtones à remplacer leurs modes de vie et leurs langues traditionnels par ceux de la société dominante. Quand l'ancienne génération ne peut plus enseigner la langue aux plus jeunes, une langue est condamnée. Et avec chaque langue perdue, nous perdons une mine de connaissances sur l'existence humaine, la perception, la nature et la survie. Pour donner le dernier mot à Boa Sr. : "Tout est parti, il ne reste plus rien – nos jungles, notre eau, notre peuple, notre langue. Ne laissez pas la langue vous échapper ! Tiens bon !"

Auteur: Anvita Abbi

Info: "Whispers from Deep Time" dans Scientific American 328, 6, 62-69 (juin 2023). Trad et adaptation Mg

[ septénaire ] [ conte mythologique ] [ intraduisible ] [ paléolinguistique ] [ ethnolinguistique ] [ chronos ] [ idiome altruiste ] [ couple ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

« Précédent
1
2
3
4
5
6
Suivant »