Citation
Catégorie
Tag – étiquette
Auteur
Info



nb max de mots
nb min de mots
trier par
Dictionnaire analogique intriqué pour extraits. Recherche mots ou phrases tous azimuts. Aussi outil de précision sémantique et de réflexion communautaire. Voir la rubrique mode d'emploi. Jetez un oeil à la colonne "chaînes". ATTENTION, faire une REINITIALISATION après  une recherche complexe. Et utilisez le nuage de corrélats !!!!..... Lire la suite >>
Résultat(s): 63
Temps de recherche: 0.0466s

homme-animal

CAPACITÉS COGNITIVES DU DAUPHIN

Au-delà de leur physiologie cérébrale, les dauphins font preuve de capacités extrêmement rares dans le domaine animal. Comme les humains, les dauphins peuvent imiter, aussi bien sur le mode gestuel que sur le mode vocal, ce qui est soi est déjà exceptionnel. Si certains oiseaux peuvent imiter la voix, ils n’imitent pas les attitudes. Les singes, de leur côté, imitent les gestes et non les mots. Le dauphin est capable des deux. Les dauphins chassent les poissons et se nourrissent d’invertébrés, mais ils usent pour ce faire de techniques complexes et variables, acquises durant l’enfance grâce à l’éducation. L’usage des outils ne leur est pas inconnu : un exemple frappant de cette capacité est la façon dont deux dauphins captifs s’y sont pris pour extraire une murène cachée dans le creux d’un rocher à l’intérieur de leur bassin. L’un d’eux a d’abord attrapé un petit poisson scorpion très épineux, qui passait dans le secteur, et l’ayant saisi dans son rostre, s’en est servi comme d’un outil pour extraire la murène de sa cachette. S’exprimant à propos de leur intelligence, le Dr Louis M.Herman, Directeur du Kewalo Basin Marine Mammal Laboratory de l’Université d’Hawaii, note que les dauphins gardent en mémoire des événements totalement arbitraires, sans le moindre rapport avec leur environnement naturel et sans aucune incidence biologique quant à leur existence.

Recherches sur le langage des dauphins

Beaucoup d’humains trouvent intrigante l’idée de communiquer avec d’autres espèces. A cet égard, le dauphin constitue un sujet attractif, particulièrement dans le domaine du langage animal, du fait de ses capacités cognitives et de son haut degré de socialisation. Dès le début des années soixante, c’est le neurologue John Lilly qui, le premier, s’est intéressé aux vocalisations des cétacés. Les recherches de Lilly se poursuivirent durant toute une décennie, tout en devenant de moins en moins conventionnelles. Le savant alla même jusqu’à tester les effets du L.S.D. sur les émissions sonores des dauphins et dut finalement interrompre ses recherches en 1969, lorsque cinq de ses dauphins se suicidèrent en moins de deux semaines. Malheureusement, nombre de découvertes ou de déclarations de John Lilly sont franchement peu crédibles et ont jeté le discrédit sur l’ensemble des recherches dans le domaine du langage animal. De ce fait, ces recherches sont aujourd’hui rigoureusement contrôlées et très méticuleuses, de sorte que les assertions des scientifiques impliquées dans ce secteur restent désormais extrêmement réservées.

Louis Herman est sans doute l’un des plus importants chercheurs à mener des études sur la communication et les capacités cognitives des dauphins. Son instrument de travail privilégié est la création de langues artificielles, c’est-à-dire de langages simples crées pour l’expérience, permettant d’entamer des échanges avec les dauphins. Louis Herman a surtout concentré ses travaux sur le phénomène de la "compréhension" du langage bien plus que sur la "production" de langage, arguant que la compréhension est le premier signe d’une compétence linguistique chez les jeunes enfants et qu’elle peut être testée de façon rigoureuse. En outre, la structure grammaticale qui fonde les langages enseignés s’inspire le plus souvent de celle de l’anglais. Certains chercheurs ont noté qu’il aurait été mieux venu de s’inspirer davantage de langues à tons ou à flexions, comme le chinois, dont la logique aurait parue plus familière aux cétacés. Dans les travaux d’Herman, on a appris à deux dauphins, respectivement nommés Akeakamai (Ake) et Phoenix, deux langues artificielles. Phoenix a reçu l’enseignement d’un langage acoustique produit par un générateur de sons électroniques. Akeakamai, en revanche, a du apprendre un langage gestuel (version simplifiée du langage des sourds-muets), c’est-à-dire visuel. Les signaux de ces langues artificiels représentent des objets, des modificateurs d’objet (proche, loin, gros, petit, etc.) ou encore des actions. Ni les gestes ni les sons ne sont sensés représenter de façon analogique les objets ou les termes relationnels auxquels ils se réfèrent. Ces langages utilisent également une syntaxe, c’est-à-dire des règles de grammaire simples, ce qui signifie que l’ordre des mots influe sur le sens de la phrase. Phoenix a appris une grammaire classique, enchaînant les termes de gauche à droite (sujet-verbe-complément) alors que la grammaire enseignée à Ake allait dans l’autre sens et exigeait de sa part qu’elle voit l’ensemble du message avant d’en comprendre le sens correctement. Par exemple, dans le langage gestuel de Ake, la séquence des signaux PIPE-SURFBOARD-FETCH ("tuyau – planche à surf – apporter") indiquait l’ordre d’amener la planche de surf jusqu’au tuyau, alors que SURFBOARD-PIPE-FETCH ("planche-tuyau- rapporter") signifiait qu’il fallait, au contraire, amener le tuyau jusqu’ à la planche de surf. Phoenix et Ake ont ainsi appris environ 50 mots, lesquels, permutés l’un avec l’autre au sein de séquences courtes, leur permirent bientôt de se servir couramment de plus de mille phrases, chacune produisant une réponse neuve et non apprise.

Compte tenu de l’influence possible de la position dans l’espace des expérimentateurs sur l’expérimentation, les lieux d’apprentissage et les entraîneurs se voyaient changés de session en session. Dans le même temps, des observateurs "aveugles", qui ne connaissaient pas les ordres et ne voyaient pas les entraîneurs, notaient simplement le comportement des dauphins, afin de vérifier ensuite qu’il correspondait bien aux commandes annoncées. Les entraîneurs allaient jusqu’à porter des cagoules noires, afin de ne révéler aucune expression ou intention faciale et se tenaient immobiles, à l’exception des mains. Les dauphins se montrèrent capables de reconnaître les signaux du langage gestuels aussi bien lorsqu’il étaient filmés puis rediffusés sur un écran vidéo que lorsque ces mêmes signes étaient exécutés à l’air libre par l’entraîneur. Même le fait de ne montrer que des mains pâles sur un fond noir ou des taches de lumière blanche reproduisant la dynamique des mains, a largement suffi aux dauphins pour comprendre le message ! Il semble donc que les dauphins répondent davantage aux symboles abstraits du langage qu’à tout autre élément de la communication.

Par ailleurs, si les dauphins exécutent aisément les ordres qu’on leur donne par cette voie gestuelle, ils peuvent également répondre de façon correcte à la question de savoir si un objet précis est présent ou absent, en pressant le levier approprié (le clair pour PRESENT, le sombre pour ABSENT). Ceci démontre évidement leur faculté de "déplacement mental", qui consiste à manipuler l’image d’objets qui ne se trouvent pas dans les environs. Des expériences additionnelles ont conduit à préciser comment le dauphin conçoit l’étiquetage des objets, comment il les qualifie de son point de vue mental. "Nous avons constaté" nous apprend Louis Herman, "qu’au regard du dauphin, le signe CERCEAU n’est pas seulement le cerceau précis utilisé dans le cadre de cette expérience précise, c’est plutôt TOUT OBJET DE GRANDE TAILLE PERCE D’UN GRAND TROU AU MILIEU. Un seul concept général associe donc pour le dauphin les cerceaux ronds, carrés, grands et petits, flottants ou immergés, que l’on utilise généralement lors de la plupart des expériences". Parmi les choses que le Dr Herman estime n’avoir pu enseigner aux dauphins, il y a le concept du "non" en tant que modificateur logique. L’ordre de "sauter au-dessus d’une non-balle" indique en principe que le dauphin doit sauter au-dessus de n’importe quoi, sauf d’une balle ! Mais cela n’est pas compris, pas plus, affirme toujours Herman, que le concept de "grand" ou de "petit".

Communication naturelle chez les dauphins

On sait que les dauphins émettent de nombreux sifflements, de nature très diverse. La fonction de la plupart d’entre eux demeure toujours inconnue mais on peut affirmer aujourd’hui que la moitié d’entre eux au moins constitue des "signatures sifflées". Un tel signal se module dans une fourchette de 5 à 20 kilohertz et dure moins d’une seconde. Il se distingue des autres sifflements - et de la signature de tous les autres dauphins – par ses contours particuliers et ses variations de fréquences émises sur un temps donné, ainsi que le montrent les sonogrammes. Les jeunes développent leur propre signature sifflée entre l’âge de deux mois et d’un an. Ces sifflements resteront inchangés douze ans au moins et le plus souvent pour la durée entière de la vie de l’animal. Par ailleurs, au-delà de leur seule fonction nominative, certains des sifflements du dauphin apparaissent comme de fidèles reproductions de ceux de leurs compagnons et servent manifestement à interpeller les autres par leur nom. Lorsqu’ils sont encore très jeunes, les enfants mâles élaborent leur propre signature sifflée, qui ressemble fort à celle de leur mère. En revanche, les jeunes femelles doivent modifier les leurs, précisément pour se distinguer de leur mère.

Ces différences reflètent sans doute celles qui existent dans les modes de vie des femelles et des mâles. Puisque les filles élèvent leur propre enfant au sein du groupe maternel, un sifflement distinct est donc indispensable pour pouvoir distinguer la maman de la grand mère. La signature sifflée masculine, presque identique à celle de la mère, permet tout au contraire d’éviter l’inceste et la consanguinité. Le psychologue James Ralston et l’informaticien Humphrey Williams ont découvert que la signature sifflée pouvait véhiculer bien plus que la simple identité du dauphin qui l’émet. En comparant les sonogrammes des signatures sifflées durant les activités normales et lors de situations stressantes, ils découvrirent que la signature sifflée, tout en conservant sa configuration générale, pouvait changer en termes de tonalité et de durée et transmettre ainsi des informations sur l’état émotionnel de l’animal. Les modifications causé par cet état émotionnel sur les intonations de la signature varient en outre selon les individus. Les dauphins semblent donc utiliser les sifflement pour maintenir le contact lorsqu’ils se retrouvent entre eux ou lorsqu’ils rencontrent d’autres groupes, mais aussi, sans doute, pour coordonner leur activités collectives. Par exemple, des sifflements sont fréquemment entendus lorsque le groupe entier change de direction ou d’activité.

De son côté, Peter Tyack (Woods Hole Oceanographic Institute) a travaillé aux côtés de David Staelin, professeur d’ingénierie électronique au M.I.T., afin de développer un logiciel d’ordinateur capable de détecter les "matrices sonores" et les signaux répétitifs parmi le concert de couinements, piaulements et autres miaulements émis par les dauphins. Une recherche similaire est menée par l’Université de Singapore (Dolphin Study Group). Avec de tels outils, les chercheurs espèrent en apprendre davantage sur la fonction précise des sifflements.

Dauphins sociaux

Les observations menées sur des individus sauvages aussi bien qu’en captivité révèlent un très haut degré d’ordre social dans la société dauphin. Les femelles consacrent un an à leur grossesse et puis les trois années suivantes à élever leur enfant. Les jeunes s’éloignent en effet progressivement de leur mère dès leur troisième année, restant près d’elle jusqu’à six ou dix ans ! – et rejoignent alors un groupe mixte d’adolescents, au sein duquel ils demeurent plusieurs saisons. Parvenus à l’âge pleinement adulte, vers 15 ans en moyenne, les mâles ne reviennent plus que rarement au sein du "pod" natal. Cependant, à l’intérieur de ces groupes d’adolescents, des liens étroits se nouent entre garçons du même âge, qui peuvent persister la vie entière. Lorsque ces mâles vieillissent, ils ont tendance à s’associer à une bande de femelles afin d’y vivre une paisible retraite. Bien que les dauphins pratiquent bien volontiers la promiscuité sexuelle, les familles matriarcales constituent de fortes unités de base de la société dauphin. Lorsqu’une femelle donne naissance à son premier enfant, elle rejoint généralement le clan de sa propre mère et élève son delphineau en compagnie d’autres bébés, nés à la même saison. La naissance d’un nouveau-né donne d’ailleurs souvent lieu à des visites d’autres membres du groupe, mâles ou femelles, qui s’étaient séparés de leur mère depuis plusieurs années. Les chercheurs ont également observé des comportements de "baby-sitting", de vieilles femelles, des soeurs ou bien encore d’autres membres du groupe, voire même un ancien mâle prenant alors en charge la surveillance des petits. On a ainsi pu observer plusieurs dauphins en train de mettre en place une véritable "cour de récréation", les femelles se plaçant en U et les enfants jouant au milieu ! (D’après un texte du Dr Poorna Pal)

Moi, dauphin.

Mais qu’en est-il finalement de ce moi central au coeur de ce monde circulaire sans relief, sans couleurs constitué de pixels sonores ? C’est là que les difficultés deviennent insurmontables tant qu’un "contact" n’aura pas été vraiment établi par le dialogue car le "soi" lui-même, le "centre de la personne" est sans doute construit de façon profondément différente chez l’homme et chez le dauphin. H.Jerison parle carrément d’une "conscience collective". Les mouvements de groupe parfaitement coordonnés et quasi-simultanés, à l’image des bancs de poissons ou des troupeaux de gnous, que l’on observe régulièrement chez eux, suppose à l’évidence une pensée "homogène" au groupe, brusquement transformé en une "personne plurielle". On peut imaginer ce sentiment lors d’un concert de rock ou d’une manifestation, lorsqu’une foule entière se tend vers un même but mais ces attitudes-là sont grossières, globales, peu nuancées. Toute autre est la mise à l’unisson de deux, trois, cinq (les "gangs" de juvéniles mâles associés pour la vie) ou même de plusieurs centaines de dauphins ensemble (de formidables "lignes de front" pour la pêche, qui s’étendent sur des kilomètres) et là, bien sûr, nous avons un comportement qui traduit un contenu mental totalement inconnu de nous. On sait que lorsqu’un dauphin voit, tout le monde l’entend. En d’autres termes chaque fois qu’un membre du groupe focalise son faisceau de clicks sur une cible quelconque, l’écho lui revient mais également à tous ceux qui l’entourent. Imaginons que de la même manière, vous regardiez un beau paysage. La personne qui vous tournerait le dos et se tiendrait à l’arrière derrière vous pourrait le percevoir alors aussi bien que vous le faites. Cette vision commune, qui peut faire croire à de la télépathie, n’est pas sans conséquence sur le contenu mental de chaque dauphin du groupe, capable de fusionner son esprit à ceux des autres quand la nécessité s’en fait sentir. Ceci explique sans doute la formidable capacité d’empathie des dauphins mais aussi leur fidélité "jusqu’à la mort" quand il s’agit de suivre un compagnon qui s’échoue. Chez eux, on ne se sépare pas plus d’un ami en détresse qu’on ne se coupe le bras quand il est coincé dans une portière de métro ! En d’autres circonstances, bien sûr, le dauphin voyage seul et il "rassemble" alors sa conscience en un soi individualisé, qui porte un nom, fait des choix et s’intègre dans une lignée. Il en serait de même pour l’homme si les mots pouvaient faire surgir directement les images qu’ils désignent dans notre cerveau, sans passer par le filtre d’une symbolisation intermédiaire. Si quelqu’un me raconte sa journée, je dois d’abord déchiffrer ses mots, les traduire en image et ensuite me les "représenter". Notre système visuel étant indépendant de notre système auditif, un processus de transformation préalable est nécessaire à la prise de conscience du message. Au contraire, chez le dauphin, le système auditif est à la fois un moyen de communication et un moyen de cognition "constructiviste" (analyse sensorielle de l’environnement). La symbolisation n’est donc pas nécessaire aux transferts d’images, ce qui n’empêche nullement qu’elle puisse exister au niveau des concepts abstraits. Quant à cette conscience fusion-fission, cet "ego fluctuant à géométrie variable", ils préparent tout naturellement le dauphin à s’ouvrir à d’autres consciences que la sienne. D’où sans doute, son besoin de nous sonder, de nous comprendre et de nous "faire" comprendre. Un dauphin aime partager son cerveau avec d’autres, tandis que l’homme vit le plus souvent enfermé dans son crâne. Ces êtres-là ont décidément beaucoup à nous apprendre...

Auteur: Internet

Info: http://www.dauphinlibre.be/dauphins-cerveau-intelligence-et-conscience-exotiques

[ comparaisons ] [ mimétisme ] [ sémiotique ] [ intelligence grégaire ]

 

Commentaires: 0

intelligence artificielle

Apprendre l'anglais n'est pas une tâche facile, comme le savent d'innombrables étudiants. Mais lorsque l'étudiant est un ordinateur, une approche fonctionne étonnamment bien : Il suffit d'alimenter un modèle mathématique géant, appelé réseau neuronal, avec des montagnes de textes provenant d'Internet. C'est le principe de fonctionnement des modèles linguistiques génératifs tels que ChatGPT d'OpenAI, dont la capacité à tenir une conversation cohérente (à défaut d'être toujours sincère) sur un large éventail de sujets a surpris les chercheurs et le public au cours de l'année écoulée.

Mais cette approche présente des inconvénients. D'une part, la procédure de "formation" nécessaire pour transformer de vastes archives textuelles en modèles linguistiques de pointe est coûteuse et prend beaucoup de temps. D'autre part, même les personnes qui forment les grands modèles linguistiques ont du mal à comprendre leur fonctionnement interne, ce qui, à son tour, rend difficile la prévision des nombreuses façons dont ils peuvent échouer.

Face à ces difficultés, certains chercheurs ont choisi d'entraîner des modèles plus petits sur des ensembles de données plus restreints, puis d'étudier leur comportement. "C'est comme le séquençage du génome de la drosophile par rapport au séquençage du génome humain", explique Ellie Pavlick, chercheuse sur les modèles de langage à l'université de Brown.

Dans un article récemment publié sur le serveur scientifique arxiv.org, deux chercheurs de Microsoft ont présenté une nouvelle méthode pour former de minuscules modèles de langage : Les élever avec un régime strict d'histoires pour enfants.

RÉSEAUX NEURONAUX

Des chercheurs acquièrent une nouvelle compréhension à partir d'une simple IA  

Les chercheurs en apprentissage automatique ont compris cette leçon. GPT-3.5, le grand modèle linguistique qui alimente l'interface ChatGPT, compte près de 200 milliards de paramètres et a été entraîné sur un ensemble de données comprenant des centaines de milliards de mots (OpenAI n'a pas publié les chiffres correspondants pour son successeur, GPT-4).  L'entraînement de modèles aussi vastes nécessite généralement au moins 1 000 processeurs spécialisés, appelés GPU, fonctionnant en parallèle pendant des semaines. Seules quelques entreprises peuvent réunir les ressources nécessaires, sans parler de l'entraînement et de la comparaison de différents modèles.

Les deux chercheurs ont montré que des modèles linguistiques des milliers de fois plus petits que les systèmes de pointe actuels apprenaient rapidement à raconter des histoires cohérentes et grammaticalement justes lorsqu'ils étaient formés de cette manière. Leurs résultats indiquent de nouvelles pistes de recherche qui pourraient être utiles pour former des modèles plus importants et comprendre leur comportement.

"J'ai trouvé tout  ça très instructif", a déclaré Chandra Bhagavatula, chercheur sur les modèles de langage à l'Allen Institute for Artificial Intelligence de Seattle. "Le concept lui-même est très intéressant.

Il était une fois

Les réseaux neuronaux au cœur des modèles de langage sont des structures mathématiques vaguement inspirées du cerveau humain. Chacun d'entre eux contient de nombreux neurones artificiels disposés en couches, avec des connexions entre les neurones des couches adjacentes. Le comportement du réseau neuronal est régi par la force de ces connexions, appelées paramètres. Dans un modèle linguistique, les paramètres contrôlent les mots que le modèle peut produire ensuite, compte tenu d'une invite initiale et des mots qu'il a déjà générés.

Un modèle ne prend véritablement vie qu'au cours de la formation, lorsqu'il compare de manière répétée ses propres résultats au texte de son ensemble de données de formation et qu'il ajuste ses paramètres afin d'accroître la ressemblance. Un réseau non entraîné avec des paramètres aléatoires est trivialement facile à assembler à partir de quelques lignes de code, mais il ne produira que du charabia. Après l'entraînement, il peut souvent poursuivre de manière plausible un texte peu familier. Les modèles de plus grande taille sont souvent soumis à des réglages plus fins qui leur apprennent à répondre à des questions et à suivre des instructions, mais l'essentiel de la formation consiste à maîtriser la prédiction des mots.

Pour réussir à prédire des mots, un modèle linguistique doit maîtriser de nombreuses compétences différentes. Par exemple, les règles de la grammaire anglaise suggèrent que le mot suivant le mot "going" sera probablement "to", quel que soit le sujet du texte. En outre, un système a besoin de connaissances factuelles pour compléter "la capitale de la France est", et compléter un passage contenant le mot "not" nécessite une connaissance rudimentaire de la logique.

"Le langage brut est très compliqué", explique Timothy Nguyen, chercheur en apprentissage automatique chez DeepMind. "Pour que des capacités linguistiques intéressantes apparaissent, les gens ont eu recours à l'idée que plus il y a de données, mieux c'est".

(photo) Ronen Eldan s'est rendu compte qu'il pouvait utiliser les histoires d'enfants générées par de grands modèles linguistiques pour en entraîner rapidement de plus petits.

Introduction

Ronen Eldan, mathématicien qui a rejoint Microsoft Research en 2022 pour étudier les modèles de langage génératifs, souhaitait développer un moyen moins coûteux et plus rapide d'explorer leurs capacités. Le moyen naturel d'y parvenir était d'utiliser un petit ensemble de données, ce qui signifiait qu'il devait entraîner les modèles à se spécialiser dans une tâche spécifique, afin qu'ils ne s'éparpillent pas. Au départ, il voulait entraîner les modèles à résoudre une certaine catégorie de problèmes mathématiques, mais un après-midi, après avoir passé du temps avec sa fille de 5 ans, il s'est rendu compte que les histoires pour enfants convenaient parfaitement. "L'idée m'est venue littéralement après lui avoir lu une histoire", a-t-il déclaré.

Pour générer des histoires cohérentes pour les enfants, un modèle de langage devrait apprendre des faits sur le monde, suivre les personnages et les événements, et observer les règles de grammaire - des versions plus simples des défis auxquels sont confrontés les grands modèles. Mais les grands modèles formés sur des ensembles de données massives apprennent d'innombrables détails non pertinents en même temps que les règles qui comptent vraiment. Eldan espérait que la brièveté et le vocabulaire limité des histoires pour enfants rendraient l'apprentissage plus gérable pour les petits modèles, ce qui les rendrait à la fois plus faciles à former et plus faciles à comprendre.

Dans le monde des modèles de langage, cependant, le terme "petit" est relatif : Un ensemble de données mille fois plus petit que celui utilisé pour former GPT-3.5 devrait encore contenir des millions d'histoires. "Je ne sais pas combien d'argent vous voulez dépenser, mais je suppose que vous n'allez pas engager des professionnels pour écrire quelques millions de nouvelles", a déclaré M. Nguyen.

Il faudrait un auteur extraordinairement prolifique pour satisfaire des lecteurs aussi voraces, mais Eldan avait quelques candidats en tête. Qui peut mieux écrire pour un public de petits modèles linguistiques que pour de grands modèles ?

Toys stories

Eldan a immédiatement entrepris de créer une bibliothèque d'histoires synthétiques pour enfants générées par de grands modèles linguistiques. Mais il a rapidement découvert que même les modèles de pointe ne sont pas naturellement très créatifs. Si l'on demande à GPT-4 d'écrire des histoires adaptées à des enfants de 4 ans, explique Eldan, "environ un cinquième des histoires concernera des enfants qui vont au parc et qui ont peur des toboggans". C'est apparemment la quintessence des histoires pour enfants d'âge préscolaire, selon l'Internet.

La solution a consisté à ajouter un peu d'aléatoire dans le message. Tout d'abord, Eldan a utilisé le GPT-4 pour générer une liste de 1 500 noms, verbes et adjectifs qu'un enfant de 4 ans pourrait connaître - suffisamment courte pour qu'il puisse facilement la vérifier lui-même. Il a ensuite écrit un programme informatique simple qui demanderait à plusieurs reprises à GPT-3.5 ou à GPT-4 de générer une histoire adaptée à l'âge de l'enfant, comprenant trois mots aléatoires de la liste, ainsi qu'un détail supplémentaire choisi au hasard, comme une fin heureuse ou un rebondissement de l'intrigue. Les histoires obtenues, heureusement, étaient moins axées sur des diapositives effrayantes.

Eldan disposait désormais d'une procédure pour produire des données de formation à la demande, mais il n'avait aucune idée du nombre d'histoires dont il aurait besoin pour former un modèle fonctionnel, ni de la taille de ce modèle. C'est alors qu'il s'est associé à Yuanzhi Li, chercheur en apprentissage automatique chez Microsoft et à l'université Carnegie Mellon, pour essayer différentes possibilités, en tirant parti du fait que les petits modèles peuvent être formés très rapidement. La première étape consistait à décider comment évaluer leurs modèles.

Introduction

Dans la recherche sur les modèles de langage - comme dans toute salle de classe - la notation est un sujet délicat. Il n'existe pas de rubrique parfaite qui englobe tout ce que les chercheurs veulent savoir, et les modèles qui excellent dans certaines tâches échouent souvent de manière spectaculaire dans d'autres. Au fil du temps, les chercheurs ont mis au point divers critères de référence standard basés sur des questions dont les réponses ne sont pas ambiguës, ce qui est une bonne approche si vous essayez d'évaluer des compétences spécifiques. Mais Eldan et Li se sont intéressés à quelque chose de plus nébuleux : quelle doit être la taille réelle des modèles linguistiques si l'on simplifie le langage autant que possible ?

"Pour vérifier directement si le modèle parle anglais, je pense que la seule chose à faire est de laisser le modèle générer de l'anglais de manière ouverte", a déclaré M. Eldan.

Il n'y a que deux façons de mesurer les performances d'un modèle sur des questions aussi qualitatives : S'appuyer sur des évaluateurs humains ou se tourner à nouveau vers le GPT-4. Les deux chercheurs ont opté pour cette dernière solution, laissant les grands modèles à la fois rédiger les manuels et noter les dissertations.

Bhagavatula a déclaré qu'il aurait aimé voir comment les évaluations de GPT-4 se comparaient à celles des correcteurs humains - GPT-4 peut être biaisé en faveur des modèles qu'il a aidé à former, et l'opacité des modèles de langage rend difficile la quantification de tels biais. Mais il ne pense pas que de telles subtilités affecteraient les comparaisons entre différents modèles formés sur des ensembles similaires d'histoires synthétiques - l'objectif principal du travail d'Eldan et Li.

Eldan et Li ont utilisé une procédure en deux étapes pour évaluer chacun de leurs petits modèles après la formation. Tout d'abord, ils ont présenté au petit modèle la première moitié d'une histoire distincte de celles de l'ensemble des données d'apprentissage, de manière à ce qu'il génère une nouvelle fin, en répétant ce processus avec 50 histoires de test différentes. Ensuite, ils ont demandé à GPT-4 d'évaluer chacune des fins du petit modèle en fonction de trois catégories : créativité, grammaire et cohérence avec le début de l'histoire. Ils ont ensuite fait la moyenne des notes obtenues dans chaque catégorie, obtenant ainsi trois notes finales par modèle.

Avec cette procédure en main, Eldan et Li étaient enfin prêts à comparer les différents modèles et à découvrir quels étaient les étudiants les plus brillants.

Résultats des tests

Après quelques explorations préliminaires, les deux chercheurs ont opté pour un ensemble de données de formation contenant environ 2 millions d'histoires. Ils ont ensuite utilisé cet ensemble de données, baptisé TinyStories, pour entraîner des modèles dont la taille varie de 1 million à 30 millions de paramètres, avec un nombre variable de couches. Le travail a été rapide : En utilisant seulement quatre GPU, l'entraînement du plus grand de ces modèles n'a pas pris plus d'une journée.

Les plus petits modèles ont eu du mal. Par exemple, l'une des histoires testées commence par un homme à l'air méchant qui dit à une fille qu'il va lui prendre son chat. Un modèle à un million de paramètres s'est retrouvé bloqué dans une boucle où la fille répète sans cesse à l'homme qu'elle veut être son amie. Mais les modèles plus grands, qui sont encore des milliers de fois plus petits que GPT-3.5, ont obtenu des résultats surprenants. La version à 28 millions de paramètres racontait une histoire cohérente, même si la fin était sinistre : "Katie s'est mise à pleurer, mais l'homme s'en fichait. Il a emporté le chat et Katie n'a plus jamais revu son chat. Fin de l'histoire".

En plus de tester leurs propres modèles, Eldan et Li ont soumis le même défi au GPT-2 d'OpenAI, un modèle de 1,5 milliard de paramètres publié en 2019. Le résultat a été bien pire - avant la fin abrupte de l'histoire, l'homme menace d'emmener la jeune fille au tribunal, en prison, à l'hôpital, à la morgue et enfin au crématorium.

Introduction

Selon M. Nguyen, il est passionnant que des modèles aussi petits soient aussi fluides, mais il n'est peut-être pas surprenant que GPT-2 ait eu du mal à accomplir la tâche : il s'agit d'un modèle plus grand, mais loin de l'état de l'art, et il a été formé sur un ensemble de données très différent. "Un enfant en bas âge qui ne s'entraînerait qu'à des tâches d'enfant en bas âge, comme jouer avec des jouets, obtiendrait de meilleurs résultats que vous ou moi", a-t-il fait remarquer. "Nous ne nous sommes pas spécialisés dans cette chose simple.

Les comparaisons entre les différents modèles de TinyStories ne souffrent pas des mêmes facteurs de confusion. Eldan et Li ont observé que les réseaux comportant moins de couches mais plus de neurones par couche étaient plus performants pour répondre aux questions nécessitant des connaissances factuelles ; inversement, les réseaux comportant plus de couches et moins de neurones par couche étaient plus performants pour garder en mémoire les personnages et les points de l'intrigue situés plus tôt dans l'histoire. Bhagavatula a trouvé ce résultat particulièrement intriguant. S'il peut être reproduit dans des modèles plus vastes, "ce serait un résultat vraiment intéressant qui pourrait découler de ce travail", a-t-il déclaré.

Eldan et Li ont également étudié comment les capacités de leurs petits modèles dépendaient de la durée de la période de formation. Dans tous les cas, les modèles maîtrisaient d'abord la grammaire, puis la cohérence. Pour Eldan, ce schéma illustre comment les différences dans les structures de récompense entraînent des différences dans les schémas d'acquisition du langage entre les réseaux neuronaux et les enfants. Pour les modèles de langage, qui apprennent en prédisant des mots, "l'incitation pour les mots "je veux avoir" est aussi importante que pour les mots "crème glacée"", a-t-il déclaré. Les enfants, en revanche, "ne se soucient pas de savoir s'ils disent 'j'aimerais avoir de la glace' ou simplement 'glace, glace, glace'".

Qualité contre quantité

Eldan et Li espèrent que cette étude incitera d'autres chercheurs à entraîner différents modèles sur l'ensemble des données de TinyStories et à comparer leurs capacités. Mais il est souvent difficile de prédire quelles caractéristiques des petits modèles apparaîtront également dans les plus grands.

"Peut-être que les modèles de vision chez la souris sont de très bons substituts de la vision humaine, mais les modèles de dépression chez la souris sont-ils de bons modèles de la dépression chez l'homme ? a déclaré M. Pavlick. "Pour chaque cas, c'est un peu différent.

Le succès des modèles TinyStories suggère également une leçon plus large. L'approche standard pour compiler des ensembles de données de formation consiste à aspirer des textes sur l'internet, puis à filtrer les déchets. Le texte synthétique généré par des modèles de grande taille pourrait constituer une autre façon d'assembler des ensembles de données de haute qualité qui n'auraient pas besoin d'être aussi volumineux.

"Nous avons de plus en plus de preuves que cette méthode est très efficace, non seulement pour les modèles de la taille de TinyStories, mais aussi pour les modèles plus importants", a déclaré M. Eldan. Ces preuves proviennent d'une paire d'articles de suivi sur les modèles à un milliard de paramètres, rédigés par Eldan, Li et d'autres chercheurs de Microsoft. Dans le premier article, ils ont entraîné un modèle à apprendre le langage de programmation Python en utilisant des extraits de code générés par GPT-3.5 ainsi que du code soigneusement sélectionné sur l'internet. Dans le second, ils ont complété l'ensemble de données d'entraînement par des "manuels" synthétiques couvrant un large éventail de sujets, afin d'entraîner un modèle linguistique à usage général. Lors de leurs tests, les deux modèles ont été comparés favorablement à des modèles plus importants formés sur des ensembles de données plus vastes. Mais l'évaluation des modèles linguistiques est toujours délicate, et l'approche des données d'entraînement synthétiques n'en est qu'à ses balbutiements - d'autres tests indépendants sont nécessaires.

Alors que les modèles linguistiques de pointe deviennent de plus en plus volumineux, les résultats surprenants de leurs petits cousins nous rappellent qu'il y a encore beaucoup de choses que nous ne comprenons pas, même pour les modèles les plus simples. M. Nguyen s'attend à ce que de nombreux autres articles explorent l'approche inaugurée par TinyStories.

"La question est de savoir où et pourquoi la taille a de l'importance", a-t-il déclaré. "Il devrait y avoir une science à ce sujet, et cet article est, je l'espère, le début d'une riche histoire.



 



 

Auteur: Internet

Info: https://www.quantamagazine.org/ Ben Brubaker, 5 octobre 2023

[ synthèse ]

 

Commentaires: 0

Ajouté à la BD par miguel

proto-linguistique

Cette langue ancienne use de la seule grammaire basée entièrement sur le corps humain

Une famille de langues en voie de disparition suggère que les premiers humains utilisaient leur corps comme modèle de réalité

Un matin de décembre 2004, des adultes et des enfants erraient sur le rivage de Strait Island dans le golfe du Bengale lorsque l'un d'eux a remarqué quelque chose d'étrange. Le niveau de la mer était bas et des créatures étranges qui habitent normalement la zone crépusculaire profonde de l'océan se balançaient près de la surface de l'eau. “ Sare ukkuburuko ! ”— la mer s'est renversée! — cria Nao Junior, un des derniers héritiers d'une sagesse transmise sur des milliers de générations à travers sa langue maternelle. Il savait ce que signifiait ce phénomène bizarre. Tout comme d'autres peuples autochtones des îles Andaman. Ils se sont tous précipités à l'intérieur des terres et en hauteur, leurs connaissances ancestrales les sauvant du tsunami dévastateur qui s'est abattu sur les côtes de l'océan Indien quelques minutes plus tard et qui a emporté quelque 225 000 personnes.

Lorsque j'ai rencontré Nao Jr. pour la première fois, au tournant du millénaire, il était dans la quarantaine et l'un des neuf seuls membres de son groupe autochtone, le Grand Andamanais, qui parlait encore l'idiome de ses ancêtres ; les jeunes préférant l'hindi. En tant que linguiste passionnée par le décodage de structure, j'avais étudié plus de 80 langues indiennes de cinq familles différentes : indo-européenne (à laquelle appartient l'hindi), dravidienne, austroasiatique, tibéto-birmane et taï-kadaï. J'étais sur les îles pour documenter leurs voix autochtones avant qu'elles ne se transforment en murmures. Le peu que j'ai entendu était si déconcertant que j'y suis retourné plusieurs fois au cours des années suivantes pour essayer de cerner les principes qui sous-tendent les grandes langues andamanaises.

Ici mes principaux professeurs, Nao Jr. et une femme nommée Licho, parlaient un pastiche de langues qui comptaient encore quelque 5 000 locuteurs au milieu du 19e siècle. Le vocabulaire moderne étant très variable, dérivé de plusieurs langues parlées à l'origine sur l'île d'Andaman du Nord. Ce qui m'était vraiment étranger, cependant, c'était leur grammaire, qui ne ressemblait à rien de ce que j'avais jamais rencontré.

Une langue incarne une vision du monde et, alors qu'une civilisation, change et se développe par couches. Les mots ou les phrases fréquemment utilisés se transforment en formes grammaticales de plus en plus abstraites et compressées. Par exemple, le suffixe "-ed", signifiant le passé en anglais moderne, provient de "did" (c'est-à-dire que "did use" est devenu "used") ; Le vieil anglais où in steed et sur gemong sont devenus respectivement "instead" et "among". Ces types de transitions font de la linguistique historique un peu comme l'archéologie. Tout comme un archéologue fouille soigneusement un monticule pour révéler différentes époques d'une cité-État empilées les unes sur les autres, un linguiste peut séparer les couches d'une langue pour découvrir les étapes de son évolution. Il faudra des années à Nao Jr. et Licho endurant patiemment mes interrogatoires et mes tâtonnements pour que j'apprenne enfin la règle fondamentale de leur langue.

Il s'avère que le grand andamanais est exceptionnel parmi les langues du monde de par son anthropocentrisme. Il utilise des catégories dérivées du corps humain pour décrire des concepts abstraits tels que l'orientation spatiale et les relations entre les objets. Bien sûr, en anglais, nous pourrions dire des choses comme "la pièce fait face à la baie", "la jambe de la chaise s'est cassée" et "elle dirige l'entreprise". Mais en Grand Andamanais, de telles descriptions prennent une forme extrême, avec des morphèmes, ou segments sonores significatifs, qui désignent différentes zones du corps s'attachant aux noms, verbes, adjectifs et adverbes - en fait, à chaque partie du discours - pour créer des significations diverses. Parce qu'aucune autre langue connue n'a une grammaire basée sur le corps humain et/ou un partage des mots apparentés -  des mots qui ont une signification et une prononciation similaires, ce qui indique un lien généalogique - avec le grand andamanais, la langue constitue sa propre famille .

L'aspect le plus durable d'une langue est sa structure, qui peut perdurer sur des millénaires. Mes études indiquent que les Grands Andamanais furent effectivement isolés pendant des milliers d'années, au cours desquelles leurs langues ont évolué sans influence perceptible d'autres cultures. La recherche génétique corrobore ce point de vue, montrant que ces peuples autochtones descendent d'un des premiers groupes d'humains modernes qui a migré hors d'Afrique. En suivant le littoral du sous-continent indien, ils ont atteint l'archipel d'Andaman il y a peut-être 50 000 ans et y vivent depuis dans un isolement virtuel. Les principes fondamentaux de leurs langues révèlent que ces humains anciens ont conceptualisé le monde à travers leur corps.

PIÈCES DU CASSE-TÊTE

Lorsque je suis arrivé en 2001 à Port Blair, la principale ville de la région, pour mener une enquête préliminaire sur les langues autochtones, j'ai été dirigé vers Adi Basera, une maison que le gouvernement indien autorisait les Grands Andamanais à utiliser lorsqu'ils étaient en ville. C'était un bâtiment délabré avec de la peinture écaillée et des pièces sales ; enfants et adultes flânaient nonchalamment dans la cour. Quelqu'un m'a apporté une chaise en plastique. J'ai expliqué ma quête en hindi.

"Pourquoi es-tu venu ?" demanda Boro Senior, une femme âgée. "Nous ne nous souvenons pas de notre langue. Nous ne le parlons ni ne le comprenons. Il s'est avéré que toute la communauté conversait principalement en hindi, une langue essentielle pour se débrouiller dans la société indienne et la seule que les enfants apprenaient." Pendant que je le sondais cependant, Nao Jr. a avoué qu'il connaissait le Jero, mais parce qu'il n'avait personne avec qui en parler, il l'oubliait. Boro Sr. s'est avéré être la dernière personne à se souvenir de Khora, et Licho, alors dans la fin de la trentaine, qui était la dernière à parler le sare, la langue de sa grand-mère. Lorsqu'ils conversaient entre eux, ces individus utilisaient ce que j'appelle le Grand Andamanais actuel (PGA), un mélange de Jero, Sare, Bo et Khora - toutes langues des Andaman du Nord.

Lorsque les autorités britanniques ont établi une colonie pénitentiaire à Port Blair en 1858, les forêts tropicales de Great Andaman - comprenant le nord, le centre et le sud d'Andaman, ainsi que quelques petites îles à proximité - étaient habitées par 10 tribus de chasseurs et de cueilleurs qui semblaient culturellement liées. Les habitants du Great Andaman ont résisté aux envahisseurs, mais leurs arcs et leurs flèches n'étaient pas à la hauteur des fusils et, à une occasion, des canons de navires. Encore plus mortels furent les germes apportés par les étrangers, contre lesquels les insulaires n'avaient aucune immunité. Dans les années 1960, époque à laquelle les Andamans appartenaient à l'Inde, il ne restait plus que 19 Grands Andamanais, vivant principalement dans les forêts du nord d'Andaman. Les autorités indiennes les ont alors installés sur la petite île du détroit.

Un autre groupe de chasseurs-cueilleurs, les Jarawa, vivaient dans le sud d'Andaman, et lorsque les Grands Andamanais s'éteignirent , les Jarawa s'installèrent dans leurs territoires évacués du Moyen Andaman. Les Jarawa ont résisté au contact - et aux germes qui l'accompagnent - jusqu'en 1998 et sont maintenant au nombre d'environ 450. Leur culture avait des liens avec celle des Onge, qui vivaient sur Little Andaman et qui ont été sous controle des Britanniques dans les années 1880. Apparemment, les habitants de North Sentinel Island étaient également apparentés aux Jarawa. Ils continuent d'ailleurs de vivre dans un isolement volontaire, qu'ils ont imposé en 2018 en tuant un missionnaire américain.

(photo-schéma avec détails et statistiques des langage des iles adamans)

Mon enquête initiale a établi que les langues des Grands Andamanais n'avaient aucun lien avec celles des Jarawa et des Onge, qui pourraient constituer leur propre famille de langues. Réalisant que je devais documenter le Grand Andamanais avant qu'il ne soit réduit au silence, je suis revenu avec une équipe d'étudiants en 2005. C'était peu de temps après le tsunami, et les autorités avaient évacué les 53 Grands Andamanais vers un camp de secours à côté d'Adi Basera. Ils avaient survécu, mais leurs maisons avaient été inondées et leurs biens perdus, et un sentiment de bouleversement et de chagrin flottait dans l'air. Dans cette situation, Licho a donné naissance à un garçon nommé Berebe, source de joie. J'ai appris que les bébés étaient nommés dans l'utérus. Pas étonnant que les grands noms andamanais soient non sexistes !

Au camp, j'ai rencontré l'octogénaire Boa Senior, dernier locuteur de Bo et gardien de nombreuses chansons. Nous deviendrons très proches. Les grands jeunes andamanais avaient répondu au mépris des Indiens dominants pour les cultures autochtones en se détournant de leur héritage. Boa Sr me tenait la main et ne me laissait pas partir car elle était convaincue que ma seule présence, en tant qu'étranger rare qui valorisait sa langue, motiverait les jeunes à parler le grand andamanais. Pourtant, je l'ai appris principalement de Nao Jr. et Licho, dont l'intérêt pour leurs langues avait été enflammé par le mien. Il s'est avéré que Nao Jr. en savait beaucoup sur l'environnement local et Licho sur l'étymologie, étant souvent capable de me dire quel mot venait de quelle langue. J'ai passé de longues heures avec eux à Adi Basera et sur Strait Island, les accompagnant partout où ils allaient - pour nous prélasser à l'extérieur de leurs huttes, errer dans la jungle ou pêcher sur la plage. Plus ils s'efforçaient de répondre à mes questions, plus ils puisaient dans les profondeurs de la mémoire. J'ai fini par collecter plus de 150 grands noms andamanais pour différentsespèces de poissons et 109 pour les oiseaux .

Les responsables britanniques avaient observé que les langues andamanaises étaient un peu comme les maillons d'une chaîne : les membres des tribus voisines des Grands Andamans se comprenaient, mais les langues parlées aux extrémités opposées de l'archipel, dans les Andamans du Nord et du Sud, étaient mutuellement inintelligibles. En 1887, l'administrateur militaire britannique Maurice Vidal Portman publia un lexique comparatif de quatre langues, ainsi que quelques phrases avec leurs traductions en anglais. Et vers 1920, Edward Horace Man compila un dictionnaire exhaustif de Bea, une langue des Andaman du Sud. C'étaient des enregistrements importants, mais aucun n'a résolu le puzzle que la grammaire posait.

Moi non plus. D'une manière ou d'une autre, ma vaste expérience avec les cinq familles de langue indienne ne m'aidait pas. Une fois, j'ai demandé à Nao Jr. de me dire le mot pour "sang". Il m'a regardé comme si j'étais une imbécile et n'a pas répondu. Quand j'ai insisté, il a dit: "Dis-moi d'où ça vient." J'ai répondu: "De nulle part." Irrité, il répéta : "Où l'as-tu vu ?" Il fallait que j'invente quelque chose, alors j'ai dit : "sur mon doigt. Sa réponse est venue rapidement — "ongtei !" – puis il débita plusieurs mots pour désigner le sang sur différentes parties du corps. Si le sang sortait des pieds ou des jambes, c'était otei ; l'hémorragie interne était etei; et un caillot sur la peau était ertei . Quelque chose d'aussi basique qu'un nom changeait de forme en fonction de l'emplacement.

Chaque fois que j'avais une pause dans mon enseignement et d'autres tâches, je visitais les Andamans, pendant des semaines ou parfois des mois. Il m'a fallu un an d'étude concertée pour entrevoir le modèle de cette langue - et quand je l'ai fait, toutes les pièces éparses du puzzle se sont mises en place. Très excité, je voulus tout de suite tester mes phrases inventées. J'étais à l'Institut Max Planck d'anthropologie évolutive à Leipzig, en Allemagne, mais j'ai téléphoné à Licho et je lui ai dit : "a Joe-engio eole be". Licho a été bouleversé et m'a fait un compliment chéri : "Vous avez appris notre langue, madame !"

Ma phrase était simplement "Joe te voit". Joe était un jeune Grand Andamanais, et -engio était "seulement toi". Ma percée avait été de réaliser que le préfixe e- , qui dérivait à l'origine d'un mot inconnu désignant une partie interne du corps, s'était transformé au fil des éons en un marqueur grammatical signifiant tout attribut, processus ou activité interne. Donc l'acte de voir, ole, étant une activité interne, devait être eole. Le même préfixe pourrait être attaché à -bungoi , ou "beau", pour former ebungoi, signifiant intérieurement beau ou gentil ; de sare , pour "mer", pour former esare, ou "salé", une qualité inhérente ; et au mot racine -biinye, "pensant", pour donner ebiinye , "penser".

LE CODE CORPOREL

La grammaire que j'étais en train de reconstituer était basée principalement sur Jero, mais un coup d'œil dans les livres de Portman et de Man m'a convaincu que les langues du sud du Grand Andamanais avaient des structures similaires. Le lexique se composait de deux classes de mots : libre et lié. Les mots libres étaient tous des noms faisant référence à l'environnement et à ses habitants, tels que ra pour "cochon". Ils pourraient se produire seuls. Les mots liés étaient des noms, des verbes, des adjectifs et des adverbes qui existaient toujours avec des marqueurs indiquant une relation avec d'autres objets, événements ou états. Les marqueurs (spécifiquement, a- ; er- ; ong- ; ot- ou ut- ; e- ou i- ; ara- ; eto- ) dérivaient de sept zones du corps et étaient attaché à un mot racine, généralement sous forme de préfixe, pour décrire des concepts tels que "dedans", "dehors", "supérieur" et "inférieur". Par exemple, le morphème er- , qui qualifiait presque tout ce qui concernait une partie externe du corps, pouvait être collé à -cho pour donner ercho , signifiant "tête". Une tête de porc était ainsi raercho.

(Photo/schéma désignant les 7 zones du corps humain qui font référence ici)

Zone     Marqueur          Parties corps/sémantique       

1              a -                  en rapport avec la bouche/origine 

2              er -                 corps et parties externes supérieures

3              ong -              extrémités (doigts main, pied) 

4              ut/ot -             (cerveau/intellect) produits corporels, partie-tout,

5              e / i -               organes internes

6              ara -                organes sexuels et formes latérales/rondes

7              o -                   jambes/partie basse         

Cette dépendance conceptuelle n'était pas toujours le signe d'un lien physique. Par exemple, si la tête du porc était coupée pour être rôtie, le marqueur t- pour un objet inanimé serait attaché à er- pour donner ratercho ; ce n'était plus vivant mais toujours une tête de cochon. Le suffixe -icho indiquait des possessions véritablement séparables. Par exemple, Boa-icho julu signifiait "les vêtements de Boa".

Tout comme une tête, un nom, ne pouvait pas exister conceptuellement par lui-même, le mode et l'effet d'une action ne pouvaient être séparés du verbe décrivant l'action. Les Grands Andamanais n'avaient pas de mots pour l'agriculture ou la culture mais un grand nombre pour la chasse et la pêche, principalement avec un arc et des flèches. Ainsi, la racine du mot shile , qui signifie "viser", avait plusieurs versions : utshile , viser d'en haut (par exemple, un poisson) ; arashile, viser à distance (comme un cochon); et eshile, visant à percer.

Inséparables également de leurs préfixes, qui les dotaient de sens, étaient les adjectifs et les adverbes. Par exemple, le préfixe er- , pour "externe", a donné l'adjectif erbungoi , pour "beau" ; le verbe eranye, signifiant "assembler" ; et l'adverbe erchek, ou "rapide". Le préfixe ong- , la zone des extrémités, fournissait ongcho , "piquer", quelque chose que l'on faisait avec les doigts, ainsi que l'adverbe ongkochil, signifiant "précipitamment", qui s'appliquait généralement aux mouvements impliquant une main ou un pied. Important aussi était le morphème a-, qui renvoyait à la bouche et, plus largement, aux origines. Il a contribué aux noms aphong, pour "bouche", et Aka-Jero , pour "son langage Jero" ; les adjectifs ajom , "avide", et amu, "muet" ; les verbes atekho, "parler", et aathitul , "se taire" ; et l'adverbe aulu, "avant".

Ces études ont établi que les 10 langues originales du grand andamanais appartenaient à une seule famille. De plus, cette famille était unique en ce qu'elle avait un système grammatical basé sur le corps humain à tous les niveaux structurels. Une poignée d'autres langues autochtones, telles que le papantla totonaque, parlé au Mexique, et le matsés, parlé au Pérou et au Brésil, utilisaient également des termes faisant référence à des parties du corps pour former des mots. Mais ces termes ne s'étaient pas transformés en symboles abstraits, ni ne se sont propagés à toutes les autres parties du discours.

(Photo - tableau - schéma avec exemples de mots - verbes - adverbes, dérivés des  7 parties)

Plus important encore, la famille des langues semble être d'origine vraiment archaïque. Dans un processus d'évolution en plusieurs étapes, les mots décrivant diverses parties du corps s'étaient transformés en morphèmes faisant référence à différentes zones pour fusionner avec des mots basiques pour donner un sens. Parallèlement aux preuves génétiques, qui indiquent que les Grands Andamanais ont vécu isolés pendant des dizaines de milliers d'années, la grammaire suggère que la famille des langues est née très tôt, à une époque où les êtres humains conceptualisaient leur monde à travers leur corps. La structure à elle seule donne un aperçu d'une ancienne vision du monde dans laquelle le macrocosme reflète le microcosme, et tout ce qui est ou qui se passe est inextricablement lié à tout le reste.

ANCÊTRES, OISEAUX

Un matin sur Strait Island, j'ai entendu Boa Sr. parler aux oiseaux qu'elle nourrissait. J'ai écouté pendant un bon moment derrière une porte, puis je me suis montrée pour lui demander pourquoi elle leur parlait.

"Ils sont les seuls à me comprendre", a-t-elle répondu.

"Comment ça se fait?" J'ai demandé.

"Ne sais-tu pas qu'pas sont nos ancêtres ?"

J'ai essayé de réprimer un rire étonné, mais Boa l'a perçu. "Oui, ce sont nos ancêtres", a-t-elle affirmé. "C'est pourquoi nous ne les tuons ni ne les chassons. Tu devrais demander à Nao Jr.; il connaît peut-être l'histoire."

Nao ne s'en souvint pas tout de suite, mais quelques jours plus tard, il raconta l'histoire d'un garçon nommé Mithe qui était allé à la pêche. Il a attrapé un calmar, et en le nettoyant sur la plage, il a été avalé par un Bol , un gros poisson. Ses amis et sa famille sont venus le chercher et ont réalisé qu'un Bol l'avait mangé. Phatka, le plus intelligent des jeunes, a suivi la piste sale laissée par le poisson et a trouvé le Bol en eau peu profonde, la tête dans le sable. C'était un très grand, alors Phatka, Benge et d'autres ont appelé à haute voix Kaulo, le plus fort d'entre eux, qui est arrivé et a tué le poisson.

Mithe est sorti vivant, mais ses membres étaient engourdis. Ils allumèrent un feu sur la plage et le réchauffèrent, et une fois qu'il eut récupéré, ils décidèrent de manger le poisson. Ils le mirent sur le feu pour le faire rôtir. Mais ils avaient négligé de nettoyer correctement le poisson, et il éclata, transformant toutes les personnes présentes en oiseaux. Depuis ce moment-là, les Grands Andamanais conservent une affinité particulière avec Mithe, la Colombe Coucou Andaman ; Phatka, le corbeau indien ; Benge, l'aigle serpent Andaman; Kaulo, l'aigle de mer à ventre blanc ; Celene, le crabe pluvier; et d'autres oiseaux qu'ils considéraient comme des ancêtres.

Dans la vision de la nature des Grands Andamanais, la principale distinction était entre tajio, le vivant, et eleo , le non-vivant. Les créatures étaient tajio-tut-bech, "êtres vivants avec des plumes" - c'est-à-dire de l'air; tajio-tot chor, "êtres vivants à écailles", ou de l'eau ; ou tajio-chola, "êtres vivants de la terre". Parmi les créatures terrestres, il y avait des ishongo, des humains et d'autres animaux, et des tong, des plantes et des arbres. Ces catégories, ainsi que de multiples attributs d'apparence, de mouvement et d'habitudes, constituaient un système élaboré de classification et de nomenclature, que j'ai documenté pour les oiseaux en particulier. Parfois, l'étymologie d'un nom grand andamanais ressemblait à celle de l'anglais. Par exemple, Celene, composé de mots racines pour "crabe" et "épine", a été ainsi nommé parce qu'il craque et mange des crabes avec son bec dur et pointu.

La compréhension extrêmement détaillée de l'environnement naturel détenue par le peuple des Grands Andamanais (Nao Jr. nomma au moins six variétés de bords de mer et plus de 18 types d'odeurs) indique une culture qui a observé la nature avec un amour profond et un intérêt aigu. Considérant la nature comme un tout, ils ont cherché à examiner l'imbrication des forces qui construisent cet ensemble. L'espace était une construction culturelle, définie par le mouvement des esprits, des animaux et des humains le long d'axes verticaux et horizontaux. Dans la vision du monde des Grands Andamanais, l'espace et tous ses éléments naturels - le soleil, la lune, la marée, les vents, la terre et la forêt - constituaient ensemble le cosmos. Dans cette vision holistique, les oiseaux, les autres créatures et les esprits étaient tous interdépendants et faisaient partie intégrante du concept d'espace.

Le temps aussi était relatif, catégorisé en fonction d'événements naturels tels que la floraison des fleurs saisonnières, la disponibilité du miel - le calendrier du miel, pourrait-on l'appeler - le mouvement du soleil et de la lune, la direction des vents, la disponibilité des ressources alimentaires et le meilleur moment pour chasser le poisson ou d'autres animaux. Ainsi, lorsque la fleur de koroiny auro fleurit, les tortues et les poissons sont gras ; lorsque le bop taulo fleurit, les poissons bikhir, liot et bere sont abondants ; lorsque le loto taulo fleurit, c'est le meilleur moment pour attraper les poissons phiku et nyuri ; et quand le chokhoro taulo fleurissent, les cochons sont les plus gras et c'est le meilleur moment pour les chasser.

Même le "matin" et le "soir" étaient relatifs, selon la personne qui les vivait. Pour dire, par exemple, "Je te rendrai visite demain", on utiliserait ngambikhir, pour "ton demain". Mais dans la phrase "je finirai ça demain", le mot serait tambikhir, "mon demain". Le temps dépendait de la perspective de celui qui était impliqué dans l'événement.

Les mythes des Grands Andamanais indiquaient que leurs premiers ancêtres résidaient dans le ciel, comme dans une autre histoire que Nao Jr. m'a racontée. 

Le premier homme, sortant du creux d'un bambou, trouva de l'eau, des tubercules, de l'argile fine et de la résine. Il modela un pot en argile, alluma un feu avec la résine, fit bouillir les tubercules dans le pot et savoura un repas copieux. Puis il fabriqua une figurine en argile et ll laissa sur le feu. À son étonnement et à sa joie, elle se transforma en femme. Ils eurent beaucoup d'enfants et étaient très heureux. Après un long séjour sur Terre, le couple partit pour un endroit au-dessus des nuages, rompant tous les liens avec ce monde.

Des larmes ont coulé sur les joues de Nao Jr. alors qu'il racontait ce conte de création, qui présentait tous les éléments de la vie : l'eau, le feu, la terre, l'espace et l'air. Pour cet homme solitaire - sa femme l'avait quitté il y a des années pour un autre homme -, créer une partenaire selon ses désirs était la fable romantique ultime. Alors que je lui avais demandé des histoires pour la première fois, il avait dit ne pas en avoir entendu depuis 40 ans et qu'il n'en avait pas pour moi faute de mémoire. Mais au cours de nombreuses soirées, avec le gazouillis des grillons et les cris des grenouilles à l'extérieur, il m'a raconté 10 histoires précieuses, presque inédites pour une langue au bord de l'extinction. Peut-être que l'une des raisons pour lesquelles nous nous sommes tellement liés était que nous étions tous les deux raupuch - quelqu'un qui a perdu un frère ou une sœur. Nao Jr. a été choqué d'apprendre que ni l'anglais ni aucune langue indienne n'a un tel mot. "Pourquoi?" Il a demandé. "n'aimez-vous pas vos frères et soeurs"

Nao Jr. a quitté ce monde en février 2009. Avec cette mort prématurée, il a emporté avec lui un trésor de connaissances qui ne pourra jamais être ressuscité et m'a laissé raupuch à nouveau. Boro Sr. est décédé en novembre et Boa Sr. en janvier 2010, laissant sa voix au travers de plusieurs chansons. Licho est décédé en avril 2020. À l'heure actuelle, seules trois personnes - Peje, Golat et Noe - parlent encore une langue de la grande famille andamanaise, dans leur cas le Jero. Ils ont tous plus de 50 ans et souffrent de diverses affections. Toute la famille de ces langues est menacée d'extinction imminente.

Sur les quelque 7 000 langues parlées par les humains aujourd'hui, la moitié se taira d'ici la fin de ce siècle. La survie à l'ère de la mondialisation, de l'urbanisation et des changements climatiques oblige les communautés autochtones à remplacer leurs modes de vie et leurs langues traditionnels par ceux de la société dominante. Quand l'ancienne génération ne peut plus enseigner la langue aux plus jeunes, une langue est condamnée. Et avec chaque langue perdue, nous perdons une mine de connaissances sur l'existence humaine, la perception, la nature et la survie. Pour donner le dernier mot à Boa Sr. : "Tout est parti, il ne reste plus rien – nos jungles, notre eau, notre peuple, notre langue. Ne laissez pas la langue vous échapper ! Tiens bon !"

Auteur: Anvita Abbi

Info: "Whispers from Deep Time" dans Scientific American 328, 6, 62-69 (juin 2023). Trad et adaptation Mg

[ septénaire ] [ conte mythologique ] [ intraduisible ] [ paléolinguistique ] [ ethnolinguistique ] [ chronos ] [ idiome altruiste ] [ couple ]

 

Commentaires: 0

Ajouté à la BD par miguel