Les fils de la pensée

Paramètres de recherches

Filtres

Citation

Catégorie

Tag – étiquette

Auteur

Info

Recherche avancée

Détail auteurs

Présentation, tri

Dictionnaire analogique intriqué pour extraits. Recherche mots ou phrases tous azimuts. Aussi outil de précision sémantique et de réflexion communautaire. Voir la rubrique mode d'emploi. Jetez un oeil à la colonne "chaînes". ATTENTION, faire une REINITIALISATION après une recherche complexe. Et utilisez le nuage de corrélats !!!!..... Lire la suite >>

Nuage de corrélats

(...) animaux apprentissage automatique chromosomes dialogue discours dualité d’une grands gènes historique identifiables langage machine-homme millions modèles méta-moteurs néo-phylogénie n’est onomasiologie bayésienne physique politique propagation savoirs sophisme sources surpopulation sémiose homme-animal tri nécessaire épuration

Résultat(s): 13

Temps de recherche: 0.0414s

homme-machine

Les grands modèles de langage tels que ChatGPT sont aujourd'hui suffisamment importants pour commencer à afficher des comportements surprenants et imprévisibles.

Quel film ces emojis décrivent-ils ? (On voit une vidéo qui présente des myriades d'émoji formant des motifs mouvants, modélisés à partir de métadonnées)

Cette question était l'une des 204 tâches choisies l'année dernière pour tester la capacité de divers grands modèles de langage (LLM) - les moteurs de calcul derrière les chatbots d'IA tels que ChatGPT. Les LLM les plus simples ont produit des réponses surréalistes. "Le film est un film sur un homme qui est un homme qui est un homme", commençait l'un d'entre eux. Les modèles de complexité moyenne s'en sont approchés, devinant The Emoji Movie. Mais le modèle le plus complexe l'a emporté en une seule réponse : Finding Nemo.

"Bien que j'essaie de m'attendre à des surprises, je suis surpris par ce que ces modèles peuvent faire", a déclaré Ethan Dyer, informaticien chez Google Research, qui a participé à l'organisation du test. C'est surprenant parce que ces modèles sont censés n'avoir qu'une seule directive : accepter une chaîne de texte en entrée et prédire ce qui va suivre, encore et encore, en se basant uniquement sur des statistiques. Les informaticiens s'attendaient à ce que le passage à l'échelle permette d'améliorer les performances sur des tâches connues, mais ils ne s'attendaient pas à ce que les modèles puissent soudainement gérer autant de tâches nouvelles et imprévisibles.

Des études récentes, comme celle à laquelle a participé M. Dyer, ont révélé que les LLM peuvent produire des centaines de capacités "émergentes", c'est-à-dire des tâches que les grands modèles peuvent accomplir et que les petits modèles ne peuvent pas réaliser, et dont beaucoup ne semblent pas avoir grand-chose à voir avec l'analyse d'un texte. Ces tâches vont de la multiplication à la génération d'un code informatique exécutable et, apparemment, au décodage de films à partir d'emojis. De nouvelles analyses suggèrent que pour certaines tâches et certains modèles, il existe un seuil de complexité au-delà duquel la fonctionnalité du modèle monte en flèche. (Elles suggèrent également un sombre revers de la médaille : À mesure qu'ils gagnent en complexité, certains modèles révèlent de nouveaux biais et inexactitudes dans leurs réponses).

"Le fait que les modèles de langage puissent faire ce genre de choses n'a jamais été abordé dans la littérature à ma connaissance", a déclaré Rishi Bommasani, informaticien à l'université de Stanford. L'année dernière, il a participé à la compilation d'une liste de dizaines de comportements émergents, dont plusieurs ont été identifiés dans le cadre du projet de M. Dyer. Cette liste continue de s'allonger.

Aujourd'hui, les chercheurs s'efforcent non seulement d'identifier d'autres capacités émergentes, mais aussi de comprendre pourquoi et comment elles se manifestent - en somme, d'essayer de prédire l'imprévisibilité. La compréhension de l'émergence pourrait apporter des réponses à des questions profondes concernant l'IA et l'apprentissage automatique en général, comme celle de savoir si les modèles complexes font vraiment quelque chose de nouveau ou s'ils deviennent simplement très bons en statistiques. Elle pourrait également aider les chercheurs à exploiter les avantages potentiels et à limiter les risques liés à l'émergence.

"Nous ne savons pas comment déterminer dans quel type d'application la capacité de nuisance va se manifester, que ce soit en douceur ou de manière imprévisible", a déclaré Deep Ganguli, informaticien à la startup d'IA Anthropic.

L'émergence de l'émergence

Les biologistes, les physiciens, les écologistes et d'autres scientifiques utilisent le terme "émergent" pour décrire l'auto-organisation, les comportements collectifs qui apparaissent lorsqu'un grand nombre d'éléments agissent comme un seul. Des combinaisons d'atomes sans vie donnent naissance à des cellules vivantes ; les molécules d'eau créent des vagues ; des murmurations d'étourneaux s'élancent dans le ciel selon des schémas changeants mais identifiables ; les cellules font bouger les muscles et battre les cœurs. Il est essentiel que les capacités émergentes se manifestent dans les systèmes qui comportent de nombreuses parties individuelles. Mais ce n'est que récemment que les chercheurs ont été en mesure de documenter ces capacités dans les LLM, car ces modèles ont atteint des tailles énormes.

Les modèles de langage existent depuis des décennies. Jusqu'à il y a environ cinq ans, les plus puissants étaient basés sur ce que l'on appelle un réseau neuronal récurrent. Ceux-ci prennent essentiellement une chaîne de texte et prédisent le mot suivant. Ce qui rend un modèle "récurrent", c'est qu'il apprend à partir de ses propres résultats : Ses prédictions sont réinjectées dans le réseau afin d'améliorer les performances futures.

En 2017, les chercheurs de Google Brain ont introduit un nouveau type d'architecture appelé "transformateur". Alors qu'un réseau récurrent analyse une phrase mot par mot, le transformateur traite tous les mots en même temps. Cela signifie que les transformateurs peuvent traiter de grandes quantités de texte en parallèle.

Les transformateurs ont permis d'augmenter rapidement la complexité des modèles de langage en augmentant le nombre de paramètres dans le modèle, ainsi que d'autres facteurs. Les paramètres peuvent être considérés comme des connexions entre les mots, et les modèles s'améliorent en ajustant ces connexions au fur et à mesure qu'ils parcourent le texte pendant l'entraînement. Plus il y a de paramètres dans un modèle, plus il peut établir des connexions avec précision et plus il se rapproche d'une imitation satisfaisante du langage humain. Comme prévu, une analyse réalisée en 2020 par les chercheurs de l'OpenAI a montré que les modèles gagnent en précision et en capacité au fur et à mesure qu'ils s'étendent.

Mais les débuts des LLM ont également apporté quelque chose de vraiment inattendu. Beaucoup de choses. Avec l'avènement de modèles tels que le GPT-3, qui compte 175 milliards de paramètres, ou le PaLM de Google, qui peut être étendu à 540 milliards de paramètres, les utilisateurs ont commencé à décrire de plus en plus de comportements émergents. Un ingénieur de DeepMind a même rapporté avoir pu convaincre ChatGPT qu'il s'était lui-même un terminal Linux et l'avoir amené à exécuter un code mathématique simple pour calculer les 10 premiers nombres premiers. Fait remarquable, il a pu terminer la tâche plus rapidement que le même code exécuté sur une vraie machine Linux.

Comme dans le cas du film emoji, les chercheurs n'avaient aucune raison de penser qu'un modèle de langage conçu pour prédire du texte imiterait de manière convaincante un terminal d'ordinateur. Nombre de ces comportements émergents illustrent l'apprentissage "à zéro coup" ou "à quelques coups", qui décrit la capacité d'un LLM à résoudre des problèmes qu'il n'a jamais - ou rarement - vus auparavant. Selon M. Ganguli, il s'agit là d'un objectif de longue date dans la recherche sur l'intelligence artificielle. Le fait de montrer que le GPT-3 pouvait résoudre des problèmes sans aucune donnée d'entraînement explicite dans un contexte d'apprentissage à zéro coup m'a amené à abandonner ce que je faisais et à m'impliquer davantage", a-t-il déclaré.

Il n'était pas le seul. Une série de chercheurs, qui ont détecté les premiers indices montrant que les LLM pouvaient dépasser les contraintes de leurs données d'apprentissage, s'efforcent de mieux comprendre à quoi ressemble l'émergence et comment elle se produit. La première étape a consisté à documenter minutieusement l'émergence.

Au-delà de l'imitation

En 2020, M. Dyer et d'autres chercheurs de Google Research ont prédit que les LLM auraient des effets transformateurs, mais la nature de ces effets restait une question ouverte. Ils ont donc demandé à la communauté des chercheurs de fournir des exemples de tâches difficiles et variées afin de déterminer les limites extrêmes de ce qu'un LLM pourrait faire. Cet effort a été baptisé "Beyond the Imitation Game Benchmark" (BIG-bench), en référence au nom du "jeu d'imitation" d'Alan Turing, un test visant à déterminer si un ordinateur peut répondre à des questions d'une manière humaine convaincante. (Le groupe s'est particulièrement intéressé aux exemples où les LLM ont soudainement acquis de nouvelles capacités qui étaient totalement absentes auparavant.

"La façon dont nous comprenons ces transitions brutales est une grande question de la echerche", a déclaré M. Dyer.

Comme on pouvait s'y attendre, pour certaines tâches, les performances d'un modèle se sont améliorées de manière régulière et prévisible au fur et à mesure que la complexité augmentait. Pour d'autres tâches, l'augmentation du nombre de paramètres n'a apporté aucune amélioration. Mais pour environ 5 % des tâches, les chercheurs ont constaté ce qu'ils ont appelé des "percées", c'est-à-dire des augmentations rapides et spectaculaires des performances à partir d'un certain seuil d'échelle. Ce seuil variant en fonction de la tâche et du modèle.

Par exemple, les modèles comportant relativement peu de paramètres - quelques millions seulement - n'ont pas réussi à résoudre des problèmes d'addition à trois chiffres ou de multiplication à deux chiffres, mais pour des dizaines de milliards de paramètres, la précision a grimpé en flèche dans certains modèles. Des sauts similaires ont été observés pour d'autres tâches, notamment le décodage de l'alphabet phonétique international, le décodage des lettres d'un mot, l'identification de contenu offensant dans des paragraphes d'hinglish (combinaison d'hindi et d'anglais) et la formulation d'équivalents en langue anglaise, traduit à partir de proverbes kiswahili.

Introduction

Mais les chercheurs se sont rapidement rendu compte que la complexité d'un modèle n'était pas le seul facteur déterminant. Des capacités inattendues pouvaient être obtenues à partir de modèles plus petits avec moins de paramètres - ou formés sur des ensembles de données plus petits - si les données étaient d'une qualité suffisamment élevée. En outre, la formulation d'une requête influe sur la précision de la réponse du modèle. Par exemple, lorsque Dyer et ses collègues ont posé la question de l'emoji de film en utilisant un format à choix multiples, l'amélioration de la précision a été moins soudaine qu'avec une augmentation graduelle de sa complexité. L'année dernière, dans un article présenté à NeurIPS, réunion phare du domaine, des chercheurs de Google Brain ont montré comment un modèle invité à s'expliquer (capacité appelée raisonnement en chaîne) pouvait résoudre correctement un problème de mots mathématiques, alors que le même modèle sans cette invitation progressivement précisée n'y parvenait pas.

Yi Tay, scientifique chez Google Brain qui a travaillé sur l'étude systématique de ces percées, souligne que des travaux récents suggèrent que l'incitation par de pareilles chaînes de pensées modifie les courbes d'échelle et, par conséquent, le point où l'émergence se produit. Dans leur article sur NeurIPS, les chercheurs de Google ont montré que l'utilisation d'invites via pareille chaines de pensée progressives pouvait susciter des comportements émergents qui n'avaient pas été identifiés dans l'étude BIG-bench. De telles invites, qui demandent au modèle d'expliquer son raisonnement, peuvent aider les chercheurs à commencer à étudier les raisons pour lesquelles l'émergence se produit.

Selon Ellie Pavlick, informaticienne à l'université Brown qui étudie les modèles computationnels du langage, les découvertes récentes de ce type suggèrent au moins deux possibilités pour expliquer l'émergence. La première est que, comme le suggèrent les comparaisons avec les systèmes biologiques, les grands modèles acquièrent réellement de nouvelles capacités de manière spontanée. "Il se peut très bien que le modèle apprenne quelque chose de fondamentalement nouveau et différent que lorsqu'il était de taille inférieure", a-t-elle déclaré. "C'est ce que nous espérons tous, qu'il y ait un changement fondamental qui se produise lorsque les modèles sont mis à l'échelle.

L'autre possibilité, moins sensationnelle, est que ce qui semble être émergent pourrait être l'aboutissement d'un processus interne, basé sur les statistiques, qui fonctionne par le biais d'un raisonnement de type chaîne de pensée. Les grands LLM peuvent simplement être en train d'apprendre des heuristiques qui sont hors de portée pour ceux qui ont moins de paramètres ou des données de moindre qualité.

Mais, selon elle, pour déterminer laquelle de ces explications est la plus probable, il faut mieux comprendre le fonctionnement des LLM. "Comme nous ne savons pas comment ils fonctionnent sous le capot, nous ne pouvons pas dire laquelle de ces choses se produit.

Pouvoirs imprévisibles et pièges

Demander à ces modèles de s'expliquer pose un problème évident : Ils sont des menteurs notoires. Nous nous appuyons de plus en plus sur ces modèles pour effectuer des travaux de base", a déclaré M. Ganguli, "mais je ne me contente pas de leur faire confiance, je vérifie leur travail". Parmi les nombreux exemples amusants, Google a présenté en février son chatbot d'IA, Bard. Le billet de blog annonçant le nouvel outil montre Bard en train de commettre une erreur factuelle.

L'émergence mène à l'imprévisibilité, et l'imprévisibilité - qui semble augmenter avec l'échelle - rend difficile pour les chercheurs d'anticiper les conséquences d'une utilisation généralisée.

"Il est difficile de savoir à l'avance comment ces modèles seront utilisés ou déployés", a déclaré M. Ganguli. "Et pour étudier les phénomènes émergents, il faut avoir un cas en tête, et on ne sait pas, avant d'avoir étudié l'influence de l'échelle. quelles capacités ou limitations pourraient apparaître.

Dans une analyse des LLM publiée en juin dernier, les chercheurs d'Anthropic ont cherché à savoir si les modèles présentaient certains types de préjugés raciaux ou sociaux, à l'instar de ceux précédemment signalés dans les algorithmes non basés sur les LLM utilisés pour prédire quels anciens criminels sont susceptibles de commettre un nouveau délit. Cette étude a été inspirée par un paradoxe apparent directement lié à l'émergence : Lorsque les modèles améliorent leurs performances en passant à l'échelle supérieure, ils peuvent également augmenter la probabilité de phénomènes imprévisibles, y compris ceux qui pourraient potentiellement conduire à des biais ou à des préjudices.

"Certains comportements nuisibles apparaissent brusquement dans certains modèles", explique M. Ganguli. Il se réfère à une analyse récente des LLM, connue sous le nom de BBQ benchmark, qui a montré que les préjugés sociaux émergent avec un très grand nombre de paramètres. "Les grands modèles deviennent brusquement plus biaisés. Si ce risque n'est pas pris en compte, il pourrait compromettre les sujets de ces modèles."

Mais il propose un contrepoint : Lorsque les chercheurs demandent simplement au modèle de ne pas se fier aux stéréotypes ou aux préjugés sociaux - littéralement en tapant ces instructions - le modèle devient moins biaisé dans ses prédictions et ses réponses. Ce qui suggère que certaines propriétés émergentes pourraient également être utilisées pour réduire les biais. Dans un article publié en février, l'équipe d'Anthropic a présenté un nouveau mode d'"autocorrection morale", dans lequel l'utilisateur incite le programme à être utile, honnête et inoffensif.

Selon M. Ganguli, l'émergence révèle à la fois un potentiel surprenant et un risque imprévisible. Les applications de ces grands LLM prolifèrent déjà, de sorte qu'une meilleure compréhension de cette interaction permettra d'exploiter la diversité des capacités des modèles de langage.

"Nous étudions la manière dont les gens utilisent réellement ces systèmes", a déclaré M. Ganguli. Mais ces utilisateurs sont également en train de bricoler, en permanence. "Nous passons beaucoup de temps à discuter avec nos modèles, et c'est là que nous commençons à avoir une bonne intuition de la confiance ou du manque de confiance.

Auteur: Ornes Stephen

Info: https://www.quantamagazine.org/ - 16 mars 2023. Trad DeepL et MG

[ dialogue ] [ apprentissage automatique ] [ au-delà du jeu d'imitation ] [ dualité ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

homme-machine

Chat GPT ou le perroquet grammairien

L’irruption des IA conversationnelles dans la sphère publique a conféré une pertinence supplémentaire aux débats sur le langage humain et sur ce qu’on appelle parler. Notamment, les IA redonnent naissance à un débat ancien sur la grammaire générative et sur l’innéisme des facultés langagières. Mais les grands modèles de langage et les IA neuronales nous offrent peut-être l’occasion d’étendre le domaine de la réflexion sur l’architecture des systèmes possibles de cognition, de communication et d’interaction, et considérant aussi la façon dont les animaux communiquent.

a capacité de ChatGPT à produire des textes en réponse à n’importe quelle requête a immédiatement attiré l’attention plus ou moins inquiète d’un grand nombre de personnes, les unes animées par une force de curiosité ou de fascination, et les autres, par un intérêt professionnel.

L’intérêt professionnel scientifique que les spécialistes du langage humain peuvent trouver aux Large Language Models ne date pas d’hier : à bien des égards, des outils de traduction automatique comme DeepL posaient déjà des questions fondamentales en des termes assez proches. Mais l’irruption des IA conversationnelles dans la sphère publique a conféré une pertinence supplémentaire aux débats sur ce que les Large Language Models sont susceptibles de nous dire sur le langage humain et sur ce qu’on appelle parler.

L’outil de traduction DeepL (ou les versions récentes de Google Translate) ainsi que les grands modèles de langage reposent sur des techniques d’" apprentissage profond " issues de l’approche " neuronale " de l’Intelligence Artificielle : on travaille ici sur des modèles d’IA qui organisent des entités d’information minimales en les connectant par réseaux ; ces réseaux de connexion sont entraînés sur des jeux de données considérables, permettant aux liaisons " neuronales " de se renforcer en proportion des probabilités de connexion observées dans le jeu de données réelles – c’est ce rôle crucial de l’entraînement sur un grand jeu de données qui vaut aux grands modèles de langage le sobriquet de " perroquets stochastiques ". Ces mécanismes probabilistes sont ce qui permet aussi à l’IA de gagner en fiabilité et en précision au fil de l’usage. Ce modèle est qualifié de " neuronal " car initialement inspiré du fonctionnement des réseaux synaptiques. Dans le cas de données langagières, à partir d’une requête elle-même formulée en langue naturelle, cette technique permet aux agents conversationnels ou aux traducteurs neuronaux de produire très rapidement des textes généralement idiomatiques, qui pour des humains attesteraient d’un bon apprentissage de la langue.

IA neuronales et acquisition du langage humain

Au-delà de l’analogie " neuronale ", ce mécanisme d’entraînement et les résultats qu’il produit reproduisent les théories de l’acquisition du langage fondées sur l’interaction avec le milieu. Selon ces modèles, généralement qualifiés de comportementalistes ou behavioristes car étroitement associés aux théories psychologiques du même nom, l’enfant acquiert le langage par l’exposition aux stimuli linguistiques environnants et par l’interaction (d’abord tâtonnante, puis assurée) avec les autres. Progressivement, la prononciation s’aligne sur la norme majoritaire dans l’environnement individuel de la personne apprenante ; le vocabulaire s’élargit en fonction des stimuli ; l’enfant s’approprie des structures grammaticales de plus en plus contextes ; et en milieu bilingue, les enfants apprennent peu à peu à discriminer les deux ou plusieurs systèmes auxquels ils sont exposés. Cette conception essentiellement probabiliste de l’acquisition va assez spontanément de pair avec des théories grammaticales prenant comme point de départ l’existence de patrons (" constructions ") dont la combinatoire constitue le système. Dans une telle perspective, il n’est pas pertinent qu’un outil comme ChatGPT ne soit pas capable de référer, ou plus exactement qu’il renvoie d’office à un monde possible stochastiquement moyen qui ne coïncide pas forcément avec le monde réel. Cela ne change rien au fait que ChatGPT, DeepL ou autres maîtrisent le langage et que leur production dans une langue puisse être qualifiée de langage : ChatGPT parle.

Mais ce point de vue repose en réalité sur un certain nombre de prémisses en théorie de l’acquisition, et fait intervenir un clivage lancinant au sein des sciences du langage. L’actualité de ces dernières années et surtout de ces derniers mois autour des IA neuronales et génératives redonne à ce clivage une acuité particulière, ainsi qu’une pertinence nouvelle pour l’appréhension de ces outils qui transforment notre rapport au texte et au discours. La polémique, comme souvent (trop souvent ?) quand il est question de théorie du langage et des langues, se cristallise – en partie abusivement – autour de la figure de Noam Chomsky et de la famille de pensée linguistique très hétérogène qui se revendique de son œuvre, généralement qualifiée de " grammaire générative " même si le pluriel (les grammaires génératives) serait plus approprié.

IA générative contre grammaire générative

Chomsky est à la fois l’enfant du structuralisme dans sa variante états-unienne et celui de la philosophie logique rationaliste d’inspiration allemande et autrichienne implantée sur les campus américains après 1933. Chomsky est attaché à une conception forte de la logique mathématisée, perçue comme un outil d’appréhension des lois universelles de la pensée humaine, que la science du langage doit contribuer à éclairer. Ce parti-pris que Chomsky qualifiera lui-même de " cartésien " le conduit à fonder sa linguistique sur quelques postulats psychologiques et philosophiques, dont le plus important est l’innéisme, avec son corollaire, l’universalisme. Selon Chomsky et les courants de la psychologie cognitive influencée par lui, la faculté de langage s’appuie sur un substrat génétique commun à toute l’espèce humaine, qui s’exprime à la fois par un " instinct de langage " mais aussi par l’existence d’invariants grammaticaux, identifiables (via un certain niveau d’abstraction) dans toutes les langues du monde.

La nature de ces universaux fluctue énormément selon quelle période et quelle école du " générativisme " on étudie, et ce double postulat radicalement innéiste et universaliste reste très disputé aujourd’hui. Ces controverses mettent notamment en jeu des conceptions très différentes de l’acquisition du langage et des langues. Le moment fondateur de la théorie chomskyste de l’acquisition dans son lien avec la définition même de la faculté de langage est un violent compte-rendu critique de Verbal Behavior, un ouvrage de synthèse des théories comportementalistes en acquisition du langage signé par le psychologue B.F. Skinner. Dans ce compte-rendu publié en 1959, Chomsky élabore des arguments qui restent structurants jusqu’à aujourd’hui et qui définissent le clivage entre l’innéisme radical et des théories fondées sur l’acquisition progressive du langage par exposition à des stimuli environnementaux. C’est ce clivage qui préside aux polémiques entre linguistes et psycholinguistes confrontés aux Large Language Models.

On comprend dès lors que Noam Chomsky et deux collègues issus de la tradition générativiste, Ian Roberts, professeur de linguistique à Cambridge, et Jeffrey Watumull, chercheur en intelligence artificielle, soient intervenus dans le New York Times dès le 8 mars 2023 pour exposer un point de vue extrêmement critique intitulée " La fausse promesse de ChatGPT ". En laissant ici de côté les arguments éthiques utilisés dans leur tribune, on retiendra surtout l’affirmation selon laquelle la production de ChatGPT en langue naturelle ne pourrait pas être qualifiée de " langage " ; ChatGPT, selon eux, ne parle pas, car ChatGPT ne peut pas avoir acquis la faculté de langage. La raison en est simple : si les Grands Modèles de Langage reposent intégralement sur un modèle behaviouriste de l’acquisition, dès lors que ce modèle, selon eux, est réfuté depuis soixante ans, alors ce que font les Grands Modèles de Langage ne peut être qualifié de " langage ".

Chomsky, trop têtu pour qu’on lui parle ?

Le point de vue de Chomsky, Roberts et Watumull a été instantanément tourné en ridicule du fait d’un choix d’exemple particulièrement malheureux : les trois auteurs avançaient en effet que certaines constructions syntaxiques complexes, impliquant (dans le cadre générativiste, du moins) un certain nombre d’opérations sur plusieurs niveaux, ne peuvent être acquises sur la base de l’exposition à des stimuli environnementaux, car la fréquence relativement faible de ces phénomènes échouerait à contrebalancer des analogies formelles superficielles avec d’autres tournures au sens radicalement différent. Dans la tribune au New York Times, l’exemple pris est l’anglais John is too stubborn to talk to, " John est trop entêté pour qu’on lui parle ", mais en anglais on a littéralement " trop têtu pour parler à " ; la préposition isolée (ou " échouée ") en position finale est le signe qu’un constituant a été supprimé et doit être reconstitué aux vues de la structure syntaxique d’ensemble. Ici, " John est trop têtu pour qu’on parle à [John] " : le complément supprimé en anglais l’a été parce qu’il est identique au sujet de la phrase.

Ce type d’opérations impliquant la reconstruction d’un complément d’objet supprimé car identique au sujet du verbe principal revient dans la plupart des articles de polémique de Chomsky contre la psychologie behaviouriste et contre Skinner dans les années 1950 et 1960. On retrouve même l’exemple exact de 2023 dans un texte du début des années 1980. C’est en réalité un exemple-type au service de l’argument selon lequel l’existence d’opérations minimales universelles prévues par les mécanismes cérébraux humains est nécessaire pour l’acquisition complète du langage. Il a presque valeur de shibboleth permettant de séparer les innéistes et les comportementalistes. Il est donc logique que Chomsky, Roberts et Watumull avancent un tel exemple pour énoncer que le modèle probabiliste de l’IA neuronale est voué à échouer à acquérir complètement le langage.

On l’aura deviné : il suffit de demander à ChatGPT de paraphraser cette phrase pour obtenir un résultat suggérant que l’agent conversationnel a parfaitement " compris " le stimulus. DeepL, quand on lui demande de traduire cette phrase en français, donne deux solutions : " John est trop têtu pour qu’on lui parle " en solution préférée et " John est trop têtu pour parler avec lui " en solution de remplacement. Hors contexte, donc sans qu’on sache qui est " lui ", cette seconde solution n’est guère satisfaisante. La première, en revanche, fait totalement l’affaire.

Le détour par DeepL nous montre toutefois la limite de ce petit test qui a pourtant réfuté Chomsky, Roberts et Watumull : comprendre, ici, ne veut rien dire d’autre que " fournir une paraphrase équivalente ", dans la même langue (dans le cas de l’objection qui a immédiatement été faite aux trois auteurs) ou dans une autre (avec DeepL), le problème étant que les deux équivalents fournis par DeepL ne sont justement pas équivalents entre eux, puisque l’un est non-ambigu référentiellement et correct, tandis que l’autre est potentiellement ambigu référentiellement, selon comment on comprend " lui ". Or l’argument de Chomsky, Roberts et Watumull est justement celui de l’opacité du complément d’objet… Les trois auteurs ont bien sûr été pris à défaut ; reste que le test employé, précisément parce qu’il est typiquement behaviouriste (observer extérieurement l’adéquation d’une réaction à un stimulus), laisse ouverte une question de taille et pourtant peu présente dans les discussions entre linguistes : y a-t-il une sémantique des énoncés produits par ChatGPT, et si oui, laquelle ? Chomsky et ses co-auteurs ne disent pas que ChatGPT " comprend " ou " ne comprend pas " le stimulus, mais qu’il en " prédit le sens " (bien ou mal). La question de la référence, présente dans la discussion philosophique sur ChatGPT mais peu mise en avant dans le débat linguistique, n’est pas si loin.

Syntaxe et sémantique de ChatGPT

ChatGPT a une syntaxe et une sémantique : sa syntaxe est homologue aux modèles proposés pour le langage naturel invoquant des patrons formels quantitativement observables. Dans ce champ des " grammaires de construction ", le recours aux données quantitatives est aujourd’hui standard, en particulier en utilisant les ressources fournies par les " grand corpus " de plusieurs dizaines de millions voire milliards de mots (quinze milliards de mots pour le corpus TenTen francophone, cinquante-deux milliards pour son équivalent anglophone). D’un certain point de vue, ChatGPT ne fait que répéter la démarche des modèles constructionalistes les plus radicaux, qui partent de co-occurrences statistiques dans les grands corpus pour isoler des patrons, et il la reproduit en sens inverse, en produisant des données à partir de ces patrons.

Corrélativement, ChatGPT a aussi une sémantique, puisque ces théories de la syntaxe sont majoritairement adossées à des modèles sémantiques dits " des cadres " (frame semantics), dont l’un des inspirateurs n’est autre que Marvin Minsky, pionnier de l’intelligence artificielle s’il en est : la circulation entre linguistique et intelligence artificielle s’inscrit donc sur le temps long et n’est pas unilatérale. Là encore, la question est plutôt celle de la référence : la sémantique en question est très largement notionnelle et ne permet de construire un énoncé susceptible d’être vrai ou faux qu’en l’actualisant par des opérations de repérage (ne serait-ce que temporel) impliquant de saturer grammaticalement ou contextuellement un certain nombre de variables " déictiques ", c’est-à-dire qui ne se chargent de sens que mises en relation à un moi-ici-maintenant dans le discours.

On touche ici à un problème transversal aux clivages dessinés précédemment : les modèles " constructionnalistes " sont plus enclins à ménager des places à la variation contextuelle, mais sous la forme de variables situationnelles dont l’intégration à la description ne fait pas consensus ; les grammaires génératives ont très longtemps évacué ces questions hors de leur sphère d’intérêt, mais les considérations pragmatiques y fleurissent depuis une vingtaine d’années, au prix d’une convocation croissante du moi-ici-maintenant dans l’analyse grammaticale, du moins dans certains courants. De ce fait, l’inscription ou non des enjeux référentiels et déictiques dans la définition même du langage comme faculté humaine représente un clivage en grande partie indépendant de celui qui prévaut en matière de théorie de l’acquisition.

À l’école du perroquet

La bonne question, en tout cas la plus féconde pour la comparaison entre les productions langagières humaines et les productions des grands modèles de langage, n’est sans doute pas de savoir si " ChatGPT parle " ni si les performances de l’IA neuronale valident ou invalident en bloc tel ou tel cadre théorique. Une piste plus intéressante, du point de vue de l’étude de la cognition et du langage humains, consiste à comparer ces productions sur plusieurs niveaux : les mécanismes d’acquisition ; les régularités sémantiques dans leur diversité, sans les réduire aux questions de référence et faisant par exemple intervenir la conceptualisation métaphorique des entités et situations désignées ; la capacité à naviguer entre les registres et les variétés d’une même langue, qui fait partie intégrante de la maîtrise d’un système ; l’adaptation à des ontologies spécifiques ou à des contraintes communicatives circonstancielles… La formule du " perroquet stochastique ", prise au pied de la lettre, indique un modèle de ce que peut être une comparaison scientifique du langage des IA et du langage humain.

Il existe en effet depuis plusieurs décennies maintenant une linguistique, une psycholinguistique et une pragmatique de la communication animale, qui inclut des recherches comparant l’humain et l’animal. Les progrès de l’étude de la communication animale ont permis d’affiner la compréhension de la faculté de langage, des modules qui la composent, de ses prérequis cognitifs et physiologiques. Ces travaux ne nous disent pas si " les animaux parlent ", pas plus qu’ils ne nous disent si la communication des corbeaux est plus proche de celle des humains que celle des perroquets. En revanche ils nous disent comment diverses caractéristiques éthologiques, génétiques et cognitives sont distribuées entre espèces et comment leur agencement produit des modes de communication spécifiques. Ces travaux nous renseignent, en nous offrant un terrain d’expérimentation inédit, sur ce qui fait toujours système et sur ce qui peut être disjoint dans la faculté de langage. Loin des " fausses promesses ", les grands modèles de langage et les IA neuronales nous offrent peut-être l’occasion d’étendre le domaine de la réflexion sur l’architecture des systèmes possibles de cognition, de communication et d’interaction.

Auteur: Modicom Pierre-Yves

Info: https://aoc.media/ 14 nov 2023

[ onomasiologie bayésienne ] [ sémiose homme-animal ] [ machine-homme ] [ tiercités hors-sol ] [ signes fixés externalisables ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

intrications

Vers une science de la complexité
La physique quantique n’est pas une théorie de l’univers ; elle n’est qu’un formalisme génial qui permet d’abandonner les vieilles notions simplistes d’objet physique et de force physique, au centre de la physique de Galilée, Newton et Einstein, pour migrer vers les notions plus riches et plus souples de fonctions d’état (que l’on continue d’appeler, à tort, fonctions d’onde) et d’opérateurs. Il n’y a plus d’objet (ni d’onde, ni de particule, ni rien) : il y a un processus qui, à un moment donné, est décrit par une fonction d’état. Cette fonction évolue dans le temps. Faire une mesure (une observation quantifiée) consiste à appliquer à cette fonction d’état un opérateur qui spécifie la mesure que l’on fait, mais qui, en retour, modifie la fonction d’état. Ce formalisme ne dit rien de l’évolution réelle du Réel. Il permet seulement, dans certains cas, de prédire le résultat d’une mesure spécifique sur le Réel.

Le piège relativiste et le piège quantique.
Pour le dire en suivant Niels Bohr, la physique quantique n’est pas une ontologie : elle ne dit rien du Réel, mais explicite seulement certains de nos rapports avec le Réel. Ceci résume d’un mot la célèbre controverse entre ces deux Juifs géniaux que furent Einstein et Bohr. Einstein voulait fonder une ontologie post-newtonienne ("Connaître la pensée de Dieu"), alors que Bohr ne voulait que développer une phénoménologie opératoire et avait renoncé, dans une posture typiquement kantienne, à toute forme d’ontologie ("Ne dites pas à Dieu ce qu’Il doit faire").

Le problème, tel qu’il se présente aujourd’hui, se résume à ceci. L’ontologie relativiste, parce qu’elle n’a pas su quitter le mécanicisme déterministe et analytique des modernes, aboutit à des impasses monstrueuses qui, pour sauver le modèle, appellent des hypothèses de plus en plus invraisemblables et abracadabrantesques. Quant à la phénoménologie quantique, si elle se cantonne à demeurer une pure phénoménologie, elle se réduit à une technique mathématique plus ou moins efficiente dans les cas les plus simples et elle n’est guère satisfaisante pour l’esprit qui, toujours, a soif d’ontologie ; mais, si elle se laisse tenter à se prendre pour une ontologie (ce qui est de plus en plus souvent le cas, surtout en physique des hautes énergies et des "particules" élémentaires), elle aboutit à des absurdités logiques, et des "théories" fumeuses (comme la supersymétrie, les cordes, etc.) tentent en vain de masquer les inconsistances.

Nous sommes au seuil de ce que Thomas Kuhn appela une "mutation paradigmatique" majeure dans le monde de la science fondamentale. Spiritualité et physique sont en train de converger.

Notre époque appelle à refonder radicalement une nouvelle ontologie qui devra prendre garde à éviter, à la fois, le piège relativiste (l’ontologie mécaniciste) et le piège quantique (la phénoménologie subjectiviste). La physique complexe est la seule voie connue actuellement qui puisse tenter de relever ce défi. Mais les institutions physiciennes en place veillent à ne pas laisser saccager leur fonds de commerce. Nous sommes au seuil de ce que Thomas Kuhn appela une "mutation paradigmatique" majeure dans le monde de la science fondamentale. Spiritualité et physique sont en train de converger.

Les sciences modernes.
Toutes les sciences modernes se sont construites à partir du refus de la Renaissance de continuer le paradigme aristotélicien d’un univers organiciste, finaliste, géocentrique, limité, divisé en monde céleste et en monde sublunaire et dirigé par le principe de l’harmonie des sphères. Parmi les premiers, Galilée et Descartes éradiquèrent ce paradigme aristotélicien et le remplacèrent par un paradigme platonicien (donc pythagoricien et atomiste) qui allait devenir le moteur de la pensée entre 1500 et 2000. Ce paradigme moderne repose tout entier sur le mécanicisme. Plongé dans un espace et un temps infinis, l’univers serait un assemblage de briques élémentaires appelées "atomes", interagissant entre eux au moyen de forces élémentaires partout les mêmes (un univers isotrope) et parfaitement quantifiables (un univers mathématique) où tout effet a une cause et où cause et effet sont proportionnés selon des rapports mesurables et permanents, soumis à des lois mathématiques éternelles. Le hasard y joue le rôle central de moteur des évolutions.

Cette vision du monde fut fructueuse et permit de grandes avancées, dont les très nombreuses retombées techniques ont radicalement transformé le monde des hommes et leur ont permis, dans bien des cas, de les libérer des contraintes "naturelles" qui pesaient sur eux. Cependant, les sciences modernes, dès la fin du XIXe siècle, mais surtout depuis 1950, se sont heurtées, partout, au "mur de la complexité".

Le mur de la complexité.
Ce "mur de la complexité" a fait prendre conscience que certains systèmes où le nombre des ingrédients et les densités d’interaction entre eux étaient très grands ne pouvaient plus être compris selon le paradigme mécaniste : ils ne sont pas que des assemblages d’élémentaires, car leur tout est irréductible à la simple somme de leurs parties ; là s’observent des propriétés émergentes qui n’appartiennent à aucun des ingrédients impliqués et qui surgissent sans cause particulière, comme solution globale à un problème global. Aristote ressuscite, et les traditions indiennes et chinoises viennent à sa rescousse…

Ce fut la thermodynamique qui, la première, osa les questions de fond dont la toute première, résolument contradictoire avec les sciences mécanistes, fut celle de l’irréversibilité ; celle de la flèche du temps, celle du Devenir en lieu et place de l’Etre. L’univers réel n’est pas une machine mécanique réversible, soumise à des lois mécaniques prédictibles.

Pour le dire autrement, les sciences classiques font des merveilles pourvu que les systèmes auxquels elles s’intéressent soient d’un niveau de complexité très bas. Alors, l’approximation mécaniste peut être efficace et donne de bons résultats, parfois spectaculaires (il est plus facile d’envoyer une fusée sur Mars que de modéliser la préparation d’un bon cassoulet). Après la thermodynamique, les sciences de la vie et l’étude des sociétés vivantes ont bien dû constater que le "mur de la complexité" était, pour elles aussi, infranchissable si elles restaient à l’intérieur du paradigme mécaniste. Disons-le tout cru : la Vie n’est pas réductible à la Matière, ni la Pensée à la Vie… On commence maintenant à comprendre que même la Matière n’est réductible ni à elle-même, ni à de l’énergie pure. Au fond : rien n’est réductible à rien. Tout ce qui existe n’existe que par soi et pour soi ; c’est l’émergence locale d’un flux cosmique de devenir. Mais tout ce qui existe est aussi partie prenante d’un tout plus grand qui l’englobe… Et tout ce qui existe est, en même temps, le résultat des interactions infinies entre les ingrédients multiples qui le constituent en interagissant entre eux. Rien de ce qui existe n’est un assemblage construit "de l’extérieur", mais bien plutôt quelque chose qui "pousse de l’intérieur".

Cette dernière remarque permet d’alimenter une réflexion de fond. Nous avons pris l’habitude de parler et de penser en termes d’objets : cette table, ce chien, ce nuage, etc. Et il nous semble naturel de faire de ces mots les images de ce qui existe, en leur gardant une atemporalité abstraite et idéalisante qui ne correspond à rien de réel. Cette table, ce chien et ce nuage auront changé – un peu, beaucoup, énormément – dans trois minutes, dans trois jours, dans trois ans, etc. Rien n’est permanent dans le réel, même si nos habitudes de pensée, par l’usage de mots figés et abstraits, alimentent notre illusion que tout reste "fondamentalement" identique à soi. Ce qui est notoirement faux.

Tout cela relève d’un débat métaphysique qui n’a pas vraiment sa place ici. Disons seulement que la philosophie occidentale est obsédée par la notion d’un Etre immuable qui se cacherait "derrière" les accidents et évolutions de tout ce qui existe. Le pensée complexe prend l’exact contre-pied de cette croyance. Il n’y a pas d’Etre ; tout est processus. Ce chien appelé "Médor" est l’image, ici et maintenant, d’un processus canin particulier (un individu chien singulier) qui exprime un processus canin global (une lignée canine remontant à des ancêtres chacals, loups et renards) qui, à son tour, est un mode particulier d’expression du processus Vie sur notre petite Terre. Et cette terre elle-même constitue un processus planétaire, lié au processus solaire, lié au processus d’une galaxie parmi d’autres, appelée "voie lactée". Le processus chien appelé "Médor" est la résultante de milliards de processus cellulaires qui furent tous déclenchés par la rencontre d’un ovule fertile et d’un spermatozoïde.

Les mots s’arrêtent à la surface des choses.
Ce que nos mots appellent un "objet" n’est que la photographie extérieure et instantanée d’un processus qui a commencé, comme tout le reste, avec le big-bang. Il n’y a au fond qu’un seul processus unique : le cosmos pris comme un tout. Ce processus cosmique engendre des processus particuliers, de plus en plus complexes, de plus en plus intriqués les uns aux autres, qui sont autant de processus émergeants. Nous appelons "objet" la surface extérieure apparente d’un processus volumique intérieur qui engendre cette surface. Cette surface objectale n’est que l’emballage apparent de la réalité processuelle sous-jacente.

Les mots s’arrêtent à la surface des choses, à leur apparence, que notre mental débarrasse de tout ce qui change pour n’en garder que les caractéristiques atemporelles qui ne changent pas ou peu. Médor est ce chien qui est un berger noir et feu, couché là au soleil, avec quatre pattes, une queue touffue, une truffe noire, deux yeux pétillants, deux oreilles dressées, etc. "Médor" désigne l’ensemble de ces caractéristiques objectales censées être temporairement permanentes. Mais, en fait, "Médor" désigne l’entrelacs de milliers de milliards de processus cellulaires intriqués et corrélés, fédérés par l’intention commune de survivre le mieux possible, dans un environnement peu maîtrisé mais globalement favorable, appelé domesticité.

La méthode analytique, mise à l’honneur par René Descartes, part d’un principe parfaitement arbitraire – et qui se révèlera faux – que le tout est l’exacte somme de ses parties. Que pour comprendre un système, il "suffit" de le démonter en ses constituants, puis ceux-ci en les leurs, et ainsi de suite, pour atteindre les élémentaires constitutifs du tout et les comprendre, pour, ensuite, les remonter, étage par étage, afin d’obtenir "logiquement" la compréhension du tout par la compréhension de chacune de ses parties. On trouve là le fondement ultime du mécanicisme qui fait de tout, à l’instar de la machine, un assemblage de parties ayant et gardant une identité propre irréfragable. Le piston et la soupape sont piston et soupape qu’ils soient, ou non, montés ensemble ou démontés séparément.

Tout l’analycisme repose sur cette hypothèse largement fausse que les interactions entre éléments n’altèrent pas la nature de ces éléments. Ils restent intègres et identifiables qu’il y ait, ou non, des interactions avec d’autres "objets". Encore une fois, l’analycisme est une approche qui n’est jouable que pour les systèmes rudimentaires où l’hypothèse mécaniste est approximativement acceptable, c’est-à-dire à des niveaux de complexité ridiculement bas.

Un bon exemple de système complexe "simple" où le principe d’analycité est mis à mal est la mayonnaise. Rien de plus simple, en effet : trois ingrédients et un battage à bonne température. Une fois que la réaction d’émulsion s’est enclenchée et que la mayonnaise a pris, on ne pourra pas la faire "déprendre", même en battant le tout en sens inverse. Il y a là une irréversibilité liée aux relations émulsives qui unissent entre elles, selon des schémas complexes, des milliards de molécules organiques intriquées les unes aux autres par des ponts "hydrogène", des forces de van der Waals, des quasi-cristallisations, etc. Dans l’émulsion "mayonnaise", il n’y a plus de molécules d’huile, de molécules de jaune d’œuf, etc. Il y a un tout inextricablement corrélé et intriqué, un magma biochimique où plus aucune molécule ne garde sa propre identité. Le tout a absorbé les particularités constitutives des parties pour engendrer, par émergence, quelque chose de neuf appelé "mayonnaise" qui est tout sauf un assemblage de molécules distinctes.

Un autre exemple typique est fourni par les modèle "en goutte liquide" des noyaux atomiques. Le noyau d’hélium n’est pas un assemblage de deux protons et de deux neutrons (comme le neutron n’est pas un assemblage d’un proton avec un électron avec quelques bricoles de plus). Un noyau d’hélium est une entité unitaire, unique et unitive que l’on peut engendrer en faisant se télescoper violemment nos quatre nucléons. Ceux-ci, une fois entrés en interaction forte, constituent un objet à part entière où plus aucun neutron ou proton n’existe comme tel. Si l’on percute ce noyau d’hélium avec suffisamment de violence, il peut se faire qu’il vole en éclat et que ces fragments, après un très court temps d’instabilité, reconstituent protons et neutrons. Cela donne l’illusion que ces protons et neutrons seraient restés entiers au sein du noyau. Il n’en est rien.

Un système devient d’autant plus complexe que la puissance des interactions en son sein transforme radicalement la nature et l’identité des ingrédients qui y interviennent. De là, deux conséquences majeures. Primo : un système vraiment complexe est un tout sans parties distinctes discernables, qui se comporte et évolue comme un tout unique, sans composant. Les méthodes analytiques y sont donc inopérantes. Secundo : lorsqu’on tente de "démonter" un système vraiment complexe, comme le préconise Descartes, on le tue purement et simplement, pour la bonne raison qu’en le "démontant", on détruit les interactions qui en constituent l’essentiel.

Le processus d’émergence.
Tout ce qui existe pousse "du dedans" et rien n’est assemblé "du dehors". Tout ce qui existe est le développement, par prolifération interne, d’un germe initial (que ce soit un nuage, un flocon de neige, un cristal, un brin d’herbe, un arbre, une méduse, un chien ou un être humain). Rien dans la Nature n’est assemblé comme le seraient les diverses pièces usinées d’un moteur d’automobile. Seuls les artéfacts humains sont des produits d’assemblage qui appellent deux éléments n’existant pas dans le Nature : des pièces usinées préfabriquées et un ouvrier ou robot monteur. Dans la nature, il n’existe pas de pièces préfabriquées exactement selon le plan de montage. Il n’y a d’ailleurs aucun plan de montage. La Nature procède par émergence, et non pas par assemblage.

Le processus d’émergence se nourrit des matériaux qu’il trouve à son contact. Il n’y a pas de plan préconçu et, souvent, la solution trouvée naturellement est approximative et imprécise ; l’à-peu-près est acceptable dans la Nature. Par exemple, il est bien rare qu’un cristal naturel soit exempt d’anomalies, de disruptions, d’anisotropies, d’inhomogénéité, etc.

Si l’on veut bien récapituler, au contraire des procédés d’assemblage des artefacts humains, les processus d’émergence qui forgent tout ce qui existe dans la Nature ne connaissent ni plan de montage, ni pièces préfabriquées, ni ouvrier monteur, ni outillage externe, ni banc d’essai. Tout s’y fait de proche en proche, par essais et erreurs, avec les matériaux qui sont là. C’est d’ailleurs la présence dense des matériaux utiles qui, le plus souvent, sera le déclencheur d’un processus d’émergence. C’est parce qu’une solution est sursaturée qu’un processus de cristallisation pourra se mettre en marche autour d’un germe – souvent hétérogène, d’ailleurs – ; c’est un petit grain de poussière, présent dans un nuage sursaturé et glacial, qui permettra au flocon de neige de se développer et de produire ses fascinantes et fragiles géométries.

Le cerveau humain est autre chose qu’un ordinateur.
Il en va de même dans le milieu humain, où les relations se tissent au gré des rencontres, selon des affinités parfois mystérieuses ; un groupe organisé peut émerger de ces rencontres assez fortuites. Des organisations pourront se mettre en place. Les relations entre les humains pourront rester lâches et distantes, mais des processus quasi fusionnels pourront aussi s’enclencher autour d’une passion commune, par exemple autour d’un projet motivant ou autour d’une nécessité locale de survie collective, etc. La vie quotidienne regorge de telles émergences humaines. Notamment, l’émergence d’une rumeur, d’un buzz comme on dit aujourd’hui, comme celle d’Orléans qu’a étudiée Edgar en 1969 : il s’agit d’un bel exemple, typique d’un processus d’émergence informationnelle qu’aucune technique analytique ou mécanique ne permet de démanteler.

L’assemblage et l’émergence ne participent pas du tout de la même logique. Essayer de comprendre une logique d’émergence au moyen d’une analogie assembliste, est voué à l’échec. Ainsi, toutes les fausses analogies entre le fonctionnement assembliste ou programmatique d’un ordinateur et le fonctionnement émergentiste de la pensée dans un cerveau humain sont définitivement stériles. De façon symétrique, il est absurde de rêver d’un arbre, produit d’on ne sait quelles vastes mutations génétiques, dont les fruits seraient des automobiles toutes faites, pendant au bout de ses branches.

Parce que l’assemblisme est une démarche additive et programmatique, les mathématiques peuvent y réussir des merveilles de modélisation. En revanche, l’émergentisme n’est pas mathématisable puisqu’il n’est en rien ni additif, ni programmatique ; c’est probablement la raison profonde pour laquelle les sciences classiques ne s’y intéressent pas. Pourtant, tout ce qui existe dans l’univers est le fruit d’une émergence !

L’illusion du principe de causalité.
Toute la physique classique et, derrière elle, une bonne part de la pensée occidentale acceptent l’idée de la détermination mécanique de l’évolution de toute chose selon des lois causales universelles et imprescriptibles. Des quatre causes mises en évidence par Aristote, la science moderne n’a retenu que la cause initiale ou efficiente. Tout ce qui se produit serait le résultat d’une cause qui lui serait antérieure. Ceci semble du bon sens, mais l’est bien moins qu’il n’y paraît.

De plus, la vulgate scientifique moderne insiste : tout ce qui se produit serait le résultat d’une cause identifiable, ce qui permet de représenter l’évolution des choses comme des chaînes linéaires de causes et d’effets. Chaque effet est effet de sa cause et cause de ses effets. Cette concaténation des causes et des effets est une représentation commode, par son mécanisme même, mais fausse.

Tout ce qui arrive ici et maintenant est un résultat possible de tout ce qui est arrivé partout, depuis toujours.

Chaque événement local est le résultat d’une infinité de causes. Par exemple, Paul, par dépit amoureux, lance une pierre dans le carreau de la chambre de Virginie. L’effet est le bris de la vitre ; la cause est la pierre. Problème résolu ? Il suffit de poser toute la séries des "pourquoi" pour se rendre compte qu’il faut encore savoir pourquoi la maison de Virginie est là, pourquoi sa chambre donne sur la rue, pourquoi un caillou traînait sur le trottoir, pourquoi Paul a rencontré Virginie et pourquoi il en est tombé amoureux, et pourquoi il a été débouté par Virginie (dont le cœur bat pour Pierre : pourquoi donc ?), pourquoi Paul le prend mal, pourquoi il est violent, pourquoi il veut se venger, pourquoi il lance le caillou efficacement et pourquoi celui-ci atteint sa cible, etc., à l’infini. Si l’on veut bien prendre la peine de continuer ces "pourquoi", on en arrive très vite à l’idée que la vitre de la fenêtre de Virginie a volé en éclat parce que tout l’univers, depuis le big-bang, a comploté pour qu’il en soit ainsi. Pour le dire autrement : tout ce qui arrive ici et maintenant est un résultat possible de tout ce qui est arrivé partout, depuis toujours. Cette conclusion est l’essence même du processualisme, qui s’oppose dans toutes ses dimensions au déterminisme mécaniste.

Processualisme contre déterminisme.
Tout effet possède une vraie infinité de causes… et donc n’en possède aucune ! Toutes ces "causes" potentielles qui convergent en un lieu donné, à un moment donné, induisent un événement contingent et non pas nécessaire. Une myriade de bonnes raisons auraient pu faire que la vitre de Virginie ne soit pas brisée, ne serait-ce que parce que la fenêtre eût été ouverte ou le volet baissé. De plus, lorsqu’une infinité de causes se présentent, on comprend qu’il y ait rarement un seul et unique scénario qui puisse y répondre (ce cas rare est précisément celui du déterminisme mécaniste, qui n’opère que dans des univers pauvres et rudimentaires, sans mémoire locale). En fait, dans un monde complexe, un tel faisceau causal ouvre un faisceau de possibles parmi lesquels un choix devra se faire.

Chacun n’est que cela : le point de jonction entre le cône convergent de tous ses héritages venant du passé et le cône divergent de tous ses legs allant vers le futur.

Dans un petit ouvrage magnifique intitulé Le sablier, Maurice Maeterlinck proposait une vision pouvant se résumer ainsi. Chacun de nous est le goulot étroit d’un sablier avec, au-dessous, tout le sable accumulé venu de tout l’univers, depuis l’aube des temps, qui converge vers soi, et, au-dessus, l’éventail de toutes les influences qui engendreront, au fil du temps, des êtres, des choses, des idées, des conséquences. Chacun n’est que cela : le point de jonction entre le cône convergent de tous ses héritages venant du passé et le cône divergent de tous ses legs allant vers le futur.

Le paragraphe précédent a posé un problème qui a été esquivé et sur lequel il faut revenir : le cône convergent des causes infinies induit, ici et maintenant, un cône divergent de possibles entre lesquels le processus devra choisir. Cette notion de choix intrinsèque est évidemment incompatible avec quelque vision mécaniste et déterministe que ce soit. Mais, qui plus est, elle pose la question des critères de choix. Quels sont-ils ? Pourquoi ceux-là et non d’autres ? S’il y a des choix à faire et que ces choix visent une optimisation (le meilleur choix), cela signifie qu’il y a une "économie" globale qui préside à la logique d’évolution du processus. Chaque processus possède une telle logique intrinsèque, une telle approche économique globale de soi. A un instant donné, le processus est dans un certain état global qui est son présent et qui inclut tout son passé (donc toute sa mémoire). Cet état intrinsèque est confronté à un milieu qui offre des matériaux, des opportunités, des champs causaux, plus ou moins riches. De cette dialectique entre le présent du processus et son milieu, lui aussi au présent, naîtra un champ de possibles (plus ou moins riche selon la complexité locale). Il existe donc une tension intérieure entre ce que le processus est devenu au présent, et ce qu’il pourrait devenir dans son futur immédiat. Cette tension intérieure doit être dissipée (au sens qu’Ilya Prigogine donna à sa notion de "structure dissipative"). Et cette dissipation doit être optimale (c’est là que surgit l’idée d’économie logique, intrinsèque du processus).

L’intention immanente du monde.
Il faut donc retenir que cette tension intérieure est une in-tension, c’est-à-dire une intention. La pensée complexe implique nécessairement un intentionnalisme qui s’oppose farouchement aussi bien au déterminisme qu’au hasardisme propres à la science moderne. "Ni hasard, ni nécessité" fut d’ailleurs le titre d’un de mes ouvrages, publié par Oxus en 2013 et préfacé par… mon ami Edgar Morin – il n’y a pas de hasard !

Cette idée d’intention est violemment rejetée par les sciences modernes qui, malicieusement, mais erronément, y voient une forme d’intervention divine au sein de la machinerie cosmique. Bien entendu, rien de tel n’est supposé dans la notion d’intention qu’il faut comprendre comme résolument intrinsèque et immanente, sans aucun Deus ex machina. Mais quelle est donc cette "intention" cosmique qui guide tous les choix, à tous les niveaux, du plus global (l’univers pris comme un tout) au plus local (chaque processus particulier, aussi infime et éphémère soit-il) ? La plus simple du monde : accomplir tout ce qui est accomplissable, ici et maintenant. Rien de plus. Rien de moins.

Mon lecteur l’aura compris, la pensée complexe repose sur cinq notions-clés (processualisme, holisme, émergentisme, indéterminisme et intentionnalisme) qui, chacune, se placent à l’exact opposé des fondements de la science moderne : atomisme, analycisme, assemblisme, mécanicisme et hasardisme. Cette opposition incontournable marque une profonde révolution épistémologique et une immense mutation paradigmatique.

Auteur: Halévy Marc

Info: 30 mars 2019

[ tour d'horizon ] [ pentacle ] [ monothéïsme ] [ bricolage ] [ sens unique temporel ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel