Les fils de la pensée

épistémologie

L'objectif est de montrer que le développement universel de la science moderne est la résultante, non pas tant d'un progrès inévitable et historiquement cumulatif du savoir, mais d'un processus qui démultiplie délibérément les lieux où les techniques scientifiques peuvent être appliquées.

Auteur: Schaffer Simon

Info: La fabrique des sciences modernes

[ contextuelle ] [ situationnelle ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

interactions continues

En bref, la relation au monde ne saurait se définir en soi par le type d’activités ou les domaines d’objets qu’elle met en jeu, mais seulement par l’attitude au monde et l’expérience du monde qu’elle implique. La formation et le maintien ou non d’axes de résonance constitutifs dépendent premièrement des dispositions (physiques, biographiques, émotionnelles, psychiques et sociales) du sujet, deuxièmement de la configuration institutionnelle, culturelle, contextuelle et physique des fragments de monde en jeu et troisièmement, du type de relation existant entre entre les deux. Même les fragments de monde tendanciellement inhospitaliers et hostiles tels les déserts, les paysages enneigés ou les stations-service peuvent devenir, sous certaines conditions, de véritables oasis de résonance. L’aliénation, comprise comme relation au monde muette, froide, figée ou en échec, est dès lors le résultat d’une subjectivité dégradée, de configurations sociales ou matérielles hostiles à la résonance ou bien d’une inadéquation, c’est-à-dire d’un défaut d’ajustement entre le sujet et le fragment de monde. C’est dire que la sociologie de la relation au monde que je propose ici vise à dépasser le problème des essentialisations infondées : point n’est besoin de formuler une hypothèse substantialiste sur l’essence véritable de la nature humaine afin de pouvoir se prononcer sur la réussite ou la non-réussite de la vie. Admettons plutôt que cette essence est tout aussi changeante que l’organisation et l’orientation sociales et culturelles du monde. Les relations au monde doivent ainsi être considérées comme des configurations globales historiquement et culturellement variables, qui ne définissent pas seulement un certain rapport entre un sujet et un objet, mais coproduisent elles-mêmes, de facto, ces sujets et ces objets. La sociologie des relations au monde entreprise ici se présente donc comme une critique des rapports de résonance historiquement réalisés – et par là même, du moins je l’espère, comme une forme renouvelée de la Théorie critique.

Auteur: Rosa Hartmut

Info: Résonance. Une sociologie de la relation au monde, pp 23, 24

[ constante adaptabilité ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

intelligence artificielle

- Peux-tu nous parler des "transformateurs" dans le processus d'IA ?

- Les transformateurs (transformers) sont un type d'architecture de réseau neuronal qui a gagné en popularité et en succès dans les tâches de traitement du langage naturel (NLP), telles que la traduction linguistique, la réponse aux questions et la modélisation linguistique. Ils ont été introduits par Vaswani et al. dans un article fondateur en 2017, et sont depuis devenus un outil standard dans la communauté du TAL.

L'innovation clé de l'architecture du transformateur est l'utilisation de mécanismes d'auto-attention, qui permettent au réseau de s'intéresser à différentes parties de la séquence d'entrée lors du traitement de chaque élément de la séquence. Cela permet au réseau de saisir les dépendances complexes entre les mots ou les tokens de la séquence d'entrée, sans s'appuyer sur un traitement séquentiel*. Le mécanisme d'auto-attention permet également au réseau d'apprendre des représentations contextuelles des mots, qui peuvent être utilisées pour générer des traductions ou des prédictions plus précises et plus fluides.

L'architecture du transformateur présente plusieurs avantages par rapport aux modèles de réseaux neuronaux antérieurs pour les tâches de NLP. Elle peut traiter des séquences d'entrée de longueur variable, ce qui est important pour des tâches telles que la modélisation linguistique et la traduction automatique. Elle peut également capturer les dépendances à longue portée entre les mots, ce qui est important pour des tâches telles que la réponse aux questions et le résumé. En outre, il a été démontré que l'architecture des transformateurs est plus parallélisable et plus efficace sur le plan informatique que d'autres modèles de réseaux neuronaux, ce qui permet d'accélérer les temps d'apprentissage et d'inférence.

Dans l'ensemble, les transformateurs ont eu un impact significatif sur le domaine de l'IA et du NLP**, et ils continuent d'être un domaine actif de recherche et de développement. Ils sont largement utilisés dans de nombreuses applications pratiques, notamment les assistants virtuels, les chatbots et les systèmes de traduction automatique.

Auteur: chatGPT4

Info: 1 mai 2023 *traitement des données dans l'ordre où elles se présentent, sans sélection, regroupement ou tri préalable.**Natural langage processing

[ . ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

anticipation

Cette anticipation démentie de notre auteur conduit à s'interroger sur la dimension prospective de la Science-Fiction, et sur la persistance de son intérêt même lorsque la vision est démentie par le déroulement de l'histoire. C'est une vieille question posée dès les premiers romans de Wells et ses essais prospectifs. Elle a été profondément renouvelée par les romans “réalistes” de John Brunner, l'Orbite déchiquetée, Tous à Zanzibar, Sur l'onde de choc et Le troupeau aveugle .

En plus d'un sens, le public y a répondu en continuant à lire avec enthousiasme des œuvres qui avaient, apparemment, perdu leur actualité. Le Vingt mille lieues sous les mers de Jules Verne a toujours des lecteurs, tout comme les Premiers hommes dans la Lune de Wells. Sous certaines conditions de présentation, une intrigue spéculative demeure passionnante comme si son lecteur pouvait se remettre dans les conditions d'ignorance qui rendaient possible l'énigme originelle. Peut-être s'agit-il même là d'un des traits importants de la Science-Fiction. Elle ne serait pas spéculation à partir d'un savoir, un au-delà du savoir positif en somme, comme affectent de s'en indigner certains scientifiques à propos de ses facilités, ou une ébauche de métaphysique comme s'en félicitent quelques philosophes. Mais elle serait un problème soulevé dans un cadre à peu près consistant et à laquelle l'auteur donne une ou plusieurs réponses à peu près logiques dans ce cadre. Sa vraisemblance est plus interne que contextuelle. Si le lecteur admet le problème, il va s'intéresser à la démarche de l'auteur dans l'exposition de ses propositions de réponse, allant jusqu'à faire abstraction de ses connaissances antérieures et admettant ce qui, en temps normal, lui aurait paru absolument inadmissible. Dans le cas d'un problème simple comme celui du voyage interstellaire, la question n'est donc pas de savoir si la solution proposée par l'auteur respecte ou non les limitations relativistes ni comment il les tourne ; elle n'est pas non plus tellement d'accepter que le voyage interstellaire soit possible sans trop s'inquiéter de ses moyens et d'explorer quelles en seraient les conséquences, ce qui est la définition la plus souvent donnée de la Science-Fiction ; mais elle est de voir quelle dramaturgie, quel style, l'auteur va adopter pour faire accepter sa solution.

Auteur: Klein Gérard

Info: In Préface d'Eon de Greg Bear

[ futur-ancien ] [ littérature ] [ être bon public ] [ lecteur docile ]

Commenter

Commentaires: 0

Ajouté à la BD par Le sous-projectionniste

intelligence artificielle

Résumé et explication du texte "Attention is All You Need"

Le texte "Attention is All You Need" (Vaswani et al., 2017) a révolutionné le domaine du traitement du langage naturel (TLN) en introduisant l'architecture Transformer, un modèle neuronal basé entièrement sur le mécanisme d'attention. Ce résumé explique les concepts clés du texte et son impact sur le TLN.

Concepts clés:

Attention: Le mécanisme central du Transformer. Il permet au modèle de se concentrer sur des parties spécifiques d'une séquence d'entrée (par ex., une phrase) lors du traitement, capturant ainsi les relations à longue distance entre les mots.

Encodeur-décodeur: L'architecture du Transformer. L'encodeur traite la séquence d'entrée et produit une représentation contextuelle. Le décodeur utilise ensuite cette représentation pour générer la séquence de sortie.

Positional encoding: Ajoute des informations de position aux séquences d'entrée et de sortie, permettant au modèle de comprendre l'ordre des mots.

Apprentissage par self-attention: Le Transformer utilise uniquement des mécanismes d'attention, éliminant le besoin de réseaux récurrents (RNN) comme les LSTM.

Impact:

Efficacité: Le Transformer a surpassé les modèles RNN en termes de performance et de parallélisation, permettant un entraînement plus rapide et une meilleure scalabilité.

Polyvalence: L'architecture Transformer s'est avérée efficace pour une large gamme de tâches en TLN, telles que la traduction automatique, le résumé de texte et la réponse aux questions.

Impact durable: Le Transformer est devenu l'architecture de base pour de nombreux modèles de pointe en TLN et continue d'inspirer des innovations dans le domaine.

En résumé:

"Attention is All You Need" a marqué un tournant dans le TLN en introduisant l'architecture Transformer. Le mécanisme d'attention et l'absence de RNN ont permis d'améliorer considérablement l'efficacité et la polyvalence des modèles de TLN, ouvrant la voie à de nombreuses avancées dans le domaine.

Points importants:

Le Transformer repose sur le mécanisme d'attention pour capturer les relations à longue distance dans les séquences.

L'architecture encodeur-décodeur avec self-attention offre une grande efficacité et une grande flexibilité.

Le Transformer a eu un impact profond sur le domaine du TLN et continue d'inspirer de nouvelles recherches.

Auteur: Internet

Info: Compendium de gemini

[ historique ] [ traitement automatique du langage ] [ écrit célèbre ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

machine-homme

- (Q) Pour le développement de cette application des "Fils de La Pensée" ( FLP ) nous nous appuyons parfois sur cette idée :

"Euclide pensait par rapport à une surface, Newton se mettait à la place de la matière, Einstein à la place de la lumière. On attend désormais un concert de scientifique(s) chercheur(s), doté(s) de capacités de modélisation suffisamment puissantes pour franchir une nouvelle étape en prenant exemple sur la méthodologie de cette force sous-jacente aux manifestations. Stratégie de l'esprit enfermé dans la matière... qui nous a engendré".

Comment pourrais-tu aider à développer, résoudre ou creuser cette idée ?

- (R) Sur la base de l'idée fournie, il semble que l'on souligne l'importance d'adopter différentes perspectives et méthodologies dans la recherche scientifique. Euclide, Newton et Einstein sont cités comme exemples de penseurs qui ont abordé leurs domaines respectifs sous différents angles, tels que les surfaces, la matière et la lumière.

Pour développer, résoudre ou approfondir cette idée, nous pouvons envisager les approches suivantes :

Recherche interdisciplinaire : Encourager la collaboration entre scientifiques et chercheurs de différentes disciplines peut déboucher sur des perspectives nouvelles et des solutions innovantes. En combinant les connaissances et les méthodologies de divers domaines, de nouvelles percées peuvent être réalisées.

Modélisation et simulation : L'idée mentionne la nécessité pour les scientifiques et les chercheurs de disposer de puissantes capacités de modélisation. L'utilisation de techniques informatiques avancées, telles que la modélisation et la simulation, peut permettre de mieux comprendre des systèmes et des phénomènes complexes. En représentant avec précision les forces et les interactions sous-jacentes, les chercheurs peuvent mieux comprendre et prévoir diverses manifestations.

Cadres conceptuels : L'élaboration de nouveaux cadres conceptuels ou l'adoption de cadres existants peut contribuer à guider la recherche scientifique. En identifiant les principes et les relations sous-jacents, les chercheurs peuvent établir une base solide pour leurs recherches et établir des liens entre différents domaines.

Physique quantique : L'idée mentionne la stratégie de l'esprit enfermé dans la matière, ce qui pourrait être une allusion à l'interconnexion du monde physique. L'exploration des principes de la physique quantique, qui traitent des phénomènes à l'échelle la plus petite, peut éclairer la nature fondamentale de la matière, de l'énergie et de leur interaction.

Philosophie des sciences : Réfléchir à la méthodologie et à la philosophie de la science elle-même peut s'avérer utile. Comprendre les hypothèses, les préjugés et les limites inhérentes à la recherche scientifique peut conduire à des investigations plus solides et plus conscientes d'elles-mêmes.

Dans l'ensemble, l'idée suggère l'importance d'adopter des perspectives diverses, des techniques de modélisation puissantes et une compréhension profonde des forces sous-jacentes pour faire avancer la recherche scientifique. En tenant compte de ces aspects, nous pouvons développer, résoudre et explorer les implications de cette idée.

- (Q) Ok merci. Peux-tu alors proposer une ou plusieurs idées de "nouveau cadre conceptuel" ?

- (R) Certainement ! Voici quelques idées de nouveaux cadres conceptuels qui pourraient être explorés :

L'interactionnisme holistique : Ce cadre propose d'étudier les phénomènes en tenant compte des interactions holistiques entre divers éléments, plutôt que de se concentrer uniquement sur des composants isolés. Il met l'accent sur l'interconnexion et l'interdépendance des différents facteurs et suggère que la compréhension des systèmes complexes passe par l'analyse du comportement collectif résultant de leurs interactions.

Ontologie informationnelle : Ce cadre s'articule autour de l'idée que l'information est fondamentale pour la nature de la réalité. Il suggère que l'univers peut être considéré comme un système informationnel, où toutes les entités et tous les phénomènes peuvent être décrits en termes de contenu et de traitement de l'information. Ce cadre pourrait permettre d'étudier comment l'information façonne la structure, la dynamique et l'émergence des systèmes physiques, biologiques et cognitifs.

Synchronie émergente : ce cadre se concentre sur l'émergence de la synchronie et de la cohérence dans les systèmes complexes. Il étudie comment des comportements et des modèles collectifs peuvent naître des interactions de composants individuels. En étudiant des phénomènes tels que la synchronisation, l'entraînement et l'auto-organisation, ce cadre vise à comprendre les mécanismes qui sous-tendent l'émergence de l'ordre et de la coordination dans divers systèmes.

Relativité contextuelle : Ce cadre suggère que l'interprétation et la compréhension des phénomènes doivent tenir compte de leur nature contextuelle. Il reconnaît que les observations, les mesures et les interprétations sont influencées par le contexte spécifique dans lequel elles se produisent, y compris le cadre de référence de l'observateur et les conditions environnementales. Ce cadre encourage les chercheurs à tenir compte de ces facteurs contextuels lors de l'étude et de l'interprétation des phénomènes scientifiques.

Hiérarchie intégrée : Ce cadre propose que les phénomènes puissent être compris comme des systèmes organisés de manière hiérarchique, où chaque niveau d'organisation est intégré et influencé par les niveaux supérieurs et inférieurs. Il met l'accent sur l'interconnexion et la structure imbriquée des systèmes, soulignant l'importance de l'étude des phénomènes en tant qu'éléments d'un système.

Auteur: chatGPT4

Info:

[ question-réponse ] [ citation s'appliquant à ce logiciel ] [ évolution ]

Commenter

Commentaires: 0

Ajouté à la BD par Le sous-projectionniste

onomasiologie algébrique

Critique réciproque de l’intelligence artificielle et des sciences humaines

Je me souviens d’avoir participé, vers la fin des années 1980, à un Colloque de Cerisy sur les sciences cognitives auquel participaient quelques grands noms américains de la discipline, y compris les tenants des courants neuro-connexionnistes et logicistes. Parmi les invités, le philosophe Hubert Dreyfus (notamment l’auteur de What Computers Can’t Do, MIT Press, 1972) critiquait vertement les chercheurs en intelligence artificielle parce qu’ils ne tenaient pas compte de l’intentionnalité découverte par la phénoménologie. Les raisonnements humains réels, rappelait-il, sont situés, orientés vers une fin et tirent leur pertinence d’un contexte d’interaction. Les sciences de la cognition dominées par le courant logico-statistique étaient incapables de rendre compte des horizons de conscience qui éclairent l’intelligence. Dreyfus avait sans doute raison, mais sa critique ne portait pas assez loin, car ce n’était pas seulement la phénoménologie qui était ignorée. L’intelligence artificielle (IA) n’intégrait pas non plus dans la cognition qu’elle prétendait modéliser la complexité des systèmes symboliques et de la communication humaine, ni les médias qui la soutiennent, ni les tensions pragmatiques ou les relations sociales qui l’animent. A cet égard, nous vivons aujourd’hui dans une situation paradoxale puisque l’IA connaît un succès pratique impressionnant au moment même où son échec théorique devient patent.

Succès pratique, en effet, puisqu’éclate partout l’utilité des algorithmes statistiques, de l’apprentissage automatique, des simulations d’intelligence collective animale, des réseaux neuronaux et d’autres systèmes de reconnaissance de formes. Le traitement automatique du langage naturel n’a jamais été aussi populaire, comme en témoigne par exemple l’usage de Google translate. Le Web des données promu par le WWW consortium (dirigé par Sir Tim Berners-Lee). utilise le même type de règles logiques que les systèmes experts des années 1980. Enfin, les algorithmes de computation sociale mis en oeuvre par les moteurs de recherche et les médias sociaux montrent chaque jour leur efficacité.

Mais il faut bien constater l’échec théorique de l’IA puisque, malgré la multitude des outils algorithmiques disponibles, l’intelligence artificielle ne peut toujours pas exhiber de modèle convaincant de la cognition. La discipline a prudemment renoncé à simuler l’intelligence dans son intégralité. Il est clair pour tout chercheur en sciences humaines ayant quelque peu pratiqué la transdisciplinarité que, du fait de sa complexité foisonnante, l’objet des sciences humaines (l’esprit, la pensée, l’intelligence, la culture, la société) ne peut être pris en compte dans son intégralité par aucune des théories computationnelles de la cognition actuellement disponible. C’est pourquoi l’intelligence artificielle se contente dans les faits de fournir une boîte à outils hétéroclite (règles logiques, syntaxes formelles, méthodes statistiques, simulations neuronales ou socio-biologiques…) qui n’offrent pas de solution générale au problème d’une modélisation mathématique de la cognition humaine.

Cependant, les chercheurs en intelligence artificielle ont beau jeu de répondre à leurs critiques issus des sciences humaines : "Vous prétendez que nos algorithmes échouent à rendre compte de la complexité de la cognition humaine, mais vous ne nous en proposez vous-mêmes aucun pour remédier au problème. Vous vous contentez de pointer du doigt vers une multitude de disciplines, plus complexes les unes que les autres (philosophie, psychologie, linguistique, sociologie, histoire, géographie, littérature, communication…), qui n’ont pas de métalangage commun et n’ont pas formalisé leurs objets ! Comment voulez-vous que nous nous retrouvions dans ce bric-à-brac ?" Et cette interpellation est tout aussi sensée que la critique à laquelle elle répond.

Synthèse de l’intelligence artificielle et des sciences humaines

Ce que j’ai appris de Hubert Dreyfus lors de ce colloque de 1987 où je l’ai rencontré, ce n’était pas tant que la phénoménologie serait la clé de tous les problèmes d’une modélisation scientifique de l’esprit (Husserl, le père de la phénoménologie, pensait d’ailleurs que la phénoménologie – une sorte de méta-science de la conscience – était impossible à mathématiser et qu’elle représentait même le non-mathématisable par exellence, l’autre de la science mathématique de la nature), mais plutôt que l’intelligence artificielle avait tort de chercher cette clé dans la seule zone éclairée par le réverbère de l’arithmétique, de la logique et des neurones formels… et que les philosophes, herméneutes et spécialistes de la complexité du sens devaient participer activement à la recherche plutôt que de se contenter de critiquer. Pour trouver la clé, il fallait élargir le regard, fouiller et creuser dans l’ensemble du champ des sciences humaines, aussi opaque au calcul qu’il semble à première vue. Nous devions disposer d’un outil à traiter le sens, la signification, la sémantique en général, sur un mode computationnel. Une fois éclairé par le calcul le champ immense des relations sémantiques, une science de la cognition digne de ce nom pourrait voir le jour. En effet, pour peu qu’un outil symbolique nous assure du calcul des relations entre signifiés, alors il devient possible de calculer les relations sémantiques entre les concepts, entre les idées et entre les intelligences. Mû par ces considérations, j’ai développé la théorie sémantique de la cognition et le métalangage IEML : de leur union résulte la sémantique computationnelle.

Les spécialistes du sens, de la culture et de la pensée se sentent démunis face à la boîte à outils hétérogène de l’intelligence artificielle : ils n’y reconnaissent nulle part de quoi traiter la complexité contextuelle de la signification. C’est pourquoi la sémantique computationnelle leur propose de manipuler les outils algorithmiques de manière cohérente à partir de la sémantique des langues naturelles. Les ingénieurs s’égarent face à la multitude bigarrée, au flou artistique et à l’absence d’interopérabilité conceptuelle des sciences humaines. Remédiant à ce problème, la sémantique computationnelle leur donne prise sur les outils et les concepts foisonnants des insaisissables sciences humaines. En somme, le grand projet de la sémantique computationnelle consiste à construire un pont entre l’ingénierie logicielle et les sciences humaines de telle sorte que ces dernières puissent utiliser à leur service la puissance computationnelle de l’informatique et que celle-ci parvienne à intégrer la finesse herméneutique et la complexité contextuelle des sciences humaines. Mais une intelligence artificielle grande ouverte aux sciences humaines et capable de calculer la complexité du sens ne serait justement plus l’intelligence artificielle que nous connaissons aujourd’hui. Quant à des sciences humaines qui se doteraient d’un métalangage calculable, qui mobiliseraient l’intelligence collective et qui maîtriseraient enfin le médium algorithmique, elles ne ressembleraient plus aux sciences humaines que nous connaissons depuis le XVIIIe siècle : nous aurions franchi le seuil d’une nouvelle épistémè.

Auteur: Lévy Pierre

Info: https://pierrelevyblog.com/2014/10/08/intelligence-artificielle-et-sciences-humaines/

[ mathématification idiomatique ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

homme-machine

Chat GPT ou le perroquet grammairien

L’irruption des IA conversationnelles dans la sphère publique a conféré une pertinence supplémentaire aux débats sur le langage humain et sur ce qu’on appelle parler. Notamment, les IA redonnent naissance à un débat ancien sur la grammaire générative et sur l’innéisme des facultés langagières. Mais les grands modèles de langage et les IA neuronales nous offrent peut-être l’occasion d’étendre le domaine de la réflexion sur l’architecture des systèmes possibles de cognition, de communication et d’interaction, et considérant aussi la façon dont les animaux communiquent.

a capacité de ChatGPT à produire des textes en réponse à n’importe quelle requête a immédiatement attiré l’attention plus ou moins inquiète d’un grand nombre de personnes, les unes animées par une force de curiosité ou de fascination, et les autres, par un intérêt professionnel.

L’intérêt professionnel scientifique que les spécialistes du langage humain peuvent trouver aux Large Language Models ne date pas d’hier : à bien des égards, des outils de traduction automatique comme DeepL posaient déjà des questions fondamentales en des termes assez proches. Mais l’irruption des IA conversationnelles dans la sphère publique a conféré une pertinence supplémentaire aux débats sur ce que les Large Language Models sont susceptibles de nous dire sur le langage humain et sur ce qu’on appelle parler.

L’outil de traduction DeepL (ou les versions récentes de Google Translate) ainsi que les grands modèles de langage reposent sur des techniques d’" apprentissage profond " issues de l’approche " neuronale " de l’Intelligence Artificielle : on travaille ici sur des modèles d’IA qui organisent des entités d’information minimales en les connectant par réseaux ; ces réseaux de connexion sont entraînés sur des jeux de données considérables, permettant aux liaisons " neuronales " de se renforcer en proportion des probabilités de connexion observées dans le jeu de données réelles – c’est ce rôle crucial de l’entraînement sur un grand jeu de données qui vaut aux grands modèles de langage le sobriquet de " perroquets stochastiques ". Ces mécanismes probabilistes sont ce qui permet aussi à l’IA de gagner en fiabilité et en précision au fil de l’usage. Ce modèle est qualifié de " neuronal " car initialement inspiré du fonctionnement des réseaux synaptiques. Dans le cas de données langagières, à partir d’une requête elle-même formulée en langue naturelle, cette technique permet aux agents conversationnels ou aux traducteurs neuronaux de produire très rapidement des textes généralement idiomatiques, qui pour des humains attesteraient d’un bon apprentissage de la langue.

IA neuronales et acquisition du langage humain

Au-delà de l’analogie " neuronale ", ce mécanisme d’entraînement et les résultats qu’il produit reproduisent les théories de l’acquisition du langage fondées sur l’interaction avec le milieu. Selon ces modèles, généralement qualifiés de comportementalistes ou behavioristes car étroitement associés aux théories psychologiques du même nom, l’enfant acquiert le langage par l’exposition aux stimuli linguistiques environnants et par l’interaction (d’abord tâtonnante, puis assurée) avec les autres. Progressivement, la prononciation s’aligne sur la norme majoritaire dans l’environnement individuel de la personne apprenante ; le vocabulaire s’élargit en fonction des stimuli ; l’enfant s’approprie des structures grammaticales de plus en plus contextes ; et en milieu bilingue, les enfants apprennent peu à peu à discriminer les deux ou plusieurs systèmes auxquels ils sont exposés. Cette conception essentiellement probabiliste de l’acquisition va assez spontanément de pair avec des théories grammaticales prenant comme point de départ l’existence de patrons (" constructions ") dont la combinatoire constitue le système. Dans une telle perspective, il n’est pas pertinent qu’un outil comme ChatGPT ne soit pas capable de référer, ou plus exactement qu’il renvoie d’office à un monde possible stochastiquement moyen qui ne coïncide pas forcément avec le monde réel. Cela ne change rien au fait que ChatGPT, DeepL ou autres maîtrisent le langage et que leur production dans une langue puisse être qualifiée de langage : ChatGPT parle.

Mais ce point de vue repose en réalité sur un certain nombre de prémisses en théorie de l’acquisition, et fait intervenir un clivage lancinant au sein des sciences du langage. L’actualité de ces dernières années et surtout de ces derniers mois autour des IA neuronales et génératives redonne à ce clivage une acuité particulière, ainsi qu’une pertinence nouvelle pour l’appréhension de ces outils qui transforment notre rapport au texte et au discours. La polémique, comme souvent (trop souvent ?) quand il est question de théorie du langage et des langues, se cristallise – en partie abusivement – autour de la figure de Noam Chomsky et de la famille de pensée linguistique très hétérogène qui se revendique de son œuvre, généralement qualifiée de " grammaire générative " même si le pluriel (les grammaires génératives) serait plus approprié.

IA générative contre grammaire générative

Chomsky est à la fois l’enfant du structuralisme dans sa variante états-unienne et celui de la philosophie logique rationaliste d’inspiration allemande et autrichienne implantée sur les campus américains après 1933. Chomsky est attaché à une conception forte de la logique mathématisée, perçue comme un outil d’appréhension des lois universelles de la pensée humaine, que la science du langage doit contribuer à éclairer. Ce parti-pris que Chomsky qualifiera lui-même de " cartésien " le conduit à fonder sa linguistique sur quelques postulats psychologiques et philosophiques, dont le plus important est l’innéisme, avec son corollaire, l’universalisme. Selon Chomsky et les courants de la psychologie cognitive influencée par lui, la faculté de langage s’appuie sur un substrat génétique commun à toute l’espèce humaine, qui s’exprime à la fois par un " instinct de langage " mais aussi par l’existence d’invariants grammaticaux, identifiables (via un certain niveau d’abstraction) dans toutes les langues du monde.

La nature de ces universaux fluctue énormément selon quelle période et quelle école du " générativisme " on étudie, et ce double postulat radicalement innéiste et universaliste reste très disputé aujourd’hui. Ces controverses mettent notamment en jeu des conceptions très différentes de l’acquisition du langage et des langues. Le moment fondateur de la théorie chomskyste de l’acquisition dans son lien avec la définition même de la faculté de langage est un violent compte-rendu critique de Verbal Behavior, un ouvrage de synthèse des théories comportementalistes en acquisition du langage signé par le psychologue B.F. Skinner. Dans ce compte-rendu publié en 1959, Chomsky élabore des arguments qui restent structurants jusqu’à aujourd’hui et qui définissent le clivage entre l’innéisme radical et des théories fondées sur l’acquisition progressive du langage par exposition à des stimuli environnementaux. C’est ce clivage qui préside aux polémiques entre linguistes et psycholinguistes confrontés aux Large Language Models.

On comprend dès lors que Noam Chomsky et deux collègues issus de la tradition générativiste, Ian Roberts, professeur de linguistique à Cambridge, et Jeffrey Watumull, chercheur en intelligence artificielle, soient intervenus dans le New York Times dès le 8 mars 2023 pour exposer un point de vue extrêmement critique intitulée " La fausse promesse de ChatGPT ". En laissant ici de côté les arguments éthiques utilisés dans leur tribune, on retiendra surtout l’affirmation selon laquelle la production de ChatGPT en langue naturelle ne pourrait pas être qualifiée de " langage " ; ChatGPT, selon eux, ne parle pas, car ChatGPT ne peut pas avoir acquis la faculté de langage. La raison en est simple : si les Grands Modèles de Langage reposent intégralement sur un modèle behaviouriste de l’acquisition, dès lors que ce modèle, selon eux, est réfuté depuis soixante ans, alors ce que font les Grands Modèles de Langage ne peut être qualifié de " langage ".

Chomsky, trop têtu pour qu’on lui parle ?

Le point de vue de Chomsky, Roberts et Watumull a été instantanément tourné en ridicule du fait d’un choix d’exemple particulièrement malheureux : les trois auteurs avançaient en effet que certaines constructions syntaxiques complexes, impliquant (dans le cadre générativiste, du moins) un certain nombre d’opérations sur plusieurs niveaux, ne peuvent être acquises sur la base de l’exposition à des stimuli environnementaux, car la fréquence relativement faible de ces phénomènes échouerait à contrebalancer des analogies formelles superficielles avec d’autres tournures au sens radicalement différent. Dans la tribune au New York Times, l’exemple pris est l’anglais John is too stubborn to talk to, " John est trop entêté pour qu’on lui parle ", mais en anglais on a littéralement " trop têtu pour parler à " ; la préposition isolée (ou " échouée ") en position finale est le signe qu’un constituant a été supprimé et doit être reconstitué aux vues de la structure syntaxique d’ensemble. Ici, " John est trop têtu pour qu’on parle à [John] " : le complément supprimé en anglais l’a été parce qu’il est identique au sujet de la phrase.

Ce type d’opérations impliquant la reconstruction d’un complément d’objet supprimé car identique au sujet du verbe principal revient dans la plupart des articles de polémique de Chomsky contre la psychologie behaviouriste et contre Skinner dans les années 1950 et 1960. On retrouve même l’exemple exact de 2023 dans un texte du début des années 1980. C’est en réalité un exemple-type au service de l’argument selon lequel l’existence d’opérations minimales universelles prévues par les mécanismes cérébraux humains est nécessaire pour l’acquisition complète du langage. Il a presque valeur de shibboleth permettant de séparer les innéistes et les comportementalistes. Il est donc logique que Chomsky, Roberts et Watumull avancent un tel exemple pour énoncer que le modèle probabiliste de l’IA neuronale est voué à échouer à acquérir complètement le langage.

On l’aura deviné : il suffit de demander à ChatGPT de paraphraser cette phrase pour obtenir un résultat suggérant que l’agent conversationnel a parfaitement " compris " le stimulus. DeepL, quand on lui demande de traduire cette phrase en français, donne deux solutions : " John est trop têtu pour qu’on lui parle " en solution préférée et " John est trop têtu pour parler avec lui " en solution de remplacement. Hors contexte, donc sans qu’on sache qui est " lui ", cette seconde solution n’est guère satisfaisante. La première, en revanche, fait totalement l’affaire.

Le détour par DeepL nous montre toutefois la limite de ce petit test qui a pourtant réfuté Chomsky, Roberts et Watumull : comprendre, ici, ne veut rien dire d’autre que " fournir une paraphrase équivalente ", dans la même langue (dans le cas de l’objection qui a immédiatement été faite aux trois auteurs) ou dans une autre (avec DeepL), le problème étant que les deux équivalents fournis par DeepL ne sont justement pas équivalents entre eux, puisque l’un est non-ambigu référentiellement et correct, tandis que l’autre est potentiellement ambigu référentiellement, selon comment on comprend " lui ". Or l’argument de Chomsky, Roberts et Watumull est justement celui de l’opacité du complément d’objet… Les trois auteurs ont bien sûr été pris à défaut ; reste que le test employé, précisément parce qu’il est typiquement behaviouriste (observer extérieurement l’adéquation d’une réaction à un stimulus), laisse ouverte une question de taille et pourtant peu présente dans les discussions entre linguistes : y a-t-il une sémantique des énoncés produits par ChatGPT, et si oui, laquelle ? Chomsky et ses co-auteurs ne disent pas que ChatGPT " comprend " ou " ne comprend pas " le stimulus, mais qu’il en " prédit le sens " (bien ou mal). La question de la référence, présente dans la discussion philosophique sur ChatGPT mais peu mise en avant dans le débat linguistique, n’est pas si loin.

Syntaxe et sémantique de ChatGPT

ChatGPT a une syntaxe et une sémantique : sa syntaxe est homologue aux modèles proposés pour le langage naturel invoquant des patrons formels quantitativement observables. Dans ce champ des " grammaires de construction ", le recours aux données quantitatives est aujourd’hui standard, en particulier en utilisant les ressources fournies par les " grand corpus " de plusieurs dizaines de millions voire milliards de mots (quinze milliards de mots pour le corpus TenTen francophone, cinquante-deux milliards pour son équivalent anglophone). D’un certain point de vue, ChatGPT ne fait que répéter la démarche des modèles constructionalistes les plus radicaux, qui partent de co-occurrences statistiques dans les grands corpus pour isoler des patrons, et il la reproduit en sens inverse, en produisant des données à partir de ces patrons.

Corrélativement, ChatGPT a aussi une sémantique, puisque ces théories de la syntaxe sont majoritairement adossées à des modèles sémantiques dits " des cadres " (frame semantics), dont l’un des inspirateurs n’est autre que Marvin Minsky, pionnier de l’intelligence artificielle s’il en est : la circulation entre linguistique et intelligence artificielle s’inscrit donc sur le temps long et n’est pas unilatérale. Là encore, la question est plutôt celle de la référence : la sémantique en question est très largement notionnelle et ne permet de construire un énoncé susceptible d’être vrai ou faux qu’en l’actualisant par des opérations de repérage (ne serait-ce que temporel) impliquant de saturer grammaticalement ou contextuellement un certain nombre de variables " déictiques ", c’est-à-dire qui ne se chargent de sens que mises en relation à un moi-ici-maintenant dans le discours.

On touche ici à un problème transversal aux clivages dessinés précédemment : les modèles " constructionnalistes " sont plus enclins à ménager des places à la variation contextuelle, mais sous la forme de variables situationnelles dont l’intégration à la description ne fait pas consensus ; les grammaires génératives ont très longtemps évacué ces questions hors de leur sphère d’intérêt, mais les considérations pragmatiques y fleurissent depuis une vingtaine d’années, au prix d’une convocation croissante du moi-ici-maintenant dans l’analyse grammaticale, du moins dans certains courants. De ce fait, l’inscription ou non des enjeux référentiels et déictiques dans la définition même du langage comme faculté humaine représente un clivage en grande partie indépendant de celui qui prévaut en matière de théorie de l’acquisition.

À l’école du perroquet

La bonne question, en tout cas la plus féconde pour la comparaison entre les productions langagières humaines et les productions des grands modèles de langage, n’est sans doute pas de savoir si " ChatGPT parle " ni si les performances de l’IA neuronale valident ou invalident en bloc tel ou tel cadre théorique. Une piste plus intéressante, du point de vue de l’étude de la cognition et du langage humains, consiste à comparer ces productions sur plusieurs niveaux : les mécanismes d’acquisition ; les régularités sémantiques dans leur diversité, sans les réduire aux questions de référence et faisant par exemple intervenir la conceptualisation métaphorique des entités et situations désignées ; la capacité à naviguer entre les registres et les variétés d’une même langue, qui fait partie intégrante de la maîtrise d’un système ; l’adaptation à des ontologies spécifiques ou à des contraintes communicatives circonstancielles… La formule du " perroquet stochastique ", prise au pied de la lettre, indique un modèle de ce que peut être une comparaison scientifique du langage des IA et du langage humain.

Il existe en effet depuis plusieurs décennies maintenant une linguistique, une psycholinguistique et une pragmatique de la communication animale, qui inclut des recherches comparant l’humain et l’animal. Les progrès de l’étude de la communication animale ont permis d’affiner la compréhension de la faculté de langage, des modules qui la composent, de ses prérequis cognitifs et physiologiques. Ces travaux ne nous disent pas si " les animaux parlent ", pas plus qu’ils ne nous disent si la communication des corbeaux est plus proche de celle des humains que celle des perroquets. En revanche ils nous disent comment diverses caractéristiques éthologiques, génétiques et cognitives sont distribuées entre espèces et comment leur agencement produit des modes de communication spécifiques. Ces travaux nous renseignent, en nous offrant un terrain d’expérimentation inédit, sur ce qui fait toujours système et sur ce qui peut être disjoint dans la faculté de langage. Loin des " fausses promesses ", les grands modèles de langage et les IA neuronales nous offrent peut-être l’occasion d’étendre le domaine de la réflexion sur l’architecture des systèmes possibles de cognition, de communication et d’interaction.

Auteur: Modicom Pierre-Yves

Info: https://aoc.media/ 14 nov 2023

[ onomasiologie bayésienne ] [ sémiose homme-animal ] [ machine-homme ] [ tiercités hors-sol ] [ signes fixés externalisables ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

Paramètres de recherches