Les fils de la pensée

heuristique

Le mot grec κυβερνήτης* est le nom de celui qui tient les commandes. Le monde scientifique devient monde cybernétique. Le projet cybernétique du monde suppose, dans sa saisie préalable, que la caractéristique fondamentale de tous les processus calculables du monde soit la commande. La commande d’un processus par un autre est rendue possible par la transmission d’une information. Dans la mesure où le processus commandé renvoie des messages à celui qui le commande et ainsi l’informe, la commande a le caractère de la rétroaction des informations.

Auteur: Heidegger Martin

Info: La provenance de l’art et la destination de la pensée. Dans M. Haar (dir.), (pp 84-93). Paris : Éditions de l’Herne, "Cahiers de l’Herne" 1983 *gouverner, piloter

[ essai-erreur ] [ tâtonnement ] [ lamanage ] [ communication ] [ observateur position dominante ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

empirisme

Il était acquis de longue date que les coutumes de la cité se transmettaient d’une génération à l’autre, non par l’enseignement classique, mais par une méthode heuristique. Tout apprenti aurait davantage conscience de la valeur des traditions des guildes en comprenant de lui-même les réalités de l’existence sur lesquelles elles se fondaient qu’en subissant une formation théorique. En pratique, cela voulait dire que j’avais à découvrir seul pourquoi les hommes venaient travailler aux voies, quelles autres tâches ils exécutaient et en définitive, tout ce qui concernait la survie de la ville.

Auteur: Priest Christopher

Info: Le monde inverti

[ pragmatisme ] [ éducation ]

Commenter

Commentaires: 0

heuristique

"Tout processus intelligent réalisé mécaniquement comprendra des ingrédients structurels dont a) nous considérerons, en tant qu’observateurs externes, qu’ils représentent un compte rendu propositionnel des connaissances exhibées par ce processus et b) qui, indépendamment d’une telle attribution, jouent un rôle non seulement formel, mais aussi causal et essentiel dans l’engendrement du comportement qui rend ces connaissances manifestes."

(...)

"Dans la mesure où un processus computationnel peut être construit pour raisonner à propos du monde externe en vertu du fait qu’il possède un composant processuel (l’interprète) qui manipule formellement les représentations dudit monde, de même, un processus computationnel pourrait être conçu avec, pour finalité, de raisonner à propos de lui-même, et ce à condition d’être équipé d’un composant processuel (un interprète) qui manipulerait formellement les représentations de ses propres opérations et structures".

Auteur: Cantwell Smith Brian

Info: B.C.Smith, Procedural Reflection in Programming Languages, thèse, Massachusetts Institute of Technology, 1982. pp 15 et 17- Trad. Alexandre Monnin

[ tâtonnement ] [ rétroaction ] [ homme-machine ] [ auto-programmation ] [ secondéité cybernétique ] [ modèle humain ] [ système réflexif ] [ autocritique ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

informatique

Il n'y a pas d'approche meilleure que les autres pour ce qui est de représenter la connaissance, ou résoudre des problèmes, et autres limitations de l'intelligence artificielle actuelle, car tout ça provient pour bonne partie de la quête de "théories unifiées", ou alors des tentatives de réparations-corrections des déficiences de positions idéologiques théoriquement soignées, mais qui conceptuellement s'appauvrissent. Nos réseaux connexionnistes purement numériques sont par essence déficients en termes de capacité à raisonner correctement ; nos systèmes logiques purement symboliques sont intrinsèquement déficients en termes de capacité à représenter les "connexions heuristiques" les plus importantes entre les choses - ces liens incertains, approximatifs et analogiques dont nous avons besoin pour formuler de nouvelles hypothèses. La polyvalence dont nous avons besoin ne peut être trouvée que dans des architectures à plus grande échelle, qui peuvent exploiter et gérer les avantages de plusieurs types de représentations en même temps. Chacune peut alors être utilisée pour surmonter les déficiences des autres.

Auteur: Minsky Marvin

Info: Logical vs Analogical or Symbolic vs. Connectionist or Neat vs. Scruffy

[ gradients d'apprentissage ] [ limitation ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

sémantique automatique

Les sceptiques n’en peuvent mais.

L’intelligence artificielle des textes, dont la réalisation la plus connue est chat GPT, a envahi avec succès nos vies et nos laboratoires.

Cependant, la machine n’a ni intelligence ni éthique. Les avatextes qu’elle produit ne sont pas fondés sur un prédicat de vérité et ne sauraient se revendiquer ni du bien, ni du beau, ni du mal. De plus, en l’absence d’intention de la machine, autre que la stochastique, le lecteur ne saurait engager un parcours interprétatif classique sur les contrefaçons textuelles générées ; et non créés.

Nos questionnements portent sur la compréhension du mode de fonctionnement des IA, condition pour évaluer les plus-values heuristiques que les traitement deep learning peuvent avoir dans l’analyse des corpus textuels : l’interprétabilité/explicabilité des modèles est la question essentielle et préalable à tout usage scientifique (vs. commercial) de l'IA. En d’autres termes, l’IA, plus que tout autre traitement automatique, " suppose une herméneutique des sorties logicielles " (F. Rastier, La mesure et le grain, Champion, 2011 : 43).

Nous plaiderons que les modèles convolutionnels (CNN) ont le pouvoir de rendre compte de l'axe syntagmatique, c'est-à-dire qu'ils exhibent les combinaisons saillantes sur la chaine des textes. Tandis que les modèles transformers ont le pouvoir de rendre compte de l’axe paradigmatique, c’est-à-dire qu’ils identifient les sélections ou les " rapports associatifs " (Le Cours, Chapitre V, pp. 170-175 de l'éd 1972) des textes en corpus. Dans les deux cas, et de manière fermement complémentaire, c’est à un effort de co(n)textualisation que nous appelons – le mot en relation syntagmatique avec son co-texte immédiat, le mot en association avec ses coreligionnaires du paradigme en mémoire ou en corpus – pour une sémantique non pas formelle mais une sémantique de corpus.

Auteur: Mayaffre Damon

Info: Descriptions idiolectales et Intelligence artificielle. Que nous dit le deep learning sur les textes ? Résumé introductif de son intervention

[ homme-machine ] [ onomasiologie mécanique ] [ signifiants vectorisés ] [ pensée hors-sol ] [ ouverture ] [ méta-contextualisation ] [ interrogation ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

homme-machine

Elisa Vianello, chercheuse au CEA et coordinatrice du programme Edge AI, a reçu une subvention de 3 millions d'euros du Conseil européen de la recherche (ERC) dans le but de développer des dispositifs de mémoire sur silicium à l'échelle nanométrique inspirés du système nerveux des insectes. Un des objectifs de ce projet ambitieux est la mise au point de la toute première puce intelligente associée à un module neuronal local capable de traiter les données sensorielles en temps réel. Cette innovation trouve des applications dans la robotique grand public, les puces implantables pour le diagnostic médical et l'électronique portable.

La communauté de l'intelligence artificielle (IA) a récemment proposé de puissants algorithmes qui devraient permettre aux machines d'apprendre par l'expérience et d'interagir de manière autonome avec leur environnement.

Toutefois, pour concrétiser cette ambition, des nanosystèmes dotés d'architectures de pointe de moins en moins énergivores, et dont la mémoire devra être à très haute densité, à haute résolution et dotée d’une endurance illimitée, doivent être mis en place. Si cette capacité n'existe pas encore aujourd'hui, le projet d’Elisa Vianello pourrait en ouvrir la voie : elle a découvert que différentes fonctions du système nerveux de l'insecte ressemblent étroitement aux fonctions assurées par les mémoires déterministes, probabilistes, volatiles et non volatiles.

"Comme la mémoire idéale n'existe pas aujourd'hui, le projet vise à construire une synapse hybride qui intègre différentes technologies de mémoire." Elle précise pour ce faire, s’être appuyée sur les grillons qui pour échapper à leurs prédateurs, "prennent des décisions justes à partir de données peu fiables, imprécises et lentes envoyées par leurs neurones et synapses. En examinant de près leur structure biologique, nous avons identifié une diversité de fonctions de type mémoire impliquées dans leurs systèmes sensoriels et nerveux. En combinant ces différentes fonctions, le système de traitement interne du criquet parvient à atteindre des performances remarquables et efficaces energétiquement."

Elisa et son équipe fabriqueront des réseaux de dispositifs de mémoires physiques à l'échelle nanométrique avec l’objectif de traduire les principes biologiques des insectes en principes physiques. Ceci permettra l’apprentissage à partir d'un volume très limité de données bruitées, telles que les données mesurées en temps réel par différents capteurs (caméras, radars, capteurs cardiaques (ECG), capteurs musculaires (EMG), flux de bio-impédance et potentiellement aussi de signaux cérébraux par le biais de capteurs EEG et de sondes neuronales).

"Les travaux d'Elisa permettront d’ouvrir de nouvelles perspectives de recherche vers des projets d’intelligence embarquée moins énergivore et capable d'apprendre en ligne", a déclaré Jean-René Lequepeys, directeur adjoint et technique du CEA-Leti, laboratoire duquel dépend Elisa Vianello. "Il s'agit d'une véritable rupture technologique et applicative qui combinera les derniers développements de la microélectronique en utilisant de nouvelles générations de mémoires non volatiles et en s'inspirant du monde vivant. Ce travail de recherche s'inscrit pleinement dans les priorités de l'institut et ouvrira de belles perspectives de premières mondiales et de commercialisation."

Auteur: Internet

Info: Sur http:wwwcea. Fr, Mars 2022. Elle obtient une bourse pour développer des mémoires à l'échelle nanométrique inspirées du système nerveux des insectes

[ épigénétique ] [ logique floue ] [ homme-animal ] [ heuristique ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

ésotérisme

La sémiotique est le domaine des signes et des sens. La sémantique est le domaine de la signification ou du Sens. Le modèle de structure sphérique absolue d’Abellio (SAS) a une valeur heuristique considérable. C’est un invariant universel à tous les niveaux de réalité, C’est plus qu’un hologramme, c’est un holon.

Le modèle de Structure Absolue Sphérique (SAS) qui illustre la logique de double contradiction croisée d’Abellio est intrinsèque à la Réalité dans tous ses aspects. La résonance sémantique vasculaire montre que cette SAS joue comme un oscillateur harmonique du niveau physique le plus fondamental jusqu’au niveau psychologique le plus subtil.

Le corps humain est l’instrument le plus complexe de notre univers. Il peut donc détecter des phénomènes et des événements non détectables par les technologies les plus complexes utilisées actuellement. Il détecte les phénomènes et les noumènes. - En tant qu’hologramme de l’univers il entre en résonance avec tous les phénomènes matériels de cet univers. - En tant qu’holon il entre en résonance avec ce qui est matière et antimatière, avec ce qui est espace et temps, avec ce qui est local et non local. - Autrement dit le plus complexe peut mesurer le moins complexe alors que le moins complexe ne peut mesurer le plus complexe.

Le corps humain qui est de l’ordre du fini ou local peut aussi entrer en résonance avec l’infini ou non local, ce qui suggère que l’homme est la mesure de tout, du Tout et du Non Tout, de l’Être et du Non Être. Cette structuration dynamique sphérique du corps humain corroborée par la résonance sémantique vasculaire permet de détecter des phénomènes au niveau quantique ou énergétique, au niveau subquantique ou spirituel, au niveau métaquantique ou divin. Chaque processus a un spectrogramme ou code-barres spécifique.

Le corps humain détecte non seulement les phénomènes mais aussi les noumènes. Sa structure complexe entre en résonance avec l’esprit et le divin qui est le centre de chaque atome. Le métabolisme de l’ontogénèse récapitule celui de la cosmogénèse et de la théogénèse. La résonance sémantique vasculaire détecte non seulement les états stationnaires ou stases mais aussi les transitions entre stases ou ek-stases selon la terminologie d’Abellio. On voit ainsi que la "substantiation" ou passage du Néant au métaquantique est le lieu de la différentiation entre local et non local. Le passage du métaquantique au subquantique est le lieu de la différentiation entre espace et temps. Le passage du subquantique au quantique est le lieu de la différentiation entre matière et antimatière.

La conjugaison de phase entre matière et antimatière constitue l’Intersubjectivité ou Nous transcendantal dont le code-barres est équivalent vibratoire de Bande de Moebius. On a eu la surprise de voir qu’à l’autre extrémité de ce métabolisme énergétique, au niveau de la transsubstantiation ou Néant, l’intensification ou inversion 2π de ce Néant redonnait L’intersubjectivité qui est équivalent vibratoire de la Présence ou la Grâce des chrétiens.

On est donc bordé par la Présence des deux bords. On peut l’aborder par le Néant ou par la Matière. Chaque abordage est une intensification ou inversion d’inversion de l’étape précédente. En résumé, la SAS par son plan équatorial exprime le plan sémiotique, énergétique ou quantique. L’axe vertical de la SAS exprime le plan sémantique ou subquantique. Le centre de la SAS exprime le plan métaquantique ou divin. L’inversion d’inversion du Centre de la SAS ou Divin donne le Néant ou Ain-Soph ou Urgrund ou Déité de Dieu où le Centre est partout et la circonférence nulle part. Une inversion d’inversion du Néant redonne l’Intersubjectivité ou Nous transcendantal. Aux plans "mondains" quantique, subquantique et métaquantique de la SAS, la résonance sémantique permet d’ajouter les plans "extra-mondains" néantique et holonique. Le plan holonique réalise la communion entre le mondain et l’extra-mondain. Les corps humains actuels expriment de la difficulté à métaboliser l’ensemble de ces différents plans.

Auteur: Ratte Jean

Info: Rencontres Raymond Abellio 2011 à Seix. Résumé de La Structure Absolue Sphérique (SAS) à tous les niveaux en tant qu’Oscillateur Harmonique.

[ holarchie ] [ anthropocentrisme ] [ bio-sémantique ] [ définition ] [ théorie du tout ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

homme-machine

Les grands modèles de langage tels que ChatGPT sont aujourd'hui suffisamment importants pour commencer à afficher des comportements surprenants et imprévisibles.

Quel film ces emojis décrivent-ils ? (On voit une vidéo qui présente des myriades d'émoji formant des motifs mouvants, modélisés à partir de métadonnées)

Cette question était l'une des 204 tâches choisies l'année dernière pour tester la capacité de divers grands modèles de langage (LLM) - les moteurs de calcul derrière les chatbots d'IA tels que ChatGPT. Les LLM les plus simples ont produit des réponses surréalistes. "Le film est un film sur un homme qui est un homme qui est un homme", commençait l'un d'entre eux. Les modèles de complexité moyenne s'en sont approchés, devinant The Emoji Movie. Mais le modèle le plus complexe l'a emporté en une seule réponse : Finding Nemo.

"Bien que j'essaie de m'attendre à des surprises, je suis surpris par ce que ces modèles peuvent faire", a déclaré Ethan Dyer, informaticien chez Google Research, qui a participé à l'organisation du test. C'est surprenant parce que ces modèles sont censés n'avoir qu'une seule directive : accepter une chaîne de texte en entrée et prédire ce qui va suivre, encore et encore, en se basant uniquement sur des statistiques. Les informaticiens s'attendaient à ce que le passage à l'échelle permette d'améliorer les performances sur des tâches connues, mais ils ne s'attendaient pas à ce que les modèles puissent soudainement gérer autant de tâches nouvelles et imprévisibles.

Des études récentes, comme celle à laquelle a participé M. Dyer, ont révélé que les LLM peuvent produire des centaines de capacités "émergentes", c'est-à-dire des tâches que les grands modèles peuvent accomplir et que les petits modèles ne peuvent pas réaliser, et dont beaucoup ne semblent pas avoir grand-chose à voir avec l'analyse d'un texte. Ces tâches vont de la multiplication à la génération d'un code informatique exécutable et, apparemment, au décodage de films à partir d'emojis. De nouvelles analyses suggèrent que pour certaines tâches et certains modèles, il existe un seuil de complexité au-delà duquel la fonctionnalité du modèle monte en flèche. (Elles suggèrent également un sombre revers de la médaille : À mesure qu'ils gagnent en complexité, certains modèles révèlent de nouveaux biais et inexactitudes dans leurs réponses).

"Le fait que les modèles de langage puissent faire ce genre de choses n'a jamais été abordé dans la littérature à ma connaissance", a déclaré Rishi Bommasani, informaticien à l'université de Stanford. L'année dernière, il a participé à la compilation d'une liste de dizaines de comportements émergents, dont plusieurs ont été identifiés dans le cadre du projet de M. Dyer. Cette liste continue de s'allonger.

Aujourd'hui, les chercheurs s'efforcent non seulement d'identifier d'autres capacités émergentes, mais aussi de comprendre pourquoi et comment elles se manifestent - en somme, d'essayer de prédire l'imprévisibilité. La compréhension de l'émergence pourrait apporter des réponses à des questions profondes concernant l'IA et l'apprentissage automatique en général, comme celle de savoir si les modèles complexes font vraiment quelque chose de nouveau ou s'ils deviennent simplement très bons en statistiques. Elle pourrait également aider les chercheurs à exploiter les avantages potentiels et à limiter les risques liés à l'émergence.

"Nous ne savons pas comment déterminer dans quel type d'application la capacité de nuisance va se manifester, que ce soit en douceur ou de manière imprévisible", a déclaré Deep Ganguli, informaticien à la startup d'IA Anthropic.

L'émergence de l'émergence

Les biologistes, les physiciens, les écologistes et d'autres scientifiques utilisent le terme "émergent" pour décrire l'auto-organisation, les comportements collectifs qui apparaissent lorsqu'un grand nombre d'éléments agissent comme un seul. Des combinaisons d'atomes sans vie donnent naissance à des cellules vivantes ; les molécules d'eau créent des vagues ; des murmurations d'étourneaux s'élancent dans le ciel selon des schémas changeants mais identifiables ; les cellules font bouger les muscles et battre les cœurs. Il est essentiel que les capacités émergentes se manifestent dans les systèmes qui comportent de nombreuses parties individuelles. Mais ce n'est que récemment que les chercheurs ont été en mesure de documenter ces capacités dans les LLM, car ces modèles ont atteint des tailles énormes.

Les modèles de langage existent depuis des décennies. Jusqu'à il y a environ cinq ans, les plus puissants étaient basés sur ce que l'on appelle un réseau neuronal récurrent. Ceux-ci prennent essentiellement une chaîne de texte et prédisent le mot suivant. Ce qui rend un modèle "récurrent", c'est qu'il apprend à partir de ses propres résultats : Ses prédictions sont réinjectées dans le réseau afin d'améliorer les performances futures.

En 2017, les chercheurs de Google Brain ont introduit un nouveau type d'architecture appelé "transformateur". Alors qu'un réseau récurrent analyse une phrase mot par mot, le transformateur traite tous les mots en même temps. Cela signifie que les transformateurs peuvent traiter de grandes quantités de texte en parallèle.

Les transformateurs ont permis d'augmenter rapidement la complexité des modèles de langage en augmentant le nombre de paramètres dans le modèle, ainsi que d'autres facteurs. Les paramètres peuvent être considérés comme des connexions entre les mots, et les modèles s'améliorent en ajustant ces connexions au fur et à mesure qu'ils parcourent le texte pendant l'entraînement. Plus il y a de paramètres dans un modèle, plus il peut établir des connexions avec précision et plus il se rapproche d'une imitation satisfaisante du langage humain. Comme prévu, une analyse réalisée en 2020 par les chercheurs de l'OpenAI a montré que les modèles gagnent en précision et en capacité au fur et à mesure qu'ils s'étendent.

Mais les débuts des LLM ont également apporté quelque chose de vraiment inattendu. Beaucoup de choses. Avec l'avènement de modèles tels que le GPT-3, qui compte 175 milliards de paramètres, ou le PaLM de Google, qui peut être étendu à 540 milliards de paramètres, les utilisateurs ont commencé à décrire de plus en plus de comportements émergents. Un ingénieur de DeepMind a même rapporté avoir pu convaincre ChatGPT qu'il s'était lui-même un terminal Linux et l'avoir amené à exécuter un code mathématique simple pour calculer les 10 premiers nombres premiers. Fait remarquable, il a pu terminer la tâche plus rapidement que le même code exécuté sur une vraie machine Linux.

Comme dans le cas du film emoji, les chercheurs n'avaient aucune raison de penser qu'un modèle de langage conçu pour prédire du texte imiterait de manière convaincante un terminal d'ordinateur. Nombre de ces comportements émergents illustrent l'apprentissage "à zéro coup" ou "à quelques coups", qui décrit la capacité d'un LLM à résoudre des problèmes qu'il n'a jamais - ou rarement - vus auparavant. Selon M. Ganguli, il s'agit là d'un objectif de longue date dans la recherche sur l'intelligence artificielle. Le fait de montrer que le GPT-3 pouvait résoudre des problèmes sans aucune donnée d'entraînement explicite dans un contexte d'apprentissage à zéro coup m'a amené à abandonner ce que je faisais et à m'impliquer davantage", a-t-il déclaré.

Il n'était pas le seul. Une série de chercheurs, qui ont détecté les premiers indices montrant que les LLM pouvaient dépasser les contraintes de leurs données d'apprentissage, s'efforcent de mieux comprendre à quoi ressemble l'émergence et comment elle se produit. La première étape a consisté à documenter minutieusement l'émergence.

Au-delà de l'imitation

En 2020, M. Dyer et d'autres chercheurs de Google Research ont prédit que les LLM auraient des effets transformateurs, mais la nature de ces effets restait une question ouverte. Ils ont donc demandé à la communauté des chercheurs de fournir des exemples de tâches difficiles et variées afin de déterminer les limites extrêmes de ce qu'un LLM pourrait faire. Cet effort a été baptisé "Beyond the Imitation Game Benchmark" (BIG-bench), en référence au nom du "jeu d'imitation" d'Alan Turing, un test visant à déterminer si un ordinateur peut répondre à des questions d'une manière humaine convaincante. (Le groupe s'est particulièrement intéressé aux exemples où les LLM ont soudainement acquis de nouvelles capacités qui étaient totalement absentes auparavant.

"La façon dont nous comprenons ces transitions brutales est une grande question de la echerche", a déclaré M. Dyer.

Comme on pouvait s'y attendre, pour certaines tâches, les performances d'un modèle se sont améliorées de manière régulière et prévisible au fur et à mesure que la complexité augmentait. Pour d'autres tâches, l'augmentation du nombre de paramètres n'a apporté aucune amélioration. Mais pour environ 5 % des tâches, les chercheurs ont constaté ce qu'ils ont appelé des "percées", c'est-à-dire des augmentations rapides et spectaculaires des performances à partir d'un certain seuil d'échelle. Ce seuil variant en fonction de la tâche et du modèle.

Par exemple, les modèles comportant relativement peu de paramètres - quelques millions seulement - n'ont pas réussi à résoudre des problèmes d'addition à trois chiffres ou de multiplication à deux chiffres, mais pour des dizaines de milliards de paramètres, la précision a grimpé en flèche dans certains modèles. Des sauts similaires ont été observés pour d'autres tâches, notamment le décodage de l'alphabet phonétique international, le décodage des lettres d'un mot, l'identification de contenu offensant dans des paragraphes d'hinglish (combinaison d'hindi et d'anglais) et la formulation d'équivalents en langue anglaise, traduit à partir de proverbes kiswahili.

Introduction

Mais les chercheurs se sont rapidement rendu compte que la complexité d'un modèle n'était pas le seul facteur déterminant. Des capacités inattendues pouvaient être obtenues à partir de modèles plus petits avec moins de paramètres - ou formés sur des ensembles de données plus petits - si les données étaient d'une qualité suffisamment élevée. En outre, la formulation d'une requête influe sur la précision de la réponse du modèle. Par exemple, lorsque Dyer et ses collègues ont posé la question de l'emoji de film en utilisant un format à choix multiples, l'amélioration de la précision a été moins soudaine qu'avec une augmentation graduelle de sa complexité. L'année dernière, dans un article présenté à NeurIPS, réunion phare du domaine, des chercheurs de Google Brain ont montré comment un modèle invité à s'expliquer (capacité appelée raisonnement en chaîne) pouvait résoudre correctement un problème de mots mathématiques, alors que le même modèle sans cette invitation progressivement précisée n'y parvenait pas.

Yi Tay, scientifique chez Google Brain qui a travaillé sur l'étude systématique de ces percées, souligne que des travaux récents suggèrent que l'incitation par de pareilles chaînes de pensées modifie les courbes d'échelle et, par conséquent, le point où l'émergence se produit. Dans leur article sur NeurIPS, les chercheurs de Google ont montré que l'utilisation d'invites via pareille chaines de pensée progressives pouvait susciter des comportements émergents qui n'avaient pas été identifiés dans l'étude BIG-bench. De telles invites, qui demandent au modèle d'expliquer son raisonnement, peuvent aider les chercheurs à commencer à étudier les raisons pour lesquelles l'émergence se produit.

Selon Ellie Pavlick, informaticienne à l'université Brown qui étudie les modèles computationnels du langage, les découvertes récentes de ce type suggèrent au moins deux possibilités pour expliquer l'émergence. La première est que, comme le suggèrent les comparaisons avec les systèmes biologiques, les grands modèles acquièrent réellement de nouvelles capacités de manière spontanée. "Il se peut très bien que le modèle apprenne quelque chose de fondamentalement nouveau et différent que lorsqu'il était de taille inférieure", a-t-elle déclaré. "C'est ce que nous espérons tous, qu'il y ait un changement fondamental qui se produise lorsque les modèles sont mis à l'échelle.

L'autre possibilité, moins sensationnelle, est que ce qui semble être émergent pourrait être l'aboutissement d'un processus interne, basé sur les statistiques, qui fonctionne par le biais d'un raisonnement de type chaîne de pensée. Les grands LLM peuvent simplement être en train d'apprendre des heuristiques qui sont hors de portée pour ceux qui ont moins de paramètres ou des données de moindre qualité.

Mais, selon elle, pour déterminer laquelle de ces explications est la plus probable, il faut mieux comprendre le fonctionnement des LLM. "Comme nous ne savons pas comment ils fonctionnent sous le capot, nous ne pouvons pas dire laquelle de ces choses se produit.

Pouvoirs imprévisibles et pièges

Demander à ces modèles de s'expliquer pose un problème évident : Ils sont des menteurs notoires. Nous nous appuyons de plus en plus sur ces modèles pour effectuer des travaux de base", a déclaré M. Ganguli, "mais je ne me contente pas de leur faire confiance, je vérifie leur travail". Parmi les nombreux exemples amusants, Google a présenté en février son chatbot d'IA, Bard. Le billet de blog annonçant le nouvel outil montre Bard en train de commettre une erreur factuelle.

L'émergence mène à l'imprévisibilité, et l'imprévisibilité - qui semble augmenter avec l'échelle - rend difficile pour les chercheurs d'anticiper les conséquences d'une utilisation généralisée.

"Il est difficile de savoir à l'avance comment ces modèles seront utilisés ou déployés", a déclaré M. Ganguli. "Et pour étudier les phénomènes émergents, il faut avoir un cas en tête, et on ne sait pas, avant d'avoir étudié l'influence de l'échelle. quelles capacités ou limitations pourraient apparaître.

Dans une analyse des LLM publiée en juin dernier, les chercheurs d'Anthropic ont cherché à savoir si les modèles présentaient certains types de préjugés raciaux ou sociaux, à l'instar de ceux précédemment signalés dans les algorithmes non basés sur les LLM utilisés pour prédire quels anciens criminels sont susceptibles de commettre un nouveau délit. Cette étude a été inspirée par un paradoxe apparent directement lié à l'émergence : Lorsque les modèles améliorent leurs performances en passant à l'échelle supérieure, ils peuvent également augmenter la probabilité de phénomènes imprévisibles, y compris ceux qui pourraient potentiellement conduire à des biais ou à des préjudices.

"Certains comportements nuisibles apparaissent brusquement dans certains modèles", explique M. Ganguli. Il se réfère à une analyse récente des LLM, connue sous le nom de BBQ benchmark, qui a montré que les préjugés sociaux émergent avec un très grand nombre de paramètres. "Les grands modèles deviennent brusquement plus biaisés. Si ce risque n'est pas pris en compte, il pourrait compromettre les sujets de ces modèles."

Mais il propose un contrepoint : Lorsque les chercheurs demandent simplement au modèle de ne pas se fier aux stéréotypes ou aux préjugés sociaux - littéralement en tapant ces instructions - le modèle devient moins biaisé dans ses prédictions et ses réponses. Ce qui suggère que certaines propriétés émergentes pourraient également être utilisées pour réduire les biais. Dans un article publié en février, l'équipe d'Anthropic a présenté un nouveau mode d'"autocorrection morale", dans lequel l'utilisateur incite le programme à être utile, honnête et inoffensif.

Selon M. Ganguli, l'émergence révèle à la fois un potentiel surprenant et un risque imprévisible. Les applications de ces grands LLM prolifèrent déjà, de sorte qu'une meilleure compréhension de cette interaction permettra d'exploiter la diversité des capacités des modèles de langage.

"Nous étudions la manière dont les gens utilisent réellement ces systèmes", a déclaré M. Ganguli. Mais ces utilisateurs sont également en train de bricoler, en permanence. "Nous passons beaucoup de temps à discuter avec nos modèles, et c'est là que nous commençons à avoir une bonne intuition de la confiance ou du manque de confiance.

Auteur: Ornes Stephen

Info: https://www.quantamagazine.org/ - 16 mars 2023. Trad DeepL et MG

[ dialogue ] [ apprentissage automatique ] [ au-delà du jeu d'imitation ] [ dualité ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

Paramètres de recherches