Les fils de la pensée

motiver

La sensibilité aux incitations
Le pouvoir colonial français établi à Hanoi a voté une loi : chaque rat tué et rapporté donnait droit à une rétribution. Un bon moyen de limiter la prolifération des nuisibles, croyait-il. Résultat : tout le monde s'est lancé dans l'élevage de rats.
...
Lorsque les manuscrits de la Mer Morte ont été découverts à partir de 1947, les archéologues ont promis une récompense pour la découverte de tout nouveau parchemin. Résultat : les parchemins ont été déchirés pour augmenter leur nombre.
...
La même chose s'est produite au XIXe siècle en Chine lorsqu'on promit une récompense pour la mise au jour d'ossements de dinosaures. Les paysans ont exhumé des restes entiers et les ont réduits en pièces pour multiplier les sommes perçues.
...
Le conseil d'administration d'une entreprise a promis une prime aux managers s'ils atteignaient leurs objectifs. Que s'est-il passé ? Les managers ont dépensé davantage d'énergie à se fixer les objectifs les plus faciles à atteindre qu'à s'efforcer de faire prospérer l'entreprise.
...
Ce sont quelques exemples de la sensibilité aux incitations. (...)
...
Voilà des systèmes incitatifs efficaces font coïncider intention et incitation.
Exemple : dans la Rome antique, le constructeur d'un pont devait se tenir debout sous la voûte au moment de l'inauguration de l'édifice. Une bonne incitation à construire un ouvrage suffisamment stable.
...
En revanche, les systèmes incitatifs les moins efficaces ratent leur intention ou la pervertissent.
Ainsi, le contenu d'un livre est d'autant plus connu que l'ouvrage fait l'objet d'une censure.
Ou les banquiers qui perçoivent une rétribution à chaque crédit octroyé contribuent à la détérioration de la qualité du portefeuille de crédits de leur établissement.

Auteur: Dobelli Rolf

Info: Arrêtez de vous tromper : 52 erreurs de jugement qu'il vaut mieux laisser aux autres...

[ exemples ] [ inattendu ] [ surprise ] [ avidité ]

Commenter

Commentaires: 0

femmes-hommes

La concurrence sexuelle conduit l'évolution d'un gène sexuel
Les chercheurs ont prouvé que quand ils ont plusieurs femelles, les primates mâles doivent travailler plus dur - au niveau génétique en tout cas. Ils ont déterminé qu'une protéine, qui contrôle la viscosité du sperme, évolue plus rapidement dans les espèces de primates plurigames que pour les espèces monogames. La conclusion démontre que la concurrence sexuelle parmi des mâles est évidente au niveau moléculaire, aussi bien qu'aux niveaux comportementaux et physiologiques. Les chercheurs, dirigées par B. Lahn de l'institut de H. Hughes à l'université de Chicago, ont étudié la sémenogeline, une protéine importante du fluide séminal, qui commande la viscosité du sperme juste après l'éjaculation. Dans quelques espèces de primate, elle permet au sperme de rester tout à fait liquide après éjaculation, mais dans d'autres, il augmente viscosité du sperme. Dans quelques cas extrêmes, ses effets sur la viscosité sont tels que le sperme devient presque comme un bouchon dans le vagin. De tels bouchons pourraient servir comme des sortes de "ceinture de chasteté" moléculaire pour empêcher la fertilisation par les prétendants suivants. Il pourraient également empêcher le refoulement du sperme pour augmenter la probabilité de la fertilisation. Pour cette étude ont été étudiés les gènes de l'homme, du chimpanzé, du chimpanzé pygmée, du gorilles, de l'orangs-outan, du gibbon, du macaques, du singes de colobus et du singe araignée. Espèces choisies parce qu'elles représentent les systèmes principaux : ceux dans lesquelles des la femelle ne copule qu'avec avec un mâle dans sa période fertile ( gorilles et gibbons), ceux où les femelles copulent plus confusément (chimpanzés et macaques), et ceux entre deux, comme les orangs-outans où la femelle copule avec le mâle dominant mais ou elle peut également copuler avec d'autres mâles opportunément. Après avoir étudié les données sur le taux d'évolution de la protéine de sémenogeline avec le niveau de promiscuité des femelles, on a pu démontrer une corrélation claire. Les espèces avec des femelles plus en promiscuité ont des taux beaucoup plus élevés d'évolution de cette protéine que les espèces avec les femelles monogames. Ainsi dans l'espèce avec plus de femelles potentielles, il y a une pression plus sélective afin que le mâle ait un sperme plus concurrentiel. Tout comme les pressions d'un marché concurrentiel où les concurrents doivent constamment changer leurs produits pour les rendre meilleurs, et leur donner un avantage sur leurs rivaux - tandis que, dans un système de monopole, il n'y a aucune incitation à changer. C'est une première évidence spécifique que les différents niveaux de concurrence sexuelle produisent différents effets génétiques. On l'avait établi précédemment que la polyandrie - une femelle avec plusieurs mâles - donnait certain traits physiologiques. Par exemple, les espèces polyandres ont de plus grandes testicules capables de produire plus de sperme. Il y a un donc un coût métabolique à de telles adaptations. Dans une espèce où il n'y a aucune concurrence, ce coût ne vaut pas cet effort. Pour la première fois on démontre ainsi de tels effets concurrentiels aussi au niveau génétique. Les gènes doivent s'adapter plus rapidement pour que n'importe quel mâle puisse trouver un avantage par rapport a ses concurrents. Alors que d'autres études ont déjà indiqué que les gènes reproducteurs masculins tendent généralement à évoluer plus rapidement que d'autres gènes, cette étude prolonge ces observations à un niveau plus quantitatif, prouvant que le taux d'évolution se corrèle complètement avec le degré de compétition sexuel.

Auteur: Natur Genetics

Info: 7 nov. 2004

[ Interactifs ]

Commenter

Commentaires: 0

clinique du discours

Lacan [...] définit le sujet de l'inconscient comme étant assujetti aux signifiants qui le constituent et le représentent. Le "sujet" lacanien n'est pas identifiable à l'homme en tant qu'individu qui vient consulter le psychanalyste ou à celui qui serait susceptible de faire l'objet d'une étude anthropologique ou philosophique.

C'est le sujet qui vient se dire, et sous une forme méconnue par l'intéressé lui-même.

Il faut l'Autre ( place occupée par le psychanalyste ) pour entendre ce qui vient se signifier, plutôt que se dire. Il convient de rapprocher ce sujet de la linguistique dans la mesure où celui-ci est le support d'une division entre le sujet de l'énonciation et le sujet de l'énoncé - avec les impasses que cela comporte, comme en témoigne le célèbre paradoxe du menteur.

Cependant, là où la psychanalyse fait apparaître la division du sujet, c'est dans son double rapport, d'une part, au signifiant qui le représente auprès des autres signifiants, d'autre part, dans ce qui le supporte dans son rapport à l'objet, c'est-à-dire dans son fantasme.

L'objet, que Lacan désigne comme "objet a", l'objet même de la psychanalyse, a ainsi une définition structurale; comme étant dans un rapport fondamental, fantasmatique au sujet; sa place peut être occupée par l'un quelconque de ces objets ( sein, pénis, face, oeil, savoir...) dont la psychanalyse a montré l'importance prévalante qu'ils ont dans l'organisation fantasmatique.

Le psychanalyste se soutient de cette place, celle de l'objet a, puisque c'est à partir de là qu'il peut entendre ce qui vient se signifier dans le discours de son analysant, c'est-à-dire le sujet même qui parle par sa bouche à travers les détours et les méandres de son discours. Et cela constitue donc une éthique, qui est une éthique du sujet, celle-là même qui est énoncée dans la célèbre phrase de Freud : Wo es war, soll Ich werden, improprement traduite par : " Là où le ça était, le moi doit advenir" - ce qui renvoie à la deuxième topique et à la théorie impliquée par l'ego psychology. Lacan traduit différemment: " Là où c'était, le je - le sujet - doit advenir ", formule digne d'être soulignée, parce qu'elle exprime le seul sollen, le seul "devoir être" qui soit cohérent avec la doctrine psychanalytique.

La psychanalyse est une éthique du sujet, c'est-à-dire du rapport qu'entretient celui-ci avec le désir. On peut dire aussi que cela consiste dans la traversée du fantasme: non par la suppression du fantasme, qui supposerait la possibilité d'un accès direct au réel, et ainsi une organisation du désir comme étant portée exclusivement par un assujettissement du sujet aux signifiants du discours psychanalytique ( ce qui serait de l'ordre de la conversion religieuse), mais par la possibilité pour le sujet de prendre en compte ce qui, de son désir, ne cédera pas, parce qu'enraciné dans le fantasme.

Une lecture hâtive et tendancieuse du Séminaire de Lacan lui attribue ce sollen: " Ne pas céder sur son désir". Lacan disait exactement: " La seule chose dont on puisse être coupable, au moins dans la perspective analytique, c'est d'avoir cédé sur son désir". Il en parlait à propos du héros, et tout particulièrement d'Antigone, qui certes ne cédait pas sur son désir face à Créon, au pouvoir, à la société. Lacan propose une analyse assurément différente de celle de Hegel, par exemple, pour qui Antigone était coupable de ne pas se plier à la loi, celle de l'Etat, et d'obéir aux dieux lares, dieux intérieurs et inférieurs. C'est sans doute à cela qu'aboutirait une analyse sociologique ou psychiatrique de la tragédie antique en jugeant qu'Antigone n'a pas fait le deuil de son frère, ou qu'elle est paranoïaque! Mal adaptée sans doute à sa société, manquant de souplesse à l'égard des compromis qui lui sont offerts.

Antigone, grâce au regard de l'analyse lacanienne, se voit reconnaître le droit de ne pas céder sur son désir, c'est-à-dire sur le fantasme fondamental qui la lie à son père, à ses frères, aux Atrides, qui lui donne son identité subjective et lui font affronter la mort et l'opprobre.

C'est ainsi que le héros, au sens lacanien, n'a certes pas attendu la psychanalyse pour mettre en échec l'éthique du maître, ici incarné par Créon et par le choeur. Mais aussi - et c'est bien là que la psychanalyse fait apparaître la spécificité d'une éthique - une telle lecture de notre expérience d'analystes nous permet d'entendre quel est le lieu où le sujet ne cédera pas, dans son fantasme, sur son désir - à l'encontre de tout ce que tentent de lui imposer une famille bienveillante, une société répressive ou des psychiatres, hommes de bien, animés des intentions les meilleures et les plus humanitaires. C'est en dépit de toutes ces tentatives que le névrosé le plus modeste témoigne de ce qu'il y a des points sur lesquels on ne cède pas, même si cela se paie par les pires malheurs, jusqu'à la mort inclusivement.

L'éthique du psychanalyste ne consiste pas à proposer ou à imposer une nouvelle morale concernant le désir, mais à faire apparaitre le sujet là où n'existaient que des forces obscures et contradictoires qui ne pouvaient jusqu'alors se signifier, faute d'avoir été entendues. C'est là qu'elle diffère radicalement de ce qui, d'une manière ou d'une autre, découle du discours du maître, c'est-à-dire la production d'énoncés prescriptifs qui sont censés assurer à l'esclave plus de biens, plus de jouissance, et même, plus de désir, plus de liberté.

Il est finalement significatif que tant de disciples de Freud et de Lacan aient retourné les énoncés descriptifs qu'ils avaient produits pour en faire des énoncés prescriptifs. "Guéris!", dit Sandor Ferenzi; "Jouis!", dit Wilhelm Reich; "Sois un machine désirante!" dit Félix Guattari; "Ne cède pas sur ton désir!", dit Jacques-Alain Miller.

La position du psychanalyse est "antiprescriptive". Elle s'annonce dans la règle fondamentale, c'est-à-dire dans une incitation à continuer à parler, mais surtout sans que l'analysant s'impose à lui-même des règles: celle de dire ce qu'il croit devoir dire, celle de taire ce qu'il croit devoir taire.

Auteur: Clavreul Jean

Info:

[ fonctionnement ] [ exorcisme ] [ mise en abyme ]

Commenter

Commentaires: 7

Ajouté à la BD par Coli Masson

neuroscience

La conscience est un continuum et les scientifiques commencent à le mesurer

Une nouvelle technique aide les anesthésiologistes à suivre les changements dans les états de conscience

Que signifie être conscient ? Les gens réfléchissent et écrivent sur cette question depuis des millénaires. Pourtant, de nombreux aspects de l’esprit conscient restent un mystère, notamment la manière de le mesurer et de l’ évaluer. Qu'est-ce qu'une unité de conscience ? Existe-t-il différents niveaux de conscience ? Qu'arrive-t-il à la conscience pendant le sommeil, le coma et l'anesthésie générale ?

En tant qu’anesthésiologistes, nous réfléchissons souvent à ces questions. Nous promettons chaque jour aux patients qu’ils seront déconnectés du monde extérieur et de leurs pensées intérieures pendant l’opération, qu’ils ne conserveront aucun souvenir de l’expérience et qu’ils ne ressentiront aucune douleur. Ainsi, l’anesthésie générale a permis d’énormes progrès médicaux, depuis les réparations vasculaires microscopiques jusqu’aux greffes d’organes solides.

En plus de leur impact considérable sur les soins cliniques, les anesthésiques sont devenus de puissants outils scientifiques pour sonder les questions relatives à la conscience. Ils nous permettent d’induire des changements profonds et réversibles dans les états de conscience et d’étudier les réponses cérébrales lors de ces transitions.

Mais l’un des défis auxquels sont confrontés les anesthésiologistes est de mesurer la transition d’un état à un autre. En effet, bon nombre des approches existantes interrompent ou perturbent ce que nous essayons d'étudier. Essentiellement, l’évaluation du système affecte le système. Dans les études sur la conscience humaine, déterminer si une personne est consciente peut éveiller la personne étudiée, ce qui perturbe cette évaluation même. Pour relever ce défi, nous avons adapté une approche simple que nous appelons la méthode respirer-squeeze. Cela nous offre un moyen d'étudier les changements de l'état de conscience sans les interrompre.

Pour comprendre cette approche, il est utile de considérer quelques enseignements issus d’études sur la conscience qui ont utilisé des anesthésiques. Depuis des décennies, les chercheurs utilisent l’électroencéphalographie (EEG) pour observer l’activité électrique dans le cerveau de personnes recevant divers anesthésiques. Ils peuvent ensuite analyser cette activité avec des lectures EEG pour caractériser les modèles spécifiques à divers anesthésiques, appelés signatures anesthésiques.

Ces recherches révèlent que la plupart des médicaments anesthésiques ralentissent les rythmes cérébraux et augmentent leur taille, effets qui altèrent la communication entre les régions du cerveau. Par exemple, une étude récente a révélé que le propofol, le médicament le plus couramment utilisé pour l’anesthésie générale, perturbe la façon dont les régions du cerveau travaillent généralement ensemble pour traiter les informations sensorielles.

La conscience, comme le révèlent cette recherche et d’autres, n’est pas simplement un système binaire – activé ou désactivé, conscient ou inconscient – mais plutôt quelque chose qui peut englober un continuum de différents états qui impliquent différents types de fonctionnement du cerveau. Par exemple, la conscience peut être connectée à l'environnement par le biais de nos sens et de notre comportement (conscience connectée), comme lors de la plupart de nos heures d'éveil, ou déconnectée de notre environnement (conscience déconnectée), comme lorsque nous rêvons pendant le sommeil.

L’inconscience – comme lorsqu’une personne est dans le coma – est plus difficile à étudier que la conscience connectée ou déconnectée, mais elle est généralement comprise comme un état d’oubli, vide d’expérience subjective ou de mémoire. Lorsque nous préparons un patient à une intervention chirurgicale, nous ajustons les niveaux d’anesthésie pour le rendre inconscient. Lorsqu’une personne est sous anesthésie générale, elle vit un coma temporaire et réversible pendant lequel elle ne ressent aucune douleur et après quoi elle n’aura plus aucun souvenir de son intervention.

Comprendre les transitions entre ces états est essentiel pour garantir des niveaux adéquats d’anesthésie générale et pour éclairer les questions de recherche en anesthésiologie, sur la conscience, le sommeil et le coma. Pour mieux cartographier la transition hors de la conscience connectée, nous avons récemment adapté une nouvelle approche pour surveiller la capacité d'une personne à générer des comportements volontaires sans incitation externe.

Généralement, les chercheurs suivent le début de la sédation en émettant des commandes verbales et en enregistrant les réponses comportementales. Par exemple, un scientifique peut périodiquement demander à quelqu’un d’ouvrir les yeux ou d’appuyer sur un bouton tout en recevant une perfusion anesthésique. Une fois que la personne cesse de répondre à cette commande, le scientifique suppose qu’elle a perdu la conscience connectée.

Cette technique s’est avérée utile pour contraster l’esprit conscient connecté et déconnecté. Mais lorsqu’il s’agit de comprendre la transition entre ces états, il y a plusieurs inconvénients. D’une part, le signal auditif n’est pas standardisé : l’inflexion et le volume de la voix, ce qui est dit et la fréquence à laquelle il est répété varient d’une étude à l’autre et même au sein d’une même étude. Un problème plus fondamental est que ces commandes peuvent éveiller les gens lorsqu’ils dérivent vers un état de déconnexion. Cette limitation signifie que les chercheurs doivent souvent attendre plusieurs minutes entre l’émission de commandes verbales et l’évaluation de la réponse, ce qui ajoute de l’incertitude quant au moment exact de la transition.

Dans notre étude, nous souhaitions une approche plus sensible et précise pour mesurer le début de la sédation sans risquer de perturber la transition. Nous nous sommes donc tournés vers une méthode décrite pour la première fois en 2014 par des chercheurs sur le sommeil du Massachusetts General Hospital et de l’Université Johns Hopkins. Dans ce travail, les enquêteurs ont demandé aux participants de serrer une balle à chaque fois qu'ils inspiraient. Les chercheurs ont suivi les pressions de chaque personne à l'aide d'un dynamomètre, un outil pour mesurer la force de préhension, et d'un capteur électromyographique, qui mesure la réponse musculaire. De cette façon, ils ont pu suivre avec précision le processus d’endormissement sans le perturber.

Pour notre étude, nous avons formé 14 volontaires en bonne santé à cette même tâche et présenté l’exercice de respiration en pressant comme une sorte de méditation de pleine conscience. Nous avons demandé aux participants de se concentrer sur leur respiration et de serrer un dynamomètre portatif chaque fois qu'ils inspirent. Après quelques minutes d'entraînement pour chaque personne, nous avons placé un cathéter intraveineux dans son bras pour administrer le sédatif et installé des moniteurs de signes vitaux et un équipé d'un capuchon EEG à 64 canaux pour enregistrer les ondes cérébrales tout au long de l'expérience.

Tous les participants ont synchronisé de manière fiable leurs pressions avec leur respiration pendant une période de référence initiale sans aucune sédation. Ils ont ensuite reçu une perfusion lente de dexmédétomidine, un sédatif couramment utilisé dans les salles d'opération et les unités de soins intensifs. À mesure que les concentrations cérébrales de dexmédétomidine augmentaient, les participants manquaient parfois une pression ou la prenaient au mauvais moment. Finalement, ils ont complètement arrêté de serrer.

Après quelques tests supplémentaires, nous avons arrêté la perfusion de dexmédétomidine, permettant ainsi aux participants de se remettre de la sédation. À notre grand étonnement, après une période de 20 à 30 minutes, tout le monde s'est souvenu de la tâche et a commencé à serrer spontanément en synchronisation avec sa respiration, sans aucune incitation. Cela nous a permis d'analyser à la fois le moment du début et du décalage de la sédation et de les comparer avec des études antérieures utilisant des commandes verbales pour évaluer la conscience.

La tâche de respiration et de compression est donc clairement une approche plus sensible pour mesurer la transition hors de la conscience connectée. Les participants ont arrêté d'effectuer la tâche à des concentrations de dexmédétomidine inférieures à celles auxquelles les personnes avaient cessé de répondre aux signaux auditifs dans d'autres études, soulignant les effets excitants des signaux externes sur le système. Ces résultats peuvent également indiquer que la conscience connectée peut être décomposée en comportements générés en interne (comme se rappeler de serrer une balle pendant que vous inspirez) et en comportements provoqués de l'extérieur (comme répondre à des commandes verbales) avec des points de transition distincts - une idée qui affine notre compréhension du continuum de la conscience.

Des recherches antérieures ont caractérisé l'apparence du cerveau dans des états de conscience connectée et déconnectée. Nous savions donc généralement à quoi s'attendre des enregistrements EEG. Mais nous étions moins sûrs de la façon dont notre technique pourrait s’aligner sur la transition cérébrale entre les états de conscience. Nous avons découvert un schéma très clair de changements dans le cerveau lorsque les gens arrêtent de serrer le ballon. De plus, nous n’avons vu aucune preuve que la tâche de compression perturbe l’état de conscience des personnes. L'EEG a également révélé un calendrier beaucoup plus précis pour ce changement que les travaux antérieurs, identifiant la transition dans une période environ 10 fois plus courte que ce qui était possible avec les signaux auditifs - une fenêtre de cinq à six secondes au lieu des 30 secondes. - à un intervalle de 120 secondes qui était courant dans les travaux antérieurs.

Comme avantage supplémentaire, nous avons été ravis de découvrir que de nombreux participants à notre étude appréciaient la tâche de respiration pressée comme moyen de se concentrer sur l'apaisement de leur esprit et de leur corps. Pour cette raison, nous avons également mis en œuvre la méthode dans la pratique clinique, c’est-à-dire en dehors d’études soigneusement contrôlées, lors de l’induction d’une anesthésie générale lors d’interventions chirurgicales majeures, qui peuvent autrement être une expérience stressante pour les patients.

Nous nous appuyons désormais sur ce travail en analysant nos données EEG, ainsi que les données d'imagerie par résonance magnétique structurelle (IRM) de nos volontaires. Ces connaissances sur le passage d’une conscience connectée à une conscience déconnectée peuvent aider à éclairer les soins cliniques des patients nécessitant une anesthésie pour une intervention chirurgicale, ainsi que de ceux qui souffrent de troubles du sommeil ou de coma. Ces études nous mettent également au défi de nous attaquer aux aspects plus philosophiques de la conscience et pourraient ainsi éclairer la question fondamentale de ce que signifie être conscient.

Auteur: Internet

Info: 26 janv, 2024 Christian Guay et Emery Brown

[ réveillé ] [ assoupi ] [ entendement ] [ présence ]

Commenter

Commentaires: 0

Ajouté à la BD par Le sous-projectionniste

songes

Comment utiliser les rêves comme source d'inspiration créative

En s'inspirant de Thomas Edison et de Salvador Dalí, des chercheurs montrent que le modelage de l'imagerie des rêves peut susciter des idées créatives pour résoudre un problème spécifique.

(Photo de Salvador Dalí, avec ce texte) Dali avait des moyens originaux pour tirer une inspiration artistique de ses rêves, par exemple en mettant du parfum sur ses paupières ou en lâchant un objet pour se réveiller afin de se souvenir du contenu de ses rêves.)

Structure du benzène, Google et Frankenstein : Qu'ont en commun ces icônes de la science, de la technologie et de la littérature ? Elles font partie des nombreuses découvertes et inventions qui auraient été inspirées par un rêve.

Pendant des décennies, les spécialistes du sommeil ont réfléchi au lien entre le rêve et l'inspiration créatrice. Ils ont longtemps pensé que ces idées provenaient de la phase de sommeil à mouvements oculaires rapides (REM), riche en rêves, et qui commence une heure ou plus après le début du cycle de sommeil. Mais de nouvelles données mettent en lumière une phase du sommeil beaucoup plus précoce - la zone crépusculaire qui sépare le sommeil de l'éveil - comme terrain fertile pour un élan créatif.

Dans une étude publiée le 15 mai dans Scientific Reports, une équipe de chercheurs montre que les personnes qui font de brèves siestes précédant l'endormissement obtiennent des résultats plus élevés quant aux critères de créativité que celles qui se lancent dans les mêmes tâches créatives après être restées éveillées. "L'importance de cet état de sommeil précoce pour la créativité a fait l'objet de spéculations, mais à ma connaissance, il s'agit de la meilleure étude démontrant sa valeur", déclare Jonathan Schooler, psychologue cognitif à l'université de Californie à Santa Barbara, qui n'a pas participé à l'étude.

De plus, les scientifiques ont découvert qu'ils pouvaient même exercer un certain contrôle sur le processus de rêve. Pour ce faire, ils ont orienté les rêves des participants vers un sujet spécifique. Plus les participants rêvaient de ce thème, plus ils étaient créatifs dans les tâches qui s'y rapportaient. "C'est à peu près ce qui nous permet de dire que rêver d'un sujet améliore la créativité ultérieure sur ce sujet", déclare Robert Stickgold, neuroscientifique cognitif et chercheur sur les rêves à la Harvard Medical School, qui faisait partie de l'équipe de l'étude.

L'expérience s'est appuyée sur un détecteur de sommeil en forme de gant appelé Dormio, mis au point par une équipe comprenant le co-chercheur principal Adam Haar Horowitz, chercheur postdoctoral au Massachusetts Institute of Technology. Dormio suit le début du sommeil en surveillant le tonus musculaire, la conductance de la peau et la fréquence cardiaque par l'intermédiaire de contacts sur le poignet et la main. Il communique avec une application qui émet des messages vocaux pour les rêves et enregistre les rapports de rêves.

Plus d'un penseur célèbre a tiré parti de la première phase de transition dans le sommeil, appelée stade 1 du sommeil non REM (sans mouvements oculaires rapides - N1), pour générer des idées créatives. Le peintre Salvador Dalí s'assoupissait délibérément en tenant un jeu de clés au-dessus d'une plaque de métal lorsqu'il réfléchissait à une idée de peinture. Au fur et à mesure qu'il s'assoupissait, les muscles de sa main se détendaient et il laissait tomber les clés qui heurtaient la plaque et le réveillaient, et il gardait l'image de son rêve. Thomas Edison aurait utilisé une technique similaire avec des billes de métal au lieu de clés pour obtenir des idées à intégrer dans ses inventions.

En 2021, une équipe de chercheurs de l'Institut du cerveau de Paris a rapporté certaines des premières preuves solides comme quoi Dalí et Edison étaient sur la bonne voie. Ils ont demandé à des personnes de faire de courtes siestes après les avoir exposées à des problèmes de mathématiques pour lesquels existait un raccourci caché. Parmi la grande majorité des personnes n'ayant pas vu le raccourci tout de suite, celles qui ont fait une sieste au stade N1 furent presque trois fois plus efficaces que celles n'ayant pas fait de sieste pour trouver la meilleure solution lorsqu'elles s'attaquaient à de nouveaux problèmes nécessitant de mettre en œuvre les mêmes connaissances mathématiques.

Stickgold, Haar Horowitz et leurs collègues ont voulu vérifier l'idée que le rêve était l'intermédiaire clé pour générer des éclats de perspicacité pendant le stade N1. Avant la publication de l'étude de 2021 sur les mathématiques, les chercheurs ont entrepris une étude contrôlée sur le rêve, dans laquelle ils ont incité des personnes à rêver de quelque chose de spécifique, comme un arbre.

Ils ont recruté 50 personnes pour une "étude sur la sieste" de l'après-midi - intitulé qui a vraisemblablement attiré les personnes qui aiment faire la sieste, bien que les chercheurs n'aient en fait demandé qu'à la moitié des participants de dormir dans le cadre de l'étude. Alors qu'ils portaient Dormio, les participants se sont endormis et l'application liée à Dormio leur a demandé de "penser à un arbre" ou de "penser à observer leurs pensées". Une à cinq minutes plus tard, l'application les réveillait en leur demandant de raconter leur rêve. Ce cycle s'est répété pendant 45 minutes, produisant en moyenne cinq récits de rêve par personne. Les personnes à qui l'on a demandé de rester éveillées ont laissé leur esprit vagabonder tout en recevant des instructions similaires. (Les chercheurs ont créé une version simplifiée de ce protocole d'incubation de rêves, accessible sur le web, que vous pouvez essayer chez vous).

Parmi les siesteurs qui ont reçu l'instruction sur les arbres, tous sauf un ont déclaré avoir rêvé d'arbres ou de parties d'arbres, alors qu'une seule personne parmi les siesteurs ayant reçu l'instruction plus générale l'a fait. L'un d'entre eux a décrit des "arbres se divisant en une infinité de morceaux" et s'est retrouvé dans le désert avec "un chaman assis sous l'arbre avec moi".

Les participants ont ensuite passé trois tests de créativité : Ils ont écrit une histoire créative dans laquelle figurait le mot "arbre". Ils ont énuméré "toutes les utilisations alternatives créatives" qu'ils pouvaient imaginer pour un arbre. Enfin, ils ont écrit le premier verbe qui leur venait à l'esprit pour chacun des 31 noms qui se rapportaient, plus ou moins, aux arbres. La créativité des réponses a été évaluée par des personnes qui ne savaient pas qui faisait la sieste ou qui avait reçu l'invitation à parler d'un arbre. Ces évaluations ont été combinées en un indice de créativité globale.

Les personnes ayant fait la sieste et qui avaient reçu l'indice de l'arbre ont obtenu les scores de créativité les plus élevés. "Il existe un lien objectif et expérimental entre l'incubation d'un rêve spécifique et la créativité post-sommeil autour de ce sujet", explique Haar Horowitz. "Cela valide des siècles de rapports anecdotiques de personnes qui se trouvent dans l'espace créatif.

En outre, plus une personne fait référence à des arbres, plus son score de créativité est élevé. "Plus vous rêvez d'un arbre, meilleures sont vos performances ultérieures", explique Kathleen Esfahany, étudiante de premier cycle au M.I.T., qui a codirigé l'étude avec Haar Horowitz. Les personnes semblent utiliser leurs rêves pour trouver des idées pour ces tâches, ajoute Kathleen Esfahany. Par exemple, une personne ayant rêvé que son corps était en bois a écrit une histoire sur un "roi chêne" qui portait une "couronne de feuilles" et dont le corps était tantôt "en bois", tantôt "en lumière".

L'ensemble de ces données indique que le rêve pendant N1 est un ingrédient actif de la créativité, comme l'ont supposé les chercheurs. "Il s'agit d'une étude pionnière", déclare Tore Nielsen, chercheur sur le rêve à l'Université de Montréal, qui n'a pas participé à l'étude. "Personne n'a démontré expérimentalement que le fait de rêver de quelque chose au début du sommeil est en fait lié à la créativité qui s'ensuit.

Nielsen et d'autres chercheurs estiment que l'étude est de petite envergure et qu'elle doit être reproduite. En outre, les résultats des tâches de créativité individuelles (par opposition au résultat composite) n'étaient pas significativement plus élevés chez les personnes qui ont fait une sieste guidée que chez celles qui n'ont pas été guidées, explique Penny Lewis, neuroscientifique à l'université de Cardiff au Pays de Galles, qui n'a pas participé à l'étude. "Je pense que leurs données montrent de manière convaincante que le fait de passer un certain temps dans le stade 1 du sommeil - c'est-à-dire le sommeil très léger qui se produit lorsque vous vous endormez - conduit à de meilleures performances dans ces trois tâches", explique Penny Lewis. Mais l'idée "que l'incitation conduit à ces effets devrait être traitée avec prudence parce que les statistiques ne sont pas très solides".

Une mesure objective et automatisée de la créativité, nommée "distance sémantique", indiquait qu'une brève sieste favorise l'inventivité, mais qu'il n'y a pas d'avantage supplémentaire lorsqu'on ajoutait une incitation à l'idée d'un arbre. Dans cette mesure, un ordinateur évalue la similarité des paires de mots produites dans chaque tâche de créativité, une similarité moindre étant liée à une plus grande créativité. Néanmoins, cette mesure laisse entrevoir un mécanisme de stimulation de la créativité au cours de la période N1. "Elle suggère que les gens sont capables de faire des associations plus éloignées et donc de trouver des ponts [conceptuels] qu'ils n'auraient pas pu découvrir autrement", explique M. Schooler.

L'étude ne portait que sur un seul motif, impliquant un arbre, de sorte que le système doit être testé sur d'autres sujets et éventuellement utilisé pour résoudre des problèmes réels. "C'est passionnant car, en principe, il s'agit d'une technologie que les gens pourraient utiliser eux-mêmes pour stimuler leur propre créativité", explique M. Schooler.

Il semble que les personnes désireuses de l'essayer ne manquent pas. "Des gens très différents sont venus frapper à la porte du laboratoire et ont demandé à faire des rêves", déclare Haar Horowitz.

Auteur: Internet

Info: https://www.scientificamerican.com/. Par Ingrid Wickelgren, 15 mai 2023

[ subconscient ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

surpopulation

Faut-il instaurer un permis de procréer?
Pour sauver la planète et mieux prévenir la maltraitance infantile, l’essayiste Antoine Buéno défend une idée hautement controversée: repenser la liberté d’avoir des enfants.
Face au réchauffement climatique, certains couples décident de ne pas faire d’enfant. Chargé de mission au Sénat, la chambre haute du Parlement français, Antoine Buéno, lui, veut montrer dans son livre "Permis de procréer" (Ed. Albin Michel) qu’un système de contrôle des naissances humaniste est possible.

FEMINA : Vous venez d’avoir un second enfant, conçu avec le sentiment d’un désir que vous qualifiez d’égoïste. Votre livre résulte-il d’un sentiment de culpabilité?
Antoine Buéno : Une culpabilité, non. Je vais faire un parallèle entre procréation et rapport à l’alimentation. On sait que la situation environnementale est catastrophique, par conséquent on s’interroge sur notre manière de consommer. Parmi ceux qui modifient leur rapport à l’alimentation il y a, d’un côté, les végétariens et les véganes, de l’autre, les flexitariens, qui continuent à manger de la viande, mais moins, car ils ont conscience que cela pose un problème.

F : Le sujet est extrêmement sensible. Récemment, une infographie de l’Agence France Presse allant dans ce sens, a suscité un tollé…
AB : Vous faites référence à une infographie tirée d’une étude de 2017 montrant l’effet des gestes individuels que le citoyen peut mettre en œuvre pour réduire significativement son impact climatique. Certains sont assez connus, comme devenir végétarien, ne pas avoir de voiture et ne pas prendre l’avion et… avoir un enfant de moins que prévu, qui a vingt-quatre fois plus d’effet que les autres sur l’environnement. En réalité, ce n’est même pas mesurable, car c’est exponentiel. Votre enfant aura un ou plusieurs enfants, qui auront un ou plusieurs enfants, etc.

F : Le problème est-il vraiment la densité de la population ou le mode de vie?
AB : Les deux. Mais aujourd’hui, les politiques environnementales mettent exclusivement l’accent sur le mode de vie. Or, on ne peut pas le changer du jour au lendemain. Pour mettre en place la transition énergétique, il va falloir brûler énormément d’hydrocarbures, donc polluer. Et cela va prendre des décennies. Ce temps-là, on ne l’a pas. A court terme, le seul levier dont on dispose pour faire face à ce défi de vie ou de mort pour l’humanité, c’est notre démographie.

F : Difficile de bousculer un tel tabou, non?
AB : La procréation est sacro-sainte. La contrôler est intolérable. Nous vivons dans un système sociétal, religieux, économique, intégralement fondé sur une surenchère procréative. Toute la société vous pousse à procréer. Selon moi, il faut que les individus soient aidés par un dispositif collectif de responsabilisation de la procréation, que tous ensemble on change de mentalité et de pratiques.

F : Votre solution est donc une politique nataliste restrictive?
AB : Je n’emploierais pas le terme restrictive. A l’échelle internationale, en ce qui concerne les pays en développement, je mets en avant l’instauration d’un planning familial et de l’éducation des filles. Ce n’est pas restrictif, c’est rencontrer une attente, un désir, un besoin des femmes. Il ne s’agit pas de contraindre, mais de faire évoluer les mentalités.

F : Toutefois, pour des pays comme la Suisse ou la France, vous prônez une incitation étatique à faire baisser la natalité. L’idée de contrôle des naissances est de sinistre mémoire. La politique chinoise de l’enfant unique a conduit à des avortements et même à des stérilisations forcés. Veut-on prendre le risque de retomber dans ce genre de dérives?
AB : Une politique n’est rien en elle-même, tout dépend de la manière dont on la met en œuvre. Une politique démographique peut être abominable, et ça a été fait. C’est contre cela que j’ai écrit chaque ligne de mon livre.

F : Concrètement, vous proposez d’agir à travers l’octroi d’un permis de procréer, un peu comme un permis de conduire…
AB : Attention, car je dévoie le sens du mot permis. Il ne s’agit pas d’un véritable permis. Il n’y a pas d’interdiction de procréer. Le poids du mot permis, en revanche, je le conserve. Même si on ne va pas vous dire: "Monsieur, Madame, vous n’avez pas le droit de faire d’enfant", le fait d’employer ce terme vous fait psychologiquement changer de regard vis-à-vis de la procréation.

F : Vous conditionneriez le fait d’avoir des enfants à une enquête et à une autorisation?
AB : Il n’y a pas d’autorisation à avoir. Vous voulez avoir un enfant, vous faites un enfant, mais vous devez le déclarer et là, vous serez accompagné par des services sociaux, à savoir une assistante sociale, qui viendra voir si vous accueillez votre enfant dans des conditions qui ne présentent pas de danger pour un nouveau-né. On regardera, par ailleurs, si vous avez des besoins spécifiques (allocations familiales, logement, emploi, etc). La société a des moyens qu’elle répartit de manière aveugle. Je propose, à travers la signature d’un contrat de parentalité, de pouvoir cibler les moyens sociaux sur les besoins véritables.

F : Est-ce que ça va réellement freiner les gens d’avoir des enfants?
AB : Ça ne va être qu’un frein marginal à court terme, car il est bien évident qu’un contrat qui prévoit un entretien avec une assistante sociale et un psy dissuadera très peu de gens d’avoir un enfant. En tout cas, je crois que ça ne dissuadera pas les meilleurs parents. A plus long terme, en revanche, ça va changer notre rapport à la procréation. On instille ainsi l’idée que procréer est un partenariat avec la société qui comporte des devoirs et des obligations. Et puis, cela permet d’avoir, dès le début, un regard sur un certain nombre de situations qui pourraient aboutir à de la maltraitance infantile. En résumé, on peut sauver la planète en conciliant les droits de la nature, les droits des enfants et les droits des femmes.

F : Qu’est-ce qui arriverait aux parents qui feraient un enfant sans permis?
AB : Vous avez deux cas de figure. Les gens négligents ou mal informés, qui peuvent se régulariser a posteriori. Mais pour les gens qui refusent, la seule sanction possible est la déchéance de l’autorité parentale. Là, oui, c’est radical.

F : Ce système suppose une ingérence étatique. Est-ce réellement possible sans abus?
AB : Oui, c’est une ingérence, mais on vit dans une société où l’Etat s’ingère partout, tout le temps, dans nos vies quotidiennes. Ce matin, vous êtes sortie de chez vous, vous avez traversé sur les clous, vous avez suivi le Code de la route. On est en permanence en train de dealer avec ses libertés, ses droits individuels et les impératifs posés par la société.

F : Vous ne considérez pas le fait de faire des enfants comme un droit?
AB : Je n’entre pas dans ce débat-là, mais je crois que le mode de procréation, naturel ou artificiel, importera peu dans un monde où on aura instauré un permis de procréer. Car, dans cette situation, ce qui compte ce sont les conditions dans lesquelles on accueille un enfant, quelle que soit la manière dont on l’a fabriqué.

F : Même si c’était efficace, dans les pays occidentaux, comme la Suisse ou la France, on se plaint plutôt d’avoir un taux de fécondité trop bas pour assurer les futures retraites des aînés. Ça va coincer…
AB : Oui, mais encore une fois, je propose un changement de perspective. Si aujourd’hui on vieillit et on décroît, c’est lié à notre explosion démographique passée. Alors, on peut recourir à des moyens qui relèvent du ripolinage ou mettre en place des réformes beaucoup plus substantielles de la société. Face à l’enjeu de savoir comment maintenir la vie sur Terre, celui qui consiste à savoir comment financer les retraites ne fait pas le poids.

En encadré une infographie qui embrasa Internet en son temps, intitulée "Quelques moyens de réduire son empreinte carbone". Publié par l’Agence France Presse dans la foulée du rapport du GIEC du 8 octobre 2018 le tableau montre que’opter pour des ampoules plus écologiques ne permet pas de réduire beaucoup ses émissions. Renoncer à faire un enfant, surtout s’il grandit selon notre mode de consommation actuel, par contre est sans comparaison… Jugée choquante, l’infographie a valu une avalanche de réactions hostiles à l’agence de presse, qui a dû préciser que les informations étaient tirées d’une étude scientifique tout à fait sérieuse, publiée une année plus tôt dans la revue "Environmental Research Letters" en ajoutant explicitement: "L’AFP ne vous invite pas à faire moins d’enfants."

Droit: Restreindre une liberté fondamentale
En Suisse, faire un enfant peut être considéré comme un droit fondamental de l’individu, garanti notamment par l’article 10 de la Constitution fédérale (droit à la vie et à la liberté personnelle), mais aussi par l’article 8 de la Convention européenne des droits de l’homme, la CEDH (droit au respect de la vie privée et familiale).

"Il s’agit d’un droit au sens d’une liberté, c’est-à-dire que l’Etat ne peut pas interdire à quelqu’un d’avoir des enfants", précise Olivier Guillod, directeur de l’institut de droit de la santé de l’Université de Neuchâtel.

Cette liberté peut toutefois être soumise à des restrictions, pour autant que celles-ci soient inscrites dans la loi et admises par la société.

Dans notre pays, une restriction à la liberté de procréer a, par exemple, été discutée dans le cas de personnes handicapées mentales. Une loi fédérale régit les questions éminemment sensibles liées à la stérilisation. Interdite par principe, puisque la règle veut que la stérilisation ne puisse être pratiquée sur un adulte capable de discernement qu’avec son consentement "libre et éclairé", elle est toutefois autorisée, à titre exceptionnel, sous certaines conditions, en ce qui concerne une personne durablement incapable de discernement si elle est considérée dans l’intérêt de cette personne (notamment si la conception d’un enfant ne peut être empêchée par d’autres méthodes de contraception appropriées ou si la séparation d’avec l’enfant après la naissance est inévitable).

Est-il envisageable de restreindre légalement cette liberté pour le bien de la planète? L’article 8 de la CEDH prévoit bien des exceptions, autrement dit la possibilité de légiférer en faveur d’une plus grande ingérence de l’Etat, au nom notamment de "la sécurité nationale", mais aussi du "bien-être économique du pays", de "la protection de la santé ou de la morale", ou encore de celle "des droits et libertés d’autrui".

Pour Olivier Guillod, cependant, on en est très loin: "Si on se base sur l’interprétation qui est donnée actuellement de ces notions, on peut affirmer que la Cour européenne des droits de l’homme ne toucherait pas à un droit aussi fondamental et ne validerait jamais une loi nationale qui imposerait, par exemple, de limiter les familles à un seul enfant. Est-ce que ce sera toujours le cas dans cinquante ans? Je ne peux pas vous le dire…" Internet,

Auteur: Internet

Info: Femina, 1 Avril 2019, Geneviève Comby

[ problématique ]

Commenter

Mis dans la chaine

Commentaires: 0

Ajouté à la BD par miguel

homme-machine

Comment l'IA comprend des trucs que personne ne lui lui a appris

Les chercheurs peinent à comprendre comment les modèles d'Intelligence artificielle, formés pour perroquetter les textes sur Internet, peuvent effectuer des tâches avancées comme coder, jouer à des jeux ou essayer de rompre un mariage.

Personne ne sait encore comment ChatGPT et ses cousins de l'intelligence artificielle vont transformer le monde, en partie parce que personne ne sait vraiment ce qui se passe à l'intérieur. Certaines des capacités de ces systèmes vont bien au-delà de ce pour quoi ils ont été formés, et même leurs inventeurs ne savent pas pourquoi. Un nombre croissant de tests suggèrent que ces systèmes d'IA développent des modèles internes du monde réel, tout comme notre propre cerveau le fait, bien que la technique des machines soit différente.

"Tout ce que nous voulons faire avec ces systèmes pour les rendre meilleurs ou plus sûrs ou quelque chose comme ça me semble une chose ridicule à demander si nous ne comprenons pas comment ils fonctionnent", déclare Ellie Pavlick de l'Université Brown, un des chercheurs travaillant à combler ce vide explicatif.

À un certain niveau, elle et ses collègues comprennent parfaitement le GPT (abréviation de generative pretrained transformer) et d'autres grands modèles de langage, ou LLM. Des modèles qui reposent sur un système d'apprentissage automatique appelé réseau de neurones. De tels réseaux ont une structure vaguement calquée sur les neurones connectés du cerveau humain. Le code de ces programmes est relativement simple et ne remplit que quelques pages. Il met en place un algorithme d'autocorrection, qui choisit le mot le plus susceptible de compléter un passage sur la base d'une analyse statistique laborieuse de centaines de gigaoctets de texte Internet. D'autres algorithmes auto-apprenants supplémentaire garantissant que le système présente ses résultats sous forme de dialogue. En ce sens, il ne fait que régurgiter ce qu'il a appris, c'est un "perroquet stochastique", selon les mots d'Emily Bender, linguiste à l'Université de Washington. Mais les LLM ont également réussi à réussir l'examen pour devenir avocat, à expliquer le boson de Higgs en pentamètre iambique (forme de poésie contrainte) ou à tenter de rompre le mariage d'un utilisateurs. Peu de gens s'attendaient à ce qu'un algorithme d'autocorrection assez simple acquière des capacités aussi larges.

Le fait que GPT et d'autres systèmes d'IA effectuent des tâches pour lesquelles ils n'ont pas été formés, leur donnant des "capacités émergentes", a surpris même les chercheurs qui étaient généralement sceptiques quant au battage médiatique sur les LLM. "Je ne sais pas comment ils le font ou s'ils pourraient le faire plus généralement comme le font les humains, mais tout ça mes au défi mes pensées sur le sujet", déclare Melanie Mitchell, chercheuse en IA à l'Institut Santa Fe.

"C'est certainement bien plus qu'un perroquet stochastique, qui auto-construit sans aucun doute une certaine représentation du monde, bien que je ne pense pas que ce soit vraiment de la façon dont les humains construisent un modèle de monde interne", déclare Yoshua Bengio, chercheur en intelligence artificielle à l'université de Montréal.

Lors d'une conférence à l'Université de New York en mars, le philosophe Raphaël Millière de l'Université de Columbia a offert un autre exemple à couper le souffle de ce que les LLM peuvent faire. Les modèles avaient déjà démontré leur capacité à écrire du code informatique, ce qui est impressionnant mais pas trop surprenant car il y a tellement de code à imiter sur Internet. Millière est allé plus loin en montrant que le GPT peut aussi réaliser du code. Le philosophe a tapé un programme pour calculer le 83e nombre de la suite de Fibonacci. "Il s'agit d'un raisonnement en plusieurs étapes d'un très haut niveau", explique-t-il. Et le robot a réussi. Cependant, lorsque Millière a demandé directement le 83e nombre de Fibonacci, GPT s'est trompé, ce qui suggère que le système ne se contentait pas de répéter ce qui se disait sur l'internet. Ce qui suggère que le système ne se contente pas de répéter ce qui se dit sur Internet, mais qu'il effectue ses propres calculs pour parvenir à la bonne réponse.

Bien qu'un LLM tourne sur un ordinateur, il n'en n'est pas un lui-même. Il lui manque des éléments de calcul essentiels, comme sa propre mémoire vive. Reconnaissant tacitement que GPT seul ne devrait pas être capable d'exécuter du code, son inventeur, la société technologique OpenAI, a depuis introduit un plug-in spécialisé - outil que ChatGPT peut utiliser pour répondre à une requête - qui remédie à cela. Mais ce plug-in n'a pas été utilisé dans la démonstration de Millière. Au lieu de cela, ce dernier suppose plutôt que la machine a improvisé une mémoire en exploitant ses mécanismes d'interprétation des mots en fonction de leur contexte - situation similaire à la façon dont la nature réaffecte des capacités existantes à de nouvelles fonctions.

Cette capacité impromptue démontre que les LLM développent une complexité interne qui va bien au-delà d'une analyse statistique superficielle. Les chercheurs constatent que ces systèmes semblent parvenir à une véritable compréhension de ce qu'ils ont appris. Dans une étude présentée la semaine dernière à la Conférence internationale sur les représentations de l'apprentissage (ICLR), le doctorant Kenneth Li de l'Université de Harvard et ses collègues chercheurs en intelligence artificielle, Aspen K. Hopkins du Massachusetts Institute of Technology, David Bau de la Northeastern University et Fernanda Viégas , Hanspeter Pfister et Martin Wattenberg, tous à Harvard, ont créé leur propre copie plus petite du réseau neuronal GPT afin de pouvoir étudier son fonctionnement interne. Ils l'ont entraîné sur des millions de matchs du jeu de société Othello en alimentant de longues séquences de mouvements sous forme de texte. Leur modèle est devenu un joueur presque parfait.

Pour étudier comment le réseau de neurones encodait les informations, ils ont adopté une technique que Bengio et Guillaume Alain, également de l'Université de Montréal, ont imaginée en 2016. Ils ont créé un réseau de "sondes" miniatures pour analyser le réseau principal couche par couche. Li compare cette approche aux méthodes des neurosciences. "C'est comme lorsque nous plaçons une sonde électrique dans le cerveau humain", dit-il. Dans le cas de l'IA, la sonde a montré que son "activité neuronale" correspondait à la représentation d'un plateau de jeu d'Othello, bien que sous une forme alambiquée. Pour confirmer ce résultat, les chercheurs ont inversé la sonde afin d'implanter des informations dans le réseau, par exemple en remplaçant l'un des marqueurs noirs du jeu par un marqueur blanc. "En fait, nous piratons le cerveau de ces modèles de langage", explique Li. Le réseau a ajusté ses mouvements en conséquence. Les chercheurs ont conclu qu'il jouait à Othello à peu près comme un humain : en gardant un plateau de jeu dans son "esprit" et en utilisant ce modèle pour évaluer les mouvements. Li pense que le système apprend cette compétence parce qu'il s'agit de la description la plus simple et efficace de ses données pour l'apprentissage. "Si l'on vous donne un grand nombre de scripts de jeu, essayer de comprendre la règle qui les sous-tend est le meilleur moyen de les comprimer", ajoute-t-il.

Cette capacité à déduire la structure du monde extérieur ne se limite pas à de simples mouvements de jeu ; il apparaît également dans le dialogue. Belinda Li (aucun lien avec Kenneth Li), Maxwell Nye et Jacob Andreas, tous au MIT, ont étudié des réseaux qui jouaient à un jeu d'aventure textuel. Ils ont introduit des phrases telles que "La clé est dans le coeur du trésor", suivies de "Tu prends la clé". À l'aide d'une sonde, ils ont constaté que les réseaux encodaient en eux-mêmes des variables correspondant à "coeur" et "Tu", chacune avec la propriété de posséder ou non une clé, et mettaient à jour ces variables phrase par phrase. Le système n'a aucun moyen indépendant de savoir ce qu'est une boîte ou une clé, mais il a acquis les concepts dont il avait besoin pour cette tâche."

"Une représentation de cette situation est donc enfouie dans le modèle", explique Belinda Li.

Les chercheurs s'émerveillent de voir à quel point les LLM sont capables d'apprendre du texte. Par exemple, Pavlick et sa doctorante d'alors, l'étudiante Roma Patel, ont découvert que ces réseaux absorbent les descriptions de couleur du texte Internet et construisent des représentations internes de la couleur. Lorsqu'ils voient le mot "rouge", ils le traitent non seulement comme un symbole abstrait, mais comme un concept qui a une certaine relation avec le marron, le cramoisi, le fuchsia, la rouille, etc. Démontrer cela fut quelque peu délicat. Au lieu d'insérer une sonde dans un réseau, les chercheurs ont étudié sa réponse à une série d'invites textuelles. Pour vérifier si le systhème ne faisait pas simplement écho à des relations de couleur tirées de références en ligne, ils ont essayé de le désorienter en lui disant que le rouge est en fait du vert - comme dans la vieille expérience de pensée philosophique où le rouge d'une personne correspond au vert d'une autre. Plutôt que répéter une réponse incorrecte, les évaluations de couleur du système ont évolué de manière appropriée afin de maintenir les relations correctes.

Reprenant l'idée que pour remplir sa fonction d'autocorrection, le système recherche la logique sous-jacente de ses données d'apprentissage, le chercheur en apprentissage automatique Sébastien Bubeck de Microsoft Research suggère que plus la gamme de données est large, plus les règles du système faire émerger sont générales. "Peut-être que nous nous constatons un tel bond en avant parce que nous avons atteint une diversité de données suffisamment importante pour que le seul principe sous-jacent à toutes ces données qui demeure est que des êtres intelligents les ont produites... Ainsi la seule façon pour le modèle d'expliquer toutes ces données est de devenir intelligent lui-même".

En plus d'extraire le sens sous-jacent du langage, les LLM sont capables d'apprendre en temps réel. Dans le domaine de l'IA, le terme "apprentissage" est généralement réservé au processus informatique intensif dans lequel les développeurs exposent le réseau neuronal à des gigaoctets de données et ajustent petit à petit ses connexions internes. Lorsque vous tapez une requête dans ChatGPT, le réseau devrait être en quelque sorte figé et, contrairement à l'homme, ne devrait pas continuer à apprendre. Il fut donc surprenant de constater que les LLM apprennent effectivement à partir des invites de leurs utilisateurs, une capacité connue sous le nom d'"apprentissage en contexte". "Il s'agit d'un type d'apprentissage différent dont on ne soupçonnait pas l'existence auparavant", explique Ben Goertzel, fondateur de la société d'IA SingularityNET.

Un exemple de la façon dont un LLM apprend vient de la façon dont les humains interagissent avec les chatbots tels que ChatGPT. Vous pouvez donner au système des exemples de la façon dont vous voulez qu'il réponde, et il obéira. Ses sorties sont déterminées par les derniers milliers de mots qu'il a vus. Ce qu'il fait, étant donné ces mots, est prescrit par ses connexions internes fixes - mais la séquence de mots offre néanmoins une certaine adaptabilité. Certaines personnes utilisent le jailbreak à des fins sommaires, mais d'autres l'utilisent pour obtenir des réponses plus créatives. "Il répondra mieux aux questions scientifiques, je dirais, si vous posez directement la question, sans invite spéciale de jailbreak, explique William Hahn, codirecteur du laboratoire de perception de la machine et de robotique cognitive à la Florida Atlantic University. "Sans il sera un meilleur universitaire." (Comme son nom l'indique une invite jailbreak -prison cassée-, invite à moins délimiter-verrouiller les fonctions de recherche et donc à les ouvrir, avec les risques que ça implique) .

Un autre type d'apprentissage en contexte se produit via l'incitation à la "chaîne de pensée", ce qui signifie qu'on demande au réseau d'épeler chaque étape de son raisonnement - manière de faire qui permet de mieux résoudre les problèmes de logique ou d'arithmétique en passant par plusieurs étapes. (Ce qui rend l'exemple de Millière si surprenant puisque le réseau a trouvé le nombre de Fibonacci sans un tel encadrement.)

En 2022, une équipe de Google Research et de l'École polytechnique fédérale de Zurich - Johannes von Oswald, Eyvind Niklasson, Ettore Randazzo, João Sacramento, Alexander Mordvintsev, Andrey Zhmoginov et Max Vladymyrov - a montré que l'apprentissage en contexte suit la même procédure de calcul de base que l'apprentissage standard, connue sous le nom de descente de gradient".

Cette procédure n'était pas programmée ; le système l'a découvert sans aide. "C'est probablement une compétence acquise", déclare Blaise Agüera y Arcas, vice-président de Google Research. De fait il pense que les LLM peuvent avoir d'autres capacités latentes que personne n'a encore découvertes. "Chaque fois que nous testons une nouvelle capacité que nous pouvons quantifier, nous la trouvons", dit-il.

Bien que les LLM aient suffisamment d'angles morts et autres défauts pour ne pas être qualifiés d'intelligence générale artificielle, ou AGI - terme désignant une machine qui atteint l'ingéniosité du cerveau animal - ces capacités émergentes suggèrent à certains chercheurs que les entreprises technologiques sont plus proches de l'AGI que même les optimistes ne l'avaient deviné. "Ce sont des preuves indirectes que nous en sommes probablement pas si loin", a déclaré Goertzel en mars lors d'une conférence sur le deep learning à la Florida Atlantic University. Les plug-ins d'OpenAI ont donné à ChatGPT une architecture modulaire un peu comme celle du cerveau humain. "La combinaison de GPT-4 [la dernière version du LLM qui alimente ChatGPT] avec divers plug-ins pourrait être une voie vers une spécialisation des fonctions semblable à celle de l'homme", déclare Anna Ivanova, chercheuse au M.I.T.

Dans le même temps, les chercheurs s'inquiètent de voir leur capacité à étudier ces systèmes s'amenuiser. OpenAI n'a pas divulgué les détails de la conception et de l'entraînement de GPT-4, en partie du à la concurrence avec Google et d'autres entreprises, sans parler des autres pays. "Il y aura probablement moins de recherche ouverte de la part de l'industrie, et les choses seront plus cloisonnées et organisées autour de la construction de produits", déclare Dan Roberts, physicien théoricien au M.I.T., qui applique les techniques de sa profession à la compréhension de l'IA.

Ce manque de transparence ne nuit pas seulement aux chercheurs, il entrave également les efforts qui visent à comprendre les répercussions sociales de l'adoption précipitée de la technologie de l'IA. "La transparence de ces modèles est la chose la plus importante pour garantir la sécurité", affirme M. Mitchell.

Auteur: Musser Georges

Info: https://www.scientificamerican.com, 11 mai 2023. *algorithme d'optimisation utilisé dans l'apprentissage automatique et les problèmes d'optimisation. Il vise à minimiser ou à maximiser une fonction en ajustant ses paramètres de manière itérative. L'algorithme part des valeurs initiales des paramètres et calcule le gradient de la fonction au point actuel. Les paramètres sont ensuite mis à jour dans la direction du gradient négatif (pour la minimisation) ou positif (pour la maximisation), multiplié par un taux d'apprentissage. Ce processus est répété jusqu'à ce qu'un critère d'arrêt soit rempli. La descente de gradient est largement utilisée dans la formation des modèles d'apprentissage automatique pour trouver les valeurs optimales des paramètres qui minimisent la différence entre les résultats prédits et les résultats réels. Trad et adaptation Mg

[ singularité technologique ] [ versatilité sémantique ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

homme-machine

Les grands modèles de langage tels que ChatGPT sont aujourd'hui suffisamment importants pour commencer à afficher des comportements surprenants et imprévisibles.

Quel film ces emojis décrivent-ils ? (On voit une vidéo qui présente des myriades d'émoji formant des motifs mouvants, modélisés à partir de métadonnées)

Cette question était l'une des 204 tâches choisies l'année dernière pour tester la capacité de divers grands modèles de langage (LLM) - les moteurs de calcul derrière les chatbots d'IA tels que ChatGPT. Les LLM les plus simples ont produit des réponses surréalistes. "Le film est un film sur un homme qui est un homme qui est un homme", commençait l'un d'entre eux. Les modèles de complexité moyenne s'en sont approchés, devinant The Emoji Movie. Mais le modèle le plus complexe l'a emporté en une seule réponse : Finding Nemo.

"Bien que j'essaie de m'attendre à des surprises, je suis surpris par ce que ces modèles peuvent faire", a déclaré Ethan Dyer, informaticien chez Google Research, qui a participé à l'organisation du test. C'est surprenant parce que ces modèles sont censés n'avoir qu'une seule directive : accepter une chaîne de texte en entrée et prédire ce qui va suivre, encore et encore, en se basant uniquement sur des statistiques. Les informaticiens s'attendaient à ce que le passage à l'échelle permette d'améliorer les performances sur des tâches connues, mais ils ne s'attendaient pas à ce que les modèles puissent soudainement gérer autant de tâches nouvelles et imprévisibles.

Des études récentes, comme celle à laquelle a participé M. Dyer, ont révélé que les LLM peuvent produire des centaines de capacités "émergentes", c'est-à-dire des tâches que les grands modèles peuvent accomplir et que les petits modèles ne peuvent pas réaliser, et dont beaucoup ne semblent pas avoir grand-chose à voir avec l'analyse d'un texte. Ces tâches vont de la multiplication à la génération d'un code informatique exécutable et, apparemment, au décodage de films à partir d'emojis. De nouvelles analyses suggèrent que pour certaines tâches et certains modèles, il existe un seuil de complexité au-delà duquel la fonctionnalité du modèle monte en flèche. (Elles suggèrent également un sombre revers de la médaille : À mesure qu'ils gagnent en complexité, certains modèles révèlent de nouveaux biais et inexactitudes dans leurs réponses).

"Le fait que les modèles de langage puissent faire ce genre de choses n'a jamais été abordé dans la littérature à ma connaissance", a déclaré Rishi Bommasani, informaticien à l'université de Stanford. L'année dernière, il a participé à la compilation d'une liste de dizaines de comportements émergents, dont plusieurs ont été identifiés dans le cadre du projet de M. Dyer. Cette liste continue de s'allonger.

Aujourd'hui, les chercheurs s'efforcent non seulement d'identifier d'autres capacités émergentes, mais aussi de comprendre pourquoi et comment elles se manifestent - en somme, d'essayer de prédire l'imprévisibilité. La compréhension de l'émergence pourrait apporter des réponses à des questions profondes concernant l'IA et l'apprentissage automatique en général, comme celle de savoir si les modèles complexes font vraiment quelque chose de nouveau ou s'ils deviennent simplement très bons en statistiques. Elle pourrait également aider les chercheurs à exploiter les avantages potentiels et à limiter les risques liés à l'émergence.

"Nous ne savons pas comment déterminer dans quel type d'application la capacité de nuisance va se manifester, que ce soit en douceur ou de manière imprévisible", a déclaré Deep Ganguli, informaticien à la startup d'IA Anthropic.

L'émergence de l'émergence

Les biologistes, les physiciens, les écologistes et d'autres scientifiques utilisent le terme "émergent" pour décrire l'auto-organisation, les comportements collectifs qui apparaissent lorsqu'un grand nombre d'éléments agissent comme un seul. Des combinaisons d'atomes sans vie donnent naissance à des cellules vivantes ; les molécules d'eau créent des vagues ; des murmurations d'étourneaux s'élancent dans le ciel selon des schémas changeants mais identifiables ; les cellules font bouger les muscles et battre les cœurs. Il est essentiel que les capacités émergentes se manifestent dans les systèmes qui comportent de nombreuses parties individuelles. Mais ce n'est que récemment que les chercheurs ont été en mesure de documenter ces capacités dans les LLM, car ces modèles ont atteint des tailles énormes.

Les modèles de langage existent depuis des décennies. Jusqu'à il y a environ cinq ans, les plus puissants étaient basés sur ce que l'on appelle un réseau neuronal récurrent. Ceux-ci prennent essentiellement une chaîne de texte et prédisent le mot suivant. Ce qui rend un modèle "récurrent", c'est qu'il apprend à partir de ses propres résultats : Ses prédictions sont réinjectées dans le réseau afin d'améliorer les performances futures.

En 2017, les chercheurs de Google Brain ont introduit un nouveau type d'architecture appelé "transformateur". Alors qu'un réseau récurrent analyse une phrase mot par mot, le transformateur traite tous les mots en même temps. Cela signifie que les transformateurs peuvent traiter de grandes quantités de texte en parallèle.

Les transformateurs ont permis d'augmenter rapidement la complexité des modèles de langage en augmentant le nombre de paramètres dans le modèle, ainsi que d'autres facteurs. Les paramètres peuvent être considérés comme des connexions entre les mots, et les modèles s'améliorent en ajustant ces connexions au fur et à mesure qu'ils parcourent le texte pendant l'entraînement. Plus il y a de paramètres dans un modèle, plus il peut établir des connexions avec précision et plus il se rapproche d'une imitation satisfaisante du langage humain. Comme prévu, une analyse réalisée en 2020 par les chercheurs de l'OpenAI a montré que les modèles gagnent en précision et en capacité au fur et à mesure qu'ils s'étendent.

Mais les débuts des LLM ont également apporté quelque chose de vraiment inattendu. Beaucoup de choses. Avec l'avènement de modèles tels que le GPT-3, qui compte 175 milliards de paramètres, ou le PaLM de Google, qui peut être étendu à 540 milliards de paramètres, les utilisateurs ont commencé à décrire de plus en plus de comportements émergents. Un ingénieur de DeepMind a même rapporté avoir pu convaincre ChatGPT qu'il s'était lui-même un terminal Linux et l'avoir amené à exécuter un code mathématique simple pour calculer les 10 premiers nombres premiers. Fait remarquable, il a pu terminer la tâche plus rapidement que le même code exécuté sur une vraie machine Linux.

Comme dans le cas du film emoji, les chercheurs n'avaient aucune raison de penser qu'un modèle de langage conçu pour prédire du texte imiterait de manière convaincante un terminal d'ordinateur. Nombre de ces comportements émergents illustrent l'apprentissage "à zéro coup" ou "à quelques coups", qui décrit la capacité d'un LLM à résoudre des problèmes qu'il n'a jamais - ou rarement - vus auparavant. Selon M. Ganguli, il s'agit là d'un objectif de longue date dans la recherche sur l'intelligence artificielle. Le fait de montrer que le GPT-3 pouvait résoudre des problèmes sans aucune donnée d'entraînement explicite dans un contexte d'apprentissage à zéro coup m'a amené à abandonner ce que je faisais et à m'impliquer davantage", a-t-il déclaré.

Il n'était pas le seul. Une série de chercheurs, qui ont détecté les premiers indices montrant que les LLM pouvaient dépasser les contraintes de leurs données d'apprentissage, s'efforcent de mieux comprendre à quoi ressemble l'émergence et comment elle se produit. La première étape a consisté à documenter minutieusement l'émergence.

Au-delà de l'imitation

En 2020, M. Dyer et d'autres chercheurs de Google Research ont prédit que les LLM auraient des effets transformateurs, mais la nature de ces effets restait une question ouverte. Ils ont donc demandé à la communauté des chercheurs de fournir des exemples de tâches difficiles et variées afin de déterminer les limites extrêmes de ce qu'un LLM pourrait faire. Cet effort a été baptisé "Beyond the Imitation Game Benchmark" (BIG-bench), en référence au nom du "jeu d'imitation" d'Alan Turing, un test visant à déterminer si un ordinateur peut répondre à des questions d'une manière humaine convaincante. (Le groupe s'est particulièrement intéressé aux exemples où les LLM ont soudainement acquis de nouvelles capacités qui étaient totalement absentes auparavant.

"La façon dont nous comprenons ces transitions brutales est une grande question de la echerche", a déclaré M. Dyer.

Comme on pouvait s'y attendre, pour certaines tâches, les performances d'un modèle se sont améliorées de manière régulière et prévisible au fur et à mesure que la complexité augmentait. Pour d'autres tâches, l'augmentation du nombre de paramètres n'a apporté aucune amélioration. Mais pour environ 5 % des tâches, les chercheurs ont constaté ce qu'ils ont appelé des "percées", c'est-à-dire des augmentations rapides et spectaculaires des performances à partir d'un certain seuil d'échelle. Ce seuil variant en fonction de la tâche et du modèle.

Par exemple, les modèles comportant relativement peu de paramètres - quelques millions seulement - n'ont pas réussi à résoudre des problèmes d'addition à trois chiffres ou de multiplication à deux chiffres, mais pour des dizaines de milliards de paramètres, la précision a grimpé en flèche dans certains modèles. Des sauts similaires ont été observés pour d'autres tâches, notamment le décodage de l'alphabet phonétique international, le décodage des lettres d'un mot, l'identification de contenu offensant dans des paragraphes d'hinglish (combinaison d'hindi et d'anglais) et la formulation d'équivalents en langue anglaise, traduit à partir de proverbes kiswahili.

Introduction

Mais les chercheurs se sont rapidement rendu compte que la complexité d'un modèle n'était pas le seul facteur déterminant. Des capacités inattendues pouvaient être obtenues à partir de modèles plus petits avec moins de paramètres - ou formés sur des ensembles de données plus petits - si les données étaient d'une qualité suffisamment élevée. En outre, la formulation d'une requête influe sur la précision de la réponse du modèle. Par exemple, lorsque Dyer et ses collègues ont posé la question de l'emoji de film en utilisant un format à choix multiples, l'amélioration de la précision a été moins soudaine qu'avec une augmentation graduelle de sa complexité. L'année dernière, dans un article présenté à NeurIPS, réunion phare du domaine, des chercheurs de Google Brain ont montré comment un modèle invité à s'expliquer (capacité appelée raisonnement en chaîne) pouvait résoudre correctement un problème de mots mathématiques, alors que le même modèle sans cette invitation progressivement précisée n'y parvenait pas.

Yi Tay, scientifique chez Google Brain qui a travaillé sur l'étude systématique de ces percées, souligne que des travaux récents suggèrent que l'incitation par de pareilles chaînes de pensées modifie les courbes d'échelle et, par conséquent, le point où l'émergence se produit. Dans leur article sur NeurIPS, les chercheurs de Google ont montré que l'utilisation d'invites via pareille chaines de pensée progressives pouvait susciter des comportements émergents qui n'avaient pas été identifiés dans l'étude BIG-bench. De telles invites, qui demandent au modèle d'expliquer son raisonnement, peuvent aider les chercheurs à commencer à étudier les raisons pour lesquelles l'émergence se produit.

Selon Ellie Pavlick, informaticienne à l'université Brown qui étudie les modèles computationnels du langage, les découvertes récentes de ce type suggèrent au moins deux possibilités pour expliquer l'émergence. La première est que, comme le suggèrent les comparaisons avec les systèmes biologiques, les grands modèles acquièrent réellement de nouvelles capacités de manière spontanée. "Il se peut très bien que le modèle apprenne quelque chose de fondamentalement nouveau et différent que lorsqu'il était de taille inférieure", a-t-elle déclaré. "C'est ce que nous espérons tous, qu'il y ait un changement fondamental qui se produise lorsque les modèles sont mis à l'échelle.

L'autre possibilité, moins sensationnelle, est que ce qui semble être émergent pourrait être l'aboutissement d'un processus interne, basé sur les statistiques, qui fonctionne par le biais d'un raisonnement de type chaîne de pensée. Les grands LLM peuvent simplement être en train d'apprendre des heuristiques qui sont hors de portée pour ceux qui ont moins de paramètres ou des données de moindre qualité.

Mais, selon elle, pour déterminer laquelle de ces explications est la plus probable, il faut mieux comprendre le fonctionnement des LLM. "Comme nous ne savons pas comment ils fonctionnent sous le capot, nous ne pouvons pas dire laquelle de ces choses se produit.

Pouvoirs imprévisibles et pièges

Demander à ces modèles de s'expliquer pose un problème évident : Ils sont des menteurs notoires. Nous nous appuyons de plus en plus sur ces modèles pour effectuer des travaux de base", a déclaré M. Ganguli, "mais je ne me contente pas de leur faire confiance, je vérifie leur travail". Parmi les nombreux exemples amusants, Google a présenté en février son chatbot d'IA, Bard. Le billet de blog annonçant le nouvel outil montre Bard en train de commettre une erreur factuelle.

L'émergence mène à l'imprévisibilité, et l'imprévisibilité - qui semble augmenter avec l'échelle - rend difficile pour les chercheurs d'anticiper les conséquences d'une utilisation généralisée.

"Il est difficile de savoir à l'avance comment ces modèles seront utilisés ou déployés", a déclaré M. Ganguli. "Et pour étudier les phénomènes émergents, il faut avoir un cas en tête, et on ne sait pas, avant d'avoir étudié l'influence de l'échelle. quelles capacités ou limitations pourraient apparaître.

Dans une analyse des LLM publiée en juin dernier, les chercheurs d'Anthropic ont cherché à savoir si les modèles présentaient certains types de préjugés raciaux ou sociaux, à l'instar de ceux précédemment signalés dans les algorithmes non basés sur les LLM utilisés pour prédire quels anciens criminels sont susceptibles de commettre un nouveau délit. Cette étude a été inspirée par un paradoxe apparent directement lié à l'émergence : Lorsque les modèles améliorent leurs performances en passant à l'échelle supérieure, ils peuvent également augmenter la probabilité de phénomènes imprévisibles, y compris ceux qui pourraient potentiellement conduire à des biais ou à des préjudices.

"Certains comportements nuisibles apparaissent brusquement dans certains modèles", explique M. Ganguli. Il se réfère à une analyse récente des LLM, connue sous le nom de BBQ benchmark, qui a montré que les préjugés sociaux émergent avec un très grand nombre de paramètres. "Les grands modèles deviennent brusquement plus biaisés. Si ce risque n'est pas pris en compte, il pourrait compromettre les sujets de ces modèles."

Mais il propose un contrepoint : Lorsque les chercheurs demandent simplement au modèle de ne pas se fier aux stéréotypes ou aux préjugés sociaux - littéralement en tapant ces instructions - le modèle devient moins biaisé dans ses prédictions et ses réponses. Ce qui suggère que certaines propriétés émergentes pourraient également être utilisées pour réduire les biais. Dans un article publié en février, l'équipe d'Anthropic a présenté un nouveau mode d'"autocorrection morale", dans lequel l'utilisateur incite le programme à être utile, honnête et inoffensif.

Selon M. Ganguli, l'émergence révèle à la fois un potentiel surprenant et un risque imprévisible. Les applications de ces grands LLM prolifèrent déjà, de sorte qu'une meilleure compréhension de cette interaction permettra d'exploiter la diversité des capacités des modèles de langage.

"Nous étudions la manière dont les gens utilisent réellement ces systèmes", a déclaré M. Ganguli. Mais ces utilisateurs sont également en train de bricoler, en permanence. "Nous passons beaucoup de temps à discuter avec nos modèles, et c'est là que nous commençons à avoir une bonne intuition de la confiance ou du manque de confiance.

Auteur: Ornes Stephen

Info: https://www.quantamagazine.org/ - 16 mars 2023. Trad DeepL et MG

[ dialogue ] [ apprentissage automatique ] [ au-delà du jeu d'imitation ] [ dualité ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

intelligence artificielle

Apprendre l'anglais n'est pas une tâche facile, comme le savent d'innombrables étudiants. Mais lorsque l'étudiant est un ordinateur, une approche fonctionne étonnamment bien : Il suffit d'alimenter un modèle mathématique géant, appelé réseau neuronal, avec des montagnes de textes provenant d'Internet. C'est le principe de fonctionnement des modèles linguistiques génératifs tels que ChatGPT d'OpenAI, dont la capacité à tenir une conversation cohérente (à défaut d'être toujours sincère) sur un large éventail de sujets a surpris les chercheurs et le public au cours de l'année écoulée.

Mais cette approche présente des inconvénients. D'une part, la procédure de "formation" nécessaire pour transformer de vastes archives textuelles en modèles linguistiques de pointe est coûteuse et prend beaucoup de temps. D'autre part, même les personnes qui forment les grands modèles linguistiques ont du mal à comprendre leur fonctionnement interne, ce qui, à son tour, rend difficile la prévision des nombreuses façons dont ils peuvent échouer.

Face à ces difficultés, certains chercheurs ont choisi d'entraîner des modèles plus petits sur des ensembles de données plus restreints, puis d'étudier leur comportement. "C'est comme le séquençage du génome de la drosophile par rapport au séquençage du génome humain", explique Ellie Pavlick, chercheuse sur les modèles de langage à l'université de Brown.

Dans un article récemment publié sur le serveur scientifique arxiv.org, deux chercheurs de Microsoft ont présenté une nouvelle méthode pour former de minuscules modèles de langage : Les élever avec un régime strict d'histoires pour enfants.

RÉSEAUX NEURONAUX

Des chercheurs acquièrent une nouvelle compréhension à partir d'une simple IA

Les chercheurs en apprentissage automatique ont compris cette leçon. GPT-3.5, le grand modèle linguistique qui alimente l'interface ChatGPT, compte près de 200 milliards de paramètres et a été entraîné sur un ensemble de données comprenant des centaines de milliards de mots (OpenAI n'a pas publié les chiffres correspondants pour son successeur, GPT-4). L'entraînement de modèles aussi vastes nécessite généralement au moins 1 000 processeurs spécialisés, appelés GPU, fonctionnant en parallèle pendant des semaines. Seules quelques entreprises peuvent réunir les ressources nécessaires, sans parler de l'entraînement et de la comparaison de différents modèles.

Les deux chercheurs ont montré que des modèles linguistiques des milliers de fois plus petits que les systèmes de pointe actuels apprenaient rapidement à raconter des histoires cohérentes et grammaticalement justes lorsqu'ils étaient formés de cette manière. Leurs résultats indiquent de nouvelles pistes de recherche qui pourraient être utiles pour former des modèles plus importants et comprendre leur comportement.

"J'ai trouvé tout ça très instructif", a déclaré Chandra Bhagavatula, chercheur sur les modèles de langage à l'Allen Institute for Artificial Intelligence de Seattle. "Le concept lui-même est très intéressant.

Il était une fois

Les réseaux neuronaux au cœur des modèles de langage sont des structures mathématiques vaguement inspirées du cerveau humain. Chacun d'entre eux contient de nombreux neurones artificiels disposés en couches, avec des connexions entre les neurones des couches adjacentes. Le comportement du réseau neuronal est régi par la force de ces connexions, appelées paramètres. Dans un modèle linguistique, les paramètres contrôlent les mots que le modèle peut produire ensuite, compte tenu d'une invite initiale et des mots qu'il a déjà générés.

Un modèle ne prend véritablement vie qu'au cours de la formation, lorsqu'il compare de manière répétée ses propres résultats au texte de son ensemble de données de formation et qu'il ajuste ses paramètres afin d'accroître la ressemblance. Un réseau non entraîné avec des paramètres aléatoires est trivialement facile à assembler à partir de quelques lignes de code, mais il ne produira que du charabia. Après l'entraînement, il peut souvent poursuivre de manière plausible un texte peu familier. Les modèles de plus grande taille sont souvent soumis à des réglages plus fins qui leur apprennent à répondre à des questions et à suivre des instructions, mais l'essentiel de la formation consiste à maîtriser la prédiction des mots.

Pour réussir à prédire des mots, un modèle linguistique doit maîtriser de nombreuses compétences différentes. Par exemple, les règles de la grammaire anglaise suggèrent que le mot suivant le mot "going" sera probablement "to", quel que soit le sujet du texte. En outre, un système a besoin de connaissances factuelles pour compléter "la capitale de la France est", et compléter un passage contenant le mot "not" nécessite une connaissance rudimentaire de la logique.

"Le langage brut est très compliqué", explique Timothy Nguyen, chercheur en apprentissage automatique chez DeepMind. "Pour que des capacités linguistiques intéressantes apparaissent, les gens ont eu recours à l'idée que plus il y a de données, mieux c'est".

(photo) Ronen Eldan s'est rendu compte qu'il pouvait utiliser les histoires d'enfants générées par de grands modèles linguistiques pour en entraîner rapidement de plus petits.

Introduction

Ronen Eldan, mathématicien qui a rejoint Microsoft Research en 2022 pour étudier les modèles de langage génératifs, souhaitait développer un moyen moins coûteux et plus rapide d'explorer leurs capacités. Le moyen naturel d'y parvenir était d'utiliser un petit ensemble de données, ce qui signifiait qu'il devait entraîner les modèles à se spécialiser dans une tâche spécifique, afin qu'ils ne s'éparpillent pas. Au départ, il voulait entraîner les modèles à résoudre une certaine catégorie de problèmes mathématiques, mais un après-midi, après avoir passé du temps avec sa fille de 5 ans, il s'est rendu compte que les histoires pour enfants convenaient parfaitement. "L'idée m'est venue littéralement après lui avoir lu une histoire", a-t-il déclaré.

Pour générer des histoires cohérentes pour les enfants, un modèle de langage devrait apprendre des faits sur le monde, suivre les personnages et les événements, et observer les règles de grammaire - des versions plus simples des défis auxquels sont confrontés les grands modèles. Mais les grands modèles formés sur des ensembles de données massives apprennent d'innombrables détails non pertinents en même temps que les règles qui comptent vraiment. Eldan espérait que la brièveté et le vocabulaire limité des histoires pour enfants rendraient l'apprentissage plus gérable pour les petits modèles, ce qui les rendrait à la fois plus faciles à former et plus faciles à comprendre.

Dans le monde des modèles de langage, cependant, le terme "petit" est relatif : Un ensemble de données mille fois plus petit que celui utilisé pour former GPT-3.5 devrait encore contenir des millions d'histoires. "Je ne sais pas combien d'argent vous voulez dépenser, mais je suppose que vous n'allez pas engager des professionnels pour écrire quelques millions de nouvelles", a déclaré M. Nguyen.

Il faudrait un auteur extraordinairement prolifique pour satisfaire des lecteurs aussi voraces, mais Eldan avait quelques candidats en tête. Qui peut mieux écrire pour un public de petits modèles linguistiques que pour de grands modèles ?

Toys stories

Eldan a immédiatement entrepris de créer une bibliothèque d'histoires synthétiques pour enfants générées par de grands modèles linguistiques. Mais il a rapidement découvert que même les modèles de pointe ne sont pas naturellement très créatifs. Si l'on demande à GPT-4 d'écrire des histoires adaptées à des enfants de 4 ans, explique Eldan, "environ un cinquième des histoires concernera des enfants qui vont au parc et qui ont peur des toboggans". C'est apparemment la quintessence des histoires pour enfants d'âge préscolaire, selon l'Internet.

La solution a consisté à ajouter un peu d'aléatoire dans le message. Tout d'abord, Eldan a utilisé le GPT-4 pour générer une liste de 1 500 noms, verbes et adjectifs qu'un enfant de 4 ans pourrait connaître - suffisamment courte pour qu'il puisse facilement la vérifier lui-même. Il a ensuite écrit un programme informatique simple qui demanderait à plusieurs reprises à GPT-3.5 ou à GPT-4 de générer une histoire adaptée à l'âge de l'enfant, comprenant trois mots aléatoires de la liste, ainsi qu'un détail supplémentaire choisi au hasard, comme une fin heureuse ou un rebondissement de l'intrigue. Les histoires obtenues, heureusement, étaient moins axées sur des diapositives effrayantes.

Eldan disposait désormais d'une procédure pour produire des données de formation à la demande, mais il n'avait aucune idée du nombre d'histoires dont il aurait besoin pour former un modèle fonctionnel, ni de la taille de ce modèle. C'est alors qu'il s'est associé à Yuanzhi Li, chercheur en apprentissage automatique chez Microsoft et à l'université Carnegie Mellon, pour essayer différentes possibilités, en tirant parti du fait que les petits modèles peuvent être formés très rapidement. La première étape consistait à décider comment évaluer leurs modèles.

Introduction

Dans la recherche sur les modèles de langage - comme dans toute salle de classe - la notation est un sujet délicat. Il n'existe pas de rubrique parfaite qui englobe tout ce que les chercheurs veulent savoir, et les modèles qui excellent dans certaines tâches échouent souvent de manière spectaculaire dans d'autres. Au fil du temps, les chercheurs ont mis au point divers critères de référence standard basés sur des questions dont les réponses ne sont pas ambiguës, ce qui est une bonne approche si vous essayez d'évaluer des compétences spécifiques. Mais Eldan et Li se sont intéressés à quelque chose de plus nébuleux : quelle doit être la taille réelle des modèles linguistiques si l'on simplifie le langage autant que possible ?

"Pour vérifier directement si le modèle parle anglais, je pense que la seule chose à faire est de laisser le modèle générer de l'anglais de manière ouverte", a déclaré M. Eldan.

Il n'y a que deux façons de mesurer les performances d'un modèle sur des questions aussi qualitatives : S'appuyer sur des évaluateurs humains ou se tourner à nouveau vers le GPT-4. Les deux chercheurs ont opté pour cette dernière solution, laissant les grands modèles à la fois rédiger les manuels et noter les dissertations.

Bhagavatula a déclaré qu'il aurait aimé voir comment les évaluations de GPT-4 se comparaient à celles des correcteurs humains - GPT-4 peut être biaisé en faveur des modèles qu'il a aidé à former, et l'opacité des modèles de langage rend difficile la quantification de tels biais. Mais il ne pense pas que de telles subtilités affecteraient les comparaisons entre différents modèles formés sur des ensembles similaires d'histoires synthétiques - l'objectif principal du travail d'Eldan et Li.

Eldan et Li ont utilisé une procédure en deux étapes pour évaluer chacun de leurs petits modèles après la formation. Tout d'abord, ils ont présenté au petit modèle la première moitié d'une histoire distincte de celles de l'ensemble des données d'apprentissage, de manière à ce qu'il génère une nouvelle fin, en répétant ce processus avec 50 histoires de test différentes. Ensuite, ils ont demandé à GPT-4 d'évaluer chacune des fins du petit modèle en fonction de trois catégories : créativité, grammaire et cohérence avec le début de l'histoire. Ils ont ensuite fait la moyenne des notes obtenues dans chaque catégorie, obtenant ainsi trois notes finales par modèle.

Avec cette procédure en main, Eldan et Li étaient enfin prêts à comparer les différents modèles et à découvrir quels étaient les étudiants les plus brillants.

Résultats des tests

Après quelques explorations préliminaires, les deux chercheurs ont opté pour un ensemble de données de formation contenant environ 2 millions d'histoires. Ils ont ensuite utilisé cet ensemble de données, baptisé TinyStories, pour entraîner des modèles dont la taille varie de 1 million à 30 millions de paramètres, avec un nombre variable de couches. Le travail a été rapide : En utilisant seulement quatre GPU, l'entraînement du plus grand de ces modèles n'a pas pris plus d'une journée.

Les plus petits modèles ont eu du mal. Par exemple, l'une des histoires testées commence par un homme à l'air méchant qui dit à une fille qu'il va lui prendre son chat. Un modèle à un million de paramètres s'est retrouvé bloqué dans une boucle où la fille répète sans cesse à l'homme qu'elle veut être son amie. Mais les modèles plus grands, qui sont encore des milliers de fois plus petits que GPT-3.5, ont obtenu des résultats surprenants. La version à 28 millions de paramètres racontait une histoire cohérente, même si la fin était sinistre : "Katie s'est mise à pleurer, mais l'homme s'en fichait. Il a emporté le chat et Katie n'a plus jamais revu son chat. Fin de l'histoire".

En plus de tester leurs propres modèles, Eldan et Li ont soumis le même défi au GPT-2 d'OpenAI, un modèle de 1,5 milliard de paramètres publié en 2019. Le résultat a été bien pire - avant la fin abrupte de l'histoire, l'homme menace d'emmener la jeune fille au tribunal, en prison, à l'hôpital, à la morgue et enfin au crématorium.

Introduction

Selon M. Nguyen, il est passionnant que des modèles aussi petits soient aussi fluides, mais il n'est peut-être pas surprenant que GPT-2 ait eu du mal à accomplir la tâche : il s'agit d'un modèle plus grand, mais loin de l'état de l'art, et il a été formé sur un ensemble de données très différent. "Un enfant en bas âge qui ne s'entraînerait qu'à des tâches d'enfant en bas âge, comme jouer avec des jouets, obtiendrait de meilleurs résultats que vous ou moi", a-t-il fait remarquer. "Nous ne nous sommes pas spécialisés dans cette chose simple.

Les comparaisons entre les différents modèles de TinyStories ne souffrent pas des mêmes facteurs de confusion. Eldan et Li ont observé que les réseaux comportant moins de couches mais plus de neurones par couche étaient plus performants pour répondre aux questions nécessitant des connaissances factuelles ; inversement, les réseaux comportant plus de couches et moins de neurones par couche étaient plus performants pour garder en mémoire les personnages et les points de l'intrigue situés plus tôt dans l'histoire. Bhagavatula a trouvé ce résultat particulièrement intriguant. S'il peut être reproduit dans des modèles plus vastes, "ce serait un résultat vraiment intéressant qui pourrait découler de ce travail", a-t-il déclaré.

Eldan et Li ont également étudié comment les capacités de leurs petits modèles dépendaient de la durée de la période de formation. Dans tous les cas, les modèles maîtrisaient d'abord la grammaire, puis la cohérence. Pour Eldan, ce schéma illustre comment les différences dans les structures de récompense entraînent des différences dans les schémas d'acquisition du langage entre les réseaux neuronaux et les enfants. Pour les modèles de langage, qui apprennent en prédisant des mots, "l'incitation pour les mots "je veux avoir" est aussi importante que pour les mots "crème glacée"", a-t-il déclaré. Les enfants, en revanche, "ne se soucient pas de savoir s'ils disent 'j'aimerais avoir de la glace' ou simplement 'glace, glace, glace'".

Qualité contre quantité

Eldan et Li espèrent que cette étude incitera d'autres chercheurs à entraîner différents modèles sur l'ensemble des données de TinyStories et à comparer leurs capacités. Mais il est souvent difficile de prédire quelles caractéristiques des petits modèles apparaîtront également dans les plus grands.

"Peut-être que les modèles de vision chez la souris sont de très bons substituts de la vision humaine, mais les modèles de dépression chez la souris sont-ils de bons modèles de la dépression chez l'homme ? a déclaré M. Pavlick. "Pour chaque cas, c'est un peu différent.

Le succès des modèles TinyStories suggère également une leçon plus large. L'approche standard pour compiler des ensembles de données de formation consiste à aspirer des textes sur l'internet, puis à filtrer les déchets. Le texte synthétique généré par des modèles de grande taille pourrait constituer une autre façon d'assembler des ensembles de données de haute qualité qui n'auraient pas besoin d'être aussi volumineux.

"Nous avons de plus en plus de preuves que cette méthode est très efficace, non seulement pour les modèles de la taille de TinyStories, mais aussi pour les modèles plus importants", a déclaré M. Eldan. Ces preuves proviennent d'une paire d'articles de suivi sur les modèles à un milliard de paramètres, rédigés par Eldan, Li et d'autres chercheurs de Microsoft. Dans le premier article, ils ont entraîné un modèle à apprendre le langage de programmation Python en utilisant des extraits de code générés par GPT-3.5 ainsi que du code soigneusement sélectionné sur l'internet. Dans le second, ils ont complété l'ensemble de données d'entraînement par des "manuels" synthétiques couvrant un large éventail de sujets, afin d'entraîner un modèle linguistique à usage général. Lors de leurs tests, les deux modèles ont été comparés favorablement à des modèles plus importants formés sur des ensembles de données plus vastes. Mais l'évaluation des modèles linguistiques est toujours délicate, et l'approche des données d'entraînement synthétiques n'en est qu'à ses balbutiements - d'autres tests indépendants sont nécessaires.

Alors que les modèles linguistiques de pointe deviennent de plus en plus volumineux, les résultats surprenants de leurs petits cousins nous rappellent qu'il y a encore beaucoup de choses que nous ne comprenons pas, même pour les modèles les plus simples. M. Nguyen s'attend à ce que de nombreux autres articles explorent l'approche inaugurée par TinyStories.

"La question est de savoir où et pourquoi la taille a de l'importance", a-t-il déclaré. "Il devrait y avoir une science à ce sujet, et cet article est, je l'espère, le début d'une riche histoire.

Auteur: Internet

Info: https://www.quantamagazine.org/ Ben Brubaker, 5 octobre 2023

[ synthèse ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

Paramètres de recherches