Citation
Catégorie
Tag – étiquette
Auteur
Info



nb max de mots
nb min de mots
trier par
Dictionnaire analogique intriqué pour extraits. Recherche mots ou phrases tous azimuts. Aussi outil de précision sémantique et de réflexion communautaire. Voir la rubrique mode d'emploi. Jetez un oeil à la colonne "chaînes". ATTENTION, faire une REINITIALISATION après  une recherche complexe. Et utilisez le nuage de corrélats !!!!..... Lire la suite >>
Résultat(s): 185
Temps de recherche: 0.0591s

USA

Le paysage médiatique en Amérique est dominé par les "fausses nouvelles". Depuis des décennies. Ces fausses nouvelles n’émanent pas du Kremlin. C’est une industrie de plusieurs milliards de dollars par an, qui est habilement conçue et gérée par des agences de relations publiques, des publicistes et des services de communications au nom d’individus précis, du gouvernement, et des sociétés pour manipuler l’opinion publique.
Cette industrie de la propagande met en scène des pseudo-événements pour façonner notre perception de la réalité. Le public est tellement inondé par ces mensonges, livrés 24 heures par jour à la radio, à la télévision et dans la presse écrite, que les téléspectateurs et les lecteurs ne peuvent plus distinguer entre la vérité et la fiction.
Donald Trump et les théoriciens racistes-conspirateurs, les généraux et les milliardaires autour de lui, ont hérité et exploité cette situation, tout comme ils ont hérité et exploiteront la destruction des libertés civiles et l’effondrement des institutions démocratiques. Trump n’a pas créé ce vide politique, moral et intellectuel. C’est l’inverse. Ce vide a créé un monde où les faits changent avec l’opinion, où les célébrités ont d’énormes mégaphones tout simplement parce que ce sont des célébrités, où l’information doit être divertissante et où nous avons la possibilité de croire ce que nous voulons, indépendamment de la vérité. Un démagogue comme Trump est le résultat que vous obtenez quand la culture et la presse tournent au burlesque.
Les journalistes ont depuis longtemps renoncé à décrire un monde objectif ou à donner la parole aux hommes et aux femmes ordinaires. Ils ont été conditionnés pour répondre aux demandes des entreprises. Les personnalités de l’actualité, qui gagnent souvent des millions de dollars par an, deviennent courtisanes. Elles vendent des commérages. Elles favorisent le consumérisme et l’impérialisme. Elles bavardent sans cesse au sujet des sondages, des stratégies, de la présentation et des tactiques ou jouent à des jeux de devinettes sur les rendez-vous présidentiels à venir. Elles comblent l’absence de nouvelles avec des histoires triviales, conduites émotionnellement, qui nous font sentir bien dans notre peau. Ils sont incapables de produire de véritables reportages. Elles s’appuient sur des propagandistes professionnels pour encadrer toute discussion et débat.
Il y a des journalistes établis qui ont passé toute leur carrière à reformuler des communiqués de presse ou à participer à des séances d’information officielles ou à des conférences de presse – j’en connaissais plusieurs lorsque j’étais au New York Times. Ils travaillent comme sténographes des puissants. Beaucoup de ces reporters sont très estimés dans la profession.
Les entreprises qui possèdent des médias, contrairement aux anciens empires de presse, voient les nouvelles comme simplement une autre source de revenus publicitaires. Ces revenus concourent au bénéfice de l’entreprise. Lorsque le secteur des nouvelles ne produit pas ce qui est considéré comme un profit suffisant, la hache tombe. Le contenu n’est pas pertinent. Les courtisans de la presse, redevables à leurs seigneurs dans l’entreprise, s’accrochent férocement à des places privilégiées et bien rémunérées. Parce qu’ils endossent servilement les intérêts du pouvoir des entreprises, ils sont haïs par les travailleurs américains, qu’ils ont rendus invisibles. Ils méritent la haine qu’ils suscitent.
La plupart des rubriques d’un journal – "style de vie", voyages, immobilier et mode, entre autres – sont conçues pour s’adresser au 1%. Ce sont des appâts pour la publicité. Seulement environ 15% de la surface rédactionnelle de n’importe quel journal est consacrée aux nouvelles. Si vous supprimez de ces 15% le contenu fourni par l’industrie des relations publiques à l’intérieur et à l’extérieur du gouvernement, le pourcentage de nouvelles tombe à un seul chiffre. Pour les nouvelles diffusées par les ondes et le câble, le pourcentage des nouvelles véritables, rapportées de façon indépendante, serait proche de zéro.
L’objet des fausses nouvelles est de façonner l’opinion publique, en créant des personnalités fantoches et des réponses émotionnelles qui submergent la réalité. Hillary Clinton, contrairement à la façon dont elle a souvent été dépeinte lors de la récente campagne présidentielle, n’a jamais combattu dans l’intérêt des femmes et des enfants – elle avait défendu la destruction d’un système d’aide sociale dans lequel 70% des bénéficiaires étaient des enfants. Elle est un outil des grandes banques, de Wall Street et de l’industrie de guerre. De pseudo-événements ont été créés pour maintenir la fiction de son souci pour les femmes et les enfants, de sa compassion et de ses liens avec les gens ordinaires. Trump n’a jamais été un grand homme d’affaires. Il a une longue histoire de faillites et de pratiques commerciales obscures. Mais il a joué le rôle fictif d’un titan de la finance dans son émission de télé-réalité, L’Apprenti.
"Les pseudo-événements qui inondent notre conscience ne sont ni vrais ni faux, dans le vieux sens familier", écrit Daniel Boorstin dans son livre L’image : un guide des pseudo-événements en Amérique : "Les mêmes progrès qui les ont rendues possibles, ont aussi rendu les images plus réalistes, plus attirantes, plus impressionnantes et plus convaincantes que la réalité elle-même, bien que planifiées, artificielles ou déformées."
La réalité est consciemment prémâchée en récits faciles à digérer. Ceux qui sont impliqués dans les relations publiques, les campagnes politiques et le gouvernement ressassent implacablement le message. Ils ne s’écartent pas du simple slogan criard ou du cliché qu’ils sont invités à répéter. C’est une espèce de conversation continue avec des bébés.
"Les raffinements de la raison et les nuances d’ombre de l’émotion ne peuvent pas atteindre un public considérable", a noté cyniquement Edward Bernays, le père des relations publiques modernes.
Le rythme trépidant et le format abrégé de la télévision excluent les complexités et les nuances. La télévision est manichéenne, bien et mal, noir et blanc, héros et méchant. Elle nous fait confondre les émotions induites avec la connaissance. Elle renforce le récit mythique de la vertu et de la bonté américaines. Elle rend hommage à des experts et spécialistes soigneusement sélectionnés par les élites du pouvoir et l’idéologie régnante. Elle discrédite ou ridiculise tous ceux qui s’opposent.
Le Parti démocrate est-il assez stupide pour croire qu’il a perdu l’élection présidentielle à cause des courriels fuités de John Podesta et de la décision du directeur du FBI, James Comey, peu de temps avant le vote, d’envoyer une lettre au Congrès à propos du serveur de messagerie privé de Clinton ? La direction du parti démocrate ne peut-elle pas voir que la cause première de la défaite est qu’elle a abandonné les travailleurs pour promouvoir les intérêts des entreprises ? Ne comprend-t’elle pas que, bien que ses mensonges et sa propagande aient fonctionné pendant trois décennies, les Démocrates ont fini par perdre leur crédibilité auprès de ceux qu’ils avaient trahis ?
L’indignation de l’establishment démocratique, au sujet de la fuite de courrier électronique vers le site de WikiLeaks, ignore le fait qu’une telle divulgation d’information dommageable est une tactique employée couramment par le gouvernement des États-Unis et d’autres, y compris la Russie, pour discréditer des individus et des entités. Cela fait partie intégrante de la presse. Personne, même au sein du parti démocrate, n’a fait valoir de façon convaincante que les emails de Podesta étaient fabriqués. Ces courriels sont réels. Ils ne peuvent pas être étiquetés fausses nouvelles.
En tant que correspondant à l’étranger, j’ai reçu régulièrement des informations divulguées, parfois confidentielles, de divers groupes ou gouvernements cherchant à endommager certaines cibles. L’agence de renseignement nationale d’Israël, le Mossad, m’avait parlé d’un petit aéroport appartenant au gouvernement iranien à l’extérieur de Hambourg, en Allemagne. Je suis allé à l’aéroport et j’ai publié une enquête qui a constaté que, comme les Israéliens m’en avaient correctement informé, l’Iran l’utilisait pour démonter du matériel nucléaire, l’expédier en Pologne, le remonter et l’envoyer vers l’Iran par avion. L’aéroport a été fermé après mon article.
Dans un autre cas, le gouvernement des États-Unis m’a remis des documents montrant qu’un membre important du parlement chypriote et son cabinet d’avocats blanchissaient de l’argent pour la mafia russe. Mon histoire a paralysé les affaires légitimes du cabinet d’avocats et a incité le politicien à poursuivre The New York Times et moi. Les avocats du journal ont choisi de contester la poursuite devant un tribunal chypriote, en disant qu’ils ne pouvaient pas obtenir un procès équitable là-bas. Ils m’ont dit que, pour éviter l’arrestation, je ne devais pas retourner à Chypre.
Je pourrais remplir plusieurs colonnes avec des exemples comme ceux-ci.
Les gouvernements n’organisent pas des fuites parce qu’ils se soucient de la démocratie ou d’une presse libre. Ils le font parce qu’il est dans leur intérêt de faire tomber quelqu’un ou quelque chose. Dans la plupart des cas, parce que le journaliste vérifie l’information divulguée, la nouvelle n’est pas un faux. C’est lorsque le journaliste ne vérifie pas l’information – comme ce fut le cas lorsque le New York Times a rapporté sans scrupule les accusations de l’administration Bush prétendant faussement que Saddam Hussein avait des armes de destruction massive en Irak – qu’il participe à la vaste industrie des fausses nouvelles.
De fausses nouvelles sont maintenant utilisées pour dépeindre des sites d’information indépendants, y compris Truthdig, et des journalistes indépendants, comme des informateurs ou des agents involontaires de la Russie. Les élites des partis républicain et démocrate utilisent des fausses nouvelles dans leur tentative pour présenter Trump comme une marionnette du Kremlin et invalider l’élection. Aucune preuve convaincante de telles accusations n’a été rendue publique. Mais la fausse nouvelle est devenue un bélier dans la dernière série de diffamations russophobes.
Dans une lettre à Truthdig, datée du 7 décembre, l’avocat du Washington Post (qui a publié un article le 24 novembre à propos d’allégations selon lesquelles Truthdig et quelque 200 autres sites Web étaient des outils de propagande russe), disait que l’auteur de l’article, Craig Timberg connaissait l’identité des accusateurs anonymes de PropOrNot, le groupe qui a fait les accusations. [Note de la rédaction de Truthdig : l’avocat a écrit, en partie, au sujet de l’article du 24 novembre et de PropOrNot, "La description de l’article repose sur des rapports substantiels de M. Timberg, y compris de nombreuses entrevues, des vérifications d’antécédents de personnes spécifiques impliquées dans le groupe (dont les identités étaient connues de Timberg, contrairement à vos spéculations). […]"]. Le Washington Post dit qu’il doit protéger l’anonymat de PropOrNot. Il a transmis une fausse accusation sans preuve. Les victimes, dans ce cas, ne peuvent pas répondre adéquatement, parce que les accusateurs sont anonymes. Ceux qui sont diffamés sont informés qu’ils devraient faire appel à PropOrNot pour obtenir que leurs noms soient retirés de la liste noire du groupe. Ce procédé de raisonnement circulaire donne de la crédibilité aux groupes anonymes qui établissent des listes noires et propagent des fausses nouvelles, ainsi qu’aux mensonges qu’ils répandent.
La transformation culturelle et sociale du XXe siècle, dont E.P. Thompson a parlé dans son essai Time, Work-Discipline, and Industrial Capitalism, s’est avérée être beaucoup plus que l’étreinte d’un système économique ou la célébration du patriotisme. Cela fait partie, a-t-il souligné, d’une réinterprétation révolutionnaire de la réalité. Elle marque l’ascendant de la culture de masse, la destruction de la culture authentique et de la véritable vie intellectuelle.
Richard Sennett, dans son livre The Fall of the Public Man, a identifié la montée de la culture de masse comme l’une des forces principales derrière ce qu’il a appelé une nouvelle "personnalité collective […] engendrée par un fantasme commun". Et les grands propagandistes du siècle sont non seulement d’accord, mais ajoutent que ceux qui peuvent manipuler et façonner ces fantasmes déterminent les directions prises par la "personnalité collective".
Cette énorme pression interne, cachée à la vue du public, rend la production d’un bon journalisme et d’une bonne érudition très, très difficile. Les journalistes et les universitaires qui se soucient de la vérité, et ne reculent pas, sont soumis à une coercition subtile, parfois ouverte, et sont souvent purgés des institutions.
Les images, qui sont le moyen par lequel la plupart des gens ingèrent maintenant les informations, sont particulièrement enclines à être transformées en fausses nouvelles. La langue, comme le remarque le critique culturel Neil Postman, "ne fait sens que lorsqu’elle est présentée comme une suite de propositions. La signification est déformée lorsqu’un mot ou une phrase est, comme on dit, pris hors contexte. Quand un lecteur ou un auditeur est privé de ce qui a été dit avant et après". Les images n’ont pas de contexte. Elles sont "visibles d’une manière différente". Les images, surtout lorsqu’elles sont livrées en segments longs et rapides, démembrent et déforment la réalité. Le procédé "recrée le monde dans une série d’événements idiosyncrasiques".
Michael Herr, qui a couvert la guerre du Vietnam pour le magazine Esquire, a observé que les images de la guerre présentées dans les photographies et à la télévision, à la différence du mot imprimé, obscurcissent la brutalité du conflit. "La télévision et les nouvelles ont toujours été présentées comme ayant mis fin à la guerre, a déclaré M. Herr. J’ai pensé le contraire. Ces images ont toujours été vues dans un autre contexte – intercalées entre les publicités – de sorte qu’elles sont devenues un entremet sucré dans l’esprit du public. Je pense que cette couverture a prolongé la guerre."
Une population qui a oublié l’imprimerie, bombardée par des images discordantes et aléatoires, est dépouillée du vocabulaire ainsi que du contexte historique et culturel permettant d’articuler la réalité. L’illusion est la vérité. Un tourbillon d’élans émotionnels fabriqués nourrit notre amnésie historique.
Internet a accéléré ce processus. Avec les nouvelles par câble, il a divisé le pays en clans antagonistes. Les membres d’un clan regardent les mêmes images et écoutent les mêmes récits, créant une réalité collective. Les fausses nouvelles abondent dans ces bidonvilles virtuels. Le dialogue est clos. La haine des clans opposés favorise une mentalité de troupeau. Ceux qui expriment de l’empathie pour l’ennemi sont dénoncés par leurs compagnons de route pour leur impureté supposée. C’est aussi vrai à gauche qu’à droite. Ces clans et leurs troupeaux, gavés régulièrement de fausses nouvelles conçues pour émouvoir, ont donné naissance à Trump.
Trump est habile à communiquer à travers l’image, les slogans tapageurs et le spectacle. Les fausses nouvelles, qui dominent déjà la presse écrite et la télévision, définiront les médias sous son administration. Ceux qui dénonceront les mensonges seront vilipendés et bannis. L’État dévoué aux grandes entreprises multinationales a créé cette machine monstrueuse de propagande et l’a léguée à Trump. Il l’utilisera.

Auteur: Hedges Chris

Info: Internet, Truthdig, 18 décembre 2016

[ Etats-Unis ] [ Russie ] [ vingt-et-unième siècle ]

 

Commentaires: 0

homme-machine

Chat GPT ou le perroquet grammairien

L’irruption des IA conversationnelles dans la sphère publique a conféré une pertinence supplémentaire aux débats sur le langage humain et sur ce qu’on appelle parler. Notamment, les IA redonnent naissance à un débat ancien sur la grammaire générative et sur l’innéisme des facultés langagières. Mais les grands modèles de langage et les IA neuronales nous offrent peut-être l’occasion d’étendre le domaine de la réflexion sur l’architecture des systèmes possibles de cognition, de communication et d’interaction, et considérant aussi la façon dont les animaux communiquent.

a capacité de ChatGPT à produire des textes en réponse à n’importe quelle requête a immédiatement attiré l’attention plus ou moins inquiète d’un grand nombre de personnes, les unes animées par une force de curiosité ou de fascination, et les autres, par un intérêt professionnel.

L’intérêt professionnel scientifique que les spécialistes du langage humain peuvent trouver aux Large Language Models ne date pas d’hier : à bien des égards, des outils de traduction automatique comme DeepL posaient déjà des questions fondamentales en des termes assez proches. Mais l’irruption des IA conversationnelles dans la sphère publique a conféré une pertinence supplémentaire aux débats sur ce que les Large Language Models sont susceptibles de nous dire sur le langage humain et sur ce qu’on appelle parler.

L’outil de traduction DeepL (ou les versions récentes de Google Translate) ainsi que les grands modèles de langage reposent sur des techniques d’" apprentissage profond " issues de l’approche " neuronale " de l’Intelligence Artificielle : on travaille ici sur des modèles d’IA qui organisent des entités d’information minimales en les connectant par réseaux ; ces réseaux de connexion sont entraînés sur des jeux de données considérables, permettant aux liaisons " neuronales " de se renforcer en proportion des probabilités de connexion observées dans le jeu de données réelles – c’est ce rôle crucial de l’entraînement sur un grand jeu de données qui vaut aux grands modèles de langage le sobriquet de " perroquets stochastiques ". Ces mécanismes probabilistes sont ce qui permet aussi à l’IA de gagner en fiabilité et en précision au fil de l’usage. Ce modèle est qualifié de " neuronal " car initialement inspiré du fonctionnement des réseaux synaptiques. Dans le cas de données langagières, à partir d’une requête elle-même formulée en langue naturelle, cette technique permet aux agents conversationnels ou aux traducteurs neuronaux de produire très rapidement des textes généralement idiomatiques, qui pour des humains attesteraient d’un bon apprentissage de la langue.

IA neuronales et acquisition du langage humain

Au-delà de l’analogie " neuronale ", ce mécanisme d’entraînement et les résultats qu’il produit reproduisent les théories de l’acquisition du langage fondées sur l’interaction avec le milieu. Selon ces modèles, généralement qualifiés de comportementalistes ou behavioristes car étroitement associés aux théories psychologiques du même nom, l’enfant acquiert le langage par l’exposition aux stimuli linguistiques environnants et par l’interaction (d’abord tâtonnante, puis assurée) avec les autres. Progressivement, la prononciation s’aligne sur la norme majoritaire dans l’environnement individuel de la personne apprenante ; le vocabulaire s’élargit en fonction des stimuli ; l’enfant s’approprie des structures grammaticales de plus en plus contextes ; et en milieu bilingue, les enfants apprennent peu à peu à discriminer les deux ou plusieurs systèmes auxquels ils sont exposés. Cette conception essentiellement probabiliste de l’acquisition va assez spontanément de pair avec des théories grammaticales prenant comme point de départ l’existence de patrons (" constructions ") dont la combinatoire constitue le système. Dans une telle perspective, il n’est pas pertinent qu’un outil comme ChatGPT ne soit pas capable de référer, ou plus exactement qu’il renvoie d’office à un monde possible stochastiquement moyen qui ne coïncide pas forcément avec le monde réel. Cela ne change rien au fait que ChatGPT, DeepL ou autres maîtrisent le langage et que leur production dans une langue puisse être qualifiée de langage : ChatGPT parle.

Mais ce point de vue repose en réalité sur un certain nombre de prémisses en théorie de l’acquisition, et fait intervenir un clivage lancinant au sein des sciences du langage. L’actualité de ces dernières années et surtout de ces derniers mois autour des IA neuronales et génératives redonne à ce clivage une acuité particulière, ainsi qu’une pertinence nouvelle pour l’appréhension de ces outils qui transforment notre rapport au texte et au discours. La polémique, comme souvent (trop souvent ?) quand il est question de théorie du langage et des langues, se cristallise – en partie abusivement – autour de la figure de Noam Chomsky et de la famille de pensée linguistique très hétérogène qui se revendique de son œuvre, généralement qualifiée de " grammaire générative " même si le pluriel (les grammaires génératives) serait plus approprié.

IA générative contre grammaire générative

Chomsky est à la fois l’enfant du structuralisme dans sa variante états-unienne et celui de la philosophie logique rationaliste d’inspiration allemande et autrichienne implantée sur les campus américains après 1933. Chomsky est attaché à une conception forte de la logique mathématisée, perçue comme un outil d’appréhension des lois universelles de la pensée humaine, que la science du langage doit contribuer à éclairer. Ce parti-pris que Chomsky qualifiera lui-même de " cartésien " le conduit à fonder sa linguistique sur quelques postulats psychologiques et philosophiques, dont le plus important est l’innéisme, avec son corollaire, l’universalisme. Selon Chomsky et les courants de la psychologie cognitive influencée par lui, la faculté de langage s’appuie sur un substrat génétique commun à toute l’espèce humaine, qui s’exprime à la fois par un " instinct de langage " mais aussi par l’existence d’invariants grammaticaux, identifiables (via un certain niveau d’abstraction) dans toutes les langues du monde.

La nature de ces universaux fluctue énormément selon quelle période et quelle école du " générativisme " on étudie, et ce double postulat radicalement innéiste et universaliste reste très disputé aujourd’hui. Ces controverses mettent notamment en jeu des conceptions très différentes de l’acquisition du langage et des langues. Le moment fondateur de la théorie chomskyste de l’acquisition dans son lien avec la définition même de la faculté de langage est un violent compte-rendu critique de Verbal Behavior, un ouvrage de synthèse des théories comportementalistes en acquisition du langage signé par le psychologue B.F. Skinner. Dans ce compte-rendu publié en 1959, Chomsky élabore des arguments qui restent structurants jusqu’à aujourd’hui et qui définissent le clivage entre l’innéisme radical et des théories fondées sur l’acquisition progressive du langage par exposition à des stimuli environnementaux. C’est ce clivage qui préside aux polémiques entre linguistes et psycholinguistes confrontés aux Large Language Models.

On comprend dès lors que Noam Chomsky et deux collègues issus de la tradition générativiste, Ian Roberts, professeur de linguistique à Cambridge, et Jeffrey Watumull, chercheur en intelligence artificielle, soient intervenus dans le New York Times dès le 8 mars 2023 pour exposer un point de vue extrêmement critique intitulée " La fausse promesse de ChatGPT ". En laissant ici de côté les arguments éthiques utilisés dans leur tribune, on retiendra surtout l’affirmation selon laquelle la production de ChatGPT en langue naturelle ne pourrait pas être qualifiée de " langage " ; ChatGPT, selon eux, ne parle pas, car ChatGPT ne peut pas avoir acquis la faculté de langage. La raison en est simple : si les Grands Modèles de Langage reposent intégralement sur un modèle behaviouriste de l’acquisition, dès lors que ce modèle, selon eux, est réfuté depuis soixante ans, alors ce que font les Grands Modèles de Langage ne peut être qualifié de " langage ".

Chomsky, trop têtu pour qu’on lui parle ?

Le point de vue de Chomsky, Roberts et Watumull a été instantanément tourné en ridicule du fait d’un choix d’exemple particulièrement malheureux : les trois auteurs avançaient en effet que certaines constructions syntaxiques complexes, impliquant (dans le cadre générativiste, du moins) un certain nombre d’opérations sur plusieurs niveaux, ne peuvent être acquises sur la base de l’exposition à des stimuli environnementaux, car la fréquence relativement faible de ces phénomènes échouerait à contrebalancer des analogies formelles superficielles avec d’autres tournures au sens radicalement différent. Dans la tribune au New York Times, l’exemple pris est l’anglais John is too stubborn to talk to, " John est trop entêté pour qu’on lui parle ", mais en anglais on a littéralement " trop têtu pour parler à " ; la préposition isolée (ou " échouée ") en position finale est le signe qu’un constituant a été supprimé et doit être reconstitué aux vues de la structure syntaxique d’ensemble. Ici, " John est trop têtu pour qu’on parle à [John] " : le complément supprimé en anglais l’a été parce qu’il est identique au sujet de la phrase.

Ce type d’opérations impliquant la reconstruction d’un complément d’objet supprimé car identique au sujet du verbe principal revient dans la plupart des articles de polémique de Chomsky contre la psychologie behaviouriste et contre Skinner dans les années 1950 et 1960. On retrouve même l’exemple exact de 2023 dans un texte du début des années 1980. C’est en réalité un exemple-type au service de l’argument selon lequel l’existence d’opérations minimales universelles prévues par les mécanismes cérébraux humains est nécessaire pour l’acquisition complète du langage. Il a presque valeur de shibboleth permettant de séparer les innéistes et les comportementalistes. Il est donc logique que Chomsky, Roberts et Watumull avancent un tel exemple pour énoncer que le modèle probabiliste de l’IA neuronale est voué à échouer à acquérir complètement le langage.

On l’aura deviné : il suffit de demander à ChatGPT de paraphraser cette phrase pour obtenir un résultat suggérant que l’agent conversationnel a parfaitement " compris " le stimulus. DeepL, quand on lui demande de traduire cette phrase en français, donne deux solutions : " John est trop têtu pour qu’on lui parle " en solution préférée et " John est trop têtu pour parler avec lui " en solution de remplacement. Hors contexte, donc sans qu’on sache qui est " lui ", cette seconde solution n’est guère satisfaisante. La première, en revanche, fait totalement l’affaire.

Le détour par DeepL nous montre toutefois la limite de ce petit test qui a pourtant réfuté Chomsky, Roberts et Watumull : comprendre, ici, ne veut rien dire d’autre que " fournir une paraphrase équivalente ", dans la même langue (dans le cas de l’objection qui a immédiatement été faite aux trois auteurs) ou dans une autre (avec DeepL), le problème étant que les deux équivalents fournis par DeepL ne sont justement pas équivalents entre eux, puisque l’un est non-ambigu référentiellement et correct, tandis que l’autre est potentiellement ambigu référentiellement, selon comment on comprend " lui ". Or l’argument de Chomsky, Roberts et Watumull est justement celui de l’opacité du complément d’objet… Les trois auteurs ont bien sûr été pris à défaut ; reste que le test employé, précisément parce qu’il est typiquement behaviouriste (observer extérieurement l’adéquation d’une réaction à un stimulus), laisse ouverte une question de taille et pourtant peu présente dans les discussions entre linguistes : y a-t-il une sémantique des énoncés produits par ChatGPT, et si oui, laquelle ? Chomsky et ses co-auteurs ne disent pas que ChatGPT " comprend " ou " ne comprend pas " le stimulus, mais qu’il en " prédit le sens " (bien ou mal). La question de la référence, présente dans la discussion philosophique sur ChatGPT mais peu mise en avant dans le débat linguistique, n’est pas si loin.

Syntaxe et sémantique de ChatGPT

ChatGPT a une syntaxe et une sémantique : sa syntaxe est homologue aux modèles proposés pour le langage naturel invoquant des patrons formels quantitativement observables. Dans ce champ des " grammaires de construction ", le recours aux données quantitatives est aujourd’hui standard, en particulier en utilisant les ressources fournies par les " grand corpus " de plusieurs dizaines de millions voire milliards de mots (quinze milliards de mots pour le corpus TenTen francophone, cinquante-deux milliards pour son équivalent anglophone). D’un certain point de vue, ChatGPT ne fait que répéter la démarche des modèles constructionalistes les plus radicaux, qui partent de co-occurrences statistiques dans les grands corpus pour isoler des patrons, et il la reproduit en sens inverse, en produisant des données à partir de ces patrons.

Corrélativement, ChatGPT a aussi une sémantique, puisque ces théories de la syntaxe sont majoritairement adossées à des modèles sémantiques dits " des cadres " (frame semantics), dont l’un des inspirateurs n’est autre que Marvin Minsky, pionnier de l’intelligence artificielle s’il en est : la circulation entre linguistique et intelligence artificielle s’inscrit donc sur le temps long et n’est pas unilatérale. Là encore, la question est plutôt celle de la référence : la sémantique en question est très largement notionnelle et ne permet de construire un énoncé susceptible d’être vrai ou faux qu’en l’actualisant par des opérations de repérage (ne serait-ce que temporel) impliquant de saturer grammaticalement ou contextuellement un certain nombre de variables " déictiques ", c’est-à-dire qui ne se chargent de sens que mises en relation à un moi-ici-maintenant dans le discours.

On touche ici à un problème transversal aux clivages dessinés précédemment : les modèles " constructionnalistes " sont plus enclins à ménager des places à la variation contextuelle, mais sous la forme de variables situationnelles dont l’intégration à la description ne fait pas consensus ; les grammaires génératives ont très longtemps évacué ces questions hors de leur sphère d’intérêt, mais les considérations pragmatiques y fleurissent depuis une vingtaine d’années, au prix d’une convocation croissante du moi-ici-maintenant dans l’analyse grammaticale, du moins dans certains courants. De ce fait, l’inscription ou non des enjeux référentiels et déictiques dans la définition même du langage comme faculté humaine représente un clivage en grande partie indépendant de celui qui prévaut en matière de théorie de l’acquisition.

À l’école du perroquet

La bonne question, en tout cas la plus féconde pour la comparaison entre les productions langagières humaines et les productions des grands modèles de langage, n’est sans doute pas de savoir si " ChatGPT parle " ni si les performances de l’IA neuronale valident ou invalident en bloc tel ou tel cadre théorique. Une piste plus intéressante, du point de vue de l’étude de la cognition et du langage humains, consiste à comparer ces productions sur plusieurs niveaux : les mécanismes d’acquisition ; les régularités sémantiques dans leur diversité, sans les réduire aux questions de référence et faisant par exemple intervenir la conceptualisation métaphorique des entités et situations désignées ; la capacité à naviguer entre les registres et les variétés d’une même langue, qui fait partie intégrante de la maîtrise d’un système ; l’adaptation à des ontologies spécifiques ou à des contraintes communicatives circonstancielles… La formule du " perroquet stochastique ", prise au pied de la lettre, indique un modèle de ce que peut être une comparaison scientifique du langage des IA et du langage humain.

Il existe en effet depuis plusieurs décennies maintenant une linguistique, une psycholinguistique et une pragmatique de la communication animale, qui inclut des recherches comparant l’humain et l’animal. Les progrès de l’étude de la communication animale ont permis d’affiner la compréhension de la faculté de langage, des modules qui la composent, de ses prérequis cognitifs et physiologiques. Ces travaux ne nous disent pas si " les animaux parlent ", pas plus qu’ils ne nous disent si la communication des corbeaux est plus proche de celle des humains que celle des perroquets. En revanche ils nous disent comment diverses caractéristiques éthologiques, génétiques et cognitives sont distribuées entre espèces et comment leur agencement produit des modes de communication spécifiques. Ces travaux nous renseignent, en nous offrant un terrain d’expérimentation inédit, sur ce qui fait toujours système et sur ce qui peut être disjoint dans la faculté de langage. Loin des " fausses promesses ", les grands modèles de langage et les IA neuronales nous offrent peut-être l’occasion d’étendre le domaine de la réflexion sur l’architecture des systèmes possibles de cognition, de communication et d’interaction. 



 

Auteur: Modicom Pierre-Yves

Info: https://aoc.media/ 14 nov 2023

[ onomasiologie bayésienne ] [ sémiose homme-animal ] [ machine-homme ] [ tiercités hors-sol ] [ signes fixés externalisables ]

 

Commentaires: 0

Ajouté à la BD par miguel

fascisme religieux

Mon père, l’Iran et les " musulmans modérés " 

Des jardins d’Isphahan aux rives de la Seine… Djahanguir Riahi, mon père, est né en 1914 à Natanz (Iran). Parti en France poursuivre des études d’ingénieur grâce à une bourse d’études, il se met au lendemain de la Seconde guerre mondiale au service des relations économiques Franco-iraniennes. Installé en Europe depuis la révolution islamique, son intuition artistique hors du commun lui a permis de réunir l’une des plus importantes collections d’œuvres d’art du XVIIIème siècle français. Il est mort dans sa centième année, le 28 avril 2014, après avoir été élevé au grade de Commandeur de La Légion d’Honneur ainsi que des Arts et des Lettres. Grand donateur des Musées Nationaux, une salle du Musée du Louvre porte son nom.

Il m’avait demandé d’écrire ce texte au lendemain des attentats du World Trade Center, le 11 septembre 2001, et de l’inclure dans ses mémoires, que je rédigeais alors pour lui.

" Nous n’avons pas le même rapport à la barbarie et à la mort. L’attraction publique la plus appréciée de la population, à Mashhad comme dans toutes les villes où s’est déroulée mon enfance, consistait à s’attrouper sur la grand’place pour y assister aux pendaisons. La cruauté des exécutions était inouïe.

J’avais été horrifié, un jour, d’apprendre la condamnation d’un homme et de ses six fils. Le bourreau avait reçu du tribunal islamique l’ordre monstrueux de ne pendre le père qu’après qu’il eut assisté à la mort de tous ses enfants. Agha Djoun[1] se disait convaincu de l’innocence de ce pauvre homme. Et moi, je me disais, du haut de mes douze ou treize ans, en voyant leurs vêtements souillés par l’urine et la merde : pourquoi font-ils ça, sinon pour anéantir par la terreur toute forme de dignité humaine, toute forme de respect de la mort et donc de la vie ?

La mort, on s’y familiarise comme on prend l’habitude de tout. Lorsqu’en suivant le chemin de l’école au petit jour on longe la place des pendus, quand on assiste à des exécutions sommaires et barbares, on finit par apprivoiser la mort. Mais cette insensibilisation, ou plus exactement cette désacralisation, vous semble inconcevable en occident. Parce que vous êtes élevés dans le respect de la vie sans penser que la mort en est l’inéluctable corollaire.

Comme si la vie pouvait " être " sans la mort. Cette naïveté, à laquelle s’ajoute la pédagogie de l’émotion, est le fondement de la culture occidentale contemporaine. L’émotion priorisée, l’émotion magnifiée. On vit sur ce registre depuis la seconde moité du XXème siècle, sans doute par imprégnation des tendances éducatives à la mode aux Etats-Unis au lendemain de la guerre. L’enfant est devenu le barycentre de la civilisation occidentale. Héritière de la philosophie de Jean-Jacques Rousseau, la pédagogie contemporaine pose le principe que l’Homme naît bon et que c’est la société qui le pervertit. De même, dans le souci maniaque de préserver la planète, les mouvements écologistes ont entamé une régression qui efface inexorablement les progrès de la civilisation. On n’élève plus les enfants pour en faire des adultes ; on fait des enfants pour retomber soi-même en enfance, pour retrouver la puérilité sublimée de l’enfance.

Les islamistes jouent de cette émotivité occidentale. Si la religion dont ils se servent est primitive, leur stratégie de conquête est extrêmement sophistiquée. Ils vous observent et vous analysent depuis la fin des années 1970. Ils ont fréquenté les mêmes écoles, les mêmes universités que les élites occidentales. Ils ont vu les mêmes spectacles, les mêmes films ; lu les mêmes articles dans les mêmes revues. Ils savent que votre sensibilité au respect de la vie, votre peur de la mort, votre fragilité mentale et votre compulsion à la culpabilité sur un terrain compassionnel constituent votre talon d’Achille. Vous êtes tombés dans un triple piège :

- Le piège de l’anxiété collective " individualisée ". Certes, les guerres ont toujours fait des victimes civiles ; mais au World Trade Center ou dans les avions, il n’y avait " que " des victimes civiles. Chacun pouvait se dire : j’aurais pu me trouver parmi elles. Cette angoisse est le principe même du terrorisme, que les techniques de communication actuelles permettent d’individualiser simultanément à des milliards de témoins de la scène.

- Le piège de la " victimisation " des assassins. Pendant une centaine d’années, l’Europe a plus ou moins colonisé le monde ; en particulier les terres d’Islam que sont le Moyen-Orient, le Maghreb et l’Afrique. L’Amérique a toujours été solidaire des puissances européennes, sans parler de son soutien constant à l’Etat d’Israël. Pendant toute la durée de ces conflits, les victimes se sont comptées par centaines de milliers du côté des indigènes, sans que cela n’émeuve grand monde. Aujourd’hui, les victimes sont dans l’autre camp et toute une partie de la planète n’éprouve nullement l’envie de pleurer sur leur sort, considérant que c’est un juste retour des choses.

Le piège enfin du " chahid ", le martyr, celui qui meurt pour témoigner, alors que vous, pauvres larves invertébrées, vous pleurnichez de trouille en chiant dans votre froc, tant la mort vous effraie. Et cet exhibition du « héros » a le double avantage d’impressionner les musulmans, qui respectent le courage par principe, et de faire peur aux incroyants comme aux non pratiquants.

Les motivations fondamentales d’Al Qaida, celles des Islamistes en général, sont politiques et ne sont pas religieuses. Parce que la religion musulmane est intrinsèquement et historiquement politique. Il n’y a pas d’équivalent. Ni les juifs, ni les bouddhistes ou les hindouistes, ni les chrétiens n’ont eu pour vocation première de guerroyer et de conquérir. Bien sûr qu’ils ont tous été amenés à prendre les armes à divers moments de leur histoire. Mais ce n’était pas l’amorce ni la genèse de leur projet. Il faut en être conscient.

Mohammed – ou Mahomet comme vous l’appelez en France – n’a pas cherché à " spiritualiser " ses contemporains ni à leur apporter des réponses philosophiques. Son objectif était très prosaïque : il a voulu les rendre plus efficaces au travail et au combat !

Avant de " faire prophète " il était caravanier et commerçant. Issu de la tribu des Quraych et de tradition hanifiste, c’est-à-dire monothéiste, le jeune homme était intelligent, ambitieux et séduisant. Il sut se rendre indispensable à sa patronne, Khadija, une riche veuve de 15 ans son aînée, qu’il épousa et à laquelle il fit six enfants. Ses contacts sur la route avec des juifs et des chrétiens lui permirent de constater les avantages de la morale judéo-chrétienne et l’efficacité, par 45° à l’ombre, des prescritions hygiéniques et alimentaires de la kashrout.

On connaît la suite : Gibril dans le rôle de l’Ange Gabriel transforma ces préceptes en révélation divine et donna à l’accomplissement de ces pratiques un caractère religieux. Mais très objectivement, la plupart des Hadiths du Coran concernent l’organisation familiale et sociale, les pratiques et les règles juridiques à observer dans ces domaines, ce qui en fait un code civil plus qu’une somme théologique. L’islam a bénéficié de l’antériorité du Judaïsme et du Christianisme ; ses messages ont donc été parfaitement ajustés à leur objectif : discipliner et contrôler l’être humain. Le pouvoir politique l’a utilisé sans vergogne pour manipuler les peuples, tant il est vrai que la religion s’est toujours avérée l’arme la plus efficace pour anéantir toute aspiration à la démocratie et à la liberté.

Un simple constat: les monarchies héréditaires musulmanes se sont systématiquement trouvé une filiation directe avec le Prophète ou l’un de ses descendants ! Pour leurs chefs, pour les meneurs, la religion a toujours été un moyen, jamais une fin. Ben Laden, comme ceux qui l’ont précédé et ceux qui prendront sa suite, n’en a strictement rien à faire (et je suis poli…) du projet spirituel du Djihad et de l’accomplissement des hadiths du Coran. L’Islamisme sert juste un dessein politique. La religion n’est que l’instrument de la conquête, ou plutôt de la reconquête. Qu’importe le temps que cela mettra : dix ans, vingt ans, plus de trente ans peut-être… Ce que l’Islam a programmé, c’est la chute de l’Occident et de la civilisation judéo-chrétienne. Pas pour le takbîr, mais pour conquérir le monde et ses richesses, asservir ses populations. Allahou Akbar, proclamé et calligraphié sur les emblèmes et les drapeaux, n’est qu’un cri de guerre destiné à galvaniser les pauvres idiots crédules qui se prennent pour des soldats d’Allah et ne sont que la chair à canon de ceux qui rêvent de pouvoir absolu et universel depuis 1422 ans !

Le terrorisme est une tactique, que les islamistes utilisent ponctuellement ; pour entretenir la terreur, bien sûr, mais aussi parce qu’ils ont compris tout le bénéfice qu’il pouvaient tirer de la dichotomie que vous avez créée entre la religion musulmane et l’Islam " radical ". En triant vous-mêmes les " bons musulmans " des mauvais, vous vous êtes tiré une balle dans le pied et vous leur avez rendu un fieffé service ! En focalisant l’attention sur le terrorisme, vous réduisez la cible contre laquelle vous devriez combattre. Grâce à la très ancienne tactique du leurre, les Islamistes vous montrent du doigt les djihadistes et détournent votre attention du cheval de Troie qu’ils ont construit et mis en marche pour vous soumettre.

Et que l’on ne vienne pas me parler de " musulmans modérés "! Ils sont, évidemment, très largement majoritaires aujourd’hui. Mais où et comment les voit-on condamner les agissement des fondamentalistes? Combien sont-ils à être descendus dans la rue pour manifester massivement contre Al Qaïda au lendemain du 11 septembre 2001 ? Pour hurler à la face du monde, dans tous les médias et dans toutes les langues qu’ils se désolidarisent du salafisme, du wahhabisme, du frérisme et autres branches radicales de l’Islam ? Pour affirmer qu’ils vont faire le ménage dans leurs pratiques, actualiser drastiquement la charia et définir une ligne exclusivement métaphysique à leur religion ?

La religion musulmane n’est pas monolithique et exclusivement constituée de conquérants assoiffés de pouvoir et de vengeance, c’est clair. Mais la conquête est consubstantielle de la religion musulmane. L’Islam, sa culture politique, sa doctrine, son prosélytisme, son histoire et sa finalité sont intrinsèquement d’inspiration guerrière. De même que la vie ne peut se concevoir sans la mort, il n’y a pas de soumission sans victoire, ni de victoire sans combat. Or, la soumission à Allah est l’essence même du message de l’Islam.

C’est pourquoi les musulmans se soumettent implicitement aujourd’hui au fondamentalisme que leur impose l’Islam radical. Ils s’y soumettront explicitement demain et vous ne résisterez pas, un jour, à la tentation de vous y soumettre à votre tour. Parce que la peur est l’arme absolue, l’arme que l’Islam politique utilise avec talent pour anéantir toute forme de résistance à leur domination. Ils l’utiliseront jusqu’au bout, contre vous, mais aussi contre ceux que vous appelez " les musulmans modérés " pour anéantir votre civilisation.

Bien sûr qu’il existe des courants plus ou moins progressistes comme le malikisme, dont le logiciel est régulièrement mis à jour par le Roi du Maroc. Bien sûr que l’on peut interpréter le Coran de dizaines, de centaines de manières. Bien sûr que l’on peut intellectualiser le concept du Djihad et en faire un idéal moral (…) Néanmoins le syllogisme est évident et les faits sont têtus : tous les musulmans ne sont pas des fondamentalistes islamiques ni des djihadistes ; mais tous les fondamentalistes islamiques et tous les djihadistes sont musulmans. Trop facile d’établir une distinction morale et sémantique entre les prescriptions religieuses supposées acceptables, que vous qualifiez d’ " islamiques " et celles, intolérables, cataloguées " islamistes ". Quand on tue au nom de l’Islam, on n’accomplit pas un acte de dément, pas plus qu’un crime de sang ordinaire. Quand on tue au nom de l’Islam, c’est qu’on vous a mis dans la tête qu’il est de votre devoir de croyant d’exterminer les incroyants, lesquels auraient soit disant " déclaré la guerre " aux soldats de la vraie foi !

La motivation du donneur d’ordre est politique, pas religieuse. Ils arriveront à leurs fins, parce que la dialectique de l’Islam est redoutable. Les stratégies et les techniques de communication qu’ils mettent en œuvre sont très subtiles et pertinentes, car ils savent parfaitement comment vous fonctionnez. Ils achètent depuis des années les réseaux de communication qui influencent l’opinion publique, en Europe comme aux USA. Vous êtes des enfants dans leurs mains. Ils vous connaissent très bien, alors que vous ne les connaissez pas. Vous êtes manipulés et vous ne le savez pas.

Ils ont compris voila longtemps que votre talon d’Achille, c’est la mauvaise conscience et la compassion. Les Français en sont rongés depuis qu’on leur a mis dans la tête que la colonisation de l’Afrique et du Maghreb avait été un crime contre l’Humanité commis par leurs aïeux. Les uns après les autres, tous les gouvernants français ont baissé leur froc et fait acte de " repentance " vis-à-vis de ces peuples que leurs pères avaient " exploités " ; mais a-t-on songé à demander aux Arabes de se repentir, eux qui ont réduit en esclavage pendant des siècles, des générations d’Africains ?

Je suis athée, mais je ne pourrais pas le dire si j’étais resté dans mon pays. Pas plus hier qu’aujourd’hui. Ce n’est pas un problème de liberté d’expression, c’est juste un problème de liberté d’être. On n’a pas le droit d’être athée en Islam : juif, chrétien, oui. Athée, non. Mon appréhension, au vu de tout ce qui s’est produit depuis une dizaine d’années, c’est que je ne puisse pas le dire demain ; ici, dans ce beau pays libre qu’est la France. Je ne le crains pas pour moi, bien sûr, je suis vieux. Mais je crains que mes enfants et mes petits enfants se trouvent confrontés à la main-mise de l’Islam, à laquelle j’ai eu la chance de me soustraire voila près d’un siècle.

En 25 ans, j’ai vu évoluer la société française d’un modèle républicain et comme vous dites " laïc " vers un modèle communautaire à l’anglo-américaine. Il a fallu dix-neuf siècles de conflits et de guerres pour que la France, " Fille aînée de l’Eglise " sépare sa " mère " de son Etat, en 1905. Et encore, nous sommes très loin du compte aujourd’hui, pour les raisons économiques et électoralistes que tu connais mieux que moi. Il n’y a qu’à regarder tes hommes politiques se trémousser dans les églises, les mosquées et les synagogues pour en être convaincu.

La religion est un leurre contre la peur de la mort ; un leurre pour assujettir ceux qui ont vocation à être dominés. Depuis toujours, la religion est l’auxiliaire du pouvoir. Dans toutes les religions. Pourquoi l’être humain a-t-il tellement besoin de se raccrocher à un Dieu et à un au-delà pour tenter d’évacuer la peur de la mort ? Je ne sais pas. Moi, vois-tu, je n’ai jamais eu peur. Jamais eu peur de la mort, en tous cas. Sauf (rires) que j’ai toujours craint d’être enterré vivant. Je fais très souvent un affreux cauchemar. On ferme mon cercueil alors que je suis assoupi. Je me réveille et je frappe désespérément sur le couvercle en hurlant : bande d’idiots, espèces d’imbéciles… Vous ne voyez donc pas que je ne suis pas mort ? "

Mon père est mort le 28 avril 2014 dans sa centième année. Il a arrêté de se nourrir, estimant qu’il avait suffisamment vécu.

Il n’a pas connu les attentats de Charlie Hebdo, du Bataclan, de la Promenade des Anglais à Nice, ni l’égorgement du Père Jacques Hamel à St. Etienne-du-Rouvray.

A chacune de ces attaques terroristes et plus encore aujourd’hui, après le carnage barbare du Hamas perpétré le samedi 7 octobre 2023, j’ai repensé à ce qu’il m’avait dit au lendemain du 11 septembre 2001. 

Auteur: Mansouret Anne

Info: https://www.causeur.fr/, 21 octobre 2023, [1] Agha Djoun est mon grand-père, le père de mon père. C’est l’appellation donnée dans les familles, qui peut s’interpréter : " Votre Éminence chérie " et qui traduit tout à la fois la déférence et l’affection. En l’occurrence, mon grand-père était haut fonctionnaire territorial, c’est à dire Trésorier général dans plusieurs provinces, d’où les déménagements successifs vécus par ma famille.

[ prise du pouvoir ] [ machiavélisme ] [ orient - occident ]

 

Commentaires: 0

Ajouté à la BD par Le sous-projectionniste

transgressions verbales

Avant même de parler, nous jurions.

Furieux de ce qu'il considère comme une pandémie virtuelle de vulgarité verbale émanant de personnalités aussi diverses que Howard Stern, Bono de U2 et Robert Novak, le Sénat des États-Unis est sur le point d'examiner un projet de loi qui augmenterait fortement les sanctions pour obscénité à l'antenne.

En multipliant par quinze les amendes qui seraient infligées aux radiodiffuseurs contrevenants, pour atteindre un montant d'environ 500 000 dollars par diffusion de grossièretés, et en menaçant de révoquer les licences des contrevenants récidivistes, le Sénat cherche à redonner à la place publique la teneur plus douce d'antan, lorsque l'on entendait rarement des propos calomnieux et que les célébrités n'étaient pas grossières à longueur de journée.

Pourtant, les chercheurs qui étudient l'évolution du langage et la psychologie des jurons disent qu'ils n'ont aucune idée du modèle mystique de gentillesse linguistique que les critiques pourraient avoir en tête. Le juron, disent-ils, est un universel humain. Toutes les langues, tous les dialectes et tous les patois étudiés, vivants ou morts, parlés par des millions de personnes ou par une petite tribu, ont leur part d'interdits, une variante de la célèbre liste des sept gros mots qui ne doivent pas être prononcés à la radio ou à la télévision, établie par le comédien George Carlin.

Les jeunes enfants mémorisent cet inventaire illicite bien avant d'en saisir le sens, explique John McWhorter, spécialiste de la linguistique au Manhattan Institute et auteur de "The Power of Babel", et les géants de la littérature ont toujours construit leur art sur sa colonne vertébrale.

"Le dramaturge jacobéen Ben Jonson a parsemé ses pièces de fackings et de "Culs peremptoirs", et Shakespeare ne pouvait guère écrire une strophe sans insérer des blasphèmes de l'époque comme "zounds" ou "sblood" - contractions offensantes de "God's wounds" et "God's blood" - ou autre étonnant  jeu de mots sexuel.

Le titre "Much Ado About Nothing", dit son auteur le Dr McWhorter, est un jeu de mots sur "Much Ado About an O Thing", le O thing étant une référence aux organes génitaux féminins.

Même la quintessence du bon livre abonde en passages coquins comme les hommes de II Kings 18:27 qui, comme le dit la traduction relativement douce du King James, "mangent leur propre merde et boivent leur propre pisse".

En fait, selon Guy Deutscher, linguiste à l'université de Leyde, aux Pays-Bas, et auteur de "The Unfolding of Language : An Evolutionary Tour of Mankind's Greatest Invention", les premiers écrits, qui datent d'il y a 5 000 ans, comportent leur lot de descriptions colorées de la forme humaine et de ses fonctions encore plus colorées. Et les écrits ne sont que le reflet d'une tradition orale qui, selon le Dr Deutscher et de nombreux autres psychologues et linguistes évolutionnistes, remonte à l'apparition du larynx humain, si ce n'est avant.

Certains chercheurs sont tellement impressionnés par la profondeur et la puissance du langage grossier qu'ils l'utilisent comme un judas dans l'architecture du cerveau, comme un moyen de sonder les liens enchevêtrés et cryptiques entre les nouvelles régions "supérieures" du cerveau chargées de l'intellect, de la raison et de la planification, et les quartiers neuronaux plus anciens et plus "bestiaux" qui donnent naissance à nos émotions.

Les chercheurs soulignent que le fait de jurer est souvent un amalgame de sentiments bruts et spontanés et de ruse ciblée, à la dérobée. Lorsqu'une personne en insulte une autre, disent-ils, elle crache rarement des obscénités et des insultes au hasard, mais évalue plutôt l'objet de son courroux et adapte le contenu de son explosion "incontrôlable" en conséquence.

Étant donné que l'injure fait appel aux voies de la pensée et des sentiments du cerveau dans une mesure à peu près égale et avec une ferveur facilement évaluable, les scientifiques affirment qu'en étudiant les circuits neuronaux qui la sous-tendent, ils obtiennent de nouvelles informations sur la façon dont les différents domaines du cerveau communiquent - et tout cela pour une réplique bien sentie.

D'autres chercheurs se sont penchés sur la physiologie de l'injure, sur la façon dont nos sens et nos réflexes réagissent à l'audition ou à la vue d'un mot obscène. Ils ont déterminé que le fait d'entendre un juron suscite une réaction littérale chez les gens. Lorsque des fils électrodermiques sont placés sur les bras et le bout des doigts d'une personne pour étudier les schémas de conductivité de sa peau et que les sujets entendent ensuite quelques obscénités prononcées clairement et fermement, les participants montrent des signes d'excitation instantanée. La conductivité de leur peau augmente, les poils de leurs bras se dressent, leur pouls s'accélère et leur respiration devient superficielle.

Il est intéressant de noter, selon Kate Burridge, professeur de linguistique à l'université Monash de Melbourne, en Australie, qu'une réaction similaire se produit chez les étudiants universitaires et d'autres personnes qui se targuent d'être instruites lorsqu'elles entendent des expressions de mauvaise grammaire ou d'argot qu'elles considèrent comme irritantes, illettrées ou déclassées.

"Les gens peuvent se sentir très passionnés par la langue, dit-elle, comme s'il s'agissait d'un artefact précieux qu'il faut protéger à tout prix contre les dépravations des barbares et des étrangers lexicaux." 

Le Dr Burridge et un collègue de Monash, Keith Allan, sont les auteurs de "Forbidden Words : Taboo and the Censoring of Language", qui sera publié au début de l'année prochaine par la Cambridge University Press.

Les chercheurs ont également découvert que les obscénités peuvent s'insinuer dans la peau d'une personne qui a la chair de poule, puis ne plus bouger. Dans une étude, les scientifiques ont commencé par le célèbre test de Stroop, qui consiste à montrer à des sujets une série de mots écrits en différentes couleurs et à leur demander de réagir en citant les couleurs des mots plutôt que les mots eux-mêmes.

Si les sujets voient le mot "chaise" écrit en lettres jaunes, ils sont censés dire "jaune".

Les chercheurs ont ensuite inséré un certain nombre d'obscénités et de vulgarités dans la gamme standard. En observant les réponses immédiates et différées des participants, les chercheurs ont constaté que, tout d'abord, les gens avaient besoin de beaucoup plus de temps pour triller les couleurs des mots d'injures que pour des termes neutres comme "chaise".

L'expérience de voir un texte titillant détournait manifestement les participants de la tâche de codage des couleurs. Pourtant, ces interpolations osées ont laissé des traces. Lors de tests de mémoire ultérieurs, les participants ont non seulement été beaucoup plus aptes à se souvenir des vilains mots que des mots neutres, mais cette supériorité s'appliquait également aux teintes des mots vilains, ainsi qu'à leur sens.

Oui, il est difficile de travailler dans la pénombre des ordures idiomatiques. Dans le cadre d'une autre étude, des chercheurs ont demandé à des participants de parcourir rapidement des listes de mots contenant des obscénités, puis de se souvenir du plus grand nombre possible de ces mots. Là encore, les sujets se sont montrés plus aptes à se remémorer les injures, et moins aptes à se souvenir de tout ce qui était acceptable et qui précédait ou suivait les injures.

Pourtant, si le langage grossier peut donner un coup de fouet, il peut aussi aider à évacuer le stress et la colère. Dans certains contextes, la libre circulation d'un langage grossier peut signaler non pas l'hostilité ou une pathologie sociale, mais l'harmonie et la tranquillité.

"Des études montrent que si vous êtes avec un groupe d'amis proches, plus vous êtes détendu, plus vous jurez", a déclaré le Dr Burridge. "C'est une façon de dire : 'Je suis tellement à l'aise ici que je peux me défouler. Je peux dire ce que je veux".

Il est également prouvé que les jurons peuvent être un moyen efficace d'évacuer l'agressivité et de prévenir ainsi la violence physique.

Avec l'aide d'une petite armée d'étudiants et de volontaires, Timothy B. Jay, professeur de psychologie au Massachusetts College of Liberal Arts à North Adams et auteur de "Cursing in America" et "Why We Curse", a exploré en détail la dynamique du juron.

Les enquêteurs ont découvert, entre autres, que les hommes jurent généralement plus que les femmes, à moins que ces dernières ne fassent partie d'une sororité, et que les doyens d'université jurent plus que les bibliothécaires ou les membres du personnel de la garderie universitaire.

Selon le Dr Jay, peu importe qui jure ou quelle est la provocation, la raison de l'éruption est souvent la même.

"À maintes reprises, les gens m'ont dit que le fait de jurer était pour eux un mécanisme d'adaptation, une façon de réduire le stress", a-t-il déclaré lors d'un entretien téléphonique. "C'est une forme de gestion de la colère qui est souvent sous-estimée".

En effet, les chimpanzés se livrent à ce qui semble être une sorte de match de jurons pour évacuer leur agressivité et éviter un affrontement physique potentiellement dangereux.

Frans de Waal, professeur de comportement des primates à l'université Emory d'Atlanta, a déclaré que lorsque les chimpanzés sont en colère, "ils grognent, crachent ou font un geste brusque et ascendant qui, si un humain le faisait, serait reconnu comme agressif".

Ces comportements sont des gestes de menace, a déclaré le professeur de Waal, et ils sont tous de bon augure.

"Un chimpanzé qui se prépare vraiment à se battre ne perd pas de temps avec des gestes, mais va tout simplement de l'avant et attaque". De la même manière, a-t-il ajouté, rien n'est plus mortel qu'une personne trop enragée pour utiliser des jurons, qui prend une arme à feu et commence à tirer sans bruit.

Les chercheurs ont également examiné comment les mots atteignent le statut de discours interdit et comment l'évolution du langage grossier affecte les couches plus lisses du discours civil empilées au-dessus. Ils ont découvert que ce qui est considéré comme un langage tabou dans une culture donnée est souvent un miroir des peurs et des fixations de cette culture.

"Dans certaines cultures, les jurons sont principalement liés au sexe et aux fonctions corporelles, tandis que dans d'autres, ils sont principalement liés au domaine de la religion", a déclaré le Dr Deutscher.

Dans les sociétés où la pureté et l'honneur des femmes sont d'une importance capitale, "il n'est pas surprenant que de nombreux jurons soient des variations sur le thème "fils de pute" ou fassent référence de manière imagée aux organes génitaux de la mère ou des sœurs de la personne concernée".

Le concept même de juron ou de serment trouve son origine dans la profonde importance que les cultures anciennes accordaient au fait de jurer au nom d'un ou de plusieurs dieux. Dans l'ancienne Babylone, jurer au nom d'un dieu était censé donner une certitude absolue contre le mensonge, a déclaré le Dr Deutscher, "et les gens croyaient que jurer faussement contre un dieu attirerait sur eux la terrible colère de ce dieu." La mise en garde contre tout abus du serment sacré se reflète dans le commandement biblique selon lequel il ne faut pas "prendre le nom du Seigneur en vain", et aujourd'hui encore, les témoins dans les tribunaux jurent sur la Bible qu'ils disent toute la vérité et rien que la vérité.

Chez les chrétiens, cette interdiction de prendre le nom du Seigneur en vain s'étendait à toute allusion désinvolte envers le fils de Dieu ou à ses souffrances corporelles - aucune mention du sang, des plaies ou du corps, et cela vaut aussi pour les savantes contractions. De nos jours, l'expression "Oh, golly !" peut être considérée comme presque comiquement saine, mais il n'en a pas toujours été ainsi. "Golly" est une compaction de "corps de Dieu" et, par conséquent, était autrefois un blasphème.

Pourtant, ni les commandements bibliques, ni la censure victorienne la plus zélée ne peuvent faire oublier à l'esprit humain son tourment pour son corps indiscipliné, ses besoins chroniques et embarrassants et sa triste déchéance. L'inconfort des fonctions corporelles ne dort jamais, a déclaré le Dr Burridge, et le besoin d'une sélection toujours renouvelée d'euphémismes sur des sujets sales a longtemps servi de moteur impressionnant à l'invention linguistique.

Lorsqu'un mot devient trop étroitement associé à une fonction corporelle spécifique, dit-elle, lorsqu'il devient trop évocateur de ce qui ne devrait pas être évoqué, il commence à entrer dans le domaine du tabou et doit être remplacé par un nouvel euphémisme plus délicat.

Par exemple, le mot "toilette" vient du mot français "petite serviette" et était à l'origine une manière agréablement indirecte de désigner l'endroit où se trouve le pot de chambre ou son équivalent. Mais depuis, le mot "toilettes" désigne le meuble en porcelaine lui-même, et son emploi est trop brutal pour être utilisé en compagnie polie. Au lieu de cela, vous demanderez à votre serveur en smoking de vous indiquer les toilettes pour dames ou les toilettes ou, si vous le devez, la salle de bains.

De même, le mot "cercueil" (coffin) désignait à l'origine une boîte ordinaire, mais une fois qu'il a été associé à la mort, c'en fut fini du "cercueil à chaussures" ou de la "pensée hors du cercueil". Selon le Dr Burridge, le sens tabou d'un mot "chasse toujours les autres sens qu'il aurait pu avoir".

Les scientifiques ont récemment cherché à cartographier la topographie neuronale du discours interdit en étudiant les patients atteints du syndrome de Tourette qui souffrent de coprolalie, l'envie pathologique et incontrôlable de jurer. Le syndrome de Gilles de la Tourette est un trouble neurologique d'origine inconnue qui se caractérise principalement par des tics moteurs et vocaux chroniques, une grimace constante ou le fait de remonter ses lunettes sur l'arête du nez, ou encore l'émission d'un flot de petits glapissements ou de grognements.

Seul un faible pourcentage des patients atteints de la maladie de Gilles de la Tourette sont atteints de coprolalie - les estimations varient de 8 à 30 % - et les patients sont consternés par les représentations populaires de la maladie de Gilles de la Tourette comme une affection humoristique et invariablement scatologique. Mais pour ceux qui souffrent de coprolalie, dit le Dr Carlos Singer, directeur de la division des troubles du mouvement à la faculté de médecine de l'université de Miami, ce symptôme est souvent l'aspect le plus dévastateur et le plus humiliant de leur maladie.

Non seulement il peut être choquant pour les gens d'entendre une volée de jurons jaillir sans raison apparente, parfois de la bouche d'un enfant ou d'un jeune adolescent, mais les jurons peuvent aussi être provocants et personnels, des insultes fleuries contre la race, l'identité sexuelle ou la taille d'un passant, par exemple, ou des références obscènes délibérées et répétées au sujet d'un ancien amant dans les bras d'un partenaire ou d'un conjoint actuel.

Dans un rapport publié dans The Archives of General Psychiatry, le Dr David A. Silbersweig, directeur du service de neuropsychiatrie et de neuro-imagerie du Weill Medical College de l'université Cornell, et ses collègues ont décrit leur utilisation de la TEP pour mesurer le débit sanguin cérébral et identifier les régions du cerveau qui sont galvanisées chez les patients atteints de la maladie de Tourette pendant les épisodes de tics et de coprolalie. Ils ont constaté une forte activation des ganglions de la base, un quatuor de groupes de neurones situés dans le cerveau antérieur, à peu près au niveau du milieu du front, connus pour aider à coordonner les mouvements du corps, ainsi qu'une activation des régions cruciales du cerveau antérieur arrière gauche qui participent à la compréhension et à la production du langage, notamment l'aire de Broca.

Les chercheurs ont également constaté l'activation de circuits neuronaux qui interagissent avec le système limbique, le trône des émotions humaines en forme de berceau, et, de manière significative, avec les domaines "exécutifs" du cerveau, où les décisions d'agir ou de s'abstenir d'agir peuvent être prises : la source neuronale, selon les scientifiques, de la conscience, de la civilité ou du libre arbitre dont les humains peuvent se prévaloir.

Selon le Dr Silbersweig, le fait que le superviseur exécutif du cerveau s'embrase lors d'une crise de coprolalie montre à quel point le besoin de dire l'indicible peut être un acte complexe, et pas seulement dans le cas du syndrome de Tourette. La personne est saisie d'un désir de maudire, de dire quelque chose de tout à fait inapproprié. Les circuits linguistiques d'ordre supérieur sont sollicités pour élaborer le contenu de la malédiction. Le centre de contrôle des impulsions du cerveau s'efforce de court-circuiter la collusion entre l'envie du système limbique et le cerveau néocortical, et il peut y parvenir pendant un certain temps. 

Mais l'envie monte, jusqu'à ce que les voies de la parole se déchaînent, que le verboten soit prononcé, et que les cerveaux archaïques et raffinés en portent la responsabilité.

Auteur: Angier Natalie

Info: The New York Times, 20 septembre 2005

[ vocables pulsions ] [ onomasiologie ] [ tiercités réflexes ] [ jargon reptilien ] [ verbe soupape ]

 
Mis dans la chaine

Commentaires: 0

Ajouté à la BD par miguel

intelligence artificielle

Apprendre l'anglais n'est pas une tâche facile, comme le savent d'innombrables étudiants. Mais lorsque l'étudiant est un ordinateur, une approche fonctionne étonnamment bien : Il suffit d'alimenter un modèle mathématique géant, appelé réseau neuronal, avec des montagnes de textes provenant d'Internet. C'est le principe de fonctionnement des modèles linguistiques génératifs tels que ChatGPT d'OpenAI, dont la capacité à tenir une conversation cohérente (à défaut d'être toujours sincère) sur un large éventail de sujets a surpris les chercheurs et le public au cours de l'année écoulée.

Mais cette approche présente des inconvénients. D'une part, la procédure de "formation" nécessaire pour transformer de vastes archives textuelles en modèles linguistiques de pointe est coûteuse et prend beaucoup de temps. D'autre part, même les personnes qui forment les grands modèles linguistiques ont du mal à comprendre leur fonctionnement interne, ce qui, à son tour, rend difficile la prévision des nombreuses façons dont ils peuvent échouer.

Face à ces difficultés, certains chercheurs ont choisi d'entraîner des modèles plus petits sur des ensembles de données plus restreints, puis d'étudier leur comportement. "C'est comme le séquençage du génome de la drosophile par rapport au séquençage du génome humain", explique Ellie Pavlick, chercheuse sur les modèles de langage à l'université de Brown.

Dans un article récemment publié sur le serveur scientifique arxiv.org, deux chercheurs de Microsoft ont présenté une nouvelle méthode pour former de minuscules modèles de langage : Les élever avec un régime strict d'histoires pour enfants.

RÉSEAUX NEURONAUX

Des chercheurs acquièrent une nouvelle compréhension à partir d'une simple IA  

Les chercheurs en apprentissage automatique ont compris cette leçon. GPT-3.5, le grand modèle linguistique qui alimente l'interface ChatGPT, compte près de 200 milliards de paramètres et a été entraîné sur un ensemble de données comprenant des centaines de milliards de mots (OpenAI n'a pas publié les chiffres correspondants pour son successeur, GPT-4).  L'entraînement de modèles aussi vastes nécessite généralement au moins 1 000 processeurs spécialisés, appelés GPU, fonctionnant en parallèle pendant des semaines. Seules quelques entreprises peuvent réunir les ressources nécessaires, sans parler de l'entraînement et de la comparaison de différents modèles.

Les deux chercheurs ont montré que des modèles linguistiques des milliers de fois plus petits que les systèmes de pointe actuels apprenaient rapidement à raconter des histoires cohérentes et grammaticalement justes lorsqu'ils étaient formés de cette manière. Leurs résultats indiquent de nouvelles pistes de recherche qui pourraient être utiles pour former des modèles plus importants et comprendre leur comportement.

"J'ai trouvé tout  ça très instructif", a déclaré Chandra Bhagavatula, chercheur sur les modèles de langage à l'Allen Institute for Artificial Intelligence de Seattle. "Le concept lui-même est très intéressant.

Il était une fois

Les réseaux neuronaux au cœur des modèles de langage sont des structures mathématiques vaguement inspirées du cerveau humain. Chacun d'entre eux contient de nombreux neurones artificiels disposés en couches, avec des connexions entre les neurones des couches adjacentes. Le comportement du réseau neuronal est régi par la force de ces connexions, appelées paramètres. Dans un modèle linguistique, les paramètres contrôlent les mots que le modèle peut produire ensuite, compte tenu d'une invite initiale et des mots qu'il a déjà générés.

Un modèle ne prend véritablement vie qu'au cours de la formation, lorsqu'il compare de manière répétée ses propres résultats au texte de son ensemble de données de formation et qu'il ajuste ses paramètres afin d'accroître la ressemblance. Un réseau non entraîné avec des paramètres aléatoires est trivialement facile à assembler à partir de quelques lignes de code, mais il ne produira que du charabia. Après l'entraînement, il peut souvent poursuivre de manière plausible un texte peu familier. Les modèles de plus grande taille sont souvent soumis à des réglages plus fins qui leur apprennent à répondre à des questions et à suivre des instructions, mais l'essentiel de la formation consiste à maîtriser la prédiction des mots.

Pour réussir à prédire des mots, un modèle linguistique doit maîtriser de nombreuses compétences différentes. Par exemple, les règles de la grammaire anglaise suggèrent que le mot suivant le mot "going" sera probablement "to", quel que soit le sujet du texte. En outre, un système a besoin de connaissances factuelles pour compléter "la capitale de la France est", et compléter un passage contenant le mot "not" nécessite une connaissance rudimentaire de la logique.

"Le langage brut est très compliqué", explique Timothy Nguyen, chercheur en apprentissage automatique chez DeepMind. "Pour que des capacités linguistiques intéressantes apparaissent, les gens ont eu recours à l'idée que plus il y a de données, mieux c'est".

(photo) Ronen Eldan s'est rendu compte qu'il pouvait utiliser les histoires d'enfants générées par de grands modèles linguistiques pour en entraîner rapidement de plus petits.

Introduction

Ronen Eldan, mathématicien qui a rejoint Microsoft Research en 2022 pour étudier les modèles de langage génératifs, souhaitait développer un moyen moins coûteux et plus rapide d'explorer leurs capacités. Le moyen naturel d'y parvenir était d'utiliser un petit ensemble de données, ce qui signifiait qu'il devait entraîner les modèles à se spécialiser dans une tâche spécifique, afin qu'ils ne s'éparpillent pas. Au départ, il voulait entraîner les modèles à résoudre une certaine catégorie de problèmes mathématiques, mais un après-midi, après avoir passé du temps avec sa fille de 5 ans, il s'est rendu compte que les histoires pour enfants convenaient parfaitement. "L'idée m'est venue littéralement après lui avoir lu une histoire", a-t-il déclaré.

Pour générer des histoires cohérentes pour les enfants, un modèle de langage devrait apprendre des faits sur le monde, suivre les personnages et les événements, et observer les règles de grammaire - des versions plus simples des défis auxquels sont confrontés les grands modèles. Mais les grands modèles formés sur des ensembles de données massives apprennent d'innombrables détails non pertinents en même temps que les règles qui comptent vraiment. Eldan espérait que la brièveté et le vocabulaire limité des histoires pour enfants rendraient l'apprentissage plus gérable pour les petits modèles, ce qui les rendrait à la fois plus faciles à former et plus faciles à comprendre.

Dans le monde des modèles de langage, cependant, le terme "petit" est relatif : Un ensemble de données mille fois plus petit que celui utilisé pour former GPT-3.5 devrait encore contenir des millions d'histoires. "Je ne sais pas combien d'argent vous voulez dépenser, mais je suppose que vous n'allez pas engager des professionnels pour écrire quelques millions de nouvelles", a déclaré M. Nguyen.

Il faudrait un auteur extraordinairement prolifique pour satisfaire des lecteurs aussi voraces, mais Eldan avait quelques candidats en tête. Qui peut mieux écrire pour un public de petits modèles linguistiques que pour de grands modèles ?

Toys stories

Eldan a immédiatement entrepris de créer une bibliothèque d'histoires synthétiques pour enfants générées par de grands modèles linguistiques. Mais il a rapidement découvert que même les modèles de pointe ne sont pas naturellement très créatifs. Si l'on demande à GPT-4 d'écrire des histoires adaptées à des enfants de 4 ans, explique Eldan, "environ un cinquième des histoires concernera des enfants qui vont au parc et qui ont peur des toboggans". C'est apparemment la quintessence des histoires pour enfants d'âge préscolaire, selon l'Internet.

La solution a consisté à ajouter un peu d'aléatoire dans le message. Tout d'abord, Eldan a utilisé le GPT-4 pour générer une liste de 1 500 noms, verbes et adjectifs qu'un enfant de 4 ans pourrait connaître - suffisamment courte pour qu'il puisse facilement la vérifier lui-même. Il a ensuite écrit un programme informatique simple qui demanderait à plusieurs reprises à GPT-3.5 ou à GPT-4 de générer une histoire adaptée à l'âge de l'enfant, comprenant trois mots aléatoires de la liste, ainsi qu'un détail supplémentaire choisi au hasard, comme une fin heureuse ou un rebondissement de l'intrigue. Les histoires obtenues, heureusement, étaient moins axées sur des diapositives effrayantes.

Eldan disposait désormais d'une procédure pour produire des données de formation à la demande, mais il n'avait aucune idée du nombre d'histoires dont il aurait besoin pour former un modèle fonctionnel, ni de la taille de ce modèle. C'est alors qu'il s'est associé à Yuanzhi Li, chercheur en apprentissage automatique chez Microsoft et à l'université Carnegie Mellon, pour essayer différentes possibilités, en tirant parti du fait que les petits modèles peuvent être formés très rapidement. La première étape consistait à décider comment évaluer leurs modèles.

Introduction

Dans la recherche sur les modèles de langage - comme dans toute salle de classe - la notation est un sujet délicat. Il n'existe pas de rubrique parfaite qui englobe tout ce que les chercheurs veulent savoir, et les modèles qui excellent dans certaines tâches échouent souvent de manière spectaculaire dans d'autres. Au fil du temps, les chercheurs ont mis au point divers critères de référence standard basés sur des questions dont les réponses ne sont pas ambiguës, ce qui est une bonne approche si vous essayez d'évaluer des compétences spécifiques. Mais Eldan et Li se sont intéressés à quelque chose de plus nébuleux : quelle doit être la taille réelle des modèles linguistiques si l'on simplifie le langage autant que possible ?

"Pour vérifier directement si le modèle parle anglais, je pense que la seule chose à faire est de laisser le modèle générer de l'anglais de manière ouverte", a déclaré M. Eldan.

Il n'y a que deux façons de mesurer les performances d'un modèle sur des questions aussi qualitatives : S'appuyer sur des évaluateurs humains ou se tourner à nouveau vers le GPT-4. Les deux chercheurs ont opté pour cette dernière solution, laissant les grands modèles à la fois rédiger les manuels et noter les dissertations.

Bhagavatula a déclaré qu'il aurait aimé voir comment les évaluations de GPT-4 se comparaient à celles des correcteurs humains - GPT-4 peut être biaisé en faveur des modèles qu'il a aidé à former, et l'opacité des modèles de langage rend difficile la quantification de tels biais. Mais il ne pense pas que de telles subtilités affecteraient les comparaisons entre différents modèles formés sur des ensembles similaires d'histoires synthétiques - l'objectif principal du travail d'Eldan et Li.

Eldan et Li ont utilisé une procédure en deux étapes pour évaluer chacun de leurs petits modèles après la formation. Tout d'abord, ils ont présenté au petit modèle la première moitié d'une histoire distincte de celles de l'ensemble des données d'apprentissage, de manière à ce qu'il génère une nouvelle fin, en répétant ce processus avec 50 histoires de test différentes. Ensuite, ils ont demandé à GPT-4 d'évaluer chacune des fins du petit modèle en fonction de trois catégories : créativité, grammaire et cohérence avec le début de l'histoire. Ils ont ensuite fait la moyenne des notes obtenues dans chaque catégorie, obtenant ainsi trois notes finales par modèle.

Avec cette procédure en main, Eldan et Li étaient enfin prêts à comparer les différents modèles et à découvrir quels étaient les étudiants les plus brillants.

Résultats des tests

Après quelques explorations préliminaires, les deux chercheurs ont opté pour un ensemble de données de formation contenant environ 2 millions d'histoires. Ils ont ensuite utilisé cet ensemble de données, baptisé TinyStories, pour entraîner des modèles dont la taille varie de 1 million à 30 millions de paramètres, avec un nombre variable de couches. Le travail a été rapide : En utilisant seulement quatre GPU, l'entraînement du plus grand de ces modèles n'a pas pris plus d'une journée.

Les plus petits modèles ont eu du mal. Par exemple, l'une des histoires testées commence par un homme à l'air méchant qui dit à une fille qu'il va lui prendre son chat. Un modèle à un million de paramètres s'est retrouvé bloqué dans une boucle où la fille répète sans cesse à l'homme qu'elle veut être son amie. Mais les modèles plus grands, qui sont encore des milliers de fois plus petits que GPT-3.5, ont obtenu des résultats surprenants. La version à 28 millions de paramètres racontait une histoire cohérente, même si la fin était sinistre : "Katie s'est mise à pleurer, mais l'homme s'en fichait. Il a emporté le chat et Katie n'a plus jamais revu son chat. Fin de l'histoire".

En plus de tester leurs propres modèles, Eldan et Li ont soumis le même défi au GPT-2 d'OpenAI, un modèle de 1,5 milliard de paramètres publié en 2019. Le résultat a été bien pire - avant la fin abrupte de l'histoire, l'homme menace d'emmener la jeune fille au tribunal, en prison, à l'hôpital, à la morgue et enfin au crématorium.

Introduction

Selon M. Nguyen, il est passionnant que des modèles aussi petits soient aussi fluides, mais il n'est peut-être pas surprenant que GPT-2 ait eu du mal à accomplir la tâche : il s'agit d'un modèle plus grand, mais loin de l'état de l'art, et il a été formé sur un ensemble de données très différent. "Un enfant en bas âge qui ne s'entraînerait qu'à des tâches d'enfant en bas âge, comme jouer avec des jouets, obtiendrait de meilleurs résultats que vous ou moi", a-t-il fait remarquer. "Nous ne nous sommes pas spécialisés dans cette chose simple.

Les comparaisons entre les différents modèles de TinyStories ne souffrent pas des mêmes facteurs de confusion. Eldan et Li ont observé que les réseaux comportant moins de couches mais plus de neurones par couche étaient plus performants pour répondre aux questions nécessitant des connaissances factuelles ; inversement, les réseaux comportant plus de couches et moins de neurones par couche étaient plus performants pour garder en mémoire les personnages et les points de l'intrigue situés plus tôt dans l'histoire. Bhagavatula a trouvé ce résultat particulièrement intriguant. S'il peut être reproduit dans des modèles plus vastes, "ce serait un résultat vraiment intéressant qui pourrait découler de ce travail", a-t-il déclaré.

Eldan et Li ont également étudié comment les capacités de leurs petits modèles dépendaient de la durée de la période de formation. Dans tous les cas, les modèles maîtrisaient d'abord la grammaire, puis la cohérence. Pour Eldan, ce schéma illustre comment les différences dans les structures de récompense entraînent des différences dans les schémas d'acquisition du langage entre les réseaux neuronaux et les enfants. Pour les modèles de langage, qui apprennent en prédisant des mots, "l'incitation pour les mots "je veux avoir" est aussi importante que pour les mots "crème glacée"", a-t-il déclaré. Les enfants, en revanche, "ne se soucient pas de savoir s'ils disent 'j'aimerais avoir de la glace' ou simplement 'glace, glace, glace'".

Qualité contre quantité

Eldan et Li espèrent que cette étude incitera d'autres chercheurs à entraîner différents modèles sur l'ensemble des données de TinyStories et à comparer leurs capacités. Mais il est souvent difficile de prédire quelles caractéristiques des petits modèles apparaîtront également dans les plus grands.

"Peut-être que les modèles de vision chez la souris sont de très bons substituts de la vision humaine, mais les modèles de dépression chez la souris sont-ils de bons modèles de la dépression chez l'homme ? a déclaré M. Pavlick. "Pour chaque cas, c'est un peu différent.

Le succès des modèles TinyStories suggère également une leçon plus large. L'approche standard pour compiler des ensembles de données de formation consiste à aspirer des textes sur l'internet, puis à filtrer les déchets. Le texte synthétique généré par des modèles de grande taille pourrait constituer une autre façon d'assembler des ensembles de données de haute qualité qui n'auraient pas besoin d'être aussi volumineux.

"Nous avons de plus en plus de preuves que cette méthode est très efficace, non seulement pour les modèles de la taille de TinyStories, mais aussi pour les modèles plus importants", a déclaré M. Eldan. Ces preuves proviennent d'une paire d'articles de suivi sur les modèles à un milliard de paramètres, rédigés par Eldan, Li et d'autres chercheurs de Microsoft. Dans le premier article, ils ont entraîné un modèle à apprendre le langage de programmation Python en utilisant des extraits de code générés par GPT-3.5 ainsi que du code soigneusement sélectionné sur l'internet. Dans le second, ils ont complété l'ensemble de données d'entraînement par des "manuels" synthétiques couvrant un large éventail de sujets, afin d'entraîner un modèle linguistique à usage général. Lors de leurs tests, les deux modèles ont été comparés favorablement à des modèles plus importants formés sur des ensembles de données plus vastes. Mais l'évaluation des modèles linguistiques est toujours délicate, et l'approche des données d'entraînement synthétiques n'en est qu'à ses balbutiements - d'autres tests indépendants sont nécessaires.

Alors que les modèles linguistiques de pointe deviennent de plus en plus volumineux, les résultats surprenants de leurs petits cousins nous rappellent qu'il y a encore beaucoup de choses que nous ne comprenons pas, même pour les modèles les plus simples. M. Nguyen s'attend à ce que de nombreux autres articles explorent l'approche inaugurée par TinyStories.

"La question est de savoir où et pourquoi la taille a de l'importance", a-t-il déclaré. "Il devrait y avoir une science à ce sujet, et cet article est, je l'espère, le début d'une riche histoire.



 



 

Auteur: Internet

Info: https://www.quantamagazine.org/ Ben Brubaker, 5 octobre 2023

[ synthèse ]

 

Commentaires: 0

Ajouté à la BD par miguel