Les fils de la pensée

homme-machine

Illustrer l'apprentissage par renforcement à partir de commentaires humains (RLHF*)

Les modèles de langage ont montré des capacités impressionnantes au cours des dernières années en générant des textes variés et convaincants à partir d'entrées humaines. Cependant, il est difficile de définir ce qu'est un "bon" texte, car c'est subjectif et ça dépend du contexte. Il existe de nombreuses applications telles que l'écriture d'histoires où l'on recherche la créativité, des textes informatifs qui doivent être véridiques, ou des extraits de code que l'on veut exécutables.

Rédiger une fonction de perte** pour capturer ces attributs semble impossible et la plupart des modèles de langage sont encore entraînés avec une simple perte de prédiction du prochain jeton (par exemple, l'entropie croisée). Pour compenser les lacunes de la perte elle-même, les gens définissent des métriques conçues pour mieux capturer les tropismes humains, telles que BLEU ou ROUGE. Bien qu'elles soient mieux adaptées que la fonction de perte elle-même pour mesurer les performances, ces mesures comparent simplement le texte généré à des références avec des règles simples et sont donc également limitées. Ne serait-il pas formidable d'utiliser le retour d'information humain sur le texte généré comme mesure de la performance ou d'aller encore plus loin et d'utiliser ce retour d'information comme perte pour optimiser le modèle ? C'est l'idée de l'apprentissage par renforcement à partir du feedback humain (RLHF)

Le RLHF a permis aux modèles de langage de commencer à aligner un modèle formé sur un corpus général de données textuelles sur celui de valeurs humaines complexes.

Le succès le plus récent de RLHF a été son utilisation dans ChatGPT. Compte tenu des capacités impressionnantes de ChatGPT, nous lui avons demandé de nous expliquer la RLHF :

- Peux-tu m'expliquer comment le RL (reinforcement learning) avec retour d'information humain usant un modèle linguistique comme si j'avais 5 ans.

- Bien sûr, imagine que j'ai un robot nommé Rufus qui veut apprendre à parler comme un humain. Rufus a un modèle linguistique qui l'aide a comprendre les mots et les phrases.

Tout d'abord Rufus va dire quelque chose en usant d'un modèle de langage, par exemple en disant : - je suis un robot

Ensuite un humain va écouter ce qu'il a dit et va donner un avis pour dire si la réponse ressemble à langage naturel d'humain. Il pourra dire, par exemple. C'est pas très bon Rufus, un humain ne dit pas de manière générale "je suis un robot" mais plutôt "j'suis un robot" ou "je suis une machine".

Rufus va prendre en compte ce retour et l'utuiliser pour améliorer son modèle de langage, il va essayer de redire la phrase en utilisant cette correction et va dire "j'suis un robot".

Ensuite l'humain va continuer de donner des retours de ce genre et petit à petit Rufus va commencer à s'exprimer comme un humain le fait en général.

Ici Chatgtp se débrouille étonnamment bien, mais ne couvre pas tout. Nous nous chargeons de combler ces lacunes ! (La suite sur le site en Info)

Auteur: Internet

Info: Sur guithub : https://huggingface.co/blog/rlhf, Nathan Lambert, Louis Castricato guest , Leandro von Werra, Alex Havrilla guest. Le 9 décembre 2022 *Reinforcement Learning from Human Feedback ... **Courbe de perte ? (loss function) À la base, une fonction de perte est très simple : c'est une méthode permettant d'évaluer dans quelle mesure votre algorithme modélise votre ensemble de données. Si vos prédictions sont totalement erronées, votre fonction de perte affichera un chiffre élevé. Si elles sont assez bonnes, elle affichera un chiffre plus bas. C'est une pénalité pour mauvaise prédiction. En d'autres termes, la perte (loss) est un nombre qui indique à quel point la prédiction du modèle est mauvaise sur un seul exemple. Si la prédiction du modèle est parfaite, la perte est nulle ; elle affichera le chiffre zéro.

[ apprentissage automatique ] [ idiome consensuel ] [ anti-poésie ] [ objectivation linguistique ] [ polysémie contextualisée ] [ mathématisation ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

intelligence artificielle générale

Si un oracle venait à m'annoncer que GPT10 s'avérera être une une véritable intelligence communautaire humaine (AGI ou IAG)* d'ici quelques décennies, même dans une mesure limitée je dirai : - OK, je peux croire à ça.

Auteur: Altman Sam

Info: Interviewé par lex Fridman sur son blog, 25 mars 2023. *L'intelligence artificielle générale (A.G.I. ou I.A.G.) est la capacité d'un agent intelligent à comprendre ou à apprendre toute tâche intellectuelle que les êtres humains ou d'autres animaux .

[ cerveau collectif ] [ homme-machine ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

FLP défini 3

Les Fils de La Pensée est un site-application dédié à l'encouragement de la lecture. Et, plus encore, de la lecture analytique.

Mais pas que.

Initié à l'orée du 3e millénaire, alors que le numérique rétrécit une planète terre où la domination américano-occidentale post ww2 se termine, FLP veut se positionner "à partir du langage" c'est à dire en contemplant le monde pratiquement sur le mode peircéen du quasi-esprit.

Ainsi notre site-agrégateur-moteur de recherche collectif tente d'aller un peu plus loin que ce que les idiomes, unificateurs grégaires, font déjà. Ceci en proposant des pistes susceptibles d'amener le développement d'une lexicologie humaine (ici francophone) élargie, en mouvement, souple... et charpentée différemment comme explicité plus loin.

FLP est aussi un espace de réflexion communautaire trans-partisan HOMME - machine, à l'heure où on veut nous faire croire que les chatbots générateurs de texte sont une intelligence artificielle (A.I. - I.A.) susceptible d'être comparée à celle des hommes - voire supérieure à cette dernière. Alors que ce ne sont que de fantastiques outils, dangereux pour deux raisons au moins selon nous. a) L'utilisation que tout pouvoir cherchera à en faire b) La dépendance, voire l'abrutissement, qu'elles pourront générer.

FLP s'essaye donc à semer les graines d'une refondation des structures de la classification sémantique - sans bien sûr abandonner les savoirs partagés antérieurs. C'est à dire sans remettre en cause notre évolution ni ce qu'il y a "au dessous du langage", ce dernier ne représentant que l'hyperstructure évolutive du monde-miroir-anthropique consensuel, miroir qui grandit au fur et à mesure de la progression et de l'affinement de notre science, c'est à dire de représentations qui recherchent une forme de vérité/exactitude sur base, entre autres, d'analogies et de hiérarchisations. Hiérarchisations souvent ridicules, probablement à l'instar du faible niveau de notre jeune espèce dans le grand et mystérieux concert cosmique.

Structuration sémantique à venir potentiellement plus fiable et durable parce que simultanément partie d'une meilleure compréhension-intégration humaine avec la matrice Gaïa et le reste du vivant.

Mais restons bien humbles et revenons à FLP. Sachant que chacun d'entre nous est par essence limité par son imprégnation propre : milieu, époque, pays, langue, famille, genre, conformation physique, épisodes de vie, etc. et étant assumés et assurés certains prérequis quant à un minimum d'"existence physique" et d'éducation au verbe du participant, FLP essaye ce dépassement classificateur en s'appuyant sur deux idées perpendiculaires syntonisées.

Primo : développement et l'approfondissement de l'idiosyncrasie de chacun, principalement par lecture réflexive et compréhension/analyse.

Secundo : meilleure intégration/compréhension de chaque subjectivité personnelle au sein des idées ; humaines dans un premier temps et, pourquoi pas, de la nature dans un sens plus large, avec cette idée parallèle d'une réintégration dans le concert du vivant après tous ces épisodes capitalo-anthropocentrés des singes trop malins que nous sommes.

En bref : approfondissement personnel versus élargissement collectif incorporateur.

Nous retrouvons ici le concept de tétravalence cher à nos yeux où se combinent l'horizontalité de l'intégration aux rouages du présent (principe féminin, empathique ?), avec une verticalité qui tend à vouloir incorporer le MOI dans la continuité de l'évolution (principe masculin, égoïste ?).

Il y a ici une parenté évidente - que FLP voudrait développer - avec les quatre liaisons de covalence du carbone (et en lien avec les 4 bases dont sont formées les chaines de la double hélice de l'ADN ?). Nous croyons encore une fois que s'en inspirer aidera à une meilleure représentation humaine au sein du mystérieux processus de la vie émergé de notre matrice Gaïa ; à l'heure où la science à déjà bien montré combien nos représentations du réel sont à revoir de fond en comble.

Nous préconisons-anticipons donc le développement d'une classification à partir d'une double base duale, extension des 2 axes conceptuels habituels : ying-yang, mâle-femelle, vie-mort, ouranien-chtonien, doute-certitude, noir blanc, etc... ici sémantiques, qui sont à appréhender comme deux vecteurs doubles, orthogonaux , qui copulent, modélisent, conjuguent et fusionnent sans cesse les formulations, c'est à dire comment nous nous représentons le réel sous forme de consensus humain verbaux.

Voilà donc défini un cadre et quatre vecteurs-directions, sans autre forme méthodologique que la présentation de ce "chassis conceptuel". Chassis sous-jacent qui, avec l'aide de l'outil FLP, ses règles simples, et les possibilités de précision sémantique qu'Internet permet, aidera le participant-inserteur à aller  un cran plus loin, c'est à dire à réfléchir, en extrapolant et dédoublant parfois la double dualité foncière qui nous anime.

On pourra partir par exemple de idée simple d'un "dictionnaire intriqué à deux termes". Termes définis et mis ensemble dans une recherche, dont les combinaisons vont générer diverses variations, en partant de la plus courte. Recherche-exploration "à deux mots" dont on pourra comparer les résultats tels qu'exprimés par une femme, ou par un homme, ou autre... Les paramétrages de lieu, époque, pays, etc. venant ensuite pour qui voudra aller plus loin.

Ainsi, via les bidouillages de chacun et des échanges multiples, principalement portés sur une "exactitude sémantique consensuelle", le dictionnaire FLP devrait s'auto-construire - sans jamais vouloir conclure - par la pratique et le partage communautaire.

C'est donc une entreprise collective qui combine deux orientations orthogonales : occupation du temps et développement personnel, ces derniers participants à la construction et au développement d'un dictionnaire linguistique communautaire, base de données multidimensionnelle enchevêtrée - en espérant de continuels élagages-mises à jour-corrections des extraits insérés. Tout ceci idéalement en développant et mettant en pratique un ordonnancement sémantico-taxinomique qui s'inspire de ce que nous savons de l'esprit qui est dans la matière.

Mais ne nous emballons pas. Voyons d'abord FLP comme un instrument de recherche, transversal et sérendipitaire, sur fond de délassement.

Nous croyons au plaisir du lire, de la pensée, de la rêverie... de la curiosité qui avance par crans.... Pas assouvie, mais nourrie... souvent parce que le langage - c'est à dire tous les hommes rassemblés -, formule et matérialise pour un temps nos sentiments-sensations-idées, avant que chaque représentation personnelle (pas de représentations sans verbe) ne diverge et se développe plus avant à sa manière dans un corpus idiomatique jamais fixé.

Nous pensons que l'esprit a soif de nouveau et répondons à cette appétence en proposant le double plaisir conjugué de la lecture et de la quête. Bon dieu quel bonheur de découvrir des choses parce que formulées jusqu'à nous paraitre intelligibles !

Auteur: Mg

Info: mars, avril 2023

[ prospective ] [ alcènes et alcynes ] [ gnose ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

humour

Depuis quelque temps, la lune m'envoie des textos. Une notification s'allume sur mon téléphone, me demandant si la lune peut me localiser, et je clique sur OK.

Auteur: Liptrot Amy

Info: L'Instant

Commenter

Commentaires: 0

Ajouté à la BD par Le sous-projectionniste

question

Où vont les rêves quand on les oublie?

Auteur: Liptrot Amy

Info: L'Instant

[ songes ]

Commenter

Commentaires: 0

Ajouté à la BD par Le sous-projectionniste

intellection

Qu’est-ce que mon âme

sinon une nuit suspendue à la terre

parlant avec les scies des nuages

et de la sciure de paix

du corps des dieux jetée

sur les épaules des vierges.

Pendant le sommeil on entend couler la lumière

quand ta plaie bleue contourne l’espace

immaculé de la fleur et que ton front s’unit

avec le martèlement énervé de la constellation dans le ciel.

Je pressens que bientôt je serai tenté par le scintillement

de ton genou blanc dont surgissent des poissons uraniques

et que je m’effondrerai debout

vers la fontaine qui illumine mes yeux.

Et la vapeur de l’être torpille

le silence le retournant vers nous

et nous aimons nous traîner à genoux

jusqu’à ce que le jour lave la terre au moyen de tonnerres.

Auteur: Ulmeanu Radu

Info: Dix poètes roumains contemporains, Association Poemania. Qu’est-ce que mon âme ?

[ poème ]

Commenter

Commentaires: 0

Ajouté à la BD par Le sous-projectionniste

éloge

Mohammed Ali était un grand talent naturel et il aurait été un grand champion sans moi. Je serai le premier à dire que ce n'était pas moi ; c'était lui. Et hors du ring, c'est lui qui m'a appris. Il m'a appris la patience, il m'a appris la décence. J'ai observé comment il réagissait à tout. J'ai vu des choses lui être faites qui m'ont donné la nausée. Et tout ce qu'il disait, c'est qu'il fallait pardonner aux gens.

Auteur: Dundee Angelo

Info:

[ sport ] [ admiration ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

lire

C'était le temps où les gens lisaient, dans les métros, les rues, les plages et les lits, les salles de bain et les cuisines, les gens apportaient des livres dans les parcs, les jardins, les piscines, les salles d'attente, les bus, les trains, les avions, ils lisaient dans les fauteuils, les canapés, les salons, les hôtels, les cafés et les bars, les villes et les villages, l'été comme l'hiver.

Le soir ou le matin, en mangeant, en se couchant, en se levant, avec une tasse de thé ou un verre de vin, au coin du feu, lorsque le jour déclinait.

Les gens lisaient partout, à chaque moment de leur journée, à chaque heure de la vie, pour se raconter une autre histoire, pour fuir le réel ou le vivre plus intensément, pour comprendre les hommes ou pour les détester, ou simplement pour passer le temps...

Auteur: Abecassis Eliette

Info: Nos rendez-vous

[ lecture ] [ avant Internet ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

randonnée

Non contents de tracer un réseau de traverse, les chemins noirs pouvaient aussi définir les cheminements mentaux que nous emprunterions pour nous soustraire à l’époque.

Dessinés sur la carte et serpentant au sol ils se prolongeraient ainsi en nous-mêmes, composeraient une cartographie mentale de l’esquive.

Il ne s’agirait pas de mépriser le monde, ni de manifester l’outrecuidance de le changer.

Non ! Il suffirait de ne rien avoir de commun avec lui.

Auteur: Tesson Sylvain

Info: Sur les chemins noirs

[ réflexion ]

Commenter

Commentaires: 0

Ajouté à la BD par Le sous-projectionniste

humaine syntonisation

À la suite de Bernard d’Espagnat qui a proposé une interprétation permettant de résoudre les problèmes soulevés par la théorie des états relatifs d’Everett, j’ai développé une position, le solipsisme convivial, qui s’intègre dans le cadre de la théorie de la décohérence. Cette position suppose qu’on refuse de se placer dans le cadre du réalisme empirique pragmatique. Bien que défendant par ailleurs une position différente qu’il serait trop long de détailler ici, je me placerai ici dans le cadre du réalisme métaphysique.

La décohérence est alors le mécanisme qui explique l’apparence classique pour nous d’une réalité qui demeure essentiellement quantique, c’est-à-dire enchevêtrée. Le solipsisme convivial fait entrer l’observateur lui-même dans le grand système. Le raisonnement que nous avons décrit conduit alors à considérer que l’observateur est aussi dans un état enchevêtré avec le système, l’appareil et l’environnement. Du point de vue de la réalité profonde (et non de l’apparence de cette réalité pour nous), seule une fonction d’ondes globale superposée "existe". Dans cette fonction d’ondes, les différents résultats possibles de mesure sont présents et sont corrélés ainsi que tous les états correspondants de l’observateur. La décohérence intervient et permet de régler un certain nombre de problèmes que nous n’avons pas eu la possibilité d'évoquer : quelle est la grandeur mesurée par exemple, ce qui a pour effet de résoudre la difficulté que nous avons signalée à propos de l’interprétation d’Everett. Le solipsisme convivial consiste alors à considérer que la conscience de l’observateur est "accrochée" à l’une des branches de la fonction d’ondes ne lui permettant d’observer que la partie classique correspondante. La conscience joue en quelque sorte le rôle d’un filtre ne permettant de voir qu’une partie de la fonction d’ondes globale.

Une définition précise de ce processus permet de montrer que les prédictions habituelles de la mécanique quantique sont respectées malgré le fait que la fonction d’ondes n’est jamais rigoureusement réduite. Le point surprenant est alors que rien n’oblige deux observateurs différents à être accrochés à la même branche. Pour une mesure donnée, un observateur peut être accroché à la branche donnant le résultat A alors qu’un autre le sera à la branche donnant le résultat B. Comment peut-il en être ainsi alors qu’on sait que deux observateurs de la même expérience sont ”en général” d’accord sur le résultat ? La raison en est que la communication entre observateurs est elle-même un processus de mesure et que le mécanisme d’accrochage garantit la cohérence des observations pour un observateur.

Supposons qu’André a observé le résultat A et Bernard le résultat B. Les deux observations ne sont que l’accrochage de la conscience d’André et de Bernard à leur branche propre de la fonction d’ondes globale qui contient les deux possibilités. Si André demande à Bernard ce qu’il a vu, l’interaction entre André et Bernard qui en résulte contient la totalité des possibilités, donc à la fois une branche où Bernard répond A et une branche où Bernard répond B. La fonction d’ondes d’André sera après l’interaction avec Bernard dans un état enchevêtré contenant les deux réponses mais la conscience d’André s’accrochera à la branche correspondant à la réponse cohérente avec son observation précédente, il entendra donc Bernard répondre A conformément à son attente. C’est la raison pour laquelle cette interprétation porte le nom de solipsisme convivial : chaque observateur vit dans son monde qui peut être totalement différent de celui des autres, mais il n’existe aucun moyen de se rendre compte des désaccords et les observateurs sont en parfait accord. Ceci fournit une nouvelle explication de l’intersubjectivité : il n’y a aucun moyen de constater un désaccord.

Signalons pour terminer une conséquence étrange sur l’indéterminisme de la mécanique quantique. La fonction d’ondes de l’Univers évolue de manière parfaitement déterministe par l'équation de Schrödinger, seul le mécanisme d’accrochage tire au sort la branche à laquelle chaque observateur s’accroche. Ce n’est donc plus Dieu qui joue aux dés, c’est l’homme, mais avec le constat étrange que deux joueurs peuvent voir le même dé tomber sur une face différente.

Auteur: Zwirn Hervé

Info: Mécanique quantique et connaissance du réel.

[ prospective scientifique ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

Paramètres de recherches