Citation
Catégorie
Tag – étiquette
Auteur
Info



nb max de mots
nb min de mots
trier par
Dictionnaire analogique intriqué pour extraits. Recherche mots ou phrases tous azimuts. Aussi outil de précision sémantique et de réflexion communautaire. Voir la rubrique mode d'emploi. Jetez un oeil à la colonne "chaînes". ATTENTION, faire une REINITIALISATION après  une recherche complexe. Et utilisez le nuage de corrélats !!!!..... Lire la suite >>
Résultat(s): 24
Temps de recherche: 0.0359s

machine-homme

Meta a dévoilé une intelligence artificielle capable de lire dans vos pensées. En s’appuyant sur les signaux électromagnétiques du cerveau, l’IA peut comprendre les images que vous avez en tête et les reproduire.

Meta concentre désormais ses efforts sur l’intelligence artificielle. Ces derniers mois, les chercheurs du groupe de Mark Zuckerberg ont dévoilé une pléthore d’innovations s’appuyant sur l’IA. Citons notamment Voicebox, une intelligence artificielle capable d’imiter une voix humaine, le modèle de langage Llama 2, ou MusicGen, un outil qui peut produire une musique à la demande.

Le géant de Menlo Park ne compte pas s’arrêter là. Sur son site web, Meta vient de mettre en ligne un rapport consacré à une IA conçue pour décoder ce qu’il se passe dans le cerveau humain. L’intelligence artificielle est en effet capable de comprendre les images qu’un individu a en tête. Par la suite, l’IA va reproduire les images aperçues dans les pensées de celui-ci.

Comment l’IA peut lire dans le cerveau ?

Pour parvenir à cette prouesse, Meta s’appuie sur la magnéto-encéphalographie, ou MEG, une technique d’imagerie cérébrale qui mesure l’activité électromagnétique du cerveau. En collectant "des milliers de mesures d’activité cérébrale" par seconde, le système va "décoder le déploiement des représentations visuelles dans le cerveau". Meta a mis au point un "modèle de décodage" basé sur l’IA pour comprendre les champs magnétiques produits par l’activité neuronale.

Une fois que les données ont été traitées, elles vont être reliées aux représentations visuelles mises au point l’IA en amont. Ces représentations sont générées par un encodeur d’image, qui dispose d’un " riche ensemble " de visuels différents. En d’autres termes, les images déjà disponibles vont être comparées aux images décelées dans le cerveau. C’est là que l’" encodeur cérébral " entre en jeu. Enfin, l’IA va produire une " image plausible " en se basant sur les visuels dans les pensées de la cible. Notez que les visuels sont générés en continu à partir du cerveau, ce qui offre un aperçu unique de ce qu’il se passe dans l’esprit humain.

Dans le cadre de son expérience, l’entreprise a d’abord montré une image, fournie par l’IA, à des bénévoles. En parallèle, une machine MEG scannait les signaux de leur cerveau. Meta a partagé plusieurs exemples des résultats générés dans son rapport. Dans la plupart des cas, le résultat final n’est pas tombé loin de l’image montrée à l’origine. L’IA parvient généralement à reproduire l’objet principal de l’image en s’appuyant sur les ondes et sa bibliothèque de visuels.

" Nos résultats montrent que le MEG peut être utilisé pour déchiffrer, avec une précision d’une milliseconde, la montée des représentations complexes générées dans le cerveau ", résume Meta.

Les limites de l’IA

À ce stade, l’IA doit d’abord être entraînée sur l’activité cérébrale d’un individu avant d’être utilisée pour décrypter des pensées. Le système doit passer par une période de formation, qui va l’habituer à interpréter des ondes cérébrales spécifiques. De la même manière, un modèle linguistique doit être formé sur base d’une montagne de textes avant de pouvoir animer un chatbot.

De plus, rien n’indique que cette technologie, encore à ses balbutiements, puisse permettre de décoder des images qui ne sont pas d’abord traitées par l’IA. Tout en promettant d’autres avancées à l’avenir, Meta estime que sa technologie pourrait permettre de concevoir des " interfaces cerveau-ordinateur non invasives " pour venir en aide aux personnes qui ont perdu la capacité de parler.

Notez qu’il ne s’agit pas de la première fois qu’une IA parvient à lire dans les pensées humaines. Cet été, des chercheurs américains ont dévoilé une IA capable de deviner la musique qu’une personne est en train d’écouter uniquement en collectant les données issues du cerveau. Là encore, les scientifiques se sont appuyés sur les signaux électriques émis par le cerveau. 

Auteur: Internet

Info: https://www.01net.com/, 19 octobre 2023, source : Meta

[ homme-machine ]

 

Commentaires: 0

Ajouté à la BD par Le sous-projectionniste

cognition

Lorsqu'on réfléchit à une idée-concept c'est toujours à postériori. 

Pas tout à fait ici, puisque nous désirons aborder et tenter de caractériser le terme "conscience". Vu bien sûr "à partir de", l'entendement humain. 

Conscience humaine, ici notion-idée tant grégaire-objective, qu'individuelle-subjective, qui serait, selon nous autres singes dépoilés, la plus complexe et la plus évoluée à ce jour. 

Ah ah ah, c'te bonne blague. 

Soit. 

Selon FLP l'entendement humain est principalement scriptural, c'est à dire qu'il a pu se développer "un cran plus loin, ou plus" grâce aux symboles et langages, puis à l'écriture de signes organisés, bientôt stockés sur supports externes, ceci amenant l'émersion-développement d'une culture grégaire (dictionnaires, traductions, mathématiques, spécialisations théologico-scientifiques, recensement des tactiques militaro-politico-économiques, littérature, philos, intellectualisme, chatgpt, etc). Tout ceci maintenant traduit et trans-frontières, accessible à tous, planétarisé... numérisé... Avec une tendance à s'orienter vers l'image ; mais c'est une autre histoire.

Il y a donc un grand corpus-intellect humain, constitué au fil des générations par des millions de singularités qui bougent, agissent... réfléchissent, échangent, et manipulent les idées, principalement écrites donc. 

Corpus qui résulte de notre interaction avec la réalité (priméité), interaction qui génère par rétroaction, grâce à des idiomes qui codifient-définissent-organisent, nos divers points de vue,  (codés par des mots pour faire simple) sur ce réel. Un corpus suffisamment vaste, riche et varié pour que chaque subjectivité puisse s'y épanouir, y exister... se définir elle-même. Et s'y perdre. Aussi.

La preuve ici-même ?

C.S. Pierce dirait quelque chose comme ; humains-secondéités qui, au contact de leur réel-priméité, génèrent des textes, pensées-écrits, qui sont des tiercités. 

Ainsi l'IA matérialisée par chatgpt et consorts ne fait que manipuler ces humaines tiercités. Autant dire que par rapport aux développements divers de la vie bactérienne, et des combinaisons toujours plus complexes de molécules et de protéines qui s'en sont ensuivies, les langages humains font piteux. Pour l'instant.

Oublions ceci et réfléchissons selon la triade piercéenne, partant de l'idée que la priméité est au premier chef notre biotope terre-soleil, avec l'univers en arrière-plan. 

(Avec cette digression :  si la priméité est le soleil et la secondéité notre matrice Gaïa, cette dernière générerait alors des tiercités sous forme de vie organique et d'humains. Perspective éventuellement pessimiste dans la mesure où elle pourrait impliquer l'idée d'une terre-Gaïa terminus, à la surface de laquelle les humains ne seraient qu'éphémères et transitoires virus. Pourquoi pas.)

Mais restons sur cette triade initiale, qui peut être appréhendée comme purement mécanique, logique, voire simplement informationnelle récursive :

a) réalité source-priméité b) vie organique hommes-secondéité C) technologies écritures humaines-tiercité.  

Prenons maintenant un peu de recul en termes de temps et d'échelles, partant de ce que nous savons de plus basique pour ce qui concerne la vie "issue de la matière". A savoir à partir de la chimiosynthèse et surtout, de la photosynthèse. C'est à dire de l'interaction assez incroyable entre l'énergie solaire (photons) et certains atomes-molécules terrestres qui, par le truchement de l'anhydride de carbone*, en viennent à générer des chaines organiques, des végétaux, des animaux...  Et nous.  

Reprenons : l'idée-concept de départ à définir ici est celle de conscience, vue de, et rapportée à "l'entendement humain". ( Euclide a réfléchi en se pensant par rapport à une surface, Newton s'est mis à la place de la matière, Einstein de la lumière. FLP, ne se refusant à aucune mégalomanie, s'attaque à l'esprit lui-même, sissi. D'autant qu'on dirait  que les paradoxes quantiques pointent vers cet impératif. Impératif qui pourra se résumer en une question : comment fonctionne l'observateur ?)

Ici se pose le vertige des limites que porte en lui le langage. Parce que ce dernier, usant de "symboles écrits", désignait/nommait originellement les éléments issus de notre réalité de "façon claire", un arbre est un arbre, une montagne est une montagne, etc... Langage aussi capable de désigner/nommer une abstraction généralisante comme "notre réel lui-même". Et qui, plus avant, est même apte à désigner l'observateur-générateur-manipulateur de l'idiome lui-même. Toi moi, nous autres humains lecteurs.

Puissance paradoxale d'une pensée symbolique suffisamment adroite pour se contempler en miroir d'elle-même via les jeux polysémiques et autres variés décalages signifiant-signifié.

Quel(s) terme(s) alors utiliser pour tenter d'approcher une définition de cette curieuse émergence auto-réfléxive en s'inspirant de l'interaction photosynthétique ?  médium, mécanisme, outil interactif, "quelque chose qui réfléchit"... intelligence... transmutation...  émergence...  interface pseudo rationnelle... pensée abstraite agissante ?... 

Quelques mots simples n'y suffiront pas, et, pour prendre un exemple, une AI totalisante comme chatgpt semble s'y perdre à l'identique, enfermée dans ce qu'il faut bien appeler un anthropisme limitatif. 

C'est ici que FLP, sous pilotage humain (ses participants-lecteurs inserteurs) pourra se positionner, via la conjonction-usage de plusieurs termes simultanés (verticaux, nuage de corrélats ?). Conjonction susceptible de mieux préciser-comprendre-communiquer tel ou tel mot ou situation. Ce qui pourrait bien aider à mieux définir-consolider certaines articulations de nos raisonnements. Mais aussi mieux approcher une image "rapportée" de la conscience humaine, en fonction de "contextes précis et délimités" - pour commencer. 

Fonction FLPique de dictionnaire intriqué - qui n'en n'est qu'à ses balbutiements - et qui s'amuse à sortir de la prison séquentielle du raisonnement écrit en ouvrant une réflexion qui s'arrête en un point, perpendiculaire en quelque sorte. Halte cogitation éventuellement aidée par ces termes-tags-étiquettes annexes, verticaux, ou en nuage. Listing annexe à tendance synonymique qui pourra se présenter comme suit pour ce texte même, éventuellement par ordre d'importance :

entendement

assimilation chlorophyllienne

gnose

méta-moteur

savoirs

mécanisme constructeur, etc.

Humaine-conscience-interface très limitée aussi, au sens où elle ne sert à peu près qu'à elle-même. Femmes et hommes, enfermés encore et toujours dans une Culture communautaire trans-époque que nous qualifions volontiers de "solipsisme anthropique". 

Savoirs humains entassés-conjugués qui ressemblent donc à un genre de grande conscience désordonnée, pour laquelle des termes comme information, communication, virtualité, annales akashiques... quasi-esprit, savoirs compilés... Une fois bien mélangés-combinés, pourront faire l'affaire. Mais stop.

Intéressons-nous maintenant ici à la notion de vitesse, sans lâcher cette idée de comparer " comment nous pensons nous-mêmes " avec une photosynthèse qui opère à des échelles de l'ordre du millionnième de seconde et du millionnième de millimètre.  

Bonjour alors les infinités d'échelons et de déclinaisons de " consciences ", ou de niveaux de réflexions qui pourront découler de cette idée ; enchevêtrés de surcroit. Au hasard - et par seuls groupes de deux : animaux et biotope, molécules et gravitation, lune et océans, humains et idées, insectes et univers, etc...

Tout est dans tout.

Sortons alors de cette idée de mécaniques résonantes partout dans le cosmos et remettons nous à la place de l'individu monade, du créateur, ou de l'indispensable lecteur qui aide à faire exister ces lignes. 

De notre conscience propre donc, au sens d'une intellection humaine rationnelle, directement issue d'un esprit des listes - et de la logique formelle duale qui nous anime. Une fondation très simple donc, rapide et fugace, pour qui " s'introspecte " avec honnêteé et lucidité.

Ici l'auteur de ces lignes précise qu'il y a, à tous les plans de la vie non minérale incarnée, un mécanisme incontournable qui est celui de la survie, de la perpétuation. Un mécanisme "qui pousse" et qui, pour FLP, est sous-tendu depuis peu (à l'échelle cosmique) particulièrement chez les eucaryotes, par la dualité mâle-femelle. Avec les poncifs qui vont avec : procréation-curiosité, terre-ciel, conservation-exploration, etc... 

Mécanisme tétravalent, mais c'est une autre histoire.

Cette survie, de notre limitée perspective d'animaux humains, au-delà des infinies différences de vitesse citées plus tôt, présente divers stades-niveaux d'intensité et de résilience que nous dirons psycho-sociologiques : l'individu-monade, sa famille, la communauté... son pays... jusqu'à sa planète. 

Déclinés comme suit : 

- Survie immédiate, dans l'instant.

- Survie à moyen terme - comment se développer, s'intégrer, trouver un travail, un/une partenaire... 

- Survie dans le temps - comment procréer, fonder une, ou plusieurs, famille(s). Construire une carrière pour y aider.

- Survie communautaire ou territoriale - comme n'importe quelle nation agressée qui se défend... ou un peuple juif qui veut se maintenire au travers des pays et des âges.

- Survie grégaire - par exemple de terriens menacés par de vilains ET's dans un mauvais scénario de SF. Ou plus simplement menacés par eux-mêmes de par le réchauffement climatique qu'ils ont induit. 

Humano-terriens qui malgré celà continuent leur expansion démographique et consumériste. Grr

Quant à la survie du processus Gaïa lui-même, ayons l'humilité de reconnaitre que c'est une problématique qui nous dépasse. En attendant de rencontrer les entités qui se sont amusées à nous créer (pour voir ?)... et ouvrir un peu nos perspectives ;-)

En résumé, pour reprendre l'objet de départ de ce texte, la caractérisation du terme "conscience", on s'aperçoit que comme tout principe terminologique arrêté, ce mot se révèle plurivoque, jusqu'à devenir UNIVERS (classe d'universalité des mathématiciens-physiciens ?) dès qu'on entreprend d'approfondir-préciser son analyse sémantique. Univers humain  objectif constitué du rassemblement scriptural et maintenant informatique de subjectivités orthogonales, c'est à dire mâles-femelles tous pareils et différents à la fois  - avec une infinité de niveaux et de vitesses imbriquées, ou pas, parallèles, ou pas... C'est à dire tout en même temps connexionniste, bayésien, perspectiviste, diachronique, systémique, cybernétique, etc. 

Tout est dans tout. 

Encore.

Tout ceci allant très au-delà - par exemple - d'une méthode sémantico-noétique aristotélicienne de l'abstraction, limitation en elle-même.

La conscience est partout et nulle part. 

Elle est surtout un mot à la mode qui, sans le langage et surtout l'écriture, ressemble à une illusion. 

"L'être humain vivant semble n'être constitué que de matière et d'énergie. L'esprit n'est qu'une hypothèse." Isaac Asimov**

Auteur: Mg

Info: sept 2023. *Le carbone représente 0,5% des atomes dans la voie lactée. Le CO2, atome de carbone sous sa forme gazeuse, aussi nommé dioxyde de carbone, gaz carbonique ou anhydride carbonique est présent à 4% dans l'athmosphère terrestres. En janvier 2021, l'atmosphère terrestre comportait 415,13 ppmv (parties par million en volume) de CO2, soit 0,04153 %. Cette teneur était de 283,4 ppmv en 1839 d'après des carottes de glace prélevées dans l'Antarctique, soit une augmentation globale d'environ 46 % en 182 ans. **Épigraphe dans Isaac Asimov's Book of Science and Nature Quotations (1988), 214

[ anthropocentrisme ] [ hiérarchisation ] [ corps-esprit ] [ au coeur de FLP ] [ ontologie ] [ polysémie ]

 
Commentaires: 8
Ajouté à la BD par Le sous-projectionniste

homme-machine

Une nouvelle approche du calcul réinvente l'intelligence artificielle

Par l'imprégnation d'énormes vecteurs de sens sémantique, nous pouvons amener les machines à raisonner de manière plus abstraite et plus efficace qu'auparavant.

M
algré le succès retentissant de ChatGPT et d'autres grands modèles de langage, les réseaux de neurones artificiels (ANN) qui sous-tendent ces systèmes pourraient être sur la mauvaise voie.

D'une part, les ANN sont "super gourmands en énergie", a déclaré Cornelia Fermüller , informaticienne à l'Université du Maryland. "Et l'autre problème est [leur] manque de transparence." De tels systèmes sont si compliqués que personne ne comprend vraiment ce qu'ils font, ou pourquoi ils fonctionnent si bien. Ceci, à son tour, rend presque impossible de les amener à raisonner par analogie, ce que font les humains - en utilisant des symboles pour les objets, les idées et les relations entre eux.

Ces lacunes proviennent probablement de la structure actuelle des RNA et de leurs éléments constitutifs : les neurones artificiels individuels. Chaque neurone reçoit des entrées, effectue des calculs et produit des sorties. Les RNA modernes sont des réseaux élaborés de ces unités de calcul, formés pour effectuer des tâches spécifiques.

Pourtant, les limites des RNA sont évidentes depuis longtemps. Considérez, par exemple, un ANN qui sépare les cercles et les carrés. Une façon de le faire est d'avoir deux neurones dans sa couche de sortie, un qui indique un cercle et un qui indique un carré. Si vous voulez que votre ANN discerne également la couleur de la forme - bleu ou rouge - vous aurez besoin de quatre neurones de sortie : un pour le cercle bleu, le carré bleu, le cercle rouge et le carré rouge. Plus de fonctionnalités signifie encore plus de neurones.

Cela ne peut pas être la façon dont notre cerveau perçoit le monde naturel, avec toutes ses variations. "Vous devez proposer que, eh bien, vous avez un neurone pour toutes les combinaisons", a déclaré Bruno Olshausen , neuroscientifique à l'Université de Californie à Berkeley. "Donc, vous auriez dans votre cerveau, [disons,] un détecteur Volkswagen violet."

Au lieu de cela, Olshausen et d'autres soutiennent que l'information dans le cerveau est représentée par l'activité de nombreux neurones. Ainsi, la perception d'une Volkswagen violette n'est pas codée comme les actions d'un seul neurone, mais comme celles de milliers de neurones. Le même ensemble de neurones, tirant différemment, pourrait représenter un concept entièrement différent (une Cadillac rose, peut-être).

C'est le point de départ d'une approche radicalement différente de l'informatique connue sous le nom d'informatique hyperdimensionnelle. La clé est que chaque élément d'information, comme la notion d'une voiture, ou sa marque, son modèle ou sa couleur, ou tout cela ensemble, est représenté comme une seule entité : un vecteur hyperdimensionnel.

Un vecteur est simplement un tableau ordonné de nombres. Un vecteur 3D, par exemple, comprend trois nombres : les coordonnées x , y et z d'un point dans l'espace 3D. Un vecteur hyperdimensionnel, ou hypervecteur, pourrait être un tableau de 10 000 nombres, par exemple, représentant un point dans un espace à 10 000 dimensions. Ces objets mathématiques et l'algèbre pour les manipuler sont suffisamment flexibles et puissants pour amener l'informatique moderne au-delà de certaines de ses limites actuelles et favoriser une nouvelle approche de l'intelligence artificielle.

"C'est ce qui m'a le plus enthousiasmé, pratiquement de toute ma carrière", a déclaré Olshausen. Pour lui et pour beaucoup d'autres, l'informatique hyperdimensionnelle promet un nouveau monde dans lequel l'informatique est efficace et robuste, et les décisions prises par les machines sont entièrement transparentes.

Entrez dans les espaces de grande dimension

Pour comprendre comment les hypervecteurs rendent le calcul possible, revenons aux images avec des cercles rouges et des carrés bleus. Nous avons d'abord besoin de vecteurs pour représenter les variables SHAPE et COLOR. Ensuite, nous avons également besoin de vecteurs pour les valeurs pouvant être affectées aux variables : CERCLE, CARRÉ, BLEU et ROUGE.

Les vecteurs doivent être distincts. Cette distinction peut être quantifiée par une propriété appelée orthogonalité, ce qui signifie être à angle droit. Dans l'espace 3D, il existe trois vecteurs orthogonaux entre eux : un dans la direction x , un autre dans la direction y et un troisième dans la direction z . Dans un espace à 10 000 dimensions, il existe 10 000 vecteurs mutuellement orthogonaux.

Mais si nous permettons aux vecteurs d'être presque orthogonaux, le nombre de ces vecteurs distincts dans un espace de grande dimension explose. Dans un espace à 10 000 dimensions, il existe des millions de vecteurs presque orthogonaux.

Créons maintenant des vecteurs distincts pour représenter FORME, COULEUR, CERCLE, CARRÉ, BLEU et ROUGE. Parce qu'il y a tellement de vecteurs presque orthogonaux possibles dans un espace de grande dimension, vous pouvez simplement assigner six vecteurs aléatoires pour représenter les six éléments ; ils sont presque garantis d'être presque orthogonaux. "La facilité de créer des vecteurs presque orthogonaux est une raison majeure d'utiliser la représentation hyperdimensionnelle", a écrit Pentti Kanerva , chercheur au Redwood Center for Theoretical Neuroscience de l'Université de Californie à Berkeley, dans un article influent de 2009.

L'article s'appuyait sur des travaux effectués au milieu des années 1990 par Kanerva et Tony Plate, alors étudiant au doctorat avec Geoff Hinton à l'Université de Toronto. Les deux ont développé indépendamment l'algèbre pour manipuler les hypervecteurs et ont fait allusion à son utilité pour le calcul en haute dimension.

Étant donné nos hypervecteurs pour les formes et les couleurs, le système développé par Kanerva et Plate nous montre comment les manipuler à l'aide de certaines opérations mathématiques. Ces actions correspondent à des manières de manipuler symboliquement des concepts.

La première opération est la multiplication. C'est une façon de combiner les idées. Par exemple, multiplier le vecteur FORME par le vecteur CERCLE lie les deux en une représentation de l'idée "LA FORME est CERCLE". Ce nouveau vecteur "lié" est presque orthogonal à la fois à SHAPE et à CIRCLE. Et les composants individuels sont récupérables - une caractéristique importante si vous souhaitez extraire des informations à partir de vecteurs liés. Étant donné un vecteur lié qui représente votre Volkswagen, vous pouvez dissocier et récupérer le vecteur pour sa couleur : VIOLET.

La deuxième opération, l'addition, crée un nouveau vecteur qui représente ce qu'on appelle une superposition de concepts. Par exemple, vous pouvez prendre deux vecteurs liés, "SHAPE is CIRCLE" et "COLOR is RED", et les additionner pour créer un vecteur qui représente une forme circulaire de couleur rouge. Là encore, le vecteur superposé peut être décomposé en ses constituants.

La troisième opération est la permutation ; cela implique de réorganiser les éléments individuels des vecteurs. Par exemple, si vous avez un vecteur tridimensionnel avec des valeurs étiquetées x , y et z , la permutation peut déplacer la valeur de x vers y , y vers z et z vers x. "La permutation vous permet de construire une structure", a déclaré Kanerva. "Ça permet de gérer des séquences, des choses qui se succèdent." Considérons deux événements, représentés par les hypervecteurs A et B. Nous pouvons les superposer en un seul vecteur, mais cela détruirait les informations sur l'ordre des événements. La combinaison de l'addition et de la permutation préserve l'ordre ; les événements peuvent être récupérés dans l'ordre en inversant les opérations.

Ensemble, ces trois opérations se sont avérées suffisantes pour créer une algèbre formelle d'hypervecteurs permettant un raisonnement symbolique. Mais de nombreux chercheurs ont été lents à saisir le potentiel de l'informatique hyperdimensionnelle, y compris Olshausen. "Cela n'a tout simplement pas été pris en compte", a-t-il déclaré.

Exploiter le pouvoir

En 2015, un étudiant d'Olshausen nommé Eric Weiss a démontré un aspect des capacités uniques de l'informatique hyperdimensionnelle. Weiss a compris comment représenter une image complexe comme un seul vecteur hyperdimensionnel contenant des informations sur tous les objets de l'image, y compris leurs propriétés, telles que les couleurs, les positions et les tailles.

"Je suis pratiquement tombé de ma chaise", a déclaré Olshausen. "Tout d'un coup, l'ampoule s'est allumée."

Bientôt, d'autres équipes ont commencé à développer des algorithmes hyperdimensionnels pour reproduire des tâches simples que les réseaux de neurones profonds avaient commencé à effectuer environ deux décennies auparavant, comme la classification d'images.

Considérons un ensemble de données annotées composé d'images de chiffres manuscrits. Un algorithme analyse les caractéristiques de chaque image en utilisant un schéma prédéterminé. Il crée ensuite un hypervecteur pour chaque image. Ensuite, l'algorithme ajoute les hypervecteurs pour toutes les images de zéro pour créer un hypervecteur pour l'idée de zéro. Il fait ensuite la même chose pour tous les chiffres, créant 10 hypervecteurs "de classe", un pour chaque chiffre.

Maintenant, l'algorithme reçoit une image non étiquetée. Il crée un hypervecteur pour cette nouvelle image, puis compare l'hypervecteur aux hypervecteurs de classe stockés. Cette comparaison détermine le chiffre auquel la nouvelle image ressemble le plus.

Pourtant, ce n'est que le début. Les points forts de l'informatique hyperdimensionnelle résident dans la capacité de composer et de décomposer des hypervecteurs pour le raisonnement. La dernière démonstration en date a eu lieu en mars, lorsqu'Abbas Rahimi et ses collègues d'IBM Research à Zurich ont utilisé l'informatique hyperdimensionnelle avec des réseaux de neurones pour résoudre un problème classique de raisonnement visuel abstrait - un défi important pour les RNA typiques, et même certains humains. Connu sous le nom de matrices progressives de Raven, le problème présente des images d'objets géométriques dans, disons, une grille 3 par 3. Une position dans la grille est vide. Le sujet doit choisir, parmi un ensemble d'images candidates, l'image qui correspond le mieux au blanc.

"Nous avons dit:" C'est vraiment ... l'exemple qui tue pour le raisonnement abstrait visuel, allons-y "", a déclaré Rahimi.

Pour résoudre le problème à l'aide de l'informatique hyperdimensionnelle, l'équipe a d'abord créé un dictionnaire d'hypervecteurs pour représenter les objets dans chaque image ; chaque hypervecteur du dictionnaire représente un objet et une combinaison de ses attributs. L'équipe a ensuite formé un réseau de neurones pour examiner une image et générer un hypervecteur bipolaire - un élément peut être +1 ou -1 - aussi proche que possible d'une superposition d'hypervecteurs dans le dictionnaire ; l'hypervecteur généré contient donc des informations sur tous les objets et leurs attributs dans l'image. "Vous guidez le réseau de neurones vers un espace conceptuel significatif", a déclaré Rahimi.

Une fois que le réseau a généré des hypervecteurs pour chacune des images de contexte et pour chaque candidat pour l'emplacement vide, un autre algorithme analyse les hypervecteurs pour créer des distributions de probabilité pour le nombre d'objets dans chaque image, leur taille et d'autres caractéristiques. Ces distributions de probabilité, qui parlent des caractéristiques probables à la fois du contexte et des images candidates, peuvent être transformées en hypervecteurs, permettant l'utilisation de l'algèbre pour prédire l'image candidate la plus susceptible de remplir l'emplacement vacant.

Leur approche était précise à près de 88 % sur un ensemble de problèmes, tandis que les solutions de réseau neuronal uniquement étaient précises à moins de 61 %. L'équipe a également montré que, pour les grilles 3 par 3, leur système était presque 250 fois plus rapide qu'une méthode traditionnelle qui utilise des règles de logique symbolique pour raisonner, car cette méthode doit parcourir un énorme livre de règles pour déterminer la bonne prochaine étape.

Un début prometteur

Non seulement l'informatique hyperdimensionnelle nous donne le pouvoir de résoudre symboliquement des problèmes, mais elle résout également certains problèmes épineux de l'informatique traditionnelle. Les performances des ordinateurs d'aujourd'hui se dégradent rapidement si les erreurs causées, par exemple, par un retournement de bit aléatoire (un 0 devient 1 ou vice versa) ne peuvent pas être corrigées par des mécanismes de correction d'erreurs intégrés. De plus, ces mécanismes de correction d'erreurs peuvent imposer une pénalité sur les performances allant jusqu'à 25 %, a déclaré Xun Jiao , informaticien à l'Université de Villanova.

Le calcul hyperdimensionnel tolère mieux les erreurs, car même si un hypervecteur subit un nombre important de retournements de bits aléatoires, il reste proche du vecteur d'origine. Cela implique que tout raisonnement utilisant ces vecteurs n'est pas significativement impacté face aux erreurs. L'équipe de Jiao a montré que ces systèmes sont au moins 10 fois plus tolérants aux pannes matérielles que les ANN traditionnels, qui sont eux-mêmes des ordres de grandeur plus résistants que les architectures informatiques traditionnelles. "Nous pouvons tirer parti de toute [cette] résilience pour concevoir du matériel efficace", a déclaré Jiao.

Un autre avantage de l'informatique hyperdimensionnelle est la transparence : l'algèbre vous indique clairement pourquoi le système a choisi la réponse qu'il a choisie. Il n'en va pas de même pour les réseaux de neurones traditionnels. Olshausen, Rahimi et d'autres développent des systèmes hybrides dans lesquels les réseaux de neurones cartographient les éléments du monde physique en hypervecteurs, puis l'algèbre hyperdimensionnelle prend le relais. "Des choses comme le raisonnement analogique vous tombent dessus", a déclaré Olshausen. "C'est ce que nous devrions attendre de tout système d'IA. Nous devrions pouvoir le comprendre comme nous comprenons un avion ou un téléviseur.

Tous ces avantages par rapport à l'informatique traditionnelle suggèrent que l'informatique hyperdimensionnelle est bien adaptée à une nouvelle génération de matériel extrêmement robuste et à faible consommation d'énergie. Il est également compatible avec les "systèmes informatiques en mémoire", qui effectuent le calcul sur le même matériel qui stocke les données (contrairement aux ordinateurs von Neumann existants qui transfèrent inefficacement les données entre la mémoire et l'unité centrale de traitement). Certains de ces nouveaux appareils peuvent être analogiques, fonctionnant à très basse tension, ce qui les rend économes en énergie mais également sujets aux bruits aléatoires. Pour l'informatique de von Neumann, ce caractère aléatoire est "le mur que vous ne pouvez pas franchir", a déclaré Olshausen. Mais avec l'informatique hyperdimensionnelle, "vous pouvez simplement percer".

Malgré ces avantages, l'informatique hyperdimensionnelle en est encore à ses balbutiements. "Il y a un vrai potentiel ici", a déclaré Fermüller. Mais elle souligne qu'il doit encore être testé contre des problèmes du monde réel et à des échelles plus grandes, plus proches de la taille des réseaux de neurones modernes.

"Pour les problèmes à grande échelle, cela nécessite un matériel très efficace", a déclaré Rahimi. "Par exemple, comment [faites-vous] une recherche efficace sur plus d'un milliard d'articles ?"

Tout cela devrait venir avec le temps, a déclaré Kanerva. "Il y a d'autres secrets [que] les espaces de grande dimension détiennent", a-t-il déclaré. "Je vois cela comme le tout début du temps pour le calcul avec des vecteurs."

Auteur: Ananthaswamy Anil

Info: https://www.quantamagazine.org/ Mais 2023

[ machine learning ]

 

Commentaires: 0

Ajouté à la BD par miguel

intelligence artificielle

Apprendre l'anglais n'est pas une tâche facile, comme le savent d'innombrables étudiants. Mais lorsque l'étudiant est un ordinateur, une approche fonctionne étonnamment bien : Il suffit d'alimenter un modèle mathématique géant, appelé réseau neuronal, avec des montagnes de textes provenant d'Internet. C'est le principe de fonctionnement des modèles linguistiques génératifs tels que ChatGPT d'OpenAI, dont la capacité à tenir une conversation cohérente (à défaut d'être toujours sincère) sur un large éventail de sujets a surpris les chercheurs et le public au cours de l'année écoulée.

Mais cette approche présente des inconvénients. D'une part, la procédure de "formation" nécessaire pour transformer de vastes archives textuelles en modèles linguistiques de pointe est coûteuse et prend beaucoup de temps. D'autre part, même les personnes qui forment les grands modèles linguistiques ont du mal à comprendre leur fonctionnement interne, ce qui, à son tour, rend difficile la prévision des nombreuses façons dont ils peuvent échouer.

Face à ces difficultés, certains chercheurs ont choisi d'entraîner des modèles plus petits sur des ensembles de données plus restreints, puis d'étudier leur comportement. "C'est comme le séquençage du génome de la drosophile par rapport au séquençage du génome humain", explique Ellie Pavlick, chercheuse sur les modèles de langage à l'université de Brown.

Dans un article récemment publié sur le serveur scientifique arxiv.org, deux chercheurs de Microsoft ont présenté une nouvelle méthode pour former de minuscules modèles de langage : Les élever avec un régime strict d'histoires pour enfants.

RÉSEAUX NEURONAUX

Des chercheurs acquièrent une nouvelle compréhension à partir d'une simple IA  

Les chercheurs en apprentissage automatique ont compris cette leçon. GPT-3.5, le grand modèle linguistique qui alimente l'interface ChatGPT, compte près de 200 milliards de paramètres et a été entraîné sur un ensemble de données comprenant des centaines de milliards de mots (OpenAI n'a pas publié les chiffres correspondants pour son successeur, GPT-4).  L'entraînement de modèles aussi vastes nécessite généralement au moins 1 000 processeurs spécialisés, appelés GPU, fonctionnant en parallèle pendant des semaines. Seules quelques entreprises peuvent réunir les ressources nécessaires, sans parler de l'entraînement et de la comparaison de différents modèles.

Les deux chercheurs ont montré que des modèles linguistiques des milliers de fois plus petits que les systèmes de pointe actuels apprenaient rapidement à raconter des histoires cohérentes et grammaticalement justes lorsqu'ils étaient formés de cette manière. Leurs résultats indiquent de nouvelles pistes de recherche qui pourraient être utiles pour former des modèles plus importants et comprendre leur comportement.

"J'ai trouvé tout  ça très instructif", a déclaré Chandra Bhagavatula, chercheur sur les modèles de langage à l'Allen Institute for Artificial Intelligence de Seattle. "Le concept lui-même est très intéressant.

Il était une fois

Les réseaux neuronaux au cœur des modèles de langage sont des structures mathématiques vaguement inspirées du cerveau humain. Chacun d'entre eux contient de nombreux neurones artificiels disposés en couches, avec des connexions entre les neurones des couches adjacentes. Le comportement du réseau neuronal est régi par la force de ces connexions, appelées paramètres. Dans un modèle linguistique, les paramètres contrôlent les mots que le modèle peut produire ensuite, compte tenu d'une invite initiale et des mots qu'il a déjà générés.

Un modèle ne prend véritablement vie qu'au cours de la formation, lorsqu'il compare de manière répétée ses propres résultats au texte de son ensemble de données de formation et qu'il ajuste ses paramètres afin d'accroître la ressemblance. Un réseau non entraîné avec des paramètres aléatoires est trivialement facile à assembler à partir de quelques lignes de code, mais il ne produira que du charabia. Après l'entraînement, il peut souvent poursuivre de manière plausible un texte peu familier. Les modèles de plus grande taille sont souvent soumis à des réglages plus fins qui leur apprennent à répondre à des questions et à suivre des instructions, mais l'essentiel de la formation consiste à maîtriser la prédiction des mots.

Pour réussir à prédire des mots, un modèle linguistique doit maîtriser de nombreuses compétences différentes. Par exemple, les règles de la grammaire anglaise suggèrent que le mot suivant le mot "going" sera probablement "to", quel que soit le sujet du texte. En outre, un système a besoin de connaissances factuelles pour compléter "la capitale de la France est", et compléter un passage contenant le mot "not" nécessite une connaissance rudimentaire de la logique.

"Le langage brut est très compliqué", explique Timothy Nguyen, chercheur en apprentissage automatique chez DeepMind. "Pour que des capacités linguistiques intéressantes apparaissent, les gens ont eu recours à l'idée que plus il y a de données, mieux c'est".

(photo) Ronen Eldan s'est rendu compte qu'il pouvait utiliser les histoires d'enfants générées par de grands modèles linguistiques pour en entraîner rapidement de plus petits.

Introduction

Ronen Eldan, mathématicien qui a rejoint Microsoft Research en 2022 pour étudier les modèles de langage génératifs, souhaitait développer un moyen moins coûteux et plus rapide d'explorer leurs capacités. Le moyen naturel d'y parvenir était d'utiliser un petit ensemble de données, ce qui signifiait qu'il devait entraîner les modèles à se spécialiser dans une tâche spécifique, afin qu'ils ne s'éparpillent pas. Au départ, il voulait entraîner les modèles à résoudre une certaine catégorie de problèmes mathématiques, mais un après-midi, après avoir passé du temps avec sa fille de 5 ans, il s'est rendu compte que les histoires pour enfants convenaient parfaitement. "L'idée m'est venue littéralement après lui avoir lu une histoire", a-t-il déclaré.

Pour générer des histoires cohérentes pour les enfants, un modèle de langage devrait apprendre des faits sur le monde, suivre les personnages et les événements, et observer les règles de grammaire - des versions plus simples des défis auxquels sont confrontés les grands modèles. Mais les grands modèles formés sur des ensembles de données massives apprennent d'innombrables détails non pertinents en même temps que les règles qui comptent vraiment. Eldan espérait que la brièveté et le vocabulaire limité des histoires pour enfants rendraient l'apprentissage plus gérable pour les petits modèles, ce qui les rendrait à la fois plus faciles à former et plus faciles à comprendre.

Dans le monde des modèles de langage, cependant, le terme "petit" est relatif : Un ensemble de données mille fois plus petit que celui utilisé pour former GPT-3.5 devrait encore contenir des millions d'histoires. "Je ne sais pas combien d'argent vous voulez dépenser, mais je suppose que vous n'allez pas engager des professionnels pour écrire quelques millions de nouvelles", a déclaré M. Nguyen.

Il faudrait un auteur extraordinairement prolifique pour satisfaire des lecteurs aussi voraces, mais Eldan avait quelques candidats en tête. Qui peut mieux écrire pour un public de petits modèles linguistiques que pour de grands modèles ?

Toys stories

Eldan a immédiatement entrepris de créer une bibliothèque d'histoires synthétiques pour enfants générées par de grands modèles linguistiques. Mais il a rapidement découvert que même les modèles de pointe ne sont pas naturellement très créatifs. Si l'on demande à GPT-4 d'écrire des histoires adaptées à des enfants de 4 ans, explique Eldan, "environ un cinquième des histoires concernera des enfants qui vont au parc et qui ont peur des toboggans". C'est apparemment la quintessence des histoires pour enfants d'âge préscolaire, selon l'Internet.

La solution a consisté à ajouter un peu d'aléatoire dans le message. Tout d'abord, Eldan a utilisé le GPT-4 pour générer une liste de 1 500 noms, verbes et adjectifs qu'un enfant de 4 ans pourrait connaître - suffisamment courte pour qu'il puisse facilement la vérifier lui-même. Il a ensuite écrit un programme informatique simple qui demanderait à plusieurs reprises à GPT-3.5 ou à GPT-4 de générer une histoire adaptée à l'âge de l'enfant, comprenant trois mots aléatoires de la liste, ainsi qu'un détail supplémentaire choisi au hasard, comme une fin heureuse ou un rebondissement de l'intrigue. Les histoires obtenues, heureusement, étaient moins axées sur des diapositives effrayantes.

Eldan disposait désormais d'une procédure pour produire des données de formation à la demande, mais il n'avait aucune idée du nombre d'histoires dont il aurait besoin pour former un modèle fonctionnel, ni de la taille de ce modèle. C'est alors qu'il s'est associé à Yuanzhi Li, chercheur en apprentissage automatique chez Microsoft et à l'université Carnegie Mellon, pour essayer différentes possibilités, en tirant parti du fait que les petits modèles peuvent être formés très rapidement. La première étape consistait à décider comment évaluer leurs modèles.

Introduction

Dans la recherche sur les modèles de langage - comme dans toute salle de classe - la notation est un sujet délicat. Il n'existe pas de rubrique parfaite qui englobe tout ce que les chercheurs veulent savoir, et les modèles qui excellent dans certaines tâches échouent souvent de manière spectaculaire dans d'autres. Au fil du temps, les chercheurs ont mis au point divers critères de référence standard basés sur des questions dont les réponses ne sont pas ambiguës, ce qui est une bonne approche si vous essayez d'évaluer des compétences spécifiques. Mais Eldan et Li se sont intéressés à quelque chose de plus nébuleux : quelle doit être la taille réelle des modèles linguistiques si l'on simplifie le langage autant que possible ?

"Pour vérifier directement si le modèle parle anglais, je pense que la seule chose à faire est de laisser le modèle générer de l'anglais de manière ouverte", a déclaré M. Eldan.

Il n'y a que deux façons de mesurer les performances d'un modèle sur des questions aussi qualitatives : S'appuyer sur des évaluateurs humains ou se tourner à nouveau vers le GPT-4. Les deux chercheurs ont opté pour cette dernière solution, laissant les grands modèles à la fois rédiger les manuels et noter les dissertations.

Bhagavatula a déclaré qu'il aurait aimé voir comment les évaluations de GPT-4 se comparaient à celles des correcteurs humains - GPT-4 peut être biaisé en faveur des modèles qu'il a aidé à former, et l'opacité des modèles de langage rend difficile la quantification de tels biais. Mais il ne pense pas que de telles subtilités affecteraient les comparaisons entre différents modèles formés sur des ensembles similaires d'histoires synthétiques - l'objectif principal du travail d'Eldan et Li.

Eldan et Li ont utilisé une procédure en deux étapes pour évaluer chacun de leurs petits modèles après la formation. Tout d'abord, ils ont présenté au petit modèle la première moitié d'une histoire distincte de celles de l'ensemble des données d'apprentissage, de manière à ce qu'il génère une nouvelle fin, en répétant ce processus avec 50 histoires de test différentes. Ensuite, ils ont demandé à GPT-4 d'évaluer chacune des fins du petit modèle en fonction de trois catégories : créativité, grammaire et cohérence avec le début de l'histoire. Ils ont ensuite fait la moyenne des notes obtenues dans chaque catégorie, obtenant ainsi trois notes finales par modèle.

Avec cette procédure en main, Eldan et Li étaient enfin prêts à comparer les différents modèles et à découvrir quels étaient les étudiants les plus brillants.

Résultats des tests

Après quelques explorations préliminaires, les deux chercheurs ont opté pour un ensemble de données de formation contenant environ 2 millions d'histoires. Ils ont ensuite utilisé cet ensemble de données, baptisé TinyStories, pour entraîner des modèles dont la taille varie de 1 million à 30 millions de paramètres, avec un nombre variable de couches. Le travail a été rapide : En utilisant seulement quatre GPU, l'entraînement du plus grand de ces modèles n'a pas pris plus d'une journée.

Les plus petits modèles ont eu du mal. Par exemple, l'une des histoires testées commence par un homme à l'air méchant qui dit à une fille qu'il va lui prendre son chat. Un modèle à un million de paramètres s'est retrouvé bloqué dans une boucle où la fille répète sans cesse à l'homme qu'elle veut être son amie. Mais les modèles plus grands, qui sont encore des milliers de fois plus petits que GPT-3.5, ont obtenu des résultats surprenants. La version à 28 millions de paramètres racontait une histoire cohérente, même si la fin était sinistre : "Katie s'est mise à pleurer, mais l'homme s'en fichait. Il a emporté le chat et Katie n'a plus jamais revu son chat. Fin de l'histoire".

En plus de tester leurs propres modèles, Eldan et Li ont soumis le même défi au GPT-2 d'OpenAI, un modèle de 1,5 milliard de paramètres publié en 2019. Le résultat a été bien pire - avant la fin abrupte de l'histoire, l'homme menace d'emmener la jeune fille au tribunal, en prison, à l'hôpital, à la morgue et enfin au crématorium.

Introduction

Selon M. Nguyen, il est passionnant que des modèles aussi petits soient aussi fluides, mais il n'est peut-être pas surprenant que GPT-2 ait eu du mal à accomplir la tâche : il s'agit d'un modèle plus grand, mais loin de l'état de l'art, et il a été formé sur un ensemble de données très différent. "Un enfant en bas âge qui ne s'entraînerait qu'à des tâches d'enfant en bas âge, comme jouer avec des jouets, obtiendrait de meilleurs résultats que vous ou moi", a-t-il fait remarquer. "Nous ne nous sommes pas spécialisés dans cette chose simple.

Les comparaisons entre les différents modèles de TinyStories ne souffrent pas des mêmes facteurs de confusion. Eldan et Li ont observé que les réseaux comportant moins de couches mais plus de neurones par couche étaient plus performants pour répondre aux questions nécessitant des connaissances factuelles ; inversement, les réseaux comportant plus de couches et moins de neurones par couche étaient plus performants pour garder en mémoire les personnages et les points de l'intrigue situés plus tôt dans l'histoire. Bhagavatula a trouvé ce résultat particulièrement intriguant. S'il peut être reproduit dans des modèles plus vastes, "ce serait un résultat vraiment intéressant qui pourrait découler de ce travail", a-t-il déclaré.

Eldan et Li ont également étudié comment les capacités de leurs petits modèles dépendaient de la durée de la période de formation. Dans tous les cas, les modèles maîtrisaient d'abord la grammaire, puis la cohérence. Pour Eldan, ce schéma illustre comment les différences dans les structures de récompense entraînent des différences dans les schémas d'acquisition du langage entre les réseaux neuronaux et les enfants. Pour les modèles de langage, qui apprennent en prédisant des mots, "l'incitation pour les mots "je veux avoir" est aussi importante que pour les mots "crème glacée"", a-t-il déclaré. Les enfants, en revanche, "ne se soucient pas de savoir s'ils disent 'j'aimerais avoir de la glace' ou simplement 'glace, glace, glace'".

Qualité contre quantité

Eldan et Li espèrent que cette étude incitera d'autres chercheurs à entraîner différents modèles sur l'ensemble des données de TinyStories et à comparer leurs capacités. Mais il est souvent difficile de prédire quelles caractéristiques des petits modèles apparaîtront également dans les plus grands.

"Peut-être que les modèles de vision chez la souris sont de très bons substituts de la vision humaine, mais les modèles de dépression chez la souris sont-ils de bons modèles de la dépression chez l'homme ? a déclaré M. Pavlick. "Pour chaque cas, c'est un peu différent.

Le succès des modèles TinyStories suggère également une leçon plus large. L'approche standard pour compiler des ensembles de données de formation consiste à aspirer des textes sur l'internet, puis à filtrer les déchets. Le texte synthétique généré par des modèles de grande taille pourrait constituer une autre façon d'assembler des ensembles de données de haute qualité qui n'auraient pas besoin d'être aussi volumineux.

"Nous avons de plus en plus de preuves que cette méthode est très efficace, non seulement pour les modèles de la taille de TinyStories, mais aussi pour les modèles plus importants", a déclaré M. Eldan. Ces preuves proviennent d'une paire d'articles de suivi sur les modèles à un milliard de paramètres, rédigés par Eldan, Li et d'autres chercheurs de Microsoft. Dans le premier article, ils ont entraîné un modèle à apprendre le langage de programmation Python en utilisant des extraits de code générés par GPT-3.5 ainsi que du code soigneusement sélectionné sur l'internet. Dans le second, ils ont complété l'ensemble de données d'entraînement par des "manuels" synthétiques couvrant un large éventail de sujets, afin d'entraîner un modèle linguistique à usage général. Lors de leurs tests, les deux modèles ont été comparés favorablement à des modèles plus importants formés sur des ensembles de données plus vastes. Mais l'évaluation des modèles linguistiques est toujours délicate, et l'approche des données d'entraînement synthétiques n'en est qu'à ses balbutiements - d'autres tests indépendants sont nécessaires.

Alors que les modèles linguistiques de pointe deviennent de plus en plus volumineux, les résultats surprenants de leurs petits cousins nous rappellent qu'il y a encore beaucoup de choses que nous ne comprenons pas, même pour les modèles les plus simples. M. Nguyen s'attend à ce que de nombreux autres articles explorent l'approche inaugurée par TinyStories.

"La question est de savoir où et pourquoi la taille a de l'importance", a-t-il déclaré. "Il devrait y avoir une science à ce sujet, et cet article est, je l'espère, le début d'une riche histoire.



 



 

Auteur: Internet

Info: https://www.quantamagazine.org/ Ben Brubaker, 5 octobre 2023

[ synthèse ]

 

Commentaires: 0

Ajouté à la BD par miguel