Citation
Catégorie
Tag – étiquette
Auteur
Info



nb max de mots
nb min de mots
trier par
Dictionnaire analogique intriqué pour extraits. Recherche mots ou phrases tous azimuts. Aussi outil de précision sémantique et de réflexion communautaire. Voir la rubrique mode d'emploi. Jetez un oeil à la colonne "chaînes". ATTENTION, faire une REINITIALISATION après  une recherche complexe. Et utilisez le nuage de corrélats !!!!..... Lire la suite >>
Nuage de corrélats : pour l'activer, cochez seulement catégorie et tag dans la recherche avancée à gauche.
Résultat(s): 95061
Temps de recherche: 0.1276s

linguistique de masse

L'intelligence artificielle travaille-t-elle en anglais ? 

Des scientifiques de l’EPFL ont montré que les grands modèles de langage semblent utiliser l’anglais en interne même lorsqu’ils sont sollicités dans une autre langue, ce qui pourrait avoir des conséquences en termes de biais linguistiques et culturels.

Les grands modèles de langage (LLM), tels que ChatGPT d’Open AI et Gemini de Google, ont conquis le monde et surprennent par leur capacité à comprendre les utilisatrices et utilisateurs et à leur répondre avec un discours en apparence naturel.

Bien qu’il soit possible d’interagir avec ces LLM dans n’importe quelle langue, ces derniers sont entraînés avec des centaines de milliards de paramètres textuels, principalement en anglais. Certaines personnes ont émis l’hypothèse qu’ils effectuaient la majeure partie de leur traitement interne en anglais et traduisaient ensuite dans la langue cible au tout dernier moment. Mais il y avait peu de preuves de cela, jusqu’à aujourd’hui.

Tests de Llama

Des chercheuses et chercheurs du Laboratoire de science des données (DLAB) de la Faculté informatique et communications de l’EPFL ont étudié le LLM open source Llama-2 (grand modèle de langage IA développé par Meta) pour essayer de déterminer quelles langues étaient utilisées à quels stades de la chaîne informatique.

" Les grands modèles de langage sont entraînés pour prédire le mot suivant. Pour cela, ils font correspondre chaque mot à un vecteur de nombres, c’est-à-dire à un point de données multidimensionnel. Par exemple, l’article le se trouvera toujours exactement à la même coordonnée fixe des nombres ", explique le professeur Robert West, responsable du DLAB.

" Les modèles enchaînent environ 80 couches de blocs de calcul identiques, chacun transformant un vecteur qui représente un mot en un autre vecteur. À la fin de cette séquence de 80 transformations, on obtient un vecteur représentant le mot suivant. Le nombre de calculs est déterminé par le nombre de couches de blocs de calcul. Plus il y a de calculs, plus votre modèle est puissant et plus le mot suivant a de chances d’être correct. "

Comme l’explique la prépublication intitulée Do Llamas Work in English? On the Latent Language of Multilingual TransformersRobert West et son équipe ont forcé le modèle à répondre après chaque couche chaque fois qu’il essayait de prédire le mot suivant au lieu de le laisser effectuer les calculs à partir de ses 80 couches. Ils ont ainsi pu voir quel mot le modèle aurait prédit à ce moment-là. Ils ont mis en place différentes tâches telles que demander au modèle de traduire une série de mots français en chinois.

" Nous lui avons donné un mot français, puis la traduction en chinois, un autre mot français et la traduction en chinois, etc., de sorte que le modèle sache qu’il est censé traduire le mot français en chinois. Idéalement, le modèle devrait donner une probabilité de 100% pour le mot chinois. Mais lorsque nous l’avons forcé à faire des prédictions avant la dernière couche, nous avons remarqué que la plupart du temps, il prédisait la traduction anglaise du mot français, bien que l’anglais n’apparaisse nulle part dans cette tâche. Ce n’est qu’au cours des quatre ou cinq dernières couches que le chinois est en fait plus probable que l’anglais ", affirme Robert West.

Des mots aux concepts

Une hypothèse simple serait que le modèle traduit la totalité de l’entrée en anglais et la traduit à nouveau dans la langue cible juste à la fin. Mais en analysant les données, les chercheuses et chercheurs sont parvenus à une théorie bien plus intéressante.

Dans la première phase des calculs, aucune probabilité n’est attribuée à l’un ou l’autre mot. Selon eux, le modèle s’attache à résoudre les problèmes d’entrée. Dans la seconde phase, où l’anglais domine, les chercheuses et chercheurs pensent que le modèle se trouve dans une sorte d’espace sémantique abstrait où il ne raisonne pas sur des mots isolés mais sur d’autres types de représentations qui concernent davantage des concepts, sont universels dans toutes les langues et représentent plus un modèle du monde. C’est important car, pour bien prédire le mot suivant, le modèle doit en savoir beaucoup sur le monde et l’un des moyens d’y parvenir est d’avoir cette représentation des concepts.

" Nous supposons que cette représentation du monde en termes de concepts est biaisée en faveur de l’anglais, ce qui serait très logique car les données utilisées pour entraîner ces modèles sont à environ 90% en anglais. Ils cartographient les mots en entrée à partir d’un espace de mots superficiel, dans un espace de signification plus profond avec des représentations de la façon dont ces concepts sont liés les uns aux autres dans la réalité – et les concepts sont représentés de la même manière que les mots anglais, plutôt que les mots correspondants dans la langue d’entrée réelle ", déclare Robert West.

Monoculture et biais

Cette domination de l’anglais amène à se poser la question suivante: " est-ce important "? Les chercheuses et chercheurs pensent que oui. D’après de nombreuses recherches, les structures qui existent dans le langage influencent la manière dont nous construisons la réalité et les mots que nous employons sont profondément liés à la façon dont nous pensons le monde. Robert West suggère de commencer à étudier la psychologie des modèles de langage en les traitant comme des êtres humains et, dans différentes langues, en les interrogeant, en les soumettant à des tests de comportement et en évaluant leurs biais.

" Je pense que cette recherche a vraiment touché un point sensible, car les gens s’inquiètent de plus en plus de ce genre de problème de monoculture potentielle. Les modèles étant meilleurs en anglais, bon nombre de chercheuses et chercheurs étudient aujourd’hui la possibilité d’introduire un contenu en anglais et de le traduire dans la langue souhaitée. D’un point de vue technique, cela pourrait fonctionner, mais je pense que nous perdons beaucoup de nuances, car ce que vous ne pouvez pas exprimer en anglais ne sera pas exprimé ", conclut Robert West.

Auteur: Internet

Info: https://actu.epfl.ch/news/l-intelligence-artificielle-travaille-t-elle-en--2/#:~:text=Les%20chercheuses%20et%20chercheurs%20pensent%20que%20oui.,dont%20nous%20pensons%20le%20monde.

[ anglocentrisme ] [ spécificités des idiomes ] [ homme-machine ] [ symboles univers ] [ ethnocentrisme ]

 

Commentaires: 0

Ajouté à la BD par miguel

corps-esprit

Avant même d'en arriver au génie logiciel, la partie appliquée de l'informatique implique une lutte sans fin pour que les machines fassent ce que vous attendez d'elles - imprimer un document, charger un site web, installer un progiciel - actions pénibles qui ne présentent pas le moindre intérêt intellectuel. On y apprend rien sur la nature de la réalité, mais seulement sur les terribles décisions de conception prises par d'autres personnes.

Auteur: Aaronson Scott

Info: On being faceless, billet de blog du 6 mars 2024

[ hardware embêtant ] [ paresse ] [ ennuyeux outils ]

 
Commentaires: 1
Ajouté à la BD par miguel

aigreur

Je me fais vieille, pensa Eileen Calder. Vieille, usée et cynique. Et être cynique est bien pire qu'être vieille ou usée.

Auteur: Sheffield Charles

Info: Frère des dragons

[ sénescence ]

 

Commentaires: 0

Ajouté à la BD par miguel

nature de la réalité

Modèle 1 : Mais si la mécanique quantique n'est pas de la physique au sens habituel - si elle ne concerne pas la matière, l'énergie ou les ondes - alors de quoi s'agit-il ?

Modèle 2 : Eh bien, de mon point de vue, il s'agit d'information, de probabilités et de choses observables, et de la façon dont elles sont liées entre elles.

Modèle 1 : C'est intéressant ! La publicité afficha ensuite le slogan "Un modèle plus intelligent", suivi de l'image d'une imprimante Ricoh.

Auteur: Aaronson Scott

Info: Quantum Computing since Democritus

[ science vs marketing ] [ philosophie ] [ ironie ]

 

Commentaires: 0

Ajouté à la BD par miguel

empirisme

Le plus souvent, la seule raison pour laquelle nous avons besoin d'expériences est que nous ne sommes pas assez intelligents.

Auteur: Aaronson Scott

Info: Quantum Computing since Democritus

[ initiatique ] [ incarnation école ]

 

Commentaires: 0

Ajouté à la BD par miguel

dubitation

Et même ici, quelque chose en moi (et, je suppose, chez beaucoup d'autres informaticiens !) qui demeure méfiant quant aux parties des mathématiques qui portent l'empreinte évidente de la physique, telles que les équations aux dérivées partielles, la géométrie différentielle, les groupes de Lie, ou tout ce qui est "trop continu". 

Auteur: Aaronson Scott

Info: Quantum Computing since Democritus

[ logique booléenne ]

 

Commentaires: 0

Ajouté à la BD par miguel

théorie-pratique

Quel est l'intérêt de parler de questions philosophiques ? Parce que nous allons triturer pas mal ici - je veux dire, des conneries philosophiques. Il y a une réponse standard : la philosophie est un travail de nettoyage intellectuel - la concierge qui vient après que les scientifiques aient mis le bazar, pour tenter de recoller les morceaux. Vu sous cet angle, les philosophes sont assis dans leur fauteuil et attendent que quelque chose de surprenant se produise en science - comme la mécanique quantique, l'inégalité de Bell, le théorème de Gödel - pour ensuite (pour user d'une autre métaphore) débarquer comme des vautours et dire : "Ah, ben voilà le sens de tout ça". A première vue, cela semble plutôt ennuyeux. Mais lorsqu'on s'habitue à ce genre de travail, je pense qu'on s'aperçoit que... ça reste casse-pieds !

Auteur: Aaronson Scott

Info: Quantum Computing since Democritus

 
Commentaires: 1
Ajouté à la BD par miguel

intelligence artificielle

Il faut bien comprendre que lorsqu'on utilise un transformer on ne manipule plus des mots, on manipule en réalité des vecteurs mathématiques qui sont des représentations, émergées d'un espace gigantesque (de l'ordre d'un trillons de tokens*),  du sens de ces mots.

Auteur: Roux Claude

Info: *mots, mais aussi de "bouts de mots", en général leurs radicaux

[ traitement automatique du langage ] [ réseaux neuronaux ] [ non linéarité ] [ mise en relation non séquentielle ] [ sémantique ]

 

Commentaires: 0

Ajouté à la BD par miguel

intelligence artificielle

Résumé et explication du texte "Attention is All You Need"



Le texte "Attention is All You Need" (Vaswani et al., 2017) a révolutionné le domaine du traitement du langage naturel (TLN) en introduisant l'architecture Transformer, un modèle neuronal basé entièrement sur le mécanisme d'attention. Ce résumé explique les concepts clés du texte et son impact sur le TLN.



Concepts clés:





  • Attention: Le mécanisme central du Transformer. Il permet au modèle de se concentrer sur des parties spécifiques d'une séquence d'entrée (par ex., une phrase) lors du traitement, capturant ainsi les relations à longue distance entre les mots.




  • Encodeur-décodeur: L'architecture du Transformer. L'encodeur traite la séquence d'entrée et produit une représentation contextuelle. Le décodeur utilise ensuite cette représentation pour générer la séquence de sortie.




  • Positional encoding: Ajoute des informations de position aux séquences d'entrée et de sortie, permettant au modèle de comprendre l'ordre des mots.




  • Apprentissage par self-attention: Le Transformer utilise uniquement des mécanismes d'attention, éliminant le besoin de réseaux récurrents (RNN) comme les LSTM.





Impact:





  • Efficacité: Le Transformer a surpassé les modèles RNN en termes de performance et de parallélisation, permettant un entraînement plus rapide et une meilleure scalabilité.




  • Polyvalence: L'architecture Transformer s'est avérée efficace pour une large gamme de tâches en TLN, telles que la traduction automatique, le résumé de texte et la réponse aux questions.




  • Impact durable: Le Transformer est devenu l'architecture de base pour de nombreux modèles de pointe en TLN et continue d'inspirer des innovations dans le domaine.





En résumé:



"Attention is All You Need" a marqué un tournant dans le TLN en introduisant l'architecture Transformer. Le mécanisme d'attention et l'absence de RNN ont permis d'améliorer considérablement l'efficacité et la polyvalence des modèles de TLN, ouvrant la voie à de nombreuses avancées dans le domaine.



Points importants:





  • Le Transformer repose sur le mécanisme d'attention pour capturer les relations à longue distance dans les séquences.




  • L'architecture encodeur-décodeur avec self-attention offre une grande efficacité et une grande flexibilité.




  • Le Transformer a eu un impact profond sur le domaine du TLN et continue d'inspirer de nouvelles recherches.



Auteur: Internet

Info: Compendium de gemini

[ historique ] [ traitement automatique du langage ] [ écrit célèbre ]

 

Commentaires: 0

Ajouté à la BD par miguel

machine pensante

Cette IA de Deepmind pourrait révolutionner les maths et " repousser les frontières de la connaissance humaine "

DeepMind vient de frapper un grand coup : le laboratoire d'IA de Google a annoncé en janvier avoir développé AlphaGeometry, une intelligence artificielle révolutionnaire capable de rivaliser avec les médaillés d'or des Olympiades internationales dans la résolution de problèmes de géométrie. Si cela ne vous parle pas, sachez que les médailles Fields - Terence Tao, Maryam Mirzakhani et Grigori Perelman - ont tous les trois été médaillés d'or lors de cette compétition annuelle de mathématiques qui fait s'affronter les meilleurs collégiens et lycéens du monde. Or, AlphaGeometry a résolu avec succès 25 des 30 problèmes de géométrie de l'Olympiade, se rapprochant ainsi du score moyen des médaillés d'or humains. C'est 15 de plus que son prédécesseur. Mais comment les scientifiques de DeepMind ont-ils accompli un tel exploit ?

L'approche neuro-symbolique, la petite révolution de l'IA

AlphaGeometry est le fruit d'une approche neuro-symbolique, combinant un modèle de langage neuronal (MLN) et un moteur de déduction symbolique (MDS).

Les MLN sont des réseaux de neurones artificiels entraînés sur de vastes ensembles de données textuelles. Ils sont capables d'apprendre et de reconnaître des schémas et des structures dans les données textuelles, ce qui leur permet de générer du texte cohérent et de comprendre le langage naturel. Les MDS sont, pour leur part, particulièrement efficaces pour traiter des problèmes qui nécessitent une manipulation formelle des symboles et des règles logiques.

L'approche neuro-symbolique permet de faire travailler ces deux composantes en tandem : dans le cadre d'AlphaGeometry, le MLN prédit des constructions géométriques potentiellement utiles, puis le MDS utilise ces prédictions pour guider la résolution du problème. Cette combinaison offre à l'IA les capacités intuitives des réseaux de neurones et la rigueur logique des moteurs de déduction symbolique, ce qui lui permet de résoudre efficacement des problèmes de géométrie complexes.

Pour surmonter le manque de problèmes mathématiques de niveau Olympiades qui auraient dû servir de données d'entraînement à AlphaGeometry, les chercheurs ont développé une méthode innovante de génération de données synthétiques à grande échelle, permettant au génial bébé de DeepMind de s'entraîner sur un ensemble de 100 millions d'exemples uniques.

(Image : Alphageometry résoud un problème simple...) 

Mission : repousser les frontières de la connaissance

Cette réalisation marque une avancée significative dans le développement de systèmes d'IA capables de raisonner et de résoudre des problèmes mathématiques complexes, rapportent les chercheurs de DeepMind dans un article paru dans Nature en février dernier. Bien que présentant des résultats impressionnants, AlphaGeometry se heurte tout de même à quelques défis, notamment celui de s'adapter à des scénarios mathématiques de plus en plus complexes et à mobiliser ses compétences dans des domaines mathématiques autres que la géométrie. 

Malgré tout, cette avancée ouvre la voie à d'extraordinaires possibilités dans les domaines des mathématiques, des sciences et de l'IA. Ses créateurs ne cachent d'ailleurs pas leur ambition : " Notre objectif à long terme reste de construire des IA capables de transférer leurs compétences et leurs connaissances dans tous les domaines mathématiques en développant la résolution de problèmes et le raisonnement sophistiqués dont dépendront les systèmes d'IA généraux ", assènent Trieu Trinh et Thang Luong, les responsables du projet dans un communiqué. 

Le ton est donné : autrement dit, les systèmes d'IA développés par DeepMind doivent acquérir des capacités de résolution de problèmes sophistiquées et de raisonnement, ce qui implique la capacité à identifier des schémas, à formuler des hypothèses, à déduire des conclusions et à prendre des décisions logiques dans des contextes variés. Le tout en " repoussant les frontières de la connaissance humaine ". Très ambitieux, mais peut-être pas impossible.

Auteur: Internet

Info: https://www.futura-sciences.com/ - mars 2024

[ robot intelligent ] [ historique ]

 
Mis dans la chaine

Commentaires: 0

Ajouté à la BD par Le sous-projectionniste