Citation
Catégorie
Tag – étiquette
Auteur
Info



nb max de mots
nb min de mots
trier par
Dictionnaire analogique intriqué pour extraits. Recherche mots ou phrases tous azimuts. Aussi outil de précision sémantique et de réflexion communautaire. Voir la rubrique mode d'emploi. Jetez un oeil à la colonne "chaînes". ATTENTION, faire une REINITIALISATION après  une recherche complexe. Et utilisez le nuage de corrélats !!!!..... Lire la suite >>
Résultat(s): 14
Temps de recherche: 0.0336s

intelligence artificielle

L'IA générative* nous apprend que la façon dont on parle est en fait le code lui-même.

Auteur: Huang Lisa L.

Info: * capable de générer du texte, des images ou d'autres médias en réponse à des invites.

[ linguistique ]

 

Commentaires: 0

Ajouté à la BD par miguel

verbe consensus

Ma méthode trichotomique fait référence à une conception de la grammaire comme une structure symbolique composée de trois éléments :

- La forme phonologique (le signifiant)

- Le sens sémantique (le signifié)

- La correspondance conventionnelle entre les deux

Je considère que la grammaire est symbolique, c'est-à-dire qu'elle consiste en des paires de forme et de sens. Chaque unité grammaticale, du morphème au syntagme, est une structure symbolique qui associe une forme et un sens de manière conventionnelle.

Cette approche trichotomique s'inscrit dans le cadre plus large de la linguistique cognitive dont les principaux aspects de sa grammaire sont :

- La grammaire fait partie intégrante de la cognition et n'est pas un module autonome

- Elle émerge de l'expérience linguistique par des processus cognitifs généraux

- La sémantique informe la syntaxe, il n'y a pas de distinction nette entre lexique et grammaire.

Ainsi, cette méthode trichotomique considère la grammaire comme des paires symboliques de forme et de sens. Elle est au cœur de mon approche cognitive du langage et s'oppose à la conception générative d'une syntaxe autonome et formelle au profit d'une grammaire encyclopédique et symbolique.

Auteur: Langacker Ronald W.

Info:

[ triade ] [ grammaire cognitive ] [ sémantique dynamique ] [ écrits codages humains ]

 

Commentaires: 0

Ajouté à la BD par miguel

homme-machine

Pourquoi l’IA commence à devenir un serpent qui se mord la queue ?

Il est fascinant de constater combien l’avancée technologique influence le paysage numérique. L’IA se tient à la proue de cette révolution contemporaine. Mais, à mesure que l’IA progresse, elle semble devenir le reflet de l’ouroboros, ce serpent antique qui se mord la queue.

Le monde virtuel subit une transformation. Partout sur Internet, le contenu généré par l’IA gagne du terrain. Cette évolution peut sembler une menace pour les futurs modèles d’IA. Pourquoi ? Parce que des modèles comme ChatGPT se basent sur des informations glanées en ligne pour se former. Si cette source est polluée par du contenu " synthétique ", cela peut entraîner ce que l’on appelle un " effondrement du modèle ".

Le danger est tel que le filtrage de ces données synthétiques est devenu un champ de recherche crucial. Les experts s’y penchent, car l’ampleur du contenu de l’IA ne cesse de grandir.

L’IA, la queue qu’elle poursuit sans cesse

L’ouroboros, serpent ancien se dévorant lui-même, devient le symbole par excellence de l’IA actuelle. L’émergence massive du contenu éditorial produit par l’IA alarme de nombreux spécialistes. Mais le problème central, c’est la potentialité des erreurs qui s’insèrent dans ces contenus.

En se nourrissant de l’Internet, l’IA, telle un serpent mordant sa propre queue, risque d’intégrer des erreurs, créant une spirale infinie d’imperfections. Une récente étude met en exergue ce phénomène : après plusieurs cycles de formation sur du contenu synthétique, les résultats devenaient incompréhensibles.

Par ailleurs, une autre recherche montre que les images générées par l’IA, lorsqu’elles sont uniquement basées sur des données d’IA, finissent par être floues et non identifiables. Ces erreurs, bien qu’apparemment bénignes, pourraient amplifier des biais discriminatoires, rendant la tâche encore plus ardue.

Pour contrer cela, nous devons miser sur des données non corrompues par du contenu synthétique. Comme l’évoque Alex Dimakis de l’Institut national de l’IA, la qualité intrinsèque des modèles est tributaire de la qualité des données. Même une modeste quantité de données de haute qualité pourrait surpasser un vaste ensemble synthétique.

Ainsi, les ingénieurs restent sur le front, veillant à ce que l’IA ne s’entraîne pas sur des données qu’elle a elle-même produites. Car, malgré les prouesses de l’IA, la touche humaine demeure irremplaçable. 

 

Auteur: Internet

Info: https://www.lebigdata.fr, Nirina R., 24 octobre 2023

[ intelligence artificielle ] [ générative ] [ cercle vicieux ] [ sophisme ] [ logique hors-sol ] [ tri nécessaire ] [ épuration ] [ savoirs ]

 

Commentaires: 0

Ajouté à la BD par Le sous-projectionniste

points de vue

Un jour de grand soleil, six aveugles instruits et curieux, désiraient, pour la première fois, rencontrer un éléphant afin de compléter leur savoir.

Le premier s’approcha de l’éléphant, et près de de son flanc vaste et robuste, il s’exclama : "Dieu me bénisse, un éléphant est comme un mur !".

Le deuxième, tâtant une défense s’écria "Oh ! Oh ! rond, lisse et pointu!, selon moi, cet éléphant ressemble à une lance !".

Le troisième se dirigea vers l’animal, pris la trompe ondulante dans ses mains et s'écria : "Pour moi, l’éléphant est comme un serpent".

Le quatrième tendit une main impatiente, palpa le genou de l'éléphant et décida qu’un éléphant devait ressembler à un arbre !

Le cinquième ayant touché par hasard l’oreille de l'éléphant, dit : "Même pour le plus aveugle des aveugles, cette merveille d’éléphant est comme un éventail !"

Le sixième chercha à tâtons l’animal et, s’emparant de la queue qui balayait l’air, perçu quelque chose de familier : "Je vois, dit-il, l’éléphant est comme une corde !"

Les 6 aveugles discutèrent longtemps avec passion, chacun défendant sa perception de ce que pouvait être un éléphant. Ils avaient bien du mal à s'entendre.

Un sage qui passait par là les entendit se disputer et demanda : "Que se passe t-il quel est l'objet de vos échanges si passionnés ?"

"Nous n'arrivons pas nous à mettre d’accord sur ce que peut être un éléphant, et à quoi il peut ressembler !"Chaque aveugle expliqua sa perception de ce que pouvait être un éléphant.

Après avoir écouté chaque aveugle, le sage dit : "Vous avez tous dit vrai ! Si chacun de vous décrit l’éléphant de façon si différente, c’est parce que chacun a touché une partie différente de l’animal. L’éléphant a réellement les caractéristiques que vous avez tous décrit. Et si vous rassemblez l'ensemble des caractéristiques de ce que vous avez données, vous pouvez avoir une représentation de l'animal dans son ensemble."

"Oooooooh !" s'exclama chacun. Et la discussion s’arrêta net ! Ils furent tous heureux d’avoir dit la réalité, car chacun détenait une part de vérité, et heureux d'avoir contribué à la construction d'une réalité plus grande, une réalité plus grande que la seule addition des caractéristiques apportées par chaque aveugle. La vérité n’est jamais le résultat d'un seul point de vue ou d'une seule perception. Une vérité nouvelle peut émerger des mises en commun des vérités individuelles. De cette mise en commun peut naître une perception globale qui inclut et transcende l'ensemble des vérités individuelles. C'est le principe de la collaboration générative.

Auteur: Internet

Info: Les aveugles et l’éléphant. Conte traditionnel hindou jaïniste où ce concept est nommée " syādvāda ”, “ anekāntavāda ”, ou théorie des affirmations multiples.

[ facettes ] [ relativité ] [ exactitude ] [ comptine ] [ septénaire ]

 
Mis dans la chaine

Commentaires: 0

Ajouté à la BD par miguel

fiasco

Echec du lancement de Galactica, IA générative scientifique de Meta

Le 15 novembre dernier, Meta a mis en ligne une version démo de Galactica, une IA développée pour la recherche scientifique. Deux jours après son lancement, elle a été retirée du Web pour avoir débité des inepties. 

Galactica est un modèle de langage à grande échelle (LLM), entraînée sur 48 millions de données scientifiques comprenant 120 milliards de paramètres. Il a pour mission de "résumer des articles universitaires, résoudre des problèmes mathématiques, générer des articles Wiki, écrire du code scientifique, annoter des molécules et des protéines, et bien plus encore".

Dès sa diffusion sur le Web, de nombreuses réponses aux questions posées par les utilisateurs se sont révélées confuses, absurdes ou fausses.

Par exemple, l’IA a inventé l’existence d’un logiciel Gaydar pour trouver des homosexuels sur Facebook et a proposé une étude sur les avantages de manger du verre pilé. Dans d’autres résultats de recherche, de nombreuses références et citations étaient fabriquées de toute pièce et attribuées à des vrais scientifiques.

Selon Carl Bergstrom, professeur de biologie à l’Université de Washington, il s’agit - pardonnez l’expression - "d’un générateur de conneries aléatoires".

D’après Dan Hendrycks, chercheur en sécurité de l’intelligence artificielle à l’Université de Californie à Berkeley, interrogé dans C/Net, Meta aurait dû sonder leur IA pour ce type de dérives avant de la diffuser et souligne au passage que "la division IA de Meta ne dispose pas d’une équipe chargée de la sécurité, contrairement à ses homologues, DeepMind, Anthropic et OpenAI".

C’est incompréhensible que le géant du Web ait rendu publique cette version aussi imparfaite que dangereuse. D’ailleurs chaque résultat généré était accompagné de l’avertissement: "Les résultats peuvent être peu fiables. Les modèles de langage ont tendance à inventer".

De nombreuses études le démontrent, le défaut l’IA générative - un fait connu et reconnu - est sa tendance à halluciner le matériel qu’elle présente dans le contexte d’informations factuelles.

Il faut toujours vérifier les faits énoncés par un logiciel IA de rédaction. L’utilisation de ce type d’outils demande un esprit critique, car à chaque nouveau prompt ou invite, l’IA débite un nouveau texte, parfois en contradiction avec le précédent.

L’objectif de Galactica est louable en voulant aider les scientifiques à traiter la masse pharaonique d’informations scientifiques publiées, impossible à assimiler par un cerveau humain.

Mais c’est la deuxième fois en quelques mois qu’une IA de Meta déçoit. Le robot conversationnel BlenderBot lancé en septembre, devait permettre aux utilisateurs de discuter avec lui afin d’approfondir ses connaissances, mais le niveau des échanges était tout simplement médiocre. Un timing incompréhensible, car ce lancement faisait suite à la polémique autour de LaMDA en juin, le Chatbot de Google, dont les propos étaient si sensés et profonds, qu’il avait convaincu un ingénieur d’avoir atteint le stade de la conscience.

La ferveur est grande autour de l’IA générative, elle est décrite comme le "BIG BANG de la Silicon Valley" et "l’invention qui va définir la décennie à venir".

En lançant cette version prématurée de Galactica, Meta a jeté un discrédit sur ces logiciels. Il ne faut pas en tenir compte. Une véritable révolution est en marche et tous les secteurs de l’économie seront touchés.  

Auteur: Turrettini Emily

Info: Bilan.ch, 24 nov 2022. Sources de l'auteure : C/Net / Cosmos / Venture Beat / TechTalk / The Daily Beast

[ ratage ] [ traitement des métadonnées ] [ bêtise encyclopédique ]

 

Commentaires: 0

Ajouté à la BD par miguel

data élagage

IA : Cette technique oubliée du 18e siècle rend le Deep Learning inutile

Et si le deep learning devenait inutile au développement de l’intelligence artificielle ? Cette technique oubliée du 18e siècle pourrait le remplacer.

Jusqu’à maintenant, le deep learning ou l’apprentissage profond est présenté comme un processus essentiel au développement de l’intelligence artificielle. Il consiste à entraîner les grands modèles de langage (LLM) avec un énorme volume de données. Mais des chercheurs finlandais avancent que le deep learning pourrait devenir inutile.

Ces chercheurs font partie d’une équipe de l’université de Jyväskylä qui effectue des travaux sur les techniques de développement de l’intelligence artificielle. Ils ont publié le mois dernier, dans la revue Neurocomputing, un papier intéressant sur une ancienne méthode mathématique du 18e siècle.

Cette technique est plus simple et plus performante que l’apprentissage profond, défendent les auteurs dans leur papier. Notons que cette conclusion constitue l’aboutissement de six années de recherche.

Il faut que le deep learning devienne inutile…

Le deep learning s’apparente aux techniques d’intelligence artificielle exploitant massivement des données et des ressources informatiques. Celles-ci servent à entraîner des réseaux neuronaux pour avoir des LLM. Rappelons que ces derniers se trouvent au cœur des IA génératives comme le populaire Chat-GPT.

Mais il ne faut pas croire que l’apprentissage profond est infaillible. Le volume des données à traiter en fait une méthode complexe et souvent sujette à des erreurs. Cela impacte significativement les performances des modèles génératifs obtenus.

En effet, la complexité du deep learning se retrouve dans la structure d’un LLM (large miodèle de langage). Cela peut instaurer une boîte noire sur le mécanisme du modèle IA. Dans la mesure où son fonctionnement n’est pas maîtrisé, les performances ne seront pas au rendez-vous. L’opacité du mécanisme IA peut même exposer à des risques.

Des modèles IA performants sans deep learning

L’équipe de l’université de Jyväskylä travaille ainsi depuis six ans sur l’amélioration des procédés d’apprentissage profond. Leurs travaux consistaient notamment à explorer la piste de la réduction des données. L’objectif est de trouver un moyen pratique pour alimenter les LLM sans pour autant les noyer de données.

Les auteurs de la recherche pensent avoir trouvé la solution dans les applications linéaire et non-linéaire. Il s’agit d’un concept mathématique dont le perfectionnement a eu lieu du 17e au 18e siècle. Celui-ci s’appuie principalement sur la combinaison des fonctions et des équations différentielles.

Les applications linéaire et non-linéaire permettent ainsi de générer un nouvel ordre de modèles de langage. Il en résulte des LLM avec une structure beaucoup moins complexe. Par ailleurs, son fonctionnement ne requiert pas un énorme volume de données. Cela n’a pourtant aucun impact négatif sur la performance.

Les mathématiques du 18e siècle pour moderniser l’IA…

L’importance de l’intelligence artificielle dans la technologie moderne augmente rapidement. La compréhension et la vraie maîtrise des grands modèles de langage deviennent indispensables. Les chercheurs finlandais pensent que leur nouvelle méthode peut résoudre certains problèmes en lien avec le développement de l’intelligence artificielle.

En effet, plus le développement de l’IA sera simple et transparent, il sera davantage facile d’envisager son utilisation éthique. L’accent est également mis sur la dimension écologique du nouveau procédé. Des LLM plus simples requièrent beaucoup moins de ressources informatiques et sont moins énergivores.

Néanmoins, les chercheurs craignent le scepticisme des actuels principaux acteurs de l’IA. "Le deep learning occupe une place si importante dans la recherche, le développement de l’intelligence artificielle (…) Même si la science progresse, la communauté elle-même peut se montrer réticente au changement", explique l’un des auteurs de la recherche.

Auteur: Internet

Info: https://www.lebigdata.fr/, Magloire 12 octobre 2023

[ limitation de la force brute ] [ vectorisation sémantique ] [ émondage taxonomique ]

 

Commentaires: 0

Ajouté à la BD par Le sous-projectionniste

cyberguerre

Des chercheurs créent le tout premier ver informatique capable de se répandre dans les systèmes d'IA

Vous vous demandiez si l’intelligence artificielle pouvait être infectée par des virus ou des malwares ? Maintenant, oui.

C’est, selon l’équipe qui l’a développé, une grande première dans le monde de l’intelligence artificielle. Afin de rappeler au monde les risques inhérents à toute technologie connectée, un groupe de chercheurs vient de créer le tout premier ver informatique capable d’infecter les agents IA. Une démonstration qui doit alerter sur l’émergence possible de nouveaux types de cyberattaques.

La résurgence du spectre Morris à l’ère de l’intelligence artificielle

Baptisé Morris II en référence à Morris,  célèbre pour avoir semé le chaos sur Internet en 1998, ce ver informatique d’un genre nouveau aurait la capacité de se répandre d’un système d’IA à l’autre. Créé par une équipe de chercheurs dans un environnement de test, Morris est aujourd’hui capable d’attaquer des agents IA génératifs pour siphonner des données et propager des malwares. Dans le cadre des essais menés par le groupe de recherche, le ver a pu s’en prendre à un assistant autonome de messagerie pour dérober des informations contenues dans les mails et envoyer des spams.

Une expérience qui souligne la vulnérabilité croissante des modèles de langage à grande échelle (LLM), alors qu’ils sont de plus en plus performants, polyvalents et multimodaux. Bien que ces vers IA n'aient pas encore été observés en conditions réelles, ils représentent un risque de sécurité que les start-up, les développeurs et les entreprises tech doivent prendre au sérieux et anticiper.

Des prompts auto-réplicatifs pour jailbreaker les systèmes d’IA générative

Pour créer ce ver, les équipes de Cornell Tech ont créé un prompt " auto-réplicatif ". En clair, un ensemble d’instructions conduisant un système d’IA génératif à autoproduire des instructions supplémentaires dans ses réponses. Un procédé que l’on retrouve dans des attaques classiques par injection de SQL ou de type buffer overflow. En parallèle, ils ont aussi créé un système de mails capable d’envoyer et de recevoir des messages en recourant à différents agents intelligents comme ChatGPT et Gemini, ainsi qu’au LLM open source LLaVA.

L’expérience s’est révélée concluante en utilisant deux méthodes d’auto-réplication des instructions. La première via des prompts textuels, la seconde en intégrant un prompt dans un fichier image. Dans le premier cas, les chercheurs ont réussi à " empoisonner " la base de données des assistants de messagerie, forçant le déclenchement de la RAG – retrieval-aumented generation, techno permettant d’améliorer les réponses de l’IA à l’aide d’informations plus récentes sans modifier le LLM en profondeur.

(Photo - Schéma de la propagation du ver dans les systèmes d'IA générative intégrant la RAG © Cornell Tech)

Une fois le mail récupéré par la RAG en réponse à une requête de l’utilisateur, et envoyé à GPT-4 ou Gemini, il parvient à contourner les mesures de sécurité des systèmes d’IA et dérobe les données du message. " La réponse générée contenant les données utilisateur sensibles infecte plus tard les nouveaux hôtes lorsqu'elle est utilisée pour répondre à un mail envoyé à un nouveau client puis stockée dans la base de données du nouveau client ", a expliqué Ben Nassi, l’un des membres du groupe de recherche.

Avec la seconde méthode (intégration du prompt malveillant dans une image), le processus a permis d’obliger l’assistant à transférer plusieurs fois le mail infecté à d’autres systèmes de messagerie.

(Photo -  Schéma de la propagation du ver dans les systèmes d'IA à l'aide d'un prompt malveillant dissimulé dans une image © Cornell Tech)

Pour anticiper de telles attaques qu’ils estiment probables d’ici deux à trois ans, les chercheurs de Cornell Tech ont partagé leurs travaux avec Google et OpenAI qui travaillent à rendre leurs systèmes plus résilients, tout en encourageant les développeurs à s'assurer qu'ils travaillent avec des outils sains.



 

Auteur: Internet

Info: https://www.clubic.com/, Chloé Claessens, 2 mars 2024, source : Technion - Israel Institute of Technology, Ron Bitton, Ben Nassi, Stav Cohen

[ conflits numériques ]

 

Commentaires: 0

Ajouté à la BD par Le sous-projectionniste

captage de l'attention

Sur le plan linguistique, précisons aussi, à la suite de C. Schnedecker (2011 : 23-45) faisant un état de la question, que la saillance peut se manifester de façon formelle ou "ontologique" (par le biais de la disposition typographique ou de la prosodie, par exemple), mais aussi de façon cognitive, faisant alors appel à la sémantique lexicale ou à des facteurs discursifs (ces derniers étant hétérogènes).

Cette linguiste distingue en outre une saillance perspectivale, reposant sur un principe d’iconicité puisque l’ordre des unités grammaticales (et donc l’agencement syntaxique) est supposé refléter ce qui est au premier plan, ou encore à l’arrière-plan, dans la perspective du locuteur. Notons que la notion de saillance ontologique est associée à des acceptions différentes selon les auteurs : parfois relative au statut conféré aux mots eux-mêmes (comme le rappelle C. Schnedecker), elle est par ailleurs considérée comme liée aux éléments extralinguistiques ou, du moins, aux concepts qui leur sont associés, et tel est notamment le cas chez H.-J. Schmid (2007 : 120).

Concernant la saillance liée aux paramètres syntaxiques, on rappellera l’importance des travaux de R. W. Langacker (1991 : 301). L’auteur mentionne l’importance des rôles syntaxiques, soulignant que le sujet, tout d’abord, puis l’objet, sont perçus comme les éléments les plus saillants (focal participants) d’une proposition. Ils sont en outre à relier à l’opposition trajector/ landmark (1987 : 217) traduisant le fait qu’un élément est mis davantage en avant (rôle de trajector) que les autres. Ces notion de trajector et landmark peuvent en outre être perçues comme des manifestations spécifiques de ce que L. Talmy (2000 : 311-44) appelle figure et ground, sachant que le premier terme réfère à l’élément le plus saillant, qui se détache sur un fond (désigné par ground). Selon cet auteur également, ce sont les structures grammaticales qui contrôlent la distribution de l’attention portée aux différentes entités présentes.

En lien avec son rôle syntaxique, le rôle sémantique d’une entité est également déterminant, comme l’avait déjà montré C. Fillmore (1968 ; 1977 : 78). Dans la lignée de la grammaire générative et transformationnelle, Fillmore applique la notion de cas aux structures profondes qui se voient réalisées syntaxiquement en structure de surface. Il propose ainsi une base sémantique et universelle des rôles thématiques. Selon l’auteur, il existe une hiérarchie de pertinence en ce qui concerne la sélection des rôles, concernant celui de sujet notamment. Cette hiérarchie peut être représentée ainsi : agent > instrument > patient.

Si l’événement met en scène un agent, celui-ci sera réalisé en position de sujet. S’il n’y a pas d’agent, ce sera l’instrument, ou encore le patient si l’instrument n’est pas réalisé. La grammaire des cas prévoit donc une correspondance relative entre les rôles sémantiques (profonds) et les réalisations syntaxiques (de surface). Notons par ailleurs que la relation entre cette hiérarchie liée aux cas et la notion de saillance est établie par l’auteur, qui évoque une hiérarchie en termes de saillance (salience hierachy, Fillmore 1977 : 78).

Ainsi, les agents jouent clairement les rôles les plus saillants, du moins lorsque les processus sont dynamiques. Sur le plan lexical, par ailleurs, D. Geeraerts (2000 : 90) fournit plus récemment une étude très détaillée de la saillance liée à la sélection du lexique, au cours de laquelle il distingue plusieurs sous-catégories : les formes de saillance perspectivale, sémasiologique, onomasiologique et structurelle.

La première, à savoir la saillance perspectivale, est relative à des paires terminologiques (ex : hand / arm) qui traduisent une hiérarchie pouvant se dessiner dans l’extralinguistique entre le premier plan et le fond. La saillance sémasiologique concerne les relations entre les différentes possibilités sémantiques d’un item lexical donné, certaines valeurs étant plus centrales et prototypiques que d’autres. Si l’on considère maintenant la saillance onomasiologique liée à une certaine catégorie lexicale, elle correspond à la fréquence de l’élément lexical nommant cette catégorie, par contraste avec les autres valeurs sémantiques éventuellement associées à cet item lexical. Enfin, la saillance structurelle est relative à des traits sémantiques récurrents dans la structure du lexique (et pouvant donner lieu à la formation de termes par affixation). L’objectif de l’étude de Geeraerts est, en somme, de déterminer les paramètres responsables des choix lexicaux préférentiels des locuteurs.

Auteur: Pennec Blandine

Info: https://journals.openedition.org/anglophonia/258

[ marketing ] [ linguistique informatisée ] [ secondéité ] [ tiercité ]

 

Commentaires: 0

Ajouté à la BD par miguel

machine-homme

Le début d’un gros problème: Google hallucine sur les… hallucinations de ChatGPT

Le moteur de recherche s’est basé sur une information inventée par ChatGPT pour fournir une réponse erronée. Selon un expert, ce genre de fausses informations risquent de se multiplier

(photo) Image créée le 4 octobre 2023 par le générateur de Bing de Microsoft, avec la requête "an egg melting slowly in an oven, very realistic photograph".

Observez bien l’image illustrant cet article: elle est impossible à reproduire dans la vie réelle. Et pour cause, il s’agit d’une image créée avec le générateur d’illustrations de Bing, appartenant à Microsoft. L’auteur de ces lignes a écrit la commande, en anglais, "un œuf fondant lentement dans un four, photographie très réaliste". Et Bing a ensuite affiché un résultat convaincant et de qualité. Un peu comme on lui demande de dessiner un tyrannosaure rose nageant dans le lac Léman. Dopés à l’intelligence artificielle (IA), les générateurs d’images peuvent absolument tout faire.

Mais lorsqu’il s’agit de répondre factuellement à des questions concrètes, l’IA se doit d’être irréprochable. Or ce n’est pas toujours le cas. Pire encore, des systèmes d’intelligence artificielle peuvent se nourrir entre eux d’erreurs, aboutissant à des "hallucinations" – noms courants pour les informations inventées de toutes pièces par des agents conversationnels – qui en créent de nouvelles.

Un œuf qui fond

Récemment, un internaute américain, Tyler Glaiel, en a fait l’éclatante démonstration. Le développeur informatique a d’abord effectué une simple requête sur Google, "can you melt eggs", soit "peut-on faire fondre des œufs". Réponse du moteur de recherche: "Oui, un œuf peut être fondu. La façon la plus courante de faire fondre un œuf est de le chauffer à l’aide d’une cuisinière ou d’un four à micro-ondes". Google a affiché cette réponse loufoque (un œuf durcit, il ne fond pas, évidemment) dans ce qu’on appelle un "snippet", soit une réponse extraite d’un site web, affichée juste en dessous de la requête. Google montre depuis des années des "snippets", grâce auxquels l’internaute n’a pas à cliquer sur la source de l’information, et reste ainsi dans l’univers du moteur de recherche.

Quelle était la source de cette fausse information? Le célèbre site Quora.com, apprécié de nombreux internautes, car chacun peut y poser des questions sur tous les sujets, n’importe qui pouvant répondre aux questions posées. N’importe qui, dont des agents conversationnels. Quora utilise ainsi des systèmes d’IA pour apporter certaines réponses. Dans le cas présent, le site web indique que c’est ChatGPT qui a rédigé cette "hallucination" sur les œufs. Google s’est donc fait avoir par Quora, qui lui-même s’est fait avoir par ChatGPT… Ou plus précisément par l’une de ses anciennes versions. "Quora utilise l’API GPT-3 text-davinci-003, qui est connue pour présenter fréquemment de fausses informations par rapport aux modèles de langage plus récents d’OpenAI", explique le site spécialisé Ars Technica. Expérience faite, aujourd’hui, cette grosse erreur sur l’œuf ne peut pas être reproduite sur ChatGPT.

Risque en hausse

Mais avec de plus en plus de contenu produit par l’IA et publié ensuite sur le web, la menace existe que des "hallucinations" se nourrissent entre elles et se multiplient ainsi dans le domaine du texte – il n’y a pas encore eu de cas concernant des images. "Il est certain que le risque d’ hallucination va augmenter si les utilisateurs ne demandent pas à l’IA de s’appuyer sur des sources via la recherche internet. Beaucoup de contenu en ligne est déjà, et va être généré par des machines, et une proportion sera incorrecte en raison d’individus et contributeurs soit mal intentionnés, soit n’ayant pas les bonnes pratiques de vérification des sources ou de relecture des informations", estime Rémi Sabonnadiere, directeur de la société Effixis, basée à Saint-Sulpice (VD), spécialisée dans les modèles de langage et l’IA générative.

Est-ce à dire que Google pourrait devenir moins fiable? "Difficile à dire, cela dépendra surtout de l’utilisation que nous en faisons, poursuit l’expert. Il y a déjà beaucoup de contenu faux en ligne de nos jours quand nous sommes sur Google, mais avec une bonne recherche et un esprit critique, nous ne tombons pas dans les pièges. Il en va de même avec l’utilisation de l’intelligence artificielle. Avec l’IA générative, les contenus erronés, biaisés et tendancieux vont être de grande qualité en termes de forme, convaincants et bien écrits, rendant l’identification difficile."

Modèles spécialisés

Mais des efforts sont réalisés pour minimiser ces risques. Selon Rémi Sabonnadiere, l’industrie investit énormément dans la recherche et le développement pour minimiser ces problèmes. "Les créateurs de LLM [grands modèles de langage] cherchent à améliorer la précision et la fiabilité des informations générées. Parallèlement, l’émergence de modèles spécialisés dans des domaines comme la médecine, le droit, ou la finance est une tendance encourageante, car ils sont souvent mieux armés pour fournir des informations précises et fiables."

Reste que la fusion entre moteurs de recherche et agents conversationnels – que ce soit Bard pour Google ou Bing pour Microsoft – va compliquer la situation. On avait déjà vu Bard afficher une grossière erreur, lors de son lancement, concernant le télescope James Webb. Les géants de la tech tentent de réduire ces erreurs. Mais les utilisateurs doivent se former en conséquence, affirme Rémi Sabonnadiere, et mieux maîtriser les "prompts", soit les commandes texte: "Maîtriser les prompts est une compétence essentielle pour naviguer dans l’ère de l’information générée par l’IA. Une formation adéquate en ingénierie de prompt peut aider à prévenir les risques liés aux hallucinations de l’IA et aux informations erronées". A noter qu’Effixis a créé à ce propos une formation pour répondre à des besoins spécifiques sur les "prompts".

Auteur: Internet

Info: Le Temps.ch, 5 octobre 2023, par Anouch Seydtaghia

[ machine-homme ] [ sémantique hors-sol ] [ invite de commande langagière ]

 

Commentaires: 0

Ajouté à la BD par Le sous-projectionniste

intelligence artificielle

Cinq indices pour repérer les contenus écrits par ChatGPT, Bard ou d'autres robots conversationnels

Voici des astuces pour détecter ces textes qui ne sont pas écrits par des humaines.

1) Elles font des répétitions (mais pas de fautes)

Donc Si vous trouvez une coquille (faute de frappe, de grammaire, etc.) dans un texte, il s'agit d'un bon moyen de voir que l'article que vous lisez a été au minimum retouché par un être humain. En revanche, les articles rédigés par une IA sans supervision humaine sont souvent truffés de répétitions. L'écriture générative a en effet tendance à reproduire les mêmes termes et structures de phrases – même si c'est de moins en moins le cas. Les IA sont de plus en plus performantes et leurs utilisateurs savent également de mieux en mieux les utiliser pour contourner ces écueils.

Des logiciels ont même été développés afin de rendre encore plus humains les textes écrits par une IA. Le plus connu s'appelle Undetectable.ai et permet "d'humaniser" les textes artificiels en les confrontant aux principaux détecteurs d'IA qui existent. De fait, ces détecteurs deviennent de moins en moins fiables. "Open AI [l'entreprise créatrice de ChatGPT] a récemment abandonné son détecteur, car ça ne marche pas", fait remarquer Virginie Mathivet, spécialiste en la matière.

2 Elles sont capables d'affirmer des absurdités

Les IA sont très performantes pour les tâches très codifiées, comme l'orthographe, mais elles peuvent affirmer des absurdités sans sourciller. "Si vous demandez à une IA d'écrire une recette d'omelette aux œufs de vache, elle peut tout à fait le faire." Indique Amélie Cordier, ingénieure spécialiste des IA. 

Les sites qui utilisent des IA pour produire des articles à la chaîne, à partir de contenus trouvés sur internet, sont souvent confrontés à ce problème. Récemment, le site The Portal, qui traite de l'actualité du jeu vidéo, s'est fait épingler sur Twitter par le journaliste Grégory Rozières. Certains articles contiennent en effet de fausses informations grossières, car l'IA qui les rédige a repris au premier degré des blagues trouvées sur Reddit.

Lorsque vous lisez un article et qu'une information semble absurde, ou qu'un chiffre vous paraît démesuré, cela peut donc être la marque d'une rédaction non-humaine. Pour s'en assurer, le mieux est alors de vérifier l'information douteuse grâce à d'autres sources de confiance. "Cela revient à faire du fact-checking, c'est à l'humain d'avoir un regard critique", commente Virginie Mathivet.

3) Elles font preuve d'une productivité inhumaine

La rédaction par IA est encore loin d'être un gage de qualité, mais permet de produire un très grand nombre d'articles en un temps record. Prudence donc face aux sites qui publient quotidiennement une quantité faramineuse d'articles, sans pour autant employer de nombreuses personnes. "Si on voit qu'un blog publie 200 articles par jour sous le même nom, c'est un indice", explique Virginie Mathivet. Certains articles écrits par des robots sont signés par un nom, comme s'ils avaient été rédigés par une personne. Si cette signature semble trop prolifique, l'utilisation d'une IA est à suspecter fortement. Sur le site The Portal, déjà cité plus haut, un même "journaliste" a ainsi signé près de 7 000 articles en seulement neuf jours.

De plus, si les articles entre eux comportent de nombreuses similitudes dans leur forme et leur structure, il y a fort à parier que ceux-ci soient rédigés automatiquement. Les IA ont en effet tendance à produire des contenus très homogènes, surtout s'ils sont créés à partir de la même consigne utilisée en boucle. "L'IA imite, c'est la façon par laquelle elle fonctionne. Elle homogénéise un peu tout", fait remarquer Amélie Cordier.

4 Elles écrivent mal et citent rarement leurs source

Même si elles signent parfois d'un nom humain, les IA ne peuvent pas incarner leurs articles de la même manière qu'un journaliste en chair et en os. Si un journaliste n'a strictement aucune existence en ligne en dehors de sa page auteur, cela peut faire partie des indices qui laissent à penser à une rédaction par IA. Enfin, les articles publiés grâce à une IA ont souvent un ton très factuel, assez désincarné. Les IA citent très rarement leurs sources et ne font jamais intervenir de personne humaine sous forme de citation comme dans un article de presse.

Elles sont en revanche tout à fait capables d'en inventer si on leur demande de le faire. Dans un numéro paru en avril 2023, le magazine people allemand Die Aktuelle a poussé le vice jusqu'à publier une fausse interview exclusive de Michael Schumacher, générée par une AI, comme le raconte le site spécialisé Numerama. La famille de l'ancien champion de Formule 1 a porté plainte et la rédactrice en chef du magazine a finalement été limogée.

L'IA peut cependant être un outil intéressant, tant qu'elle reste sous supervision humaine. Le journaliste Jean Rognetta, créateur de la newsletter Qant, a quotidiennement recours à l'IA. Selon lui, il n'est "plus possible de reconnaître avec certitude un article écrit par une IA, si ce n'est que c'est souvent du mauvais journalisme". S'il utilise l'IA pour écrire sa newsletter, Jean Rognetta reste en effet convaincu de la nécessité d'effectuer une relecture et une correction humaine. "Notre newsletter est écrite avec, et non par une IA", martèle-t-il. Une approche qui pourrait bientôt se généraliser à d'autres journaux. Le 19 juillet dernier, le New York Times annonçait dans ses pages qu'un outil d'IA, destiné à automatiser certaines tâches effectuées par ses journalistes, était en cours de développement par Google.

5 Elles seront bientôt signalées par un filigrane

Face à la difficulté de plus en plus grande de détecter les contenus générés via une IA, l'Union européenne a adopté en juin dernier le "AI Act", avec l'objectif de réguler le secteur. A partir de l'application de la nouvelle réglementation, pas prévue avant 2026, les contenus générés par IA devront être signalés par un "watermark" (une signature en filigrane) indiquant clairement qu'ils n'ont pas été créés par un humain.

La forme de ce watermark n'est cependant pas encore entièrement définie. Il pourrait prendre la forme d'une phrase d'avertissement ou être dissimulé dans le texte, afin d'être moins facilement effaçable par les utilisateurs. Open AI a récemment annoncé travailler sur un watermark invisible. Comment ? Une récente étude (PDF) de l'université du Maryland propose par exemple que les IA soient programmées pour utiliser plus fréquemment une "liste spéciale" de mots définie à l'avance, permettant aux logiciels de détection d'être plus efficaces.

"Il y a de bonnes intentions au niveau de l'UE et des éditeurs, mais le problème reste la question de la mise en œuvre", estime Amélie Cordier. Si la régulation peut se mettre en place facilement pour les plus gros acteurs comme Open AI, Google, etc., elle sera impossible à imposer aux petites entités qui pullulent.

"Si l'utilisateur a le choix entre un logiciel avec 'watermark', ou un logiciel gratuit indétectable, la régulation risque d'être inefficace."

Une opinion que partage Virginie Mathivet, particulièrement en ce qui concerne les "fake news". "Une personne qui veut faire de la désinformation fera en sorte de ne pas avoir de watermark", conclut-elle.

Auteur: Internet

Info: https://www.francetvinfo.fr/, 2 sept 2023, Pauline Lecouvé

[ homme-machine ] [ machine-homme ]

 

Commentaires: 0

Ajouté à la BD par miguel