Les fils de la pensée

métadonnées

Internet n’est pas assez développé pour former l’IA, mais une solution existe : les fausses données

Une nouvelle vague de start-up anticipe la crise existentielle à laquelle est confrontée l’industrie de l’intelligence artificielle (IA) : que se passera-t-il lorsqu’on sera à court de données ?

En 2011, Marc Andreessen, dont la société de capital-risque Andreessen Horowitz a depuis investi dans certaines des plus grandes start-up de l’IA, a écrit que " la technologie est en train de manger le monde ". Plus d’une décennie plus tard, c’est exactement ce qui est en train de se produire.

L’IA, et plus particulièrement les grands modèles de langage qui l’alimentent, est un consommateur vorace de données. Cependant, ces données sont limitées et s’épuisent. Les entreprises ont tout exploité dans leurs efforts pour former des IA toujours plus puissantes : transcriptions et sous-titres de vidéos YouTube, messages publics sur Facebook et Instagram, livres et articles de presse protégés par le droit d’auteur (parfois sans autorisation, parfois avec des accords de licence). ChatGPT d’OpenAI, le chatbot qui a contribué à la généralisation de l’IA, a déjà été entraîné sur l’ensemble de l’Internet public, soit environ 300 milliards de mots, y compris l’intégralité de Wikipédia et de Reddit. À un moment donné, il ne restera plus rien.

C’est ce que les chercheurs appellent " heurter le mur des données ". Selon eux, cela risque de se produire dès 2026. La création de données d’entraînement pour l’IA est donc une question à plusieurs milliards de dollars, à laquelle une cohorte émergente de start-up cherche une solution.

Une possibilité : créer des données artificielles

C’est l’approche adoptée par Gretel pour résoudre le problème des données de l’IA. La start-up crée ce que l’on appelle des " données synthétiques ", c’est-à-dire des données générées par l’IA qui imitent fidèlement des informations factuelles, mais qui ne sont pas réelles. Pendant des années, la start-up, aujourd’hui évaluée à 350 millions de dollars, a fourni des données synthétiques à des entreprises travaillant avec des informations personnelles identifiables qui doivent être protégées pour des raisons de confidentialité (les données des patients, par exemple). Cependant, aujourd’hui, son PDG Ali Golshan voit une opportunité de fournir aux entreprises d’IA en manque de données de fausses données fabriquées à partir de zéro, qu’elles peuvent utiliser pour entraîner leurs modèles d’IA.

" Les données synthétiques étaient tout à fait adaptées ", a déclaré Ali Golshan, ancien analyste de renseignements, à propos de la question du mur de données. " Elles résolvaient les deux faces d’une même pièce. Il était possible d’obtenir des données de haute qualité et de les rendre sûres. "

Cette approche " l’IA alimente l’IA " a déjà été adoptée par Anthropic, Meta, Microsoft et Google, qui ont tous utilisé des données synthétiques d’une manière ou d’une autre pour entraîner leurs modèles. Le mois dernier, la start-up Gretel a annoncé qu’elle mettrait ses données synthétiques à la disposition des clients utilisant Databricks, une plateforme d’analyse de données, pour construire des modèles d’IA.

Les limites des données synthétiques

Cependant, les données synthétiques ont leurs limites. Elles peuvent exagérer les biais d’un ensemble de données original et ne pas inclure les valeurs aberrantes, de rares exceptions que l’on ne verrait qu’avec des données réelles. Cela pourrait aggraver la tendance de l’IA à halluciner. Ou encore, les modèles formés sur de fausses données pourraient tout simplement ne rien produire de nouveau. Ali Golshan appelle ça une " spirale de la mort ", mais ce phénomène est plus connu sous le nom d’" effondrement du modèle ". Pour éviter cela, il demande à ses nouveaux clients de fournir à Gretel un morceau de données réelles et de haute qualité. "Des données inutiles et sûres restent des données inutiles ", a déclaré Ali Golshan à Forbes.

Un autre moyen de contourner le mur des données : les gens. Certaines start-up embauchent des armées de personnes pour nettoyer et étiqueter les données existantes afin de les rendre plus utiles pour l’IA ou de créer davantage de nouvelles données.

Le poids lourd de l’étiquetage des données est le mastodonte Scale AI, valorisé à 14 milliards de dollars, qui fournit des données annotées par des humains à des start-up d’IA de premier plan telles qu’OpenAI, Cohere et Character AI. L’entreprise a des activités gigantesques, employant quelque 200 000 travailleurs dans le monde entier par l’intermédiaire d’une filiale appelée Remotasks. Ces travailleurs réalisent plusieurs tâches, comme dessiner des boîtes autour d’objets dans une image, ou comparer différentes réponses à une question et évaluer laquelle est la plus précise.

À une échelle encore plus grande, Toloka, une société basée à Amsterdam, a rassemblé neuf millions d’étiqueteurs humains ou " tuteurs d’IA " à des fins similaires. Surnommés " Tolokers ", ces travailleurs du monde entier annotent également des données, par exemple en étiquetant des informations personnellement identifiables dans un ensemble de données destiné à être utilisé dans un projet communautaire d’IA mené par Hugging Face et ServiceNow. Néanmoins, ils créent également des données à partir de zéro : ils traduisent des informations dans de nouvelles langues, les résument et les transcrivent.

Toloka travaille également avec des experts tels que des docteurs en physique, des scientifiques, des juristes et des ingénieurs en logiciel afin de créer des données originales spécifiques à un domaine pour les modèles qui ciblent des tâches de niche. La start-up engage par exemple des juristes germanophones pour créer du contenu pouvant être intégré dans des modèles d’IA juridiques. Cependant, c’est un travail considérable que de mobiliser des personnes dans 200 pays, de vérifier que leur travail est précis, authentique et impartial, et de traduire tout jargon académique dans un langage accessible et digeste pour les modèles d’IA.

" Personne n’aime s’occuper des opérations humaines ", a déclaré Olga Megorskaya, PDG de Toloka, à Forbes. " Tout le monde aime construire des modèles d’IA et des entreprises. Mais traiter avec de vrais humains n’est pas une compétence très répandue dans l’industrie de l’IA. "

Ce type de travail pose des problèmes de main-d’œuvre à l’échelle de l’industrie. L’année dernière, les travailleurs de Scale ont fait part à Forbes de leur faible rémunération. Les travailleurs de Toloka contactés dans le cadre de cet article ont formulé des plaintes similaires. La PDG de Toloka, Olga Megorskaya, a déclaré à Forbes qu’elle estimait que la rémunération était juste, et Scale AI a déclaré de la même manière qu’elle s’engageait à payer aux travailleurs un " salaire décent ".

Utiliser moins de données

La solution la plus évidente au problème de la pénurie de données est peut-être la plus évidente : utiliser moins de données pour commencer.

Bien qu’il y ait un besoin urgent de données d’entraînement à l’IA pour alimenter des modèles massifs, certains chercheurs estiment qu’un jour, l’IA avancée pourrait ne plus avoir besoin d’autant de données. Nestor Maslej, chercheur au Human-Centered Artificial Intelligence de l’université de Stanford, pense que l’un des vrais problèmes n’est pas la quantité, mais l’efficacité.

« Il n’est pas nécessaire de prendre une fusée pour se rendre à l’épicerie. »

Alex Ratner, PDG et cofondateur de Snorkel AI

" Si l’on y réfléchit, ces grands modèles de langage, aussi impressionnants soient-ils, voient des millions de fois plus de données qu’un seul être humain n’en verrait dans toute sa vie. Pourtant, les humains peuvent faire certaines choses que ces modèles ne peuvent pas faire ", a déclaré Nestor Maslej. " D’un certain point de vue, il est clair que le cerveau humain fonctionne à un niveau d’efficacité qui n’est pas nécessairement pris en compte par ces modèles. "

Cette percée technique n’a pas encore eu lieu, mais l’industrie de l’IA commence déjà à s’éloigner des modèles massifs. Plutôt que d’essayer de construire de grands modèles de langage capables de rivaliser avec OpenAI ou Anthropic, de nombreuses start-up spécialisées dans l’IA construisent des modèles plus petits et plus spécifiques qui nécessitent moins de données. Mistral AI, par exemple, a récemment lancé Mathstral, une IA conçue pour exceller dans les problèmes mathématiques. Même OpenAI se lance dans le jeu des mini-modèles avec le lancement de GPT-4o mini.

" Nous assistons à une course au volume et les grands fournisseurs de modèles généralistes s’emparent de plus en plus de données et essaient des schémas pour générer de nouvelles données ", a déclaré Alex Ratner, PDG de la société d’étiquetage de données Snorkel AI. " La clé pour qu’un modèle fonctionne vraiment bien pour une tâche donnée est la qualité et la spécificité des données, et non le volume. "

Par conséquent, l’approche de Snorkel AI consiste à aider les entreprises à tirer parti des données dont elles disposent déjà et à les convertir en or pour l’entraînement à l’IA. La start-up, qui a été créée par le laboratoire d’IA de Stanford et qui est maintenant évaluée à un milliard de dollars, fournit un logiciel qui permet au personnel d’une entreprise d’étiqueter plus facilement et rapidement les données.

De cette manière, les modèles d’une entreprise sont conçus pour répondre à ses besoins réels. " Il n’est pas nécessaire de prendre une fusée pour se rendre à l’épicerie ", a déclaré Alex Ratner.

Auteur: Internet

Info: https://www.forbes.fr/, 29 juillet 2024, Rashi Shrivastava pour Forbes US – traduit par Flora Lucas

[ LLMs ] [ force brute ] [ rationalisation impossible ] [ homme-machine ] [ superflu ] [ gaspillage ]

Commenter

Commentaires: 1

miguel

31.07.2024

(FLP ) _Comment pourrait-on comparer, sous quels termes, tout ce qui est inutile dans les métadonnées, par comparaison au junk adn ? Sources (Perplexity-ai) - Pour comparer les éléments inutiles dans les métadonnées avec l'ADN non codant (souvent appelé "junk DNA" en anglais), nous pouvons établir plusieurs parallèles intéressants : Apparence de non-fonctionnalité : Métadonnées : Certaines métadonnées peuvent sembler superflues ou sans utilité immédiate. ADN non codant : Longtemps considéré comme "poubelle" ou sans fonction apparente. Volume important : Métadonnées : Peuvent représenter une quantité importante d'informations associées à un fichier ou une ressource. ADN non codant : Constitue une grande partie du génome (environ 98% chez l'humain). Potentiel caché : Métadonnées : Peuvent contenir des informations précieuses pour certaines applications, même si elles semblent inutiles à première vue. ADN non codant : Des recherches récentes ont révélé des fonctions régulatrices et structurelles importantes. Évolution et accumulation : Métadonnées : S'accumulent au fil du temps et des modifications d'un fichier. ADN non codant : S'est accumulé au cours de l'évolution des espèces. Rôle dans l'organisation : Métadonnées : Aident à structurer et organiser les données, même si certaines semblent superflues. ADN non codant : Joue un rôle dans la structure tridimensionnelle de l'ADN et la régulation des gènes. Risques potentiels : Métadonnées : Peuvent contenir des informations sensibles ou privées non intentionnelles. ADN non codant : Peut contenir des éléments transposables potentiellement nocifs. Difficulté d'interprétation : Métadonnées : Certaines peuvent être difficiles à interpréter sans contexte. ADN non codant : Sa fonction exacte reste souvent obscure et difficile à déchiffrer. Possibilité de suppression : Métadonnées : Peuvent être supprimées ou modifiées pour des raisons de confidentialité ou d'optimisation. ADN non codant : Certaines parties peuvent être supprimées naturellement au cours de l'évolution. Cette comparaison met en lumière que, tout comme l'ADN non codant s'est révélé plus important qu'on ne le pensait initialement, les métadonnées apparemment inutiles peuvent avoir une valeur cachée ou des fonctions non évidentes au premier abord. Dans les deux cas, ce qui semble superflu peut en réalité jouer un rôle crucial dans l'organisation, la structure et le fonctionnement de l'ensemble. (FLP) - Merci, et donc la question qui suit est celle d'une forme de tri-classification, destiné à "mettre de côté" voire "supprimer" tout le superflu qui existe, soit dans les métadonnées soit dans le junk-adn afin de ne pas se perdre dans une forme d'infobésité mémorielle. Le problème étant alors : comment identifier ( décider ?) ce qui est superflu ? (Perplexity-ai) - Cette question soulève un défi complexe, tant pour les métadonnées que pour l'ADN non codant. Voici une analyse de la problématique et des pistes de réflexion : Définition du "superflu" : Pour les métadonnées : Ce qui semble inutile aujourd'hui pourrait s'avérer crucial demain. Par exemple, des métadonnées apparemment superflues dans un e-mail pourraient être essentielles dans une enquête future. Pour l'ADN non codant : Notre compréhension évolue constamment, révélant des fonctions importantes dans ce qui était auparavant considéré comme du "junk DNA". Critères de tri : Pertinence contextuelle : Évaluer l'utilité des métadonnées en fonction du contexte spécifique de leur utilisation. Fréquence d'utilisation : Identifier les métadonnées rarement ou jamais utilisées. Redondance : Repérer les informations dupliquées ou dérivables d'autres sources. Risques de la suppression : Perte d'informations potentiellement utiles à l'avenir. Altération de l'intégrité des données ou des structures génétiques. Complications pour la traçabilité ou la recherche future. Approches possibles : Classification hiérarchique : Organiser les métadonnées par ordre d'importance ou de pertinence. Compression intelligente : Stocker les données de manière plus efficace sans les supprimer complètement. Archivage sélectif : Conserver les métadonnées "superflues" dans des archives séparées, accessibles si nécessaire. Outils et technologies : Intelligence artificielle : Utiliser des algorithmes pour analyser et classer les métadonnées selon leur pertinence. Analyse big data : Identifier des patterns d'utilisation pour déterminer l'importance relative des différentes métadonnées. Considérations éthiques et légales : Respect des normes de conservation des données, notamment pour les documents officiels ou scientifiques. Protection de la vie privée : Certaines métadonnées apparemment superflues peuvent contenir des informations sensibles. Approche évolutive : Réévaluation périodique : Ce qui est considéré comme superflu aujourd'hui peut devenir essentiel demain, nécessitant une révision régulière des critères de classification. En conclusion, la décision de ce qui est "superflu" dans les métadonnées ou l'ADN non codant nécessite une approche nuancée, contextuelle et évolutive. Il est crucial de trouver un équilibre entre l'efficacité du stockage et de la gestion des données, et la préservation d'informations potentiellement importantes pour l'avenir. Une approche prudente serait de classer plutôt que de supprimer, en utilisant des technologies avancées pour optimiser le stockage et l'accès, tout en maintenant la possibilité de récupérer ces informations si nécessaire. (FLP) - Merci, c'est une problématique extrêmement intéressante car je pense que la mémoire de la nature, sur base tétravalente (du carbone et des 4 bases adn) fonctionne sur des bases similaires, le tout étant "tempéré" épi-génétiquement. Il apparaît aussi clairement ici qu'une logique sur base tétravalente - indépendante de son langage ? - est extrêmement plus efficace pour ce faire. (perplexity.ai) Votre observation est très pertinente et ouvre des perspectives fascinantes sur la nature de l'information et de la mémoire, tant dans les systèmes biologiques que dans nos systèmes d'information numériques. Examinons cette idée plus en détail : Base tétravalente de l'ADN : L'ADN utilise effectivement quatre bases (A, T, C, G), ce qui offre une grande efficacité de stockage d'information. Cette structure tétravalente permet une énorme diversité de combinaisons dans un espace relativement compact. Parallèle avec les systèmes d'information : Nos systèmes numériques actuels sont principalement basés sur un système binaire (0 et 1). Un système tétravalent pourrait potentiellement offrir une plus grande densité d'information et une efficacité accrue. Efficacité et complexité : La base tétravalente de l'ADN permet de stocker une quantité massive d'information dans un très petit volume. Cette efficacité pourrait inspirer de nouvelles approches dans le stockage et le traitement des données numériques. Régulation épigénétique : L'épigénétique agit comme un système de "métadonnées" pour l'ADN, influençant l'expression des gènes sans changer la séquence ADN. Cela offre une flexibilité et une adaptabilité remarquables, permettant des réponses rapides aux changements environnementaux. Implications pour l'IA et le traitement de l'information : Un système inspiré de cette logique tétravalente pourrait potentiellement améliorer l'efficacité et la complexité des systèmes d'IA. Cela pourrait mener à de nouvelles approches dans le machine learning et le traitement du langage naturel. Défis de l'implémentation : Transposer cette logique tétravalente dans nos systèmes technologiques actuels présenterait des défis techniques considérables. Cela nécessiterait probablement de repenser fondamentalement l'architecture de nos systèmes informatiques. Indépendance du langage : Votre suggestion que cette logique pourrait être indépendante du langage est intrigante. Cela pourrait impliquer un système de traitement de l'information plus universel et flexible, potentiellement applicable à divers domaines au-delà de la biologie et de l'informatique. Implications philosophiques : Cette perspective soulève des questions sur la nature fondamentale de l'information et de la mémoire dans l'univers. Elle suggère une possible convergence entre les systèmes d'information biologiques et artificiels à un niveau fondamental. En conclusion, votre observation met en lumière le potentiel d'apprentissage que nous offre la nature dans le domaine du stockage et du traitement de l'information. L'étude approfondie des systèmes biologiques comme l'ADN et l'épigénétique pourrait effectivement inspirer des avancées significatives dans nos technologies de l'information, ouvrant la voie à des systèmes plus efficaces, plus flexibles et potentiellement plus "intelligents" dans leur capacité à gérer et à adapter l'information.

Ajouté à la BD par Le sous-projectionniste

empathie

Le milieu social est une bulle, constituée d'apanages variés, qui façonnent et manipulent notre conception de la réalité. Mais on peut au moins l'évoquer, le reconnaître, le comprendre, voire l'expier par une action transformatrice. En nous comparant avec celui des autres, nous pouvons être en mesure de modifier à la fois notre monde et les mondes extérieurs - si l'on a la volonté de le faire. La souffrance ne fonctionne pas ainsi. La souffrance relie directement avec l'individu qui souffre - elle ne peut être médiatisée par un terme comme " privilège ".

Auteur: Smith Zadie

Info: Intimations

[ condition humaine ] [ distanciation ] [ imprégnation ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

écriture

J'en ai tiré deux enseignements précieux. Se parler à soi-même peut être utile. Et écrire signifie être entendu.

Auteur: Smith Zadie

Info: Intimations : Six Essays

[ soliloque ] [ communication ] [ télépahtie ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

rencontre

Mais parfois, c'est comme si on fait connaissance avec quelqu'un et qu'on sait qu'il y a une totale connexion, et cette personne se retrouve à être, disons, comme notre frère - ou notre sœur. Même si elle ne le reconnaît pas, ça se sent. Et à bien des égards, peu importe qu'elle le reconnaisse ou non, tout ce que tu peux faire, c'est exprimer ce sentiment. C'est ton devoir. Ensuite, il suffit d'attendre et de voir ce qui te revient. Voilà ce qu'il faut faire.

Auteur: Smith Zadie

Info:

[ affinité ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

couple

Elle ? Oh, il l'aime, tout comme les Anglais aimaient l'Inde, l'Afrique et l'Irlande ; c'est l'amour qui est le problème, les gens traitent mal leurs amants. Peut-être est-ce simplement le décor, ou le contexte, qui est mauvais. Il se peut que rien de ce qui se passe sur un terrain volé ne puisse connaître une fin heureuse.

Auteur: Smith Zadie

Info: White Teeth

[ déséquilibré ] [ colonisation ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

écriture

Nous ne pouvons pas être tous les écrivains tout le temps. Nous ne pouvons être que ce que nous sommes. Ce qui m’amène à mon deuxième point : les écrivains n’écrivent pas ce qu’ils veulent, ils écrivent ce qu’ils peuvent.

Auteur: Smith Zadie

Info:

[ limites ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

laisser-aller

La nostalgie est un luxe.

Auteur: Smith Zadie

Info: Swing Time

Commenter

Commentaires: 0

Ajouté à la BD par miguel

forme-matière

Ce qui maintient ensemble les parties d’un corps, ce qui fait sa compacité et sa consistance, sa solidité, n’est pas corporel ; c’est une unité-forme de nature psychique, immanente à la réalité corporelle, et dont celle-ci n’est absolument pas séparable. Le corporel est donc comme une cristallisation d’une substance psychique transspatiale, le terme d’un processus d’extériorisation, le mode terminal du psychique¸ c’est-à-dire la manière dont le psychique (entendu en un sens non spécifiquement humain) arrête ou termine son propre mouvement de manifestation vers l’extériorité. […] Si donc on envisage le monde corporel (ou modalité corporelle de la réalité créée) en lui-même, il apparaît, à tous les points de vue, comme le monde de la limite, ou comme monde-limite. Cela signifie qu’il impose, à tous les êtres en qui lui se manifestent, des formes limites d’existence, c’est-à-dire telles qu’en deçà de ses formes l’existence disparaît.

Auteur: Borella Jean

Info: Amour et vérité, L’Harmattan, 2011, Paris, page 79

[ états multiples de l'Être ] [ finitude ] [ physique ]

Commenter

Commentaires: 2

Ajouté à la BD par Coli Masson

philosophie moderne

L’existence des évidences naturelles implique donc un champ culturel de type essentialiste qui exige la croyance à la réalité d’un monde archétypal. Mais, tout le mouvement de la civilisation moderne, dans tous les domaines, depuis le XVIIe siècle, consiste en une immense et permanente dénaturation ou désessentialisation. Ce mouvement, qui est celui du rationalisme, s’effectue par la réduction de toute compréhension à la raison. Or, comprendre, pour la raison, c’est construire le donné qu’elle doit saisir, ce qui implique, en premier lieu, qu’elle nie sa qualité même de donné. Ce qui est incompréhensible pour la raison, c’est qu’il y ait un donné objectif. Le cartésianisme, dans la mesure où il se présente comme une construction rationnelle du monde, le kantisme qui répute le donné pur comme radicalement inconnaissable et qui lui substitue l’ "objectivité" des structures a priori de la connaissance humaine, l’axiomatisme mathématique qui rejette les évidences mathématiques premières, les principes, et qui les remplace par des conventions construites décisoirement, ne laissent aucun doute à cet égard.

Auteur: Borella Jean

Info: Amour et vérité, L’Harmattan, 2011, Paris, page 61

[ critique ] [ anti-réalisme ]

Commenter

Commentaires: 0

Ajouté à la BD par Coli Masson

intellect

En réalité, c’est l’intelligence qui connaît, le mental n’étant que le milieu de réfraction à travers lequel s’effectue l’activité de connaissance. Le mental est un miroir, mais c’est l’intelligence qui voit. Or l’intelligence est, par définition, directe et intuitive dans son essence propre.

Auteur: Borella Jean

Info: Amour et vérité, L’Harmattan, 2011, Paris, page 57

[ théologie ] [ différence ]

Commenter

Commentaires: 2

Ajouté à la BD par Coli Masson

Paramètres de recherches