Les fils de la pensée

prison

Il aura fallu que je travaille en milieu carcéral pour réaliser à quel point le métier de maton représente une profession par défaut. Qui aura jamais rêvé, enfant, de devenir geôlier un jour. On le devient probablement toujours parce qu'on a besoin d'argent.

Auteur: MG

Info: 2003

[ geôlier ]

Commenter

Commentaires: 0

écriture

Lorsqu'on ne considère pas la littérature comme un gagne-pain, mais que l'on écrit de manière à en tirer du plaisir et à oublier pourquoi on écrit et pour qui on écrit, l'écriture devient indispensable, il est impossible de ne pas écrire et la littérature est inéluctable. La littérature est sans utilité, c'est justement une de ses caractéristiques intrinsèques. Que l'écriture littéraire devienne un métier est le résultat malheureux de la division du travail dans la société moderne, et pour l'écrivain, une conséquence extrêmement fâcheuse.

Auteur: Xingjian Gao

Info: La raison d'être de la littérature

[ plaisir ] [ occupation ] [ profession prison ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

libre penseur

Ma façon de penser, dites-vous, ne peut être approuvée. Et que m'importe ? Bien fou est celui qui adopte une façon de penser pour les autres ! Ma façon de penser est le fruit de mes réflexions : elle tient à mon existence, à mon organisation. Je ne suis pas le maître de la changer ; je le serais, que je ne le ferais pas. Cette façon de penser que vous blâmez fait l'unique consolation de ma vie ; elle allège toutes mes peines en prison, elle compose tous les plaisirs dans le monde et j'y tiens plus qu'à la vie. Ce n'est point ma façon de penser qui a fait mon malheur, c'est celle des autres.

Auteur: Sade Marquis de

Info: Lettre du 20 février 1781. Dans 50 lettres du Marquis de Sade à sa femme.

[ profession de foi ]

Commenter

Commentaires: 0

Ajouté à la BD par Bandini

capitalisme

Combien de gens exercent-ils le travail de leur choix ? Certains scientifiques, artistes, quelques travailleurs très qualifiés ou certaines professions libérales ont peut-être cette satisfaction, mais la plupart des gens ne sont pas libres de choisir leur activité. C'est la nécessité économique qui les y oblige. C'est pourquoi on peut parler de "travail aliéné". En outre, la plupart des travailleurs produisent des biens et des services destinés à devenir des marchandises qu'ils n'ont pas eux-mêmes choisi de produire et qui appartiennent à un autre : le capitaliste qui les emploie. Les travailleurs sont donc, en outre, parfaitement étrangers au produit de leur labeur. Le travail s'effectue dans des conditions industrielles modernes qui privilégient la concurrence plutôt que la collaboration et l'isolement plutôt que l'association. Les travailleurs sont donc également étrangers les uns aux autres. Concentrés dans les villes et les usines, ils sont pour finir étrangers à la nature.

Auteur: Zinn Howard

Info: Désobéissance civile et démocratie : Sur la justice et la guerre

[ oppression ] [ prison ]

Commenter

Commentaires: 0

racisme

Ma profession c'est terroriste et ma vie elle se termine comme ça. Par une coupure dans les journaux :

"UN TERRORISTE RECONNU COUPABLE DE LA MORT DE DOUZE PERSONNES DANS UN ATTENTAT À LA BOMBE À PARIS.

Un jeune intégriste, sans doute d'origine algérienne, fortement soupçonné d'appartenir au réseau Al-Qaïda et à l'entourage proche d'Ousama Ben Laden, a été jeudi reconnu coupable d'avoir participé à un attentat à la bombe dans le XVIe arrondissement de Paris. […] Il a été condamné à la prison à perpétuité."

On n'apprend pas assez aux enfants ce que c'est qu'un terroriste, je trouve. Du coup tout le monde croit que c'est qu'un enculé, en général un Rebeu qui fait que buter des gens. Peut-être que c'est vrai mais comme dit le dico je trouve que c'est un peu réducteur. Le dico il dit aussi qu'un terroriste c'est quelqu'un qui sème la terreur partout où il passe. Comme le Petit Poucet avec ses cailloux qu'il balance par terre, quoi. Je suis exactement comme ça moi. Un putain de Poucet.

Auteur: Amellal Karim

Info: Cités à comparaître, Chapitre I, incipit

[ banlieues ] [ musulman ]

Commenter

Mis dans la chaine

Commentaires: 0

ironie

Mes lettres de demande d'emploi, pour sincères qu'elles étaient, masquaient l'entière vérité. Les visages auraient blêmi devant l'intégralité des faits dans leur brutalité. "Monsieur" songeai-je, "Auriez-vous un emploi disponible pour un cambrioleur saisonnier, arnaqueur, faussaire, et voleur de voitures? justifiant également d'une certaine expérience en tant que voleur à main armée, maquereau, tricheur professionnel, et autres petites choses. J'ai fumé la marie-jeanne à douze ans (dans les années quarante) et je me piquais à l'héroïne à seize. Je n'ai aucune expérience du LSD et de la méthédrine. Ils sont venus au goût du jour depuis mon emprisonnement. J'ai enculé de jeunes et jolis garçons ainsi que des homosexuels féminins (mais uniquement lorsque j'étais enfermé, privé de femmes). Dans le jargon des geôles, des prisons et des bas-fonds (certains bas-fonds très sélects), je suis un enfoiré capable de baiser sa mère. Pas vraiment en fait, puisque je ne me souviens pas de ma mère. Dans le monde qui est le mien, ce terme, dans l'emploi que j'en faisais, était la revendication orgueilleuse et vantarde d'être un démon en marche, aux réactions imprévisibles, scandaleuses et outrancières, un véritable virtuose du crime. Naturellement, le fait d'être un enfoiré dans ce monde-là fait de moi une raclure de poubelle dans le vôtre. Disposez-vous d'un emploi pour moi?"

Auteur: Bunker Edward

Info: Aucune bête aussi féroce

[ tromperie ] [ apparence ] [ recherche d'emploi ]

Commenter

Commentaires: 0

portrait

Je n'ai jamais connu homme plus sensible aux contraintes que Gide. Il a vécu son enfance et sa jeunesse dans un milieu protestant où la contention tient lieu de vertu. Et cette première expérience de l'hypocrisie vertueuse semble l'avoir meurtri à un tel point que, toute sa vie, il rechercha la sincérité comme un prisonnier peut désirer l'air pur. Cette sincérité, ce libre épanouissement du moi, il la chercha sur les sables du Sahara, dans les aventures du désir ; à l'art il demanda de le libérer, à la chair parfois, à l'amour... Son désir de sincérité rencontrait partout duplicité, mensonges, contraintes. Gide repartait sur d'autres routes pour retrouver la pureté... Et si Gide retrouva jamais cette sincérité, c'est dans l'art. Les contraintes en art lui furent légères : en art seulement la liberté de l'homme est inconditionnée, sa sincérité respectée. Qu'on l'appelle dérivatif ou consolation, l'art fut pour Gide l'expérience la plus complète de la sincérité et de la liberté ( " ... cette doctrine de l'art pour l'art, en dehors de quoi je ne sais point trouver raison de vivre ").

[...] Il faut déblayer l'oeuvre de Gide pour n'y voir qu'un appel de la sincérité, dira-t-on. D'autres ont pu résumer Gide à son immoralisme, à sa disponibilité, à son marivaudage spirituel ... ; moi, je retiens, du contact avec son oeuvre, ce drame central de la sincérité ; et parmi ses nombreuses soifs, celle qui m'a le plus frappé, le plus travaillé, c'est sa soif d'authenticité. Il écrit dans son Journal : " Le seul drame qui vraiment m'intéresse et que je voudrais toujours relater, c'est le débat de tout être avec ce qui l'empêche d'être authentique, avec ce qui s'oppose à son intégrité, à son intégration. L'obstacle est le plus souvent en lui-même. Et tout le reste n'est qu'accident. " (3 juillet 1930)

Auteur: Aquin Hubert

Info: Mélanges Littéraires I, profession écrivain, p. 65

[ éléments biographiques ] [ quêteur ] [ vie-oeuvre ]

Commenter

Commentaires: 1

Ajouté à la BD par Bandini

laxisme

Les conservateurs ne veulent pas abandonner la guerre contre la drogue. Ils sont convaincus que des seigneurs de la drogue mènent une guerre contre d'innocentes victimes, qui commence avec les adolescents, et ils ne s'intéressent pas aux arguments pour la dépénalisation.

Les conservateurs veulent que l'État dépense des centaines de millions de dollars pour créer des prisons afin d'y mettre les revendeurs de drogue reconnus coupables - après les faits. À gauche, on veut que l'État dépense un montant au moins égal pour traiter et réhabiliter - après les faits.

Moi, je cherche à fermer le marché des drogues illégales. Je dis qu'il faut être deux pour danser le tango - vendeurs et acheteurs - et je veux fermer la piste de danse.

Nous savons où elle se trouve. Il y en a une dans votre ville. Il y en a probablement plus d'une. Ells sont les sombres lieux de l'âme. Les usagers viennent, cherchant désespérément un nouveau trip ou peut-être uniquement un moyen pour arrêter de trembler. Les vendeurs viennent, avides d'un revenu issu de la vente de leurs articles destructeurs, malgré la misère qu'ils sèment.

Et puis il y a les innocents - des enfants qui ont de l'argent dans leurs poches et du temps à perdre. Ils viennent en bande, cherchant de nouvelles sensations dans un milieu ennuyeux, dénué de sens.

Ce dont nous avons besoin, c'est d'un grand coup de balai. Nous devons envoyer la police locale, les agents de la DEA [Agence de lutte contre la drogue] et les medias dans ces bouges et les fermer une fois pour toute.

Je veux parler des écoles publiques.

Chaque jour, votre gouvernement local envoie des douzaines ou des centaines de bus jaunes pour recruter la nouvelle génération de drogués. Ces individus psychologiquement faibles, soigneusement choisis comme victimes, sont amenés au grand magasin central du cartel de la drogue, où les vendeurs peuvent faire leur offre initiale et compétitive - "Le premier est gratuit !" - et leur incantation subversive, "Essayer : vous aimerez !". Seul le directeur adjoint se trouve entre les usagers et la source de leur dépendance.

Les vendeurs vont où se trouve l'argent, et où les gens qui en ont sont rassemblés pendant sept heures par jour en un lieu pratique et sans loyer.

Les usagers et les usagers potentiels sont conduits vers des pièces où ils doivent rester assis des heures sur des sièges durs, en bois, et sont obligés d'écouter le cours d'un endoctrinateur dont le travail, pour respecter la loi fédérale, est de persuader les enfants que la vie peut avoir un sens et être pleine d'espoir sans : (1) l'idée que Dieu ait une place dans la classe, dans l'isoloir ou dans le jardin public ; (2) l'idée qu'il y aura un jugement final (sauf pour Adolf Hitler) qui ait des conséquences éternelles ; (3) l'idée que l'Humanité est le fruit de Dieu plutôt que celui des forces sans but, aléatoires de la nature impersonnelle ; (4) l'idée que l'Homme a été mis sur Terre par Dieu pour y exercer sa domination sur la création, plutôt que pour être une simple espèce de primate avec l'avantage compétitif unique d'avoir des pouces en opposition ; (5) l'idée que les individus soient responsables légalement et moralement de leurs actes, y compris de l'obligation d'épargner pour leurs années de retraite et de payer pour leurs soins médicaux ; (6) l'idée qu'il y a des réponses finales aux questions morales décisives (sauf en ce qui concerne Hitler) ; (7) l'idée qu'une éducation pertinente et créatrice de toute la vie peut être donnée dans une institution qui n'emploie pas de professeurs à plein temps. (Techniquement, le point 7 n'est pas rendu obligatoire par la loi fédérale ; il y a plutôt une obligation due au aux électeurs locaux, qui feront pression sur le conseil de direction de l'école, pour virer le directeur si l'équipe de football a de nouveau un résultat de 2 victoires et 9 défaites cette saison).

Les éducateurs savent que la vie ne peut pas être vécue uniquement en termes négatifs. Il y a aussi des questions positives qui sont traitées dans les classes des écoles publiques, parmi elles : (1) le droit à un avortement gratuit, avec le conseil de professionnels agréés par l'école et sans consultation des parents ; (2) le droit pour tout mode de vie sexuelle de voir sa position - intellectuelle, bien sûr - présentée en classe comme un choix légitime parmi beaucoup d'autres ; (3) le droit pour tout groupe minoritaire (sauf les Nazis) à avoir au moins un paragraphe positif dans le manuel d'études sociales ; (4) le droit pour chaque élève à avoir un certain sens d'estime de soi, sauf dans les équipes sportives ; et (5) le droit pour les étudiants d'informer tout professeur des idées de leurs parents sur les sujets ayant une importance sociale ou psychologique pour le quartier de l'école.

Là, entre les cours, les élèves se rencontrent pour discuter des implications sur leurs vies de tout cela. "Le premier est gratuit. Essayez : vous aimerez."

Quelle est la dernière fois que vous avez vu, sur la chaîne de télévision locale, un reportage sur une prise de drogue dans une école privée ?

Quelle est la dernière fois où vous avez lu dans les journaux un article sur un élève victime d'une overdose d'héroïne dans une école privée ?

En allant un peu plus loin, quelle est la dernière fois que la police a été envoyée pour arrêter une bagarre dans une école privée ? (J'imagine le reportage. "La bataille a commencé quand un groupe de Catholiques ont apparamment commencé à chanter, 'infused grace, infused grace' durant la période obligatoire des prières matinales [je renonce à traduire ou à trouver des équivalents français en raison de mes faibles connaissances des subtilités religieuses associées au texte anglais. Si quelqu'un peut m'aider. NdT]. On dit que les Baptistes se sont vengés au cri de 'imputed grace, imputed grace'. "Je parlais de plus en plus fort," raconte Mr. Brubaker, qui enseigne le calcul et est également le directeur de l'école. "Nous avons finalement dû appeler la police quand les Méthodistes ont commencé à crier 'prevenient grace'. C'était tout simplement terrible. Mais je peux rassurer le public : nous allons prendre des mesures pour régler ces problèmes.")

Conclusion

Ce dont nous avons besoin, c'est d'une guerre totale contre la drogue qui prenne pour cible le principal centre de recrutement des revendeurs de drogue, les points de vente de choix du cartel de la drogue colombien : les écoles publiques américaines subventionnées par les impôts.

Si j'entendais un jour des membres du Congrès réclamer ce type de guerre bipartisane contre la drogue, je les prendrais bien plus au sérieux. J'aurais une bonne impression si j'en entendais un se dresser devant la chambre du Congrès et dire la chose suivante. "Comme mesure de lutte contre la drogue, je propose aujourd'hui une loi pour arrêter tout financement fédéral de l'éducation." Alors, son collègue de l'autre bord se lèverais et dirais : "je suis prêt à soutenir cette proposition si le gentleman distingué du Texas se déclare prêt à soutenir ma proposition de supprimer toutes les institutions d'éducation de la juridiction du National Labor Relations Board."

Quand la demande de drogues illégales est en fin de compte analysée en termes de catégories qui demandent un traitement - et cherchent des calmants qui sont un soulagement chimique de la douleur - alors nous commencerons à venir à bout du problème continuel américain de la drogue. La guerre contre les drogues devrait commencer par un programme systématique d'élimination des sources initiales de la souffrance des usagers, ces institutions subventionnées qui sont également les principaux supermarchés de la vente des drogues. Jusqu'à ce qu'il en soit ainsi, je ne pense pas que la guerre contre la drogue ait une grande chance de réduire le niveau de stupéfiants.

Jusque là, à chaque fois que vous verrez un bus jaune de l'école publique sur l'autoroute, dites-vous "Transport gratuit vers le centre de cocaïne". À l'arrière de chaque bus scolaire de l'Amérique, on devrait voir clairement ces mots : "recommandé par Medellin".

Auteur: North Gary

Info: Comment gagner la guerre contre la drogue. 15 janvier 2001, traduit par Hervé de Quengo.

[ sécularisation ] [ banalisation ]

Commenter

Commentaires: 0

Ajouté à la BD par Coli Masson

métadonnées à valeur ajoutée MVA

"Ils profitent de notre pauvreté" : derrière le boom des intelligences artificielles génératives, le travail caché des petites mains de l'IA

(Photo : Une masse d'hommes et de femmes invisibles, partout dans le monde, analysent des quantités colossales de données pour améliorer, caratériser et contextualiser les intelligences artificielles. )

La création d'algorithmes tels que ChatGPT ou Midjourney nécessite des quantités colossales de données, analysées par des humains. Des "annotateurs" indispensables mais souvent précaires, faiblement rémunérés et maintenus dans l'ombre.

"Des descriptions graphiques de viol, d'inceste, de nécrophilie... C'était ça tous les jours." En 2021, Mophat Okinyi doit relire chaque jour plusieurs centaines de textes fournis à l'entreprise de traitement de données Sama par un client inconnu, pour entraîner un modèle d'intelligence artificielle (IA). L'objectif : préciser au logiciel ce qui pose problème dans ces textes, pour qu'il ne le reproduise pas.

Un travail rémunéré 21 000 shillings kenyans par mois (environ 150 euros) pour les employés du bas de l'échelle dont Mophat contrôlait l'activité. Cela a laissé chez lui des traces à vie. "Encore aujourd'hui, ça affecte mes relations avec ma famille, mes proches", explique l'analyste qualité kenyan. La mission qu'il décrit rappelle l'horreur à laquelle sont souvent confrontés les modérateurs des réseaux sociaux et répondait en fait, comme il le découvrira plus tard, à une commande de la start-up à la pointe de l'IA à l'origine de ChatGPT : OpenAI.

Le cas de Mophat Okinyi, extrême sous certains aspects, n'est pas non plus un exemple isolé, car derrière les grands discours de révolution technique se cache une masse de travailleurs invisibles dont les rangs se comptent en centaines de millions, selon des estimations. "On n'est pas du tout en train de créer des programmes qui se passent de l'humain, résume Antonio Casilli, professeur à l'Institut polytechnique de Paris. L'IA demande une quantité de travail humain énorme et absolument indispensable, dans toute la chaîne de production".

La majorité de cette masse humaine est très loin des grands patrons ou des ingénieurs renommés. Elle est constituée d'une armada de travailleurs anonymes éclatée à travers le monde, du Venezuela à Madagascar en passant par des camps de réfugiés au Liban et des prisons finlandaises. Des petites mains qui construisent le futur clic après clic, souvent dans un secret et une précarité bien gardés.

Cliquer encore et encore

Le prix de cette modernité ? Aux Philippines, entre 1,50 et 3 dollars par "tâche". C'est ce que la plateforme de travailleurs indépendants Remotasks verse en moyenne à Eduardo* pour placer, clic par clic, pixel par pixel, les contours qui délimitent sur une image un panneau de signalisation. Puis un véhicule. Puis un buisson. Une "tâche" qui lui prend en général une heure ou moins et qu'il répète inlassablement, huit heures par jour, six jours par semaine. Ces images serviront ensuite à entraîner des algorithmes d'analyse vidéo, par exemple pour les voitures autonomes ou la surveillance algorithmique. "C'est un travail intéressant", assure à franceinfo le jeune Philippin, qui travaille sur la plateforme depuis un peu plus de trois ans. Tout le monde ne sera pas du même avis, mais sans lui, l'appareil photo de votre smartphone aurait beaucoup de mal à identifier un visage, et la conduite semi-autonome de Tesla serait encore un rêve de science-fiction. Et vous-même y avez déjà contribué.

Que ce soit en laissant un "j'aime" sur Facebook ou en identifiant les images contenant une voiture dans un test captcha, vos retours participent à entraîner des algorithmes gratuitement depuis des années. Mais pour créer les IA qui ont bluffé le monde ces derniers mois, comme ChatGPT ou Midjourney, il faut des milliards d'exemples. Des données qui doivent souvent être "annotées", autrement dit accompagnées de commentaires, pour que la machine reproduise les catégories d'analyse de l'humain : faire comprendre que "ce tas de pixels est un enfant", que "cette phrase est fausse" ou que "cet élément évoque des comportements illégaux et ne doit pas être reproduit".

Et l'entraînement ne s'arrête jamais. "C'est un peu comme des athlètes, compare Antonio Casilli. Il faut constamment les entraîner, les adapter, les vérifier". Il s'agit d'évaluer les réponses, en soumettant aux IA des exemples toujours plus précis ou adaptés au nouveau contexte culturel. Autant de tâches qu'il est actuellement impossible d'automatiser.

"Ce n'est pas suffisant, mais c'est déjà quelque chose"

Astro* est l'un de ces nouveaux "entraîneurs d'IA". L'entrepreneur originaire de Tanzanie, qui a récemment terminé ses études de linguistique en France, réalise des tâches en indépendant à temps partiel via la plateforme Appen. "Il faut parfois isoler un visage dans une photo, dire si une image devrait apparaître dans la rubrique Souvenirs de Google Photos, si un texte est factuel ou non, créer des questions/réponses de culture générale...", explique-t-il à franceinfo. Il doit pour cela suivre des règles souvent très détaillées ("Cinquante pages à apprendre par cœur !"), au point d'en devenir parfois obscures. A la clé : 16 dollars de l'heure sur ses projets actuels. "Plus tu travailles, plus tu gagnes", explique l'indépendant. Mais encore faut-il être sélectionné pour participer au projet.

A l'autre bout du spectre, des entreprises embauchent des annotateurs en interne, notamment pour des tâches qui nécessitent une expertise précise. Mais pour nombre d'entre elles, la solution la plus rentable est souvent la sous-traitance : à des entreprises dans d'autres pays qui embauchent des annotateurs localement, comme Sama, ou encore à des plateformes comme Remotasks, Appen ou Toloka, qui transfèrent les missions à des travailleurs indépendants payés à la "micro-tâche".

"Ces travailleurs sont souvent recrutés dans des pays à faibles revenus, et géopolitiquement instables." Antonio Casilli, professeur à l'Institut polytechnique de Paris

A ces critères, Antonio Casilli ajoute des taux d'éducation et d'équipement informatique importants, l'existence d'une industrie de centres d'appels ou des relations fortes avec une ancienne puissance coloniale. Plusieurs noms de pays reviennent souvent : les Philippines, Madagascar, le Kenya, le Venezuela, le Pakistan…

Dans ces pays, un tel travail représente souvent un filet de sécurité précieux. "Ce n'est pas une source de travail fixe ou suffisante, mais c'est au moins quelque chose, résume Maria*. La crise économique au Venezuela a forcé beaucoup d'entre nous à quitter le marché du travail", raconte à franceinfo l'ingénieure industrielle, qui s'est lancée sur Remotasks à la faveur du confinement, en 2020. Après avoir suivi une formation, elle travaille aujourd'hui trois jours par semaine sur la plateforme, à raison de 10 heures par jour.

Pour quel salaire ? "Les tâches de catégorisation données par Remotasks au Venezuela peuvent prendre seulement quelques minutes et être payées 11 centimes de dollar, détaille Maria. D'autres beaucoup plus complexes peuvent durer huit heures ou plus, comme l'annotation de vidéos ou de données lidar, et être payées 10 dollars." Mais tout dépend du pays et de la difficulté de la tâche. Un "eldorado" relatif qui attire, y compris parfois des mineurs qui mentent sur leur âge pour rejoindre ces plateformes de micro-tâches, raconte le site spécialisé Wired.

Précarité et dépendance

Mais ces espoirs ne suffisent pas à en faire un emploi de rêve. Même si une tâche peut être payée correctement par rapport au marché local, les travailleurs du clic déplorent souvent la différence de traitements entre les pays. "Les entreprises profitent de notre pauvreté", estime Andry*, annotateur à Madagascar, pour qui "un agent en Inde ou au Maroc sera mieux payé que nous". Le mode de calcul des rémunérations n'est jamais précisément expliqué.

"Il y a clairement une forme de néo-colonialisme."

Antonio Casilli, professeur à l'Institut polytechnique de Paris

Pour gagner des sommes correctes, les indépendants doivent être disponibles à toute heure du jour et de la nuit et s'adapter à des projets aux durées variables. "Sur Appen, les tâches arrivent à l'heure américaine, donc vers 21 heures en France", explique par exemple Astro*. "Sur une autre plateforme, j'ai reçu une tâche vendredi vers 19 heures, j'ai travaillé 45 heures sur le week-end, j'ai gagné 1 200 euros", résume Astro, qui dit apprécier le travail de nuit.

Ce que certains voient comme une "opportunité professionnelle" peut aussi se transformer en piège. En Chine, des établissements promettent à leurs étudiants une formation en "IA" ou en "Big data", mais les forcent à annoter des images toute la journée pour un salaire inférieur au minimum légal, raconte le média Rest of World. Cette pratique n'est pas spécifique à la Chine, assure Antonio Casilli, qui cite également l'exemple de Madagascar.

"L'IA ne peut pas être éthique si elle est entraînée de façon immorale"

A qui profite ce travail souvent ingrat, parfois à la frontière de l'éthique ? Difficile de le savoir : l'industrie baigne dans un épais voile de secret, et comme dans le cas de Mophat Okinyi, les annotateurs indépendants savent rarement à qui sont destinées les données qu'ils traitent. "Je sais que le client est au Japon, mais c'est tout. On ne nous a rien dit sur eux", note Eduardo* à propos d'une de ses missions d'annotation, fournie par Remotasks aux Philippines.

"Les entreprises d'IA expliquent que si elles étaient pleinement transparentes sur leurs besoins en données, cela pourrait donner des indices sur leurs projets en cours et influencer les réponses des contributeurs", résume Antonio Casilli d'un ton sceptique. "Elles veulent échapper à leurs responsabilités", assène Mophat Okinyi, qui ne savait pas que son travail servirait à OpenAI avant la fin anticipée du contrat, à la demande de Sama, en mars 2022.

"Si les annotateurs savaient qu'ils travaillent pour une entreprise qui génère des centaines de millions de dollars comme OpenAI, ils n'accepteraient pas des salaires si bas." Mophat Okinyi, ex-analyste qualité chez Sama

Ce travail peut-il être organisé de manière à satisfaire tout le monde, géants de la tech comme travailleurs du clic ? "Il faut plus de transparence, les entreprises basées à San Francisco doivent prendre leurs responsabilités", réclame Mophat Okinyi. Il s'est associé à 150 travailleurs du secteur de l'annotation et de la modération des plateformes pour créer l'Union des modérateurs de contenus du Kenya, qui devrait être autorisée "dans les deux mois", et a cofondé l'ONG Techworker Community Africa pour militer en faveur de meilleurs pratiques. "L'IA ne peut pas être éthique si elle est entraînée de façon immorale, en exploitant des gens en difficulté économique et sur des données volées", assène-t-il.

"Beaucoup de gens ne savent pas qu'il y a de l'humain derrière l'IA. Il faudrait que ce soit plus connu, et mieux payé." Astro, annotateur de données

Pour Antonio Casilli, il faut commencer par oublier l'idée que l'IA est seulement une prouesse d'ingénieurs ou d'entrepreneurs. " Nous sommes tous en quelque sorte les producteurs de ces IA, parce que ce sont nos données qui servent à les entraîner, mais nous ne sommes pas reconnus comme tels. Tant qu'on continuera à penser que l'IA est seulement l'affaire de Sam Altman, on aura un problème."

* Les prénoms suivis d'un astérisque ont été modifiés.

Auteur: Internet

Info: Francetvinfo.fr - Luc Chagnon, 9 avril 2024

[ texte-image ] [ homme-machine ] [ données intelligentes ] [ enrichies ] [ nord-sud ] [ domination économique ] [ data augmenté ] [ bases sémantiques ] [ post-colonialisme ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

intelligence artificielle

Apprendre l'anglais n'est pas une tâche facile, comme le savent d'innombrables étudiants. Mais lorsque l'étudiant est un ordinateur, une approche fonctionne étonnamment bien : Il suffit d'alimenter un modèle mathématique géant, appelé réseau neuronal, avec des montagnes de textes provenant d'Internet. C'est le principe de fonctionnement des modèles linguistiques génératifs tels que ChatGPT d'OpenAI, dont la capacité à tenir une conversation cohérente (à défaut d'être toujours sincère) sur un large éventail de sujets a surpris les chercheurs et le public au cours de l'année écoulée.

Mais cette approche présente des inconvénients. D'une part, la procédure de "formation" nécessaire pour transformer de vastes archives textuelles en modèles linguistiques de pointe est coûteuse et prend beaucoup de temps. D'autre part, même les personnes qui forment les grands modèles linguistiques ont du mal à comprendre leur fonctionnement interne, ce qui, à son tour, rend difficile la prévision des nombreuses façons dont ils peuvent échouer.

Face à ces difficultés, certains chercheurs ont choisi d'entraîner des modèles plus petits sur des ensembles de données plus restreints, puis d'étudier leur comportement. "C'est comme le séquençage du génome de la drosophile par rapport au séquençage du génome humain", explique Ellie Pavlick, chercheuse sur les modèles de langage à l'université de Brown.

Dans un article récemment publié sur le serveur scientifique arxiv.org, deux chercheurs de Microsoft ont présenté une nouvelle méthode pour former de minuscules modèles de langage : Les élever avec un régime strict d'histoires pour enfants.

RÉSEAUX NEURONAUX

Des chercheurs acquièrent une nouvelle compréhension à partir d'une simple IA

Les chercheurs en apprentissage automatique ont compris cette leçon. GPT-3.5, le grand modèle linguistique qui alimente l'interface ChatGPT, compte près de 200 milliards de paramètres et a été entraîné sur un ensemble de données comprenant des centaines de milliards de mots (OpenAI n'a pas publié les chiffres correspondants pour son successeur, GPT-4). L'entraînement de modèles aussi vastes nécessite généralement au moins 1 000 processeurs spécialisés, appelés GPU, fonctionnant en parallèle pendant des semaines. Seules quelques entreprises peuvent réunir les ressources nécessaires, sans parler de l'entraînement et de la comparaison de différents modèles.

Les deux chercheurs ont montré que des modèles linguistiques des milliers de fois plus petits que les systèmes de pointe actuels apprenaient rapidement à raconter des histoires cohérentes et grammaticalement justes lorsqu'ils étaient formés de cette manière. Leurs résultats indiquent de nouvelles pistes de recherche qui pourraient être utiles pour former des modèles plus importants et comprendre leur comportement.

"J'ai trouvé tout ça très instructif", a déclaré Chandra Bhagavatula, chercheur sur les modèles de langage à l'Allen Institute for Artificial Intelligence de Seattle. "Le concept lui-même est très intéressant.

Il était une fois

Les réseaux neuronaux au cœur des modèles de langage sont des structures mathématiques vaguement inspirées du cerveau humain. Chacun d'entre eux contient de nombreux neurones artificiels disposés en couches, avec des connexions entre les neurones des couches adjacentes. Le comportement du réseau neuronal est régi par la force de ces connexions, appelées paramètres. Dans un modèle linguistique, les paramètres contrôlent les mots que le modèle peut produire ensuite, compte tenu d'une invite initiale et des mots qu'il a déjà générés.

Un modèle ne prend véritablement vie qu'au cours de la formation, lorsqu'il compare de manière répétée ses propres résultats au texte de son ensemble de données de formation et qu'il ajuste ses paramètres afin d'accroître la ressemblance. Un réseau non entraîné avec des paramètres aléatoires est trivialement facile à assembler à partir de quelques lignes de code, mais il ne produira que du charabia. Après l'entraînement, il peut souvent poursuivre de manière plausible un texte peu familier. Les modèles de plus grande taille sont souvent soumis à des réglages plus fins qui leur apprennent à répondre à des questions et à suivre des instructions, mais l'essentiel de la formation consiste à maîtriser la prédiction des mots.

Pour réussir à prédire des mots, un modèle linguistique doit maîtriser de nombreuses compétences différentes. Par exemple, les règles de la grammaire anglaise suggèrent que le mot suivant le mot "going" sera probablement "to", quel que soit le sujet du texte. En outre, un système a besoin de connaissances factuelles pour compléter "la capitale de la France est", et compléter un passage contenant le mot "not" nécessite une connaissance rudimentaire de la logique.

"Le langage brut est très compliqué", explique Timothy Nguyen, chercheur en apprentissage automatique chez DeepMind. "Pour que des capacités linguistiques intéressantes apparaissent, les gens ont eu recours à l'idée que plus il y a de données, mieux c'est".

(photo) Ronen Eldan s'est rendu compte qu'il pouvait utiliser les histoires d'enfants générées par de grands modèles linguistiques pour en entraîner rapidement de plus petits.

Introduction

Ronen Eldan, mathématicien qui a rejoint Microsoft Research en 2022 pour étudier les modèles de langage génératifs, souhaitait développer un moyen moins coûteux et plus rapide d'explorer leurs capacités. Le moyen naturel d'y parvenir était d'utiliser un petit ensemble de données, ce qui signifiait qu'il devait entraîner les modèles à se spécialiser dans une tâche spécifique, afin qu'ils ne s'éparpillent pas. Au départ, il voulait entraîner les modèles à résoudre une certaine catégorie de problèmes mathématiques, mais un après-midi, après avoir passé du temps avec sa fille de 5 ans, il s'est rendu compte que les histoires pour enfants convenaient parfaitement. "L'idée m'est venue littéralement après lui avoir lu une histoire", a-t-il déclaré.

Pour générer des histoires cohérentes pour les enfants, un modèle de langage devrait apprendre des faits sur le monde, suivre les personnages et les événements, et observer les règles de grammaire - des versions plus simples des défis auxquels sont confrontés les grands modèles. Mais les grands modèles formés sur des ensembles de données massives apprennent d'innombrables détails non pertinents en même temps que les règles qui comptent vraiment. Eldan espérait que la brièveté et le vocabulaire limité des histoires pour enfants rendraient l'apprentissage plus gérable pour les petits modèles, ce qui les rendrait à la fois plus faciles à former et plus faciles à comprendre.

Dans le monde des modèles de langage, cependant, le terme "petit" est relatif : Un ensemble de données mille fois plus petit que celui utilisé pour former GPT-3.5 devrait encore contenir des millions d'histoires. "Je ne sais pas combien d'argent vous voulez dépenser, mais je suppose que vous n'allez pas engager des professionnels pour écrire quelques millions de nouvelles", a déclaré M. Nguyen.

Il faudrait un auteur extraordinairement prolifique pour satisfaire des lecteurs aussi voraces, mais Eldan avait quelques candidats en tête. Qui peut mieux écrire pour un public de petits modèles linguistiques que pour de grands modèles ?

Toys stories

Eldan a immédiatement entrepris de créer une bibliothèque d'histoires synthétiques pour enfants générées par de grands modèles linguistiques. Mais il a rapidement découvert que même les modèles de pointe ne sont pas naturellement très créatifs. Si l'on demande à GPT-4 d'écrire des histoires adaptées à des enfants de 4 ans, explique Eldan, "environ un cinquième des histoires concernera des enfants qui vont au parc et qui ont peur des toboggans". C'est apparemment la quintessence des histoires pour enfants d'âge préscolaire, selon l'Internet.

La solution a consisté à ajouter un peu d'aléatoire dans le message. Tout d'abord, Eldan a utilisé le GPT-4 pour générer une liste de 1 500 noms, verbes et adjectifs qu'un enfant de 4 ans pourrait connaître - suffisamment courte pour qu'il puisse facilement la vérifier lui-même. Il a ensuite écrit un programme informatique simple qui demanderait à plusieurs reprises à GPT-3.5 ou à GPT-4 de générer une histoire adaptée à l'âge de l'enfant, comprenant trois mots aléatoires de la liste, ainsi qu'un détail supplémentaire choisi au hasard, comme une fin heureuse ou un rebondissement de l'intrigue. Les histoires obtenues, heureusement, étaient moins axées sur des diapositives effrayantes.

Eldan disposait désormais d'une procédure pour produire des données de formation à la demande, mais il n'avait aucune idée du nombre d'histoires dont il aurait besoin pour former un modèle fonctionnel, ni de la taille de ce modèle. C'est alors qu'il s'est associé à Yuanzhi Li, chercheur en apprentissage automatique chez Microsoft et à l'université Carnegie Mellon, pour essayer différentes possibilités, en tirant parti du fait que les petits modèles peuvent être formés très rapidement. La première étape consistait à décider comment évaluer leurs modèles.

Introduction

Dans la recherche sur les modèles de langage - comme dans toute salle de classe - la notation est un sujet délicat. Il n'existe pas de rubrique parfaite qui englobe tout ce que les chercheurs veulent savoir, et les modèles qui excellent dans certaines tâches échouent souvent de manière spectaculaire dans d'autres. Au fil du temps, les chercheurs ont mis au point divers critères de référence standard basés sur des questions dont les réponses ne sont pas ambiguës, ce qui est une bonne approche si vous essayez d'évaluer des compétences spécifiques. Mais Eldan et Li se sont intéressés à quelque chose de plus nébuleux : quelle doit être la taille réelle des modèles linguistiques si l'on simplifie le langage autant que possible ?

"Pour vérifier directement si le modèle parle anglais, je pense que la seule chose à faire est de laisser le modèle générer de l'anglais de manière ouverte", a déclaré M. Eldan.

Il n'y a que deux façons de mesurer les performances d'un modèle sur des questions aussi qualitatives : S'appuyer sur des évaluateurs humains ou se tourner à nouveau vers le GPT-4. Les deux chercheurs ont opté pour cette dernière solution, laissant les grands modèles à la fois rédiger les manuels et noter les dissertations.

Bhagavatula a déclaré qu'il aurait aimé voir comment les évaluations de GPT-4 se comparaient à celles des correcteurs humains - GPT-4 peut être biaisé en faveur des modèles qu'il a aidé à former, et l'opacité des modèles de langage rend difficile la quantification de tels biais. Mais il ne pense pas que de telles subtilités affecteraient les comparaisons entre différents modèles formés sur des ensembles similaires d'histoires synthétiques - l'objectif principal du travail d'Eldan et Li.

Eldan et Li ont utilisé une procédure en deux étapes pour évaluer chacun de leurs petits modèles après la formation. Tout d'abord, ils ont présenté au petit modèle la première moitié d'une histoire distincte de celles de l'ensemble des données d'apprentissage, de manière à ce qu'il génère une nouvelle fin, en répétant ce processus avec 50 histoires de test différentes. Ensuite, ils ont demandé à GPT-4 d'évaluer chacune des fins du petit modèle en fonction de trois catégories : créativité, grammaire et cohérence avec le début de l'histoire. Ils ont ensuite fait la moyenne des notes obtenues dans chaque catégorie, obtenant ainsi trois notes finales par modèle.

Avec cette procédure en main, Eldan et Li étaient enfin prêts à comparer les différents modèles et à découvrir quels étaient les étudiants les plus brillants.

Résultats des tests

Après quelques explorations préliminaires, les deux chercheurs ont opté pour un ensemble de données de formation contenant environ 2 millions d'histoires. Ils ont ensuite utilisé cet ensemble de données, baptisé TinyStories, pour entraîner des modèles dont la taille varie de 1 million à 30 millions de paramètres, avec un nombre variable de couches. Le travail a été rapide : En utilisant seulement quatre GPU, l'entraînement du plus grand de ces modèles n'a pas pris plus d'une journée.

Les plus petits modèles ont eu du mal. Par exemple, l'une des histoires testées commence par un homme à l'air méchant qui dit à une fille qu'il va lui prendre son chat. Un modèle à un million de paramètres s'est retrouvé bloqué dans une boucle où la fille répète sans cesse à l'homme qu'elle veut être son amie. Mais les modèles plus grands, qui sont encore des milliers de fois plus petits que GPT-3.5, ont obtenu des résultats surprenants. La version à 28 millions de paramètres racontait une histoire cohérente, même si la fin était sinistre : "Katie s'est mise à pleurer, mais l'homme s'en fichait. Il a emporté le chat et Katie n'a plus jamais revu son chat. Fin de l'histoire".

En plus de tester leurs propres modèles, Eldan et Li ont soumis le même défi au GPT-2 d'OpenAI, un modèle de 1,5 milliard de paramètres publié en 2019. Le résultat a été bien pire - avant la fin abrupte de l'histoire, l'homme menace d'emmener la jeune fille au tribunal, en prison, à l'hôpital, à la morgue et enfin au crématorium.

Introduction

Selon M. Nguyen, il est passionnant que des modèles aussi petits soient aussi fluides, mais il n'est peut-être pas surprenant que GPT-2 ait eu du mal à accomplir la tâche : il s'agit d'un modèle plus grand, mais loin de l'état de l'art, et il a été formé sur un ensemble de données très différent. "Un enfant en bas âge qui ne s'entraînerait qu'à des tâches d'enfant en bas âge, comme jouer avec des jouets, obtiendrait de meilleurs résultats que vous ou moi", a-t-il fait remarquer. "Nous ne nous sommes pas spécialisés dans cette chose simple.

Les comparaisons entre les différents modèles de TinyStories ne souffrent pas des mêmes facteurs de confusion. Eldan et Li ont observé que les réseaux comportant moins de couches mais plus de neurones par couche étaient plus performants pour répondre aux questions nécessitant des connaissances factuelles ; inversement, les réseaux comportant plus de couches et moins de neurones par couche étaient plus performants pour garder en mémoire les personnages et les points de l'intrigue situés plus tôt dans l'histoire. Bhagavatula a trouvé ce résultat particulièrement intriguant. S'il peut être reproduit dans des modèles plus vastes, "ce serait un résultat vraiment intéressant qui pourrait découler de ce travail", a-t-il déclaré.

Eldan et Li ont également étudié comment les capacités de leurs petits modèles dépendaient de la durée de la période de formation. Dans tous les cas, les modèles maîtrisaient d'abord la grammaire, puis la cohérence. Pour Eldan, ce schéma illustre comment les différences dans les structures de récompense entraînent des différences dans les schémas d'acquisition du langage entre les réseaux neuronaux et les enfants. Pour les modèles de langage, qui apprennent en prédisant des mots, "l'incitation pour les mots "je veux avoir" est aussi importante que pour les mots "crème glacée"", a-t-il déclaré. Les enfants, en revanche, "ne se soucient pas de savoir s'ils disent 'j'aimerais avoir de la glace' ou simplement 'glace, glace, glace'".

Qualité contre quantité

Eldan et Li espèrent que cette étude incitera d'autres chercheurs à entraîner différents modèles sur l'ensemble des données de TinyStories et à comparer leurs capacités. Mais il est souvent difficile de prédire quelles caractéristiques des petits modèles apparaîtront également dans les plus grands.

"Peut-être que les modèles de vision chez la souris sont de très bons substituts de la vision humaine, mais les modèles de dépression chez la souris sont-ils de bons modèles de la dépression chez l'homme ? a déclaré M. Pavlick. "Pour chaque cas, c'est un peu différent.

Le succès des modèles TinyStories suggère également une leçon plus large. L'approche standard pour compiler des ensembles de données de formation consiste à aspirer des textes sur l'internet, puis à filtrer les déchets. Le texte synthétique généré par des modèles de grande taille pourrait constituer une autre façon d'assembler des ensembles de données de haute qualité qui n'auraient pas besoin d'être aussi volumineux.

"Nous avons de plus en plus de preuves que cette méthode est très efficace, non seulement pour les modèles de la taille de TinyStories, mais aussi pour les modèles plus importants", a déclaré M. Eldan. Ces preuves proviennent d'une paire d'articles de suivi sur les modèles à un milliard de paramètres, rédigés par Eldan, Li et d'autres chercheurs de Microsoft. Dans le premier article, ils ont entraîné un modèle à apprendre le langage de programmation Python en utilisant des extraits de code générés par GPT-3.5 ainsi que du code soigneusement sélectionné sur l'internet. Dans le second, ils ont complété l'ensemble de données d'entraînement par des "manuels" synthétiques couvrant un large éventail de sujets, afin d'entraîner un modèle linguistique à usage général. Lors de leurs tests, les deux modèles ont été comparés favorablement à des modèles plus importants formés sur des ensembles de données plus vastes. Mais l'évaluation des modèles linguistiques est toujours délicate, et l'approche des données d'entraînement synthétiques n'en est qu'à ses balbutiements - d'autres tests indépendants sont nécessaires.

Alors que les modèles linguistiques de pointe deviennent de plus en plus volumineux, les résultats surprenants de leurs petits cousins nous rappellent qu'il y a encore beaucoup de choses que nous ne comprenons pas, même pour les modèles les plus simples. M. Nguyen s'attend à ce que de nombreux autres articles explorent l'approche inaugurée par TinyStories.

"La question est de savoir où et pourquoi la taille a de l'importance", a-t-il déclaré. "Il devrait y avoir une science à ce sujet, et cet article est, je l'espère, le début d'une riche histoire.

Auteur: Internet

Info: https://www.quantamagazine.org/ Ben Brubaker, 5 octobre 2023

[ synthèse ]

Commenter

Commentaires: 0

Ajouté à la BD par miguel

Paramètres de recherches