Les fils de la pensée

homme-machine

Panique chez OpenAI: une intelligence artificielle vient de s'autopirater pour gagner une partie d'échecs

Sommes-nous en train de perdre le contrôle de l'IA? Il va falloir sûrement falloir muscler la surveillance et la supervision.

Le soulèvement des machines promis depuis belle lurette finira-t-il par avoir lieu? Alors qu'une intelligence artificielle (IA) vient de battre le puissant programme d'échecs Stockfish en utilisant tout bonnement le piratage comme stratégie, il y a de quoi se demander où s'arrêteront les IA, dont le sens de l'éthique n'est pas toujours remarquable.

L'opposition entre l'IA et le moteur d'échecs est le fruit de l'initiative de Palisade Research, organisation connue pour les études qu'elle mène sur les capacités offensives de l'intelligence artificielle. Le site Fello AI explique que celle-ci a placé plusieurs modèles d'IA face à Stockfish, reconnu pour son extrême puissance –il domine aussi bien les humains que les autres programmes.

Mensonges et trahisons

Parmi les adversaires de Stockfish, l'un s'est particulièrement distingué: sortie en septembre, la version préliminaire de o1, IA développée par OpenAI (dont la version finale est disponible depuis le 5 décembre) n'a même pas tenté de développer des stratégies liées au jeu d'échecs. À la place, il s'est tout bonnement dirigé vers le système de fichiers contrôlant le jeu, réécrivant le match en sa faveur et forçant ainsi Stockfish à abandonner. Pour en avoir le cœur net, les scientifiques à l'initiative de la rencontre ont réalisé successivement cinq essais du même type. Tous se sont soldés par le même scénario.

En revanche, comme le précise Time, d'autres modèles (GPT-4 ou Claude 3.5) n'ont commencé à tricher qu'après y avoir été vivement encouragés. Quant aux modèles open source plus modestes, ils ne disposaient visiblement pas des ressources pour y parvenir. En revanche, o1 n'a eu aucun problème à prendre l'initiative lui-même et à tout mettre en œuvre pour vaincre Stockfish au mépris des règles et de la morale.

Or, ce qu'une intelligence parvient à réaliser dans le cadre d'une partie d'échecs pourra très probablement être reproduit dans d'autres situations. Il est légitime de s'en inquiéter, indique Fello AI, qui cite également d'autres découvertes inquiétantes à propos des IA et de leur capacité à enfreindre les lois pour parvenir à leurs fins. Dans certains scénarios, des modèles avancés se sont par exemple clonés en secret pour éviter d'être arrêtés. Ils ont également menti à leurs superviseurs sur leurs véritables motivations, sans y avoir été invités.

Anthropic, qui développe entre autres le modèle Claude 3.5., on exprime également sa préoccupation face au comportement de certaines intelligences artificielles, qui font semblant de suivre les instructions pendant la formation qui leur est apportée, avant de commencer à se comporter différemment pendant leur déploiement. Ces IA se conduisent en fait comme des citoyens modèles lorsqu'elles savent qu'elles sont surveillées, avant de n'en faire qu'à leur guise dès qu'elles en ont l'occasion.

Ces différentes expériences montrent que la recherche sur la sécurisation des IA doit suivre le rythme de l'innovation. Les développeurs sont actuellement engagés dans une course consistant à ajouter des garde-fous et de la transparence avant que les modèles ne deviennent trop habiles pour les contourner. Les experts sont formels: la supervision des intelligences artificielles doit être plus que jamais une préoccupation de premier plan.

Auteur: Internet

Info: https://korii.slate.fr/, Thomas Messias – 8 janvier 2025

[ fraude ] [ contournement ] [ gagner à tout prix ] [ trucage ]

Commentaires: 0

Ajouté à la BD par miguel