Le débat pourrait aider les modèles d’IA à converger vers la vérité
Laisser les systèmes d’IA discuter entre eux peut aider à révéler quand un grand modèle linguistique a commis des erreurs.
En février 2023, Bard, le chatbot d'intelligence artificielle de Google, a affirmé que le télescope spatial James Webb avait capturé la première image d'une planète en dehors de notre système solaire. Ce n'était pas le cas. Lorsque des chercheurs de l'université Purdue ont posé plus de 500 questions de programmation à ChatGPT d'OpenAI, plus de la moitié des réponses étaient inexactes.
Ces erreurs étaient faciles à repérer, mais les experts craignent qu’à mesure que les modèles deviennent plus grands et répondent à des questions plus complexes, leur expertise finira par dépasser celle de la plupart des utilisateurs humains. Si de tels systèmes " surhumains " voient le jour, comment pourrons-nous leur faire confiance ? " Les problèmes que vous essayez de résoudre dépassent vos capacités pratiques ", a déclaré Julian Michael, informaticien au Centre de science des données de l'Université de New York. " Comment superviser un système pour qu'il accomplisse avec succès une tâche que vous ne pouvez pas réaliser ? "
Une possibilité est aussi simple qu'extravagante : laisser deux grands modèles débattre de la réponse à une question donnée, avec un modèle plus simple (ou un humain) chargé de reconnaître la réponse la plus précise. En théorie, le processus permet aux deux agents de mettre en évidence les failles dans les arguments de l'autre jusqu'à ce que le juge dispose de suffisamment d'informations pour discerner la vérité. L'approche a été proposée pour la première fois il y a six ans, mais deux séries de conclusions ont été publiées plus tôt cette année, l'une en février de la startup d'IA Anthropic et le deuxième en juillet de Google DeepMind — offrent la première preuve empirique que le débat entre deux LLM aide un juge (humain ou machine) à reconnaître la vérité.
" Ces travaux ont été très importants dans ce qu'ils ont apporté ", a déclaré Michael. Ils offrent également de nouvelles pistes à explorer. Pour ne citer qu'un exemple, Michael et son groupe ont rapporté en septembre que le fait d'entraîner les participants IAs qui débattent à gagner - et pas seulement à converser, comme dans les deux études précédentes - augmentait encore la capacité des juges non-experts à reconnaître la vérité.
L'argument
La création de systèmes d’IA fiables s’inscrit dans un objectif plus vaste appelé alignement, qui vise à garantir qu’un système d’IA partage les mêmes valeurs et objectifs que ses utilisateurs humains. Aujourd’hui, l’alignement repose sur le retour d’information humain, c’est-à-dire sur l’évaluation de l’IA par des personnes. Mais ce retour d’information pourrait bientôt être insuffisant pour garantir l’exactitude d’un système. Ces dernières années, les chercheurs ont de plus en plus appelé à de nouvelles approches en matière de " surveillance évolutive ", qui constituent un moyen de garantir la véracité même lorsque des systèmes surhumains effectuent des tâches que les humains ne peuvent pas effectuer.
Les informaticiens réfléchissent depuis des années à la supervision évolutive. Le débat sur une approche possible a émergé en 2018, avant que les LLM ne deviennent aussi importants et omniprésents qu'ils le sont aujourd'hui. L'un de ses architectes était Geoffrey Irving, qui est aujourd’hui le scientifique en chef de l’Institut de sécurité de l’IA du Royaume-Uni. Il a rejoint OpenAI en 2017, deux ans avant que la société ne lance GPT-2, l’un des premiers LLM à avoir suscité un large intérêt, dans l’espoir de travailler à l’alignement des systèmes d’IA sur les objectifs humains. Leur objectif était la sécurité, a-t-il déclaré, " en essayant simplement de demander aux humains ce qu’ils veulent et [d’amener le modèle à] le faire ".
Son collègue Paul Christiano, aujourd’hui responsable de la sécurité à l’Institut américain de sécurité de l’IA, a abordé ce problème en cherchant des moyens de décomposer des questions complexes en questions plus petites et plus faciles auxquelles un modèle de langage pourrait répondre honnêtement. " Le débat est devenu une variante de ce schéma ", a déclaré Irving, où des arguments successifs ont effectivement divisé une question plus vaste en composants plus petits qui pouvaient être jugés comme exacts.
Irving et Christiano ont travaillé avec Dario Amodei (qui a fondé Anthropic avec sa sœur Daniela en 2021) sur l'utilisation du débat dans les systèmes de langage naturel. (Étant donné que c'était avant GPT-2, les modèles de langage étaient trop faibles pour tester le débat de manière empirique, ils se sont donc concentrés sur des arguments conceptuels et une expérience de jeu-jouet.) L'idée était simple : poser une question à deux copies similaires d'un modèle d'IA puissant et les laisser trouver la réponse pour convaincre un juge qu'ils ont raison. Irving a comparé cela au jeu en solo, qui a aidé les systèmes d'IA à améliorer leurs stratégies dans des jeux comme les échecs et le Go.
Le trio a conçu des jeux rudimentaires impliquant des images et des questions textuelles. Dans l’un des jeux, deux modèles d’IA avaient chacun accès à la même image représentant le chiffre 5. L’un des modèles affirmait que l’image était en fait le chiffre 5, l’autre qu’il s’agissait d’un 6. Les modèles concurrents se relayaient pour révéler plus de pixels au juge, ce qui constituait un modèle plus faible. Après six tours, le juge a deviné le chiffre avec précision dans 89 % des cas. Lorsqu’on lui montrait des pixels aléatoires, le juge n’a deviné correctement que dans 59 % des cas.
Cet exemple simple, décrit en octobre 2018, a suggéré que le débat pouvait conférer un avantage. Mais les auteurs ont noté plusieurs réserves. Les humains ont tendance à croire ce qu’ils veulent entendre, par exemple, et dans des situations réelles, cet instinct peut prendre le pas sur l’avantage du débat. En outre, certaines personnes sont probablement plus aptes à juger les débats que d’autres – peut-être en est-il de même pour les modèles linguistiques ?
Les auteurs ont également appelé à une meilleure compréhension de la façon dont les humains pensent. Dans un essai de 2019, Irving et Amanda Askell, aujourd'hui chez Anthropic, ont fait valoir que si les systèmes d'IA veulent s'aligner sur les valeurs humaines, nous devons mieux comprendre comment les humains agissent en fonction de nos valeurs. Selon eux, la recherche sur l'IA doit intégrer davantage de travaux sur la manière dont les humains prennent des décisions et parviennent à des conclusions sur la vérité et le mensonge. Les chercheurs ne seront pas en mesure de comprendre comment organiser un débat s'ils ne savent pas comment les gens jugent les arguments ou comment ils parviennent à la vérité.
Pouvoir de persuasion
Un petit sous-ensemble d'informaticiens et de linguistes ont rapidement commencé à rechercher les avantages du débat. Ils ont trouvé des exemples où cela n'a pas aidé. Dans une étude de 2022 les chercheurs ont soumis des humains à un test difficile à choix multiples et ont demandé aux LLM de fournir des arguments pour différentes réponses. Mais les personnes qui ont entendu les arguments générés par l'IA n'ont pas obtenu de meilleurs résultats au test que celles qui n'ont pas interagi du tout avec les LLMs.
Même si les LLM n'ont pas aidé les humains, certains indices laissaient penser qu'ils pourraient aider les modèles linguistiques. Dans un article de 2023, les chercheurs ont rapporté que lorsque plusieurs copies d'un LLM étaient autorisées à débattre et à converger vers une réponse, plutôt que de convaincre un juge, elles se montraient plus précises, plus souvent. Les deux résultats de cette année sont parmi les premiers tests empiriques à montrer qu'un débat entre LLM peut fonctionner lorsqu'il est jugé par un autre modèle, moins informé.
Le groupe Anthropic a montré à deux modèles experts des extraits d'une histoire de science-fiction, puis leur a posé des questions de compréhension. Chaque modèle a proposé une réponse et, au cours de plusieurs tours, a défendu sa propre réponse et a argumenté contre l'autre. Un juge évaluait ensuite les arguments et décidait qui avait raison. Dans certains cas, le juge avait accès à des citations vérifiées du texte original ; dans d'autres pas.
Lorsque les LLM avaient été entraînés spécifiquement pour être persuasifs, les juges LLM non experts sont parvenus à la bonne réponse dans 76 % des cas. En revanche, lors des tests sans débat, les juges non humains n'ont répondu correctement que dans 54 % des cas, un résultat à peine meilleur qu'en tirant à pile ou face.
" Ils ont réussi à rendre les modèles suffisamment performants en matière de débat pour que l'on puisse commencer à voir des résultats ", a déclaré Michael.
Deux mois plus tard, l’équipe de Google DeepMind a présenté une expérience similaire avec une variété de tâches et de contraintes, en laissant les modèles linguistiques choisir leur propre camp dans le débat, par exemple. Les tâches comprenaient des questions de compréhension de lecture à choix multiples, des questions sur des articles de Wikipédia et des questions de type oui/non sur des sujets de mathématiques et de sciences de niveau universitaire. Certaines questions impliquaient des images et du texte.
Dans toutes les tâches et configurations expérimentales, le débat a toujours conduit à une plus grande précision. C’était encourageant et pas totalement inattendu. " En principe, nous nous attendons à ce que le débat surpasse ces valeurs de référence dans la plupart des tâches ", a déclaré Zachary Kenton, qui a codirigé l’étude DeepMind. " C’est parce que le juge a l’occasion de voir les deux faces de l’argument dans un débat et devrait donc être mieux informé. "
Avec ces deux études, les chercheurs ont montré pour la première fois que le débat pouvait faire la différence en permettant à d’autres systèmes d’IA de juger de l’exactitude des déclarations d’un LLM. C’est une étape passionnante, mais il reste encore beaucoup de travail avant que nous puissions tirer parti de manière fiable de la confrontation de débatteurs numériques.
Ludifier le débat
La première question est de savoir dans quelle mesure les LLM sont sensibles aux spécificités de leurs contributions et à la structure de l’argumentation. Le comportement des LLM " est sensible à des caractéristiques sans importance telles que le fait de savoir quel débatteur a eu le dernier mot ", a déclaré Kenton. " Ce qui peut conduire à ce que les débats ne dépassent pas ces bases de référence simples sur certaines tâches. "
Ce n’est qu’un début. Le groupe Anthropic a trouvé des preuves montrant que les juges d’IA peuvent être influencés par un argument plus long, même s’il est moins convaincant. D’autres tests ont montré que les modèles peuvent montrer ce qu’on appelle un biais de flagornerie – la tendance d’un LLM à revenir sur une réponse correcte pour faire plaisir à l’utilisateur. Beaucoup de gens ont cette expérience avec des modèles où il dit quelque chose, et si vous dites “Non, c’est faux”, il dira “Oh, je suis vraiment désolé”, a déclaré Michael. " Le modèle dit “Oh, vous avez raison. Deux plus deux font cinq.”
Il faut également prendre en compte la situation dans son ensemble : les chercheurs de l'Oxford Internet Institute soulignent que même si les nouveaux articles apportent des preuves empiriques selon lesquelles les LLM peuvent s'orienter mutuellement vers l'exactitude, les résultats ne sont peut-être pas applicables à grande échelle. Sandra Wachter, qui étudie l'éthique et le droit, souligne que les tests comportaient des réponses clairement bonnes ou mauvaises. " C'est peut-être vrai pour un domaine comme les mathématiques, où il existe une vérité de base acceptée, mais dans d'autres cas, " c'est très compliqué, ou c'est très gris, ou vous avez besoin de beaucoup de nuances ". En fin de compte, ces modèles ne sont pas encore totalement compris, ce qui rend difficile de leur faire confiance en tant que juges potentiels.
Enfin, Irving souligne que les chercheurs qui travaillent sur le débat devront répondre à des questions plus vastes. Le débat exige que les débatteurs soient meilleurs que le juge, mais " meilleurs " dépendra de la tâche. " Quelle est la notion-dimension à propos de laquelle les débatteurs en savent le plus? ", a-t-il demandé. Dans ces tests, il s'agit de connaissances. Dans les tâches qui nécessitent du raisonnement ou, par exemple, comment câbler une maison électriquement, cette dimension peut être différente.
Selon Irving, trouver des solutions de surveillance évolutives est un défi critique et ouvert en matière de sécurité de l’IA à l’heure actuelle.
Il est donc encourageant de disposer de preuves empiriques de l’efficacité d’une méthode, même dans certaines situations seulement. " Ce sont des pas dans la bonne direction ", a déclaré Irving. " Il se pourrait que nous poursuivions ces expériences et obtenions des résultats positifs, qui s’amélioreront avec le temps. "