Nous présentons GAIA, un benchmark pour les assistants généraux d'IA qui, s'il était résolu, représenterait une étape importante dans la recherche sur l'IA. GAIA propose des questions du monde réel qui requièrent un ensemble d'aptitudes fondamentales telles que le raisonnement, la gestion de la multi-modalité, la navigation sur Internet et, de manière générale, la maîtrise de l'utilisation d'outils.
Les questions de GAIA sont conceptuellement simples pour les humains mais difficiles pour les IA les plus avancées : nous montrons que les répondants humains obtiennent 92 % contre 15 % pour GPT-4 équipé de plugins. Cette disparité de performance notable contraste avec la tendance récente des LLM (grands modèles de langage) à surpasser les humains sur des tâches nécessitant des compétences professionnelles, par exemple en droit ou en chimie.
La philosophie de GAIA s'écarte de la tendance actuelle des tests d'IA qui suggèrent de cibler des tâches de plus en plus difficiles pour les humains. Nous postulons que l'avènement de l'intelligence artificielle générale (AGI) dépend de la capacité d'un système à faire preuve d'une robustesse similaire à celle de l'homme moyen sur de telles questions.
En utilisant la méthodologie de GAIA, nous avons conçu 466 questions et leurs réponses. Nous publions nos questions tout en conservant les réponses à 300 d'entre elles afin d'alimenter un tableau de classement disponible à cette URL.
Auteur:
Info: GAIA : une référence pour les assistants généraux d'IA Grégoire Mialon, Clémentine Fourrier, Craig Swift, Thomas Wolf, Yann LeCun, Thomas Scialom. Nov 2023 . Thèmes : Calcul et langage (cs.CL) ; Intelligence artificielle (cs.AI) Citer comme suit : arXiv:2311.12983 [cs.CL] (ou arXiv:2311.12983v1 [cs.CL] pour cette version
Commentaires: 0