Les machines intelligentes apprennent à être curieuses
Les informaticiens trouvent des moyens de coder la curiosité dans des machines intelligentes.
ous ne vous souvenez probablement pas de ce que l'on ressent en jouant à Super Mario Bros. pour la toute première fois, mais essayez de vous le représenter. Un monde de jeu 8 bits apparaît : un ciel bleu pâle, un sol en pierre et entre les deux, un homme trapu en costume rouge qui se tient immobile, en attente. Il regarde vers la droite ; vous le poussez plus loin dans cette direction. Quelques pas supplémentaires révèlent une rangée de briques flottant au-dessus de votre tête et ce qui ressemble à un champignon ambulant et en colère. Une autre secousse des commandes du jeu fait bondir l'homme, son poing de quatre pixels pointé vers le ciel. Et maintenant ? Essayez peut-être de combiner le coup de pouce vers la droite et le saut vers le ciel ? C'est fait. Puis, une surprise : le petit homme se cogne la tête contre l'une des briques flottantes, qui se fléchit vers le haut puis se replie comme si elle était à ressort, propulsant l'homme vers la terre sur le champignon en colère qui approche et l'aplatit instantanément. Mario rebondit sur les restes écrasés avec un léger saut. Au-dessus, des boîtes couleur cuivre avec des " ?" lumineux. Les symboles semblent demander : Et maintenant ?
Cette scène semblera familière à tous ceux qui ont grandi dans les années 1980, mais vous pouvez regarder un joueur beaucoup plus jeune sur la chaîne YouTube de Pulkit Agrawal. Agrawal, chercheur en informatique à l'Université de Californie à Berkeley, étudie comment la curiosité innée peut rendre l'apprentissage d'une tâche inconnue - comme jouer à Super Mario Bros. pour la toute première fois - plus efficace. Le problème est que le joueur novice dans la vidéo d'Agrawal n'est pas humain, ni même vivant. Comme Mario, ce n'est qu'un logiciel. Mais ce logiciel est équipé d' algorithmes expérimentaux d'apprentissage automatique conçu par Agrawal et ses collègues Deepak Pathak, Alexeï A. Efros et Trevor Darrell au laboratoire de recherche en intelligence artificielle de Berkeley dans un but surprenant : rendre une machine curieuse.
" On peut considérer la curiosité comme une sorte de récompense que l’agent génère lui-même en interne, afin de pouvoir explorer davantage son monde ", explique Agrawal. Ce signal de récompense généré en interne est connu en psychologie cognitive sous le nom de " motivation intrinsèque ". Le sentiment que vous avez peut-être éprouvé par procuration en lisant la description du jeu ci-dessus – une envie de révéler davantage de ce qui vous attend juste hors de vue, ou juste hors de votre portée, juste pour voir ce qui se passe – c’est la motivation intrinsèque.
Les humains réagissent également à des motivations extrinsèques, qui trouvent leur origine dans l’environnement. On peut citer par exemple le salaire perçu au travail ou une demande formulée sous la menace d’une arme. Les informaticiens appliquent une approche similaire, appelée apprentissage par renforcement, pour entraîner leurs algorithmes : le logiciel obtient des " points " lorsqu’il exécute une tâche souhaitée, tandis que des pénalités sont appliquées en cas de comportement indésirable.
Mais cette approche de la carotte et du bâton en matière d’apprentissage automatique a ses limites, et les chercheurs en intelligence artificielle commencent à considérer la motivation intrinsèque comme un élément important des agents logiciels capables d’apprendre de manière efficace et flexible, c’est-à-dire moins comme des machines fragiles et plus comme des humains et des animaux. Les approches d’utilisation de la motivation intrinsèque en IA s’inspirent de la psychologie et de la neurobiologie, sans parler des recherches sur l’IA elles-mêmes vieilles de plusieurs décennies, désormais d’actualité. (" Rien n’est vraiment nouveau dans l’apprentissage automatique ", a déclaré Rein Houthooft, chercheur scientifique chez OpenAI, une organisation indépendante de recherche en intelligence artificielle.)
De tels agents peuvent être formés sur des jeux vidéo aujourd’hui, mais l’impact du développement d’une IA véritablement " curieuse " dépasserait tout attrait pour la nouveauté. " Choisissez votre domaine d’application préféré et je vous donnerai un exemple ", a déclaré Darrell, codirecteur du laboratoire d’intelligence artificielle de Berkeley. " Chez nous, nous voulons automatiser le nettoyage et l’organisation des objets. Dans le domaine de la logistique, nous voulons que les stocks puissent être déplacés et manipulés. Nous voulons des véhicules capables de naviguer dans des environnements complexes et des robots de sauvetage capables d’explorer un bâtiment et de trouver les personnes qui ont besoin d’être secourues. Dans tous ces cas, nous essayons de résoudre ce problème très difficile : comment créer une machine capable de déterminer sa propre tâche ? "
Le problème avec les points
L’apprentissage par renforcement est l’un des éléments qui a permis au logiciel AlphaGo de Google de battre le meilleur joueur humain au monde à Go , un jeu ancien et intuitif longtemps considéré comme invulnérable à l’apprentissage automatique. Les détails de l’utilisation réussie de l’apprentissage par renforcement dans un domaine particulier sont complexes, mais l’idée générale est simple : donner à un algorithme d’apprentissage, ou " agent ", une fonction de récompense, un signal défini mathématiquement à rechercher et à maximiser. Puis, le lâcher dans un environnement, qui peut être n’importe quel monde réel ou virtuel. Lorsque l’agent opère dans l’environnement, les actions qui augmentent la valeur de la fonction de récompense sont renforcées. Avec suffisamment de répétition (et s’il y a une chose dans laquelle les ordinateurs sont meilleurs que les humains, c’est la répétition), l’agent apprend des modèles d’action, ou des politiques, qui maximisent sa fonction de récompense. Idéalement, ces politiques permettront à l’agent d’atteindre un état final souhaitable (comme " gagner à Go "), sans qu’un programmeur ou un ingénieur n’ait à coder à la main chaque étape que l’agent doit franchir en cours de route.
En d’autres termes, une fonction de récompense est le système de guidage qui maintient un agent basé sur l’apprentissage par renforcement concentré sur sa cible. Plus cette cible est clairement définie, plus l’agent est performant – c’est pourquoi beaucoup d’entre eux sont actuellement testés sur d’anciens jeux vidéo, qui proposent souvent des systèmes de récompense extrinsèques simples basés sur des points. (Les graphiques en blocs et en deux dimensions sont également utiles : les chercheurs peuvent exécuter et répéter leurs expériences rapidement car les jeux sont relativement simples à émuler.) Mais " dans le monde réel, il n'y a pas de but ", a déclaré Agrawal. Les informaticiens veulent que leurs créations explorent de nouveaux environnements qui ne sont pas préchargés avec des objectifs quantifiables.
De plus, si l’environnement ne fournit pas de récompenses extrinsèques assez rapidement et régulièrement, l’agent " n’a aucune idée s’il fait quelque chose de bien ou de mal ", a déclaré Houthooft. Comme un missile à tête chercheuse incapable de se verrouiller sur une cible, " il n’a aucun moyen de [se guider dans] son environnement, donc il part en vrille ".
De plus, même les fonctions de récompense extrinsèques soigneusement définies qui peuvent guider un agent vers un comportement remarquablement intelligent – comme la capacité d’AlphaGo à battre le meilleur joueur de Go humain du monde – ne seront pas facilement transférables ou généralisables à tout autre contexte sans modifications importantes. Et ce travail doit être fait à la main, ce qui est précisément le genre de travail que l’apprentissage automatique est censé nous aider à éviter en premier lieu.
Au lieu d’une batterie d’agents pseudo-intelligents capables de frapper de manière fiable des cibles spécifiques comme ces missiles, ce que nous attendons vraiment de l’IA, c’est plutôt une capacité de pilotage interne. "Vous créez vos propres récompenses, n’est-ce pas ? ", a déclaré Agrawal. " Il n’y a pas de dieu qui vous dit constamment " plus un " pour faire ceci ou " moins un " pour faire cela. "
La curiosité comme copilote
Deepak Pathak n'a jamais cherché à modéliser quelque chose d'aussi psychologique que la curiosité dans le code. " Le mot 'curiosité' ne signifie rien d'autre que 'un modèle qui conduit un agent à explorer efficacement son environnement en présence de bruit' ", a déclaré Pathak, chercheur au laboratoire de Darrell à Berkeley et auteur principal des travaux récents.
Mais en 2016, Pathak s'est intéressé au problème des récompenses éparses pour l'apprentissage par renforcement. Les logiciels d'apprentissage profond, alimentés par des techniques d'apprentissage par renforcement, ont récemment réalisé des progrès significatifs dans les jeux Atari simples axés sur le score comme Space Invaders et Breakout. Mais même des jeux légèrement plus complexes comme Super Mario Bros. — qui nécessitent de naviguer vers un objectif éloigné dans le temps et l'espace sans récompenses constantes, sans parler de la capacité d'apprendre et d'exécuter avec succès des mouvements composites comme courir et sauter en même temps — étaient toujours hors de portée d'une IA.
Pathak et Agrawal, en collaboration avec Darrell et Efros, ont équipé leur agent d'apprentissage de ce qu'ils appellent un module de curiosité intrinsèque (ICM) conçu pour le faire avancer dans le jeu sans déraper (pour reprendre le terme de Houthooft). L'agent, après tout, n'a absolument aucune compréhension préalable de la façon de jouer à Super Mario Bros. — en fait, il ressemble moins à un joueur novice qu'à un nouveau-né.
En effet, Agrawal et Pathak se sont inspirés du travail d’ Alison Gopnik et Laura Schulz, psychologues du développement à Berkeley et au Massachusetts Institute of Technology, respectivement, qui ont montré que les bébés et les tout-petits sont naturellement attirés par les objets qui les surprennent le plus, plutôt que par ceux qui sont utiles pour atteindre un objectif extrinsèque. " Une façon d’expliquer ce type de curiosité chez les enfants est qu’ils construisent un modèle de ce qu’ils savent du monde, puis ils mènent des expériences pour en savoir plus sur ce qu’ils ne savent pas ", a déclaré Agrawal. Ces " expériences " peuvent être tout ce qui génère un résultat que l’agent (dans ce cas, un nourrisson) trouve inhabituel ou inattendu. L’enfant peut commencer par des mouvements aléatoires des membres qui provoquent de nouvelles sensations (connus sous le nom de " babillage moteur "), puis progresser vers des comportements plus coordonnés comme mâcher un jouet ou renverser une pile de blocs pour voir ce qui se passe.
Dans la version de Pathak et Agrawal basée sur l’apprentissage automatique de cette curiosité induite par la surprise, l’IA commence par représenter mathématiquement à quoi ressemble l’image vidéo actuelle de Super Mario Bros. Puis elle prédit à quoi ressemblera le jeu dans plusieurs images. Un tel exploit est tout à fait à la portée des systèmes d’apprentissage profond actuels. Mais l’ICM de Pathak et Agrawal fait encore plus. Il génère un signal de récompense intrinsèque défini par le degré d’erreur de ce modèle de prédiction. Plus le taux d’erreur est élevé, c’est-à-dire plus le système est surpris, plus la valeur de sa fonction de récompense intrinsèque est élevée. En d’autres termes, si une surprise équivaut à remarquer que quelque chose ne se passe pas comme prévu, c’est-à-dire à être faux, alors le système de Pathak et Agrawal est récompensé pour avoir été surpris.
Ce signal généré en interne attire l'agent vers des états inexplorés du jeu : de manière informelle, il devient curieux de ce qu'il ne connaît pas encore. Et à mesure que l'agent apprend, c'est-à-dire que son modèle de prédiction devient de moins en moins erroné, son signal de récompense provenant du modèle de prédiction interne diminue, ce qui permet à l'agent de maximiser le signal de récompense en explorant d'autres situations plus surprenantes. " C'est un moyen d'accélérer l'exploration ", a déclaré Pathak.
Cette boucle de rétroaction permet également à l'IA de sortir rapidement d'un état d'ignorance quasi-totale. Au début, l'agent est curieux de tout mouvement de base disponible pour son corps à l'écran : appuyer sur la touche droite pousse Mario vers la droite, puis il s'arrête ; appuyer sur la touche droite plusieurs fois de suite fait bouger Mario sans s'arrêter immédiatement ; appuyer sur la touche haut le fait bondir dans les airs, puis redescendre ; appuyer sur la touche bas n'a aucun effet. Ce babillage moteur simulé converge rapidement vers des actions utiles qui font avancer l'agent dans le jeu, même s'il ne le sait pas.
Par exemple, comme appuyer sur la touche vers le bas a toujours le même effet (rien), l'agent apprend rapidement à prédire parfaitement l'effet de cette action, ce qui annule le signal de récompense fourni par la curiosité qui lui est associé. Appuyer sur la touche vers le haut, en revanche, a toutes sortes d'effets imprévisibles : parfois, Mario monte tout droit, parfois en arc de cercle ; parfois, il fait un petit saut, d'autres fois, un grand saut ; parfois, il ne redescend pas (si, par exemple, il atterrit sur un obstacle). Tous ces résultats sont enregistrés comme des erreurs dans le modèle de prédiction de l'agent, ce qui entraîne un signal de récompense de l'ICM, ce qui incite l'agent à continuer d'expérimenter cette action. Se déplacer vers la droite (qui révèle presque toujours plus de monde de jeu) a des effets similaires sur la curiosité. L'impulsion de se déplacer vers le haut et vers la droite est clairement visible dans la vidéo de démonstration d'Agrawal : En quelques secondes, Mario contrôlé par l'IA commence à sauter vers la droite comme un bambin hyperactif, provoquant des effets de plus en plus imprévisibles (comme se cogner contre une brique en vol stationnaire ou écraser accidentellement un champignon), qui poussent tous vers une exploration plus poussée.
" En utilisant cette curiosité, l'agent apprend à faire tout ce dont il a besoin pour explorer le monde, comme sauter et tuer des ennemis ", explique Agrawal. " Il n'est même pas pénalisé s'il meurt. Mais il apprend à éviter de mourir, car ne pas mourir maximise son exploration. Il se renforce lui-même, sans obtenir de renforcement du jeu. "
Éviter le piège de la nouveauté
La curiosité artificielle est un sujet de recherche en IA depuis au moins le début des années 1990. Une façon de formaliser la curiosité dans les logiciels est centrée sur la recherche de nouveauté : l’agent est programmé pour explorer des états inconnus dans son environnement. Cette définition large semble capturer une compréhension intuitive de l’expérience de la curiosité, mais dans la pratique, elle peut amener l’agent à se retrouver piégé dans des états qui satisfont sa motivation intrinsèque mais empêchent toute exploration plus poussée.
Imaginez par exemple un téléviseur dont l’écran ne contient que des parasites. Un tel élément susciterait rapidement la curiosité d’un agent en quête de nouveauté, car un carré de bruit visuel clignotant de manière aléatoire est, par définition, totalement imprévisible d’un moment à l’autre. Étant donné que chaque motif de parasites semble entièrement nouveau à l’agent, sa fonction de récompense intrinsèque fera en sorte qu’il ne puisse jamais cesser de prêter attention à cette caractéristique unique et inutile de l’environnement – et il se retrouvera piégé.
Il s’avère que ce type de nouveauté inutile est omniprésent dans le type d’environnements riches en fonctionnalités – virtuels ou physiques – que l’IA doit apprendre à gérer pour devenir vraiment utile. Par exemple, un véhicule de livraison autonome équipé d’une fonction de récompense intrinsèque à la recherche de nouveauté pourrait ne jamais dépasser la fin du pâté de maisons. " Imaginons que vous vous déplacez dans une rue, que le vent souffle et que les feuilles d’un arbre bougent ", explique Agrawal. " Il est très, très difficile de prédire où ira chaque feuille. Si vous prédisez des pixels, ce type d’interactions entraînera des erreurs de prédiction élevées et suscitera une grande curiosité. Nous voulons éviter cela. "
Agrawal et Pathak ont dû trouver un moyen de garder leur agent curieux, mais pas trop curieux. Prédire les pixels, c'est-à-dire utiliser l'apprentissage profond et la vision par ordinateur pour modéliser le champ de vision d'un agent dans son intégralité d'un instant à l'autre, rend difficile le filtrage des distractions potentielles. C'est également coûteux en termes de calcul.
Les chercheurs de Berkeley ont donc conçu leur agent Mario pour traduire ses entrées visuelles à partir de pixels bruts en une version abstraite de la réalité. Cette abstraction intègre uniquement les caractéristiques de l'environnement qui ont le potentiel d'affecter l'agent (ou que l'agent peut influencer). En substance, si l'agent ne peut pas interagir avec un objet, il ne sera même pas perçu en premier lieu.
L’utilisation de cet " espace de caractéristiques " simplifié (par opposition à l’" espace de pixels " non traité) simplifie non seulement le processus d’apprentissage de l’agent, mais évite également le piège de la nouveauté. " L’agent ne peut tirer aucun avantage de la modélisation, par exemple, de nuages se déplaçant au-dessus de sa tête, pour prédire les effets de ses actions ", explique Darrell. " Il ne va donc tout simplement pas prêter attention aux nuages lorsqu’il est curieux. Les versions précédentes de la curiosité – du moins certaines d’entre elles – ne prenaient en compte que la prédiction au niveau des pixels. Ce qui est formidable, sauf lorsque vous passez soudainement à côté d’une chose très imprévisible mais très ennuyeuse. "
Les limites de la curiosité artificielle
Darrell a concédé que ce modèle de curiosité n’était pas parfait. " Le système apprend ce qui est pertinent, mais il n’y a aucune garantie qu’il le fasse toujours correctement ", a-t-il déclaré. En effet, l’agent ne parvient qu’à la moitié du premier niveau de Super Mario Bros. avant de se retrouver piégé dans son propre optimum local particulier. " Il y a ce grand espace que l’agent doit franchir, ce qui nécessite d’exécuter 15 ou 16 actions continues dans un ordre très, très spécifique ", a déclaré Agrawal. " Comme il n’est jamais capable de franchir cet espace, il meurt à chaque fois en y allant. Et lorsqu’il apprend à prédire parfaitement ce résultat, il cesse de s’intéresser à aller plus loin dans le jeu. " (Pour défendre l’agent, Agrawal fait remarquer que ce défaut apparaît parce que l’IA ne peut appuyer sur ses commandes directionnelles simulées que dans des intervalles discrets, ce qui rend certains mouvements impossibles.)
En fin de compte, le problème de la curiosité artificielle est que même les chercheurs qui étudient la motivation intrinsèque depuis des années ne parviennent toujours pas à définir précisément ce qu'est la curiosité. Paul Schrater, un neuroscientifique qui dirige le laboratoire de perception et d'action computationnelles de l'université du Minnesota, a déclaré que le modèle de Berkeley " est la chose la plus intelligente à faire à court terme pour amener un agent à apprendre automatiquement un nouvel environnement ", mais il pense que cela a moins à voir avec " le concept intuitif de curiosité " qu'avec l'apprentissage et le contrôle moteurs. " Il s'agit de contrôler des choses qui sont en dessous de la cognition, et plus dans les détails de ce que fait le corps ", a-t-il déclaré.
Pour Schrater, l’idée novatrice de l’équipe de Berkeley consiste à associer leur module de curiosité intrinsèque à un agent qui perçoit Super Mario Bros. comme un espace de fonctionnalités plutôt que comme des trames séquentielles de pixels. Il soutient que cette approche peut se rapprocher de la façon dont notre propre cerveau " extrait les fonctionnalités visuelles qui sont pertinentes pour un type particulier de tâche ".
La curiosité peut également nécessiter qu'un agent soit au moins quelque peu incarné (virtuellement ou physiquement) dans un environnement pour avoir une réelle signification, a déclaré Pierre-Yves Oudeyer. Oudeyer, directeur de recherche à l'Inria de Bordeaux, en France, crée des modèles informatiques de curiosité depuis plus d'une décennie. Il a souligné que le monde est si vaste et riche qu'un agent peut trouver des surprises partout. Mais cela ne suffit pas. " Si vous avez un agent désincarné qui utilise la curiosité pour explorer un grand espace de caractéristiques, son comportement finira par ressembler à une exploration aléatoire car il n'a aucune contrainte sur ses actions ", a déclaré Oudeyer. " Les contraintes d'un corps, par exemple, permettent de simplifier le monde. " Elles concentrent l'attention et aident à guider l'exploration.
Mais tous les agents incarnés n’ont pas besoin d’une motivation intrinsèque, comme le montre clairement l’histoire de la robotique industrielle. Pour des tâches plus simples à spécifier (par exemple, transporter une cargaison d’un endroit à un autre à l’aide d’un robot qui suit une ligne jaune peinte sur le sol), ajouter de la curiosité à l’équation serait une exagération de l’apprentissage automatique.
" On pourrait simplement donner à ce type d’agent une fonction de récompense parfaite, c’est-à-dire tout ce qu’il doit savoir à l’avance ", explique Darrell. " Nous aurions pu résoudre ce problème il y a 10 ans. Mais si vous placez un robot dans une situation qui ne peut pas être modélisée à l’avance, comme une opération de recherche et de sauvetage en cas de catastrophe, il doit sortir et apprendre à explorer par lui-même. Cela va au-delà de la simple cartographie : il doit apprendre les effets de ses propres actions sur l’environnement. Il faut absolument qu’un agent soit curieux lorsqu’il apprend à faire son travail. "
L’IA est souvent définie de manière informelle comme " tout ce que les ordinateurs ne peuvent pas encore faire ". Si la motivation intrinsèque et la curiosité artificielle sont des méthodes permettant d’amener les agents à comprendre des tâches que nous ne savons pas encore automatiser, alors " c’est quelque chose que nous voudrions certainement que toute IA possède ", a déclaré Houthooft, le chercheur d’OpenAI. " La difficulté est de la régler. " L’agent Mario d’Agrawal et Pathak ne sera peut-être pas capable de dépasser le monde 1-1 tout seul. Mais c’est probablement à cela que ressemblera le réglage de la curiosité – artificielle ou autre – : une série de petits pas.