Comment le cerveau code les visages
Nous repérons et distinguons très facilement des milliers de visages. Comment notre cerveau réussit-il cet exploit ? L’étude de l’activité neuronale chez le singe suggère que cette étonnante faculté repose sur des opérations assez simples.
Un jour, au lycée, j’ai découvert la notion de densité de courbes lors d’un cours d’introduction au calcul différentiel. Une simple paire d’équations différentielles, qui modélisent l’interaction entre la population d’un prédateur et celle d’une proie, peut donner lieu à une infinité de courbes fermées (imaginez par exemple une infinité de cercles concentriques nichés les uns dans les autres, comme sur une cible). De plus, la densité de ces courbes sur le plan varie de point en point.
Cela m’a semblé très étrange. Je pouvais facilement imaginer un nombre fini de courbes qui se rapprochent ou s’écartent. Mais comment une infinité de courbes peut-elle être plus dense à un endroit et moins dense à un autre ? J’ai vite appris qu’il existe différents types d’infini, aux propriétés paradoxales, comme avec l’" hôtel de Hilbert " (dont toutes les chambres sont occupées, mais qui peut toujours héberger de nouveaux clients) ou avec le paradoxe de Banach-Tarski (on peut diviser une boule en cinq morceaux qui, réarrangés, donnent deux boules ayant chacune le même volume que l’originale). J’ai passé des heures à me pencher sur les démonstrations de ces propriétés. Je les ai finalement acceptées comme une magie symbolique sans conséquences réelles, mais ma curiosité était piquée.
Plus tard, étudiante à l’institut de technologie de Californie (Caltech), j’ai pris connaissance des expériences de David Hubel et Torsten Wiesel (lauréats du Nobel en 1981) et de leur découverte historique sur la façon dont le cortex visuel primaire, une aire du cerveau, extrait des contours à partir d’images transmises par les yeux. Je me suis rendu compte que ce qui m’avait réellement mystifiée au lycée, c’était le fait d’essayer d’imaginer différentes densités d’infini. Contrairement aux courbes mathématiques que j’évoquais plus haut, les contours décrits par Hubel et Wiesel résultent d’un traitement par les neurones de la vision et existent donc bel et bien dans le cerveau. J’ai ainsi acquis la conviction que la neurobiologie de la vision était un moyen de comprendre comment on perçoit consciemment une courbe.
Captivée par ce défi, j’ai entrepris de découvrir comment les profils d’activité électrique dans le cerveau codent la perception d’objets visuels – pas seulement des lignes et des courbes, mais aussi des objets difficiles à définir tels que des visages. Pour ce faire, il fallait repérer les régions du cerveau dédiées à la reconnaissance faciale et déchiffrer leur code neuronal, c’est-à-dire les profils d’impulsions électriques qui nous permettent d’identifier les personnes de notre entourage.
Cette quête a débuté en 2002 à l’université Harvard, où j’ai étudié le mécanisme de la vision en relief, qui exploite les différences entre les images fournies par les deux yeux. Un jour, je suis tombée sur un article de Nancy Kanwisher, du MIT (l’institut de technologie du Massachusetts), et de ses collègues ; cet article relatait la découverte d’une région du cerveau humain qui réagit beaucoup plus fortement aux images de visages qu’aux images de tout autre objet, lors d’enregistrements de l’activité cérébrale en imagerie par résonance magnétique fonctionnelle (IRMf). Cela me semblait bizarre. La notion de zone spécifiquement consacrée au traitement des visages semblait trop simple pour être vraie.
Des zones du cerveau dédiées aux visages
Au cours de mes travaux de doctorat, j’avais utilisé l’IRMf sur des singes pour identifier les zones activées par la perception du relief. J’ai décidé de montrer des images de visages ainsi que d’autres objets à un singe. En comparant l’activité du cerveau du singe en réaction aux différentes images, j’ai repéré plusieurs zones du lobe temporal (la zone située sous les tempes), en particulier dans une région nommée cortex inférotemporal (IT), qui s’activaient seulement à la vue de visages. Au début des années 1970, Charles Gross, pionnier dans le domaine de la vision, avait découvert des neurones spécifiques des visages dans le cortex IT des macaques. D’autres travaux ont par la suite montré que ces cellules ne se répartissaient pas au hasard dans le cortex IT, mais se concentraient dans certaines sous-régions.
Après avoir publié, en 2006, une telle étude effectuée par IRMf, on m’a invitée à donner une conférence là-dessus, dans le cadre d’une candidature à un poste de professeur à Caltech. Cette candidature n’a pas abouti. L’IRMf, qui mesure localement le flux sanguin, suscitait à l’époque beaucoup de scepticisme. On faisait valoir que le fait de montrer une augmentation du flux sanguin dans une zone cérébrale lorsqu’un sujet regarde des visages est bien loin de clarifier ce que les neurones de cette zone codent vraiment, car la relation entre le flux sanguin et l’activité électrique n’est pas claire. Peut-être était-ce simplement par hasard que ces zones contenaient un nombre légèrement plus grand de neurones sensibles aux visages ?
Comme j’avais réalisé l’expérience d’imagerie sur le singe, je pouvais directement répondre à cette préoccupation en insérant une électrode dans une zone identifiée par IRMf et en déterminant quelles images déclenchent le plus efficacement les neurones de cette région. J’ai effectué cette expérience avec Winrich Freiwald, alors postdoctorant dans le laboratoire de Margaret Livingstone à Harvard, où j’avais été doctorante. Nous avons présenté des visages et d’autres objets à un singe. Une électrode enregistrait l’activité électrique de neurones individuels ; ces signaux électriques étaient amplifiés, puis convertis en un signal sonore pour suivre les réponses en temps réel.
Cette expérience a révélé un résultat étonnant : presque toutes les cellules de la zone identifiée par IRMf étaient dédiées au traitement des visages. Je me souviens de l’enthousiasme suscité par notre premier enregistrement, en entendant le " pop " que faisait, l’une après l’autre, chaque cellule réagissant fortement aux visages et très peu aux autres objets. Nous avons senti que nous tenions là quelque chose d’important, un morceau de cortex susceptible de révéler comment le cerveau code les objets visuels.
Je me souviens aussi d’avoir été surprise. Je m’étais attendue à ce que la " zone faciale " contienne des cellules réagissant sélectivement à des individus particuliers, de façon analogue aux cellules d’orientation du cortex visuel primaire qui répondent chacune à une orientation particulière d’un bord dans une image. En fait, plusieurs études bien connues avaient suggéré que des neurones individuels peuvent être remarquablement sélectifs pour les visages de personnes familières. Or, au contraire, chaque cellule semblait s’activer fortement pour presque tous les visages.
Au cours de ces premières expériences, j’ai découvert que les cellules réagissaient non seulement aux visages d’humains et de singes, mais également à des dessins très simplifiés de visages.
J’ai alors décidé de créer des dessins simples de visages dotés de 19 caractéristiques qui semblaient pertinentes pour définir l’identité d’un visage, par exemple la distance entre les yeux, le rapport hauteur/largeur du visage, la hauteur de la bouche, caractéristiques que nous faisions varier. Chaque cellule répondait à la plupart des visages, mais pas exactement avec la même fréquence d’activation pour tous. Au lieu de cela, leur réponse variait de façon systématique : il y avait une réponse minimale pour une caractéristique extrême (la plus petite distance entre les yeux, par exemple) et une réponse maximale pour l’extrême opposé (le plus grand écart des yeux) avec des réponses intermédiaires pour les valeurs médianes.
J’ai à nouveau été invitée à donner une conférence à Caltech. Cette fois, j’avais plus à offrir que des images d’IRMf. Avec les nouveaux résultats d’enregistrements monocellulaires, il était clair pour tout le monde que ces zones faciales étaient réelles et jouaient probablement un rôle important dans la reconnaissance faciale. De plus, comprendre leurs processus neuronaux sous-jacents semblait être un moyen d’en apprendre plus sur la question plus générale de la manière dont le cerveau représente les objets visuels. Cette fois, j’ai décroché le poste
(Photo : Un ensemble de six nœuds dans le cortex inférotemporal (IT) des deux hémisphères cérébraux est spécialisé dans la perception des visages. Ces " zones faciales " fonctionnent comme une chaîne de montage : dans les zones médiane latérale et médiane du fundus, un neurone peut s’activer lorsque les visages sont vus de face ; un autre pourrait s’activer au vu de visages tournés vers la droite. À la fin de la chaîne de montage, dans la zone médiane antérieure, les différentes vues sont rassemblées. Les neurones de cette zone s’activent à la vue du visage d’un individu particulier, que la vue soit de face ou de côté. Ci-contre sont montrés les profils d’activation d’une zone faciale chez un singe. L’activité est intense à la vue d’un visage, mais pas d’autres objets (A), et les profils d’activité varient selon l’angle de vue du visage (B).)
À Caltech, mes collègues et moi avons approfondi la question de savoir comment ces cellules faciales détectent les visages. Nous nous sommes inspirés d’un article de Pawan Sinha, spécialiste de la vision et des neurosciences computationnelles au MIT, qui suggère qu’il est possible de distinguer les visages en se fiant aux relations particulières de contraste entre différentes régions du visage (si la région du front est plus lumineuse que la région de la bouche, par exemple). Pawan Sinha proposait un moyen astucieux de déterminer quels rapports de contraste utiliser pour reconnaître un visage : ils doivent être insensibles aux changements d’éclairage. Par exemple, " l’œil gauche plus sombre que le nez " est un trait utile pour détecter un visage, car peu importe la direction de l’éclairage : l’œil gauche est toujours plus foncé que le nez.
Le rôle clé des contrastes
Sur le plan théorique, cette idée fournit un mécanisme simple et élégant de reconnaissance faciale, et nous nous sommes demandé si les cellules faciales l’utilisaient. En mesurant la réponse de ces neurones à des visages dans lesquels la luminosité variait selon les régions, nous avons constaté que les cellules avaient souvent une préférence marquée pour un contraste particulier.
À notre grande surprise, presque toutes les cellules avaient les mêmes préférences de contraste (une seule cellule enregistrée préférait la polarité opposée). De plus, les caractéristiques préférées étaient précisément celles identifiées par Pawan Sinha comme étant insensibles aux changements d’éclairage. L’expérience a donc confirmé que les cellules faciales utilisent des relations de contraste pour détecter les visages.
Plus largement, ce résultat a confirmé que ces neurones étaient véritablement des cellules faciales. Auparavant, lors des discussions, les sceptiques demandaient : " Comment le savez-vous ? Vous ne pouvez pas tester tous les stimulus possibles. Comment pouvez-vous être sûrs que c’est une cellule faciale et non une cellule pour grenade ou une cellule pour tondeuse à gazon ? " Ce résultat a été décisif pour moi. La correspondance précise entre la réaction des cellules et la prédiction informatique de Pawan Sinha était spectaculaire.
Nos premières expériences avaient mis en évidence deux zones corticales proches réagissant aux visages. Mais après une analyse supplémentaire (avec l’aide d’un agent de contraste multipliant la robustesse du signal), il est apparu qu’il y avait en réalité six zones faciales dans chacun des deux hémisphères du cerveau (soit un total de douze). Elles sont réparties sur toute la longueur du lobe temporal . De plus, cette répartition dans le cortex IT n’est pas aléatoire. Les six zones sont situées à des endroits similaires dans les deux hémisphères de chaque animal. D’autres travaux ont en outre montré qu’il existe chez d’autres primates, tels que les ouistitis, un schéma similaire de zones faciales s’étendant sur le cortex IT.
Une sorte de chaîne de montage
L’existence d’un tel profil stéréotypé de zones faciales suggère que celles-ci pourraient constituer une sorte de chaîne de montage pour le traitement des visages. Si tel est le cas, on s’attendrait à ce que les six zones soient connectées les unes aux autres et que chaque zone remplisse une fonction distincte.
Pour explorer les connexions neuronales entre ces zones, nous avons stimulé électriquement des régions cérébrales avec de très faibles intensités de courant (technique appelée microstimulation) pendant que le singe était à l’intérieur d’un scanner d’IRMf. Il s’agissait de déterminer quelles autres parties du cerveau sont activées lorsqu’on stimule une zone faciale. Nous avons découvert que chaque fois que nous stimulions une zone faciale, les autres étaient activées, mais pas le cortex environnant, ce qui indique que les zones faciales sont bel et bien fortement interconnectées.
¢photo : Pour découvrir comment le cerveau code les visages, identifier les zones faciales n’était qu’un premier pas. Il a fallu ensuite explorer ce qui se passe dans les neurones au sein de chaque zone. Pour caractériser quantitativement des visages, l’équipe de l’auteure a déterminé 25 caractères de forme et 25 caractères d’aspect pouvant être utilisés par chaque neurone d’une zone faciale. Ces caractères forment un espace à 50 dimensions. Les caractères de forme peuvent être considérés comme ceux définis par le squelette (largeur de la tête, écartement des yeux…). Les caractéristiques d’aspect spécifient la texture de la surface du visage (teint, couleur des yeux, couleur des cheveux…).
De plus, nous avons constaté que chaque zone assurait une fonction différente. Nous avons présenté aux singes les photos de 25 personnes, chacune présentant huit orientations différentes de la tête, et enregistré les réponses de cellules situées dans trois régions : les zones médiane latérale et médiane du fundus (ML/MF), la zone latérale antérieure (LA) et la zone médiane antérieure (MA).
Nous avons constaté des différences frappantes entre ces trois régions. Dans les zones ML/MF, les cellules répondent sélectivement à une orientation particulière. Par exemple, une cellule réagit plutôt aux visages regardant de face, tandis qu’une autre opte pour les visages regardant à gauche. Dans la zone LA, les cellules sont moins spécifiques de l’orientation. Une partie des cellules répondent aux visages regardant vers le haut, le bas et droit devant ; une autre répond aux visages regardant à gauche ou à droite. Dans la zone MA, les cellules réagissent aux visages d’individus particuliers, qu’ils soient vus de face ou de profil. Ainsi, à la fin du réseau, dans la zone MA, les représentations spécifiques à une orientation s’assemblaient avec succès en une représentation indifférente à l’orientation.
Apparemment, c’est donc bien en agissant comme une chaîne de montage que les zones faciales relèvent l’un des grands défis de la vision : reconnaître les objets qui nous entourent malgré leur aspect variable. Une voiture peut être de n’importe quelle marque ou couleur, apparaître sous n’importe quel angle et à n’importe quelle distance, et même être partiellement masquée par des objets plus proches tels que des arbres ou d’autres voitures. Reconnaître un objet malgré ces transformations visuelles est le " problème de l’invariance ", et il nous semble clair qu’une fonction majeure du réseau des zones faciales est de surmonter cet obstacle.
(photo : On peut décrire la réponse des neurones faciaux du singe à un visage humain donné à l’aide d’un code qui utilise 50 coordonnées caractérisant la forme et l’aspect du visage présenté. Chacun de ces neurones s’active avec une intensité particulière en réponse à un certain visage (contours rouges), correspondant à une certaine position le long de l’" axe privilégié " du neurone dans l’espace à 50 dimensions. L’intensité de l’activation augmente linéairement avec la position le long de l’axe privilégié. De plus, cette réponse est la même pour tous les visages situés sur le même axe perpendiculaire à l’axe privilégié. Ce modèle de codage facial fondé sur des axes diffère du modèle précédent, où chaque neurone répond avec une intensité maximale pour un visage unique.)
Étant donné la grande sensibilité des cellules des zones faciales aux variations de l’aspect d’un visage, on pourrait s’attendre à ce qu’une altération de la réponse de ces cellules modifie la perception des visages chez l’animal. En 2012, Jacques Jonas et ses collègues, de l’université de Lorraine et du CHRU de Nancy, avaient stimulé électriquement une zone faciale chez des sujets humains à qui on avait implanté des électrodes afin de déterminer la source des crises d’épilepsie. Ils avaient montré que cette stimulation entraînait une perte de reconnaissance du visage par le patient.
Nous nous sommes demandé si nous retrouverions le même effet chez les singes en stimulant les zones faciales. Cela n’affecterait-il que la perception des visages ou y aurait-il également une incidence sur la perception d’autres objets ? La frontière entre un visage et un autre objet est floue (on peut voir un visage dans un nuage ou dans une prise électrique). Nous voulions utiliser la microstimulation électrique comme un outil permettant de caractériser précisément ce qui définit un visage pour une zone faciale. Nous avons alors entraîné des singes à indiquer si deux visages présentés l’un après l’autre étaient identiques ou différents. Conformément aux résultats obtenus chez l’humain, nous avons constaté que la microstimulation des zones faciales déformait fortement la perception, de sorte que l’animal signalait toujours deux visages identiques comme étant différents.
Il est intéressant de noter que la microstimulation n’a pas d’effet sur la perception de nombreux objets n’ayant rien à voir avec des visages, mais qu’elle altère notablement la réponse à des objets dont la forme pourrait être associée à un visage, les pommes par exemple.
(Photo : Pour un visage donné, on peut prédire comment un neurone facial réagira en prenant une somme pondérée des 50 coordonnées décrivant le visage. Pour deviner à partir de l’activité neuronale quel visage le singe a vu, il suffit d’inverser le calcul : connaissant la réponse des 205 neurones faciaux enregistrés, on peut calculer les 50 coordonnées définissant le visage présenté et ainsi reconstituer celui-ci avec précision.)
Pourquoi cette stimulation influe-t-elle sur la perception d’une pomme ? Il est possible que les zones faciales servent généralement à représenter non seulement des visages, mais aussi d’autres objets ronds, telles les pommes. Une autre hypothèse est que les zones faciales ne soient normalement pas utilisées pour représenter ces objets, mais que la stimulation donne à une pomme l’apparence d’un visage. Il reste à déterminer si les zones faciales sont utiles pour détecter des objets autres que les visages.
Déchiffrer le code neuronal
La découverte de l’organisation du système de zones faciales et des propriétés des neurones qui les composent était un accomplissement majeur. Mais mon rêve, quand nous avons commencé à enregistrer l’activité neuronale des zones faciales, allait bien plus loin. J’avais l’intuition que cela nous permettrait de déchiffrer le code neuronal de l’identité faciale. C’est-à-dire de comprendre comment les neurones traitent les visages, avec un niveau de détail permettant de prédire la réponse d’une cellule à un visage donné ou de décoder l’identité d’un visage en s’appuyant uniquement sur l’activité neuronale.
Le principal défi consistait à décrire les visages quantitativement et avec précision. Le Chang, alors postdoctorant dans mon laboratoire, a eu la brillante idée d’adopter une technique du domaine de la vision par ordinateur nommée " modèle actif d’apparence ". Dans cette approche, un visage est décrit par deux ensembles de caractères, un pour la forme et un autre pour l’aspect . Les caractéristiques de la forme sont, en gros, celles définies par le squelette (la largeur de la tête, l’écart des yeux…). Les caractéristiques d’aspect définissent la texture de la surface du visage (teint, couleur des yeux ou des cheveux…).
Pour générer ces caractères de forme et d’aspect, nous sommes partis d’une grande base de données de photos de visages. Pour chaque visage, nous avons placé un ensemble de marqueurs sur les traits principaux. La position de ces marqueurs décrit la forme du visage. À partir de ces formes variées, nous avons calculé un visage moyen. Nous avons ensuite transformé chaque photo de la base de données afin que ses principaux traits correspondent exactement à ceux du visage moyen.
Les images résultantes constituent l’aspect des visages indépendamment de la forme. Nous avons ensuite effectué une " analyse en composantes principales ", sur les caractères de forme et sur les caractères d’aspect, pour l’ensemble des visages. Il s’agit d’une technique mathématique qui détermine les axes, ou dimensions, décrivant le mieux la variabilité au sein d’un ensemble complexe de données.
En prenant 25 composantes principales pour la forme et 25 composantes principales pour l’aspect, nous avons créé un espace facial à 50 dimensions . Chaque visage est représenté dans cet espace par un point (ou vecteur) ayant 50 coordonnées (ou composantes), alors que dans l’espace usuel, chaque point représente une position et est repéré par 3 coordonnées.
(Extrapoler du macaque à l’humain ?
Les travaux de Doris Tsao et son équipe constituent une prouesse technique dont seuls sont capables quelques laboratoires au monde. Se pose toutefois la question de leur validité pour élucider les mécanismes neuronaux de reconnaissance des visages chez l’homme.
Celui-ci se fonde essentiellement sur le visage pour reconnaître des individus et faire la différence entre des visages connus et inconnus. Alors qu’un adulte est capable de reconnaître plusieurs milliers de visages rapidement et automatiquement, le singe rhésus ou le macaque a besoin de centaines d’essais d’entraînement avec les mêmes images pour atteindre des performances modestes. De plus, contrairement à l’homme, les performances du macaque sont identiques pour un visage présenté à l’endroit ou à l’envers et ne dépendent pas du degré de familiarité du visage .
Cela n’est guère surprenant : l’homme et le macaque diffèrent par 25-30 millions d’années d’évolution, et le cerveau humain compte 16 fois plus de neurones. Surtout, le macaque ne possède pas les structures cérébrales clés pour la reconnaissance du visage chez l’homme, en particulier le gyrus fusiforme du cortex occipitotemporal ventral, et une dominance de l’hémisphère droit. Pourquoi, dès lors, trouve-t-on des régions qui répondent spécifiquement aux visages dans la partie latérale du lobe temporal du macaque et parvient-on à y décoder des " identités faciales " ? D’une part, parce que cette espèce décode dans le visage de congénères de simples expressions faciales, l’orientation de la tête et du regard. D’autre part, parce que le bombardement d’images de visages (humains) à discriminer dans des conditions artificielles de laboratoire entraîne, ou augmente, l’activité de régions cérébrales pour ces catégories d’images dans le cerveau du macaque. Il n’est alors pas surprenant que des images physiques différentes activent des réponses de populations de neurones différentes dans ces régions, permettant un décodage fiable de leur " identité ".
Les capacités de reconnaissance du visage chez l’homme vont cependant bien au-delà de la discrimination d’images 2D ; elles se fondent sur des propriétés physiques, mais également sémantiques et contextuelles. Cela permet de reconnaître un visage familier malgré les différences importantes entre les diverses vues de ce visage, celle d’une caricature par exemple.
Malgré l’intérêt des travaux sur les singes, il nous semble que la compréhension des mécanismes de reconnaissance des visages chez l’humain passera essentiellement par l’étude de notre espèce, par exemple de patients cérébrolésés ayant perdu la capacité de reconnaissance faciale (prosopagnosie), la neuroimagerie et les enregistrements intracérébraux.
Bruno Rossion, Jacques Jonas et Laurent Koessler, CNRS (CRAN, UMR7039), université de Lorraine et service de neurologie du CHRU de Nancy).
Dans notre expérience, nous avons pris au hasard 2 000 visages et les avons présentés à un singe tout en enregistrant les neurones de deux zones faciales. Nous avons constaté que presque chaque cellule présentait des réponses dépendant linéairement d’un sous-ensemble des 50 caractères, ce qui est cohérent avec mes expériences précédentes sur les visages dessinés. Mais nous avions une meilleure idée de la raison pour laquelle cela est important. Si une cellule faciale présente une réponse linéaire à différents traits, on peut approximer sa réponse par une simple somme pondérée des traits faciaux, les poids de cette somme caractérisant la dépendance linéaire de la réponse. En termes plus précis, les réponses des neurones sont données par la relation : Réponses des cellules faciales = (M) × (50 traits faciaux), où M est la matrice de pondération, tableau de nombres où chaque ligne correspond aux poids associés à une cellule faciale. On peut alors simplement inverser cette équation pour prédire le visage montré au sujet à partir des réponses des cellules faciales :
(50 traits faciaux) = (M–1) × (réponses des cellules faciales).
Pour tester cette relation, nous avons utilisé les réponses à tous les 2 000 visages sauf un afin de déterminer la matrice de pondération, puis nous avons calculé les 50 traits du visage exclu à partir des réponses des cellules faciales et de notre formule. Étonnamment, la prédiction s’est révélée presque indistinguable du visage réel.
Lors d’une conférence tenue en 2015 à Ascona, en Suisse, j’ai présenté nos découvertes sur la reconstitution de visages à partir de l’activité neuronale. Après mon exposé, Rodrigo Quian Quiroga, actuellement à l’université de Leicester, en Angleterre, qui avait découvert en 2005 le célèbre " neurone Jennifer Aniston " (un neurone unique qui s’active à la vue de photos de l’actrice Jennifer Aniston) dans le lobe temporal médian, m’a posé une question. Il m’a demandé comment je faisais le lien entre mes cellules et son idée selon laquelle des neurones individuels réagissent au visage de personnes particulières, comme le " neurone Jennifer Aniston ".
Un pari gagnant-gagnant
Je lui ai répondu que je pensais que nos cellules pourraient être les éléments de base de ses cellules, sans trop réfléchir à la façon dont cela fonctionnerait. Cette nuit-là, privée de sommeil à cause du décalage horaire, j’ai pris conscience d’une différence majeure entre nos cellules faciales et les siennes. J’avais décrit dans mon exposé que nos cellules faciales calculent leur réponse comme des sommes pondérées de différentes caractéristiques faciales. Or ce calcul revient à une opération mathématique nommée produit scalaire, dont la représentation géométrique est la projection d’un vecteur sur un axe (à l’instar de l’ombre d’un piquet projetée sur le sol par la lumière du soleil).
Grâce à mes souvenirs d’algèbre linéaire, je me suis rendu compte qu’il était alors possible de construire pour chaque cellule un vaste ensemble de visages distincts tous représentés dans l’espace à 50 dimensions par des vecteurs perpendiculaires à l’axe de projection, donc de projection nulle. Ainsi, tous ces visages activeraient la cellule exactement de la même façon.
Et cela suggérerait que les cellules des zones faciales sont fondamentalement différentes des cellules envisagées par Rodrigo. Cela démolissait la vague intuition que tout le monde partageait au sujet des cellules faciales, à savoir qu’elles réagiraient à des visages particuliers.
Au petit-déjeuner du lendemain matin, j’espérais trouver Rodrigo pour lui en parler. Étonnamment, quand il est arrivé, il m’a dit avoir eu exactement la même idée. Rodrigo m’a alors proposé une sorte de pari gagnant-gagnant. Si une cellule donnait effectivement la même réponse à différents visages, j’enverrais une bonne bouteille de vin à Rodrigo. Si, au contraire, la prédiction ne se vérifiait pas, il m’enverrait du vin comme prix de consolation.
De retour à notre laboratoire à Caltech, Le Chang a d’abord déterminé l’axe privilégié par un neurone donné (l’axe de projection évoqué plus haut) à partir de ses réponses aux 2 000 visages. Il a ensuite généré une gamme de visages tous représentés par des vecteurs perpendiculaires à l’axe privilégié. De façon remarquable, tous ces visages ont suscité exactement la même réponse du neurone. La semaine suivante, Rodrigo a reçu une excellente bouteille de cabernet. Cette découverte prouvait que les cellules faciales du cortex IT ne codent pas l’identité de personnes particulières. Au lieu de cela, elles effectuent une projection vectorielle sur un axe, un calcul beaucoup plus abstrait.
Il semblerait alors que le neurone Jennifer Aniston n’existe pas, du moins pas dans le cortex IT. Mais des neurones individuels répondant sélectivement à des individus familiers pourraient être à l’œuvre dans une partie du cerveau qui traite le signal de sortie des cellules faciales. Les régions de stockage de la mémoire, l’hippocampe et les zones adjacentes, pourraient contenir des cellules permettant de reconnaître un individu.
La reconnaissance faciale dans le cortex IT repose donc sur un ensemble d’environ 50 nombres représentant les mesures d’un visage le long d’un ensemble de 50 axes d’un espace abstrait. Et la découverte de ce code extrêmement simple pour l’identification des visages a des implications majeures pour notre compréhension de la représentation visuelle des objets en général. Il est possible que tout le cortex IT soit organisé selon le même principe que les zones faciales, des groupes de neurones codant différents ensembles d’axes afin de représenter un objet. Nous menons actuellement des expériences pour tester cette hypothèse.
Pierre de rosette neuronale
Si vous vous rendez au British Museum, à Londres, vous verrez un objet étonnant, la pierre de Rosette, sur laquelle le même décret de Memphis est gravé en trois langues différentes : en hiéroglyphes égyptiens, en démotique et en grec ancien. C’est grâce à cette pierre de Rosette, parce que les philologues connaissaient le grec ancien, qu’ils ont pu déchiffrer les hiéroglyphes égyptiens et démotiques.
De même, les visages, les zones faciales et le cortex IT constituent une pierre de Rosette neuronale, mais qui est encore en cours de déchiffrement. En montrant des photos de visages à des singes, nous avons découvert des zones faciales et appris comment leurs neurones détectent et identifient les visages. À son tour, la compréhension des principes de codage dans le réseau des zones faciales aidera peut-être à comprendre l’organisation de tout le cortex IT et à révéler ainsi comment le cerveau assure cette fonction essentielle consistant à identifier les objets, qu’il s’agisse d’un visage, d’un animal, d’une chaise ou d’un caillou. Peut-être même comprendra-t-on aussi comment les objets imaginés – à l’instar des courbes qui m’avaient intriguée lorsque j’étais au lycée – sont codés par le cerveau.
Auteur:
Info: Pour la sience N° 502, 29 juillet 2019
Commentaires: 0