Ce "ChatGPT de la biologie" a 500 millions d'années d'avance sur l'évolution naturelle
Une nouvelle ère s'ouvre dans le domaine des protéines avec l'arrivée de l'intelligence artificielle (IA). Un modèle innovant, nommé ESM3, est capable de générer des protéines totalement inédites. À l'image de ChatGPT qui prédit le mot suivant dans une séquence, ESM3 peut créer des séquences protéiques inconnues dans la nature. Une prouesse qui soulève autant d'émerveillement que de questions éthiques.
(Photo : Le protéines esmGPF, générée par le modèle ESM3, est unique en son genre. Selon les scientifiques, 500 millions d'années d'évolution auraient été nécessaires pour créer une telle protéine.)
Les chercheurs ont utilisé ESM3 pour développer une protéine fluorescente qui ne partage que 58 % de sa séquence avec celles présentes dans la nature. Cette avancée a été publiée le 2 juillet sur la base de données bioRxiv. L'entreprise EvolutionaryScale, fondée par d'anciens chercheurs de Meta, a également détaillé cette découverte dans un communiqué le 25 juin dernier.
Le modèle ESM3, similaire à GPT-4 d'OpenAI, a été entraîné sur 2,78 milliards de protéines. Les chercheurs ont extrait des informations sur la séquence, la structure et la fonction de chaque protéine, puis ont demandé au modèle de prédire les informations manquantes. Cette méthode permet de générer des protéines nouvelles, mais son efficacité doit être validée par des tests expérimentaux.
EvolutionaryScale a mis à disposition une version réduite du modèle ESM3 sous licence non commerciale, tandis que la version complète sera accessible aux chercheurs industriels. Cette technologie pourrait révolutionner des domaines variés, allant de la découverte de médicaments à la dégradation des plastiques.
L'équipe de recherche avait déjà fait parler d'elle en 2022 avec EMSFold, un précurseur du modèle ESM3, qui prédisait des structures protéiques microbiennes inconnues. Parallèlement, l'équipe de DeepMind de Google avait annoncé des prédictions pour 200 millions de protéines, soulignant les limites et les défis de telles approches, notamment la vérification des prédictions par des méthodes expérimentales traditionnelles.
La véritable innovation du modèle ESM3 réside dans sa capacité à générer des protéines entièrement nouvelles. En utilisant des milliards de données sur la structure, la fonction et la séquence des protéines, le modèle a produit une nouvelle protéine fluorescente appelée "esmGPF". Bien que moins brillante que ses homologues naturels, des itérations supplémentaires ont permis d'améliorer sa luminosité, atteignant des résultats inimaginables par l'évolution naturelle.