Citation
Catégorie
Tag – étiquette
Auteur
Info



nb max de mots
nb min de mots
trier par
Dictionnaire analogique intriqué pour extraits. Recherche mots ou phrases tous azimuts. Aussi outil de précision sémantique et de réflexion communautaire. Voir la rubrique mode d'emploi. Jetez un oeil à la colonne "chaînes". ATTENTION, faire une REINITIALISATION après  une recherche complexe. Et utilisez le nuage de corrélats !!!!..... Lire la suite >>
Résultat(s): 14
Temps de recherche: 0.0348s

homme-animal

Ce que l'Homme et le gorille ont en commun
Des chercheurs du Wellcome Trust Sanger Institute (Royaume-Uni), avec la participation de l'équipe d'Emmanouil Dermitzakis, professeur Louis-Jeantet à la Faculté de médecine de l'UNIGE, ont réussi à séquencer le génome du gorille, le seul hominidé dont le génome n'avait pas encore été décodé. Cette étude a révélé qu'une partie du génome humain ressemble davantage à celui du gorille qu'à celui du chimpanzé. Les résultats de cette recherche offrent des perspectives inédites sur l'origine de l'Homme.
L'être humain, le chimpanzé et le gorille présentent de nombreuses similitudes anatomiques et physiologiques. Des études moléculaires ont confirmé que l'Homme est plus proche des grands singes d'Afrique, en particulier du chimpanzé, que des ourang-outans. Des analyses complémentaires ont ensuite exploré les différences fonctionnelles entre les espèces de grands singes et déterminé leur influence sur l'évolution de l'être humain à travers le séquenc¸age de l'ADN du chimpanzé et de l'orang-outan, mais pas celui du gorille.
L'équipe de chercheurs menée par le Wellcome Trust Sanger Institute propose la première analyse génomique du gorille jamais réalisée qui constitue une base d'étude de l'évolution des hominidés. C'est la première fois que des scientifiques réussissent à comparer les génomes des quatre espèces d'hominidés: les humains, les chimpanzés, les gorilles et les orangs-outangs.
"Le séquençage du génome du gorille est important puisqu'il permet de lever le voile sur la période de l'évolution durant laquelle nos ancêtres ont commencé à s'éloigner de nos cousins les plus proches. Nous pouvons ainsi examiner les similitudes et les dissemblances entre nos gènes et ceux du gorille, le plus grand des primates anthropoi¨des, explique Aylwyn Scally du Wellcome Trust Sanger Institute. Nous avons assemblé l'ADN de Kamilah, un gorille femelle des plaines de l'ouest, et nous l'avons comparé aux génomes d'autres grands singes. Nous avons également prélevé l'ADN d'autres gorilles afin d'analyser les différences génétiques entre les espèces de gorille."
Cette étude met en lumière la période à laquelle trois espèces étroitement liées, le gorille, le chimpanzé et l'Homme, ont commencé à se différencier. Contrairement à ce que l'on pourrait penser, les espèces ne divergent pas toujours brutalement à un moment donné, elles se séparent parfois progressivement sur une longue période.
L'équipe a découvert que la divergence génétique entre les gorilles et les humains et chimpanzés date d'il y a environ 10 millions d'années. La dissemblance génomique entre les gorilles des plaines de l'est et de l'ouest est, quant à elle, beaucoup plus récente et remonte à 1 million d'années. Leur génome se sont graduellement éloignés jusqu'à être complètement distincts. Cette divergence est comparable, à certains égards, à celle qui existe entre les chimpanzés et les bonobos, et entre l'Homme moderne et l'homme de Néanderthal. L'équipe a analysé plus de 11 000 gènes chez l'humain, le chimpanzé et le gorille afin de déterminer les changements génétiques apparus au cours de l'évolution.
Bien que l'Homme et le chimpanzé soient génétiquement proches, les chercheurs ont découvert que cette ressemblance ne s'appliquait pas à la totalité du génome. En réalité, 15% du génome humain se rapproche davantage de celui du gorille que de celui du chimpanzé. Les chercheurs ont découvert que, chez ces trois espèces, les gènes liés à la perception sensorielle, à l'oui¨e et au développement cérébral, ont montré des signes d'évolution accélérée, particulièrement chez l'humain et le gorille. Les résultats de cette recherche ont révélé non seulement des dissemblances entre les espèces, mettant en lumière des millions d'années de divergence évolutionniste, mais également des similarités.
Les gorilles et les humains partagent en effet de nombreuses modifications génétiques, impliquées notamment dans l'évolution de l'audition. Il y a quelques années, des scientifiques avaient suggéré que l'évolution rapide des gènes humains liés à l'audition était en corrélation avec celle du langage. Cette déclaration est aujourd'hui remise en question puisque cette étude démontre que les gènes de l'audition ont évolué au même rythme chez l'être humain et chez le gorille.
Grâce à cette recherche, les scientifiques ont fait le tour de toutes les comparaisons entre les espèces d'hominidés. Après des décennies de débats, leurs interprétations génétiques sont désormais cohérentes avec le registre fossile. Les paléontologues et les généticiens peuvent dorénavant travailler sur les mêmes bases.
"Cette étude offre des perspectives inédites sur l'évolution de nos ancêtres et de nos origines. Les conclusions de ce travail de recherche sont pertinentes d'un point de vue historique, mais ce n'est pas tout. Elles sont d'une importance fondamentale pour la compréhension de notre génome, de la variabilité génétique et des conséquences médicales des mutations", commente Emmanouil Dermitzakis. Avec son équipe genevoise, ce a participé à l'analyse des activités génétiques à partir de cellules prélevées chez le gorille, l'Homme, le chimpanzé et le bonobo. Ses résultats démontrent que d'un point de vue général l'expression des gènes correspond aux différences génétiques entre les espèces.

Auteur: Internet

Info: http://www.unige.ch/communication/archives/2012/gorilles.html

[ quadrumane ] [ métamorphose ]

 

Commentaires: 0

interactions

L'épigénétique, l'hérédité au-delà de l'ADN
Des mécanismes ne modifiant pas notre patrimoine génétique jouent un rôle fondamental dans le développement de l'embryon. Ils pourraient expliquer comment l'environnement induit des changements stables de caractères, voire des maladies, éventuellement héritables sur plusieurs générations.

L'épigénétique, c'est d'abord cette idée que tout n'est pas inscrit dans la séquence d'ADN du génome. "C'est un concept qui dément en partie la "fatalité" des gènes", relève Michel Morange, professeur de biologie à l'ENS. Plus précisément, "l'épigénétique est l'étude des changements d'activité des gènes - donc des changements de caractères - qui sont transmis au fil des divisions cellulaires ou des générations sans faire appel à des mutations de l'ADN", explique Vincent Colot, spécialiste de l'épigénétique des végétaux à l'Institut de biologie de l'Ecole normale supérieure (ENS-CNRS-Inserm, Paris).

Est-ce la fin de l'ère du "tout-ADN", qui a connu son apogée vers l'an 2000 avec les grandes manoeuvres du séquençage du génome humain ? "L'organisme reste construit à partir de ses gènes, même si l'activité de ceux-ci peut être modulée", tempère Michel Morange.

Mais le séquençage des génomes l'a révélé avec éclat : la connaissance seule de la séquence de l'ADN ne suffit pas à expliquer comment les gènes fonctionnent. C'était pourtant prévisible : si cette connaissance suffisait, comment expliquer que malgré leur génome identique, les différents types de cellules d'un individu développent des caractères aussi différents que ceux d'un neurone, d'une cellule du foie, des muscles ou de la peau ?

L'épigénétique répond en partie à cette interrogation - mais elle en soulève de nombreuses autres. "Le cadre classique de l'épigénétique, c'est le développement de l'embryon et la différenciation des cellules de l'organisme", indique Vincent Colot. Mais ses enjeux concernent également la médecine et la santé publique... et les théories sur l'évolution. Elle jette le soupçon sur l'environnement, qui pourrait moduler l'activité de certains de nos gènes pour modifier nos caractères, voire induire certaines maladies qui pourraient être transmis(es) à la descendance.

La première question, cependant, est celle de la définition de ce fascinant concept. Un certain flou persiste, même chez les scientifiques. "Ces ambiguïtés tiennent au fait que le terme a été introduit à plusieurs reprises dans l'histoire de la biologie, avec à chaque fois un sens différent", raconte Michel Morange, qui est aussi historien des sciences. Précurseur absolu, Aristote invente le terme "épigenèse" - de épi-, "au-dessus de", et genèse, "génération" - vers 350 avant notre ère.

"Observant des embryons de poulet, Aristote découvre que les formes ne préexistent pas dans le germe, mais sont, au contraire, progressivement façonnées au cours du développement embryonnaire", rapporte Edith Heard, qui dirige une équipe (Institut Curie-Inserm-CNRS) sur l'épigénétique du développement des mammifères. Une vision admirablement prémonitoire, qui ne se verra confirmée qu'avec l'invention du microscope à la fin du XVIIe siècle.

Quant au mot "épigénétique", il apparaît en 1942 : on le doit au généticien anglais Conrad Waddington, qui s'attache à comprendre le rôle des gènes dans le développement. Comment s'opère le passage du génotype (l'ensemble des gènes) au phénotype (l'ensemble des caractères d'un individu) ? A l'époque, on ignorait que l'ADN est le support de l'hérédité. Mais les liens entre génotype et phénotype se précisent peu à peu, à mesure qu'on découvre la structure des gènes et leur mode de régulation. Une étape décisive est franchie avec les travaux de François Jacob, Jacques Monod et André Lwoff, Prix Nobel en 1965 : ils montrent l'importance d'un facteur de l'environnement (la présence d'un sucre, le lactose) dans le contrôle de l'expression d'un gène et la détermination d'un caractère (la capacité de la bactérie E. coli à utiliser le lactose comme source d'énergie).

Le concept d'épigénétique tombe ensuite en relative déshérence, pour renaître dans les années 1980 avec son sens moderne. "Un chercheur australien, Robin Holliday, observe dans des cellules en culture des changements de caractères qui sont transmis au fil des divisions cellulaires, relate Vincent Colot. Mais ces changements semblaient trop fréquents pour pouvoir être causés par des mutations de l'ADN." Holliday découvre le rôle, dans cette transmission, de certaines modifications de l'ADN qui n'affectent pas la séquence des "nucléotides", ces lettres qui écrivent le message des gènes.

Plus largement, on sait aujourd'hui que les gènes peuvent être "allumés" ou "éteints" par plusieurs types de modifications chimiques qui ne changent pas la séquence de l'ADN : des méthylations de l'ADN, mais aussi des changements des histones, ces protéines sur lesquelles s'enroule l'ADN pour former la chromatine. Toutes ces modifications constituent autant de "marques épigénétiques". Elles jalonnent le génome en des sites précis, modulant l'activité des gènes localisés sur ces sites.

Quelle est la stabilité de ces marques épigénétiques ? La question est centrale. Certaines sont très transitoires, comme les marques qui régulent les gènes liés aux rythmes du jour et de la nuit. "Au moins 15 % de nos gènes sont régulés d'une façon circadienne : leur activité oscille sur un rythme de 24 heures. Il s'agit de gènes qui gouvernent notre métabolisme, assurant par exemple l'utilisation des sucres ou des acides gras", indique Paolo Sassone-Corsi, qui travaille au sein d'une unité Inserm délocalisée, dirigée par Emiliana Borrelli à l'université de Californie (Irvine). "Pour réguler tant de gènes d'une façon harmonieuse, il faut une logique commune. Elle se fonde sur des processus épigénétiques qui impliquent des modifications des histones."

D'autres marques ont une remarquable pérennité. "Chez un individu multicellulaire, elles peuvent être acquises très tôt lors du développement, sous l'effet d'un signal inducteur, rapporte Vincent Colot. Elles sont ensuite transmises au fil des divisions cellulaires jusque chez l'adulte - bien longtemps après la disparition du signal inducteur." Les marques les plus stables sont ainsi les garantes de "l'identité" des cellules, la vie durant. Comme si, sur la partition d'orchestre de l'ADN du génome - commune à toutes les cellules de l'organisme -, chaque instrument - chaque type de cellule - ne jouait que la partie lui correspondant, n'activant que les gènes "tagués" par ces marques.

Un des plus beaux exemples de contrôle épigénétique chez les mammifères est "l'inactivation du chromosome X". "Ce processus a lieu chez toutes les femelles de mammifères, qui portent deux exemplaires du chromosome X, explique Edith Heard. L'inactivation d'un des deux exemplaires du X, au cours du développement précoce, permet de compenser le déséquilibre existant avec les mâles, porteurs d'un seul exemplaire du X."

Si l'inactivation du X est déficiente, l'embryon femelle meurt très précocement. Cette inactivation est déclenchée très tôt dans le développement de l'embryon, "dès le stade "4 cellules" chez la souris et un plus tard pour l'espèce humaine, puis elle est stabilisée par des processus épigénétiques tout au long de la vie", poursuit Edith Heard. Par ailleurs, son équipe vient de publier un article dans Nature mis en ligne le 11 avril, montrant que les chromosomes s'organisent en "domaines", à l'intérieur desquels les gènes peuvent être régulés de façon concertée, et sur lesquels s'ajoutent des marques épigénétiques.

Les enjeux sont aussi médicaux. Certaines "épimutations", ou variations de l'état épigénétique normal, seraient en cause dans diverses maladies humaines et dans le vieillissement. Ces épimutations se produisent par accident, mais aussi sous l'effet de facteurs environnementaux. Le rôle de ces facteurs est très activement étudié dans le développement de maladies chroniques comme le diabète de type 2, l'obésité ou les cancers, dont la prévalence explose à travers le monde.

Les perspectives sont également thérapeutiques, avec de premières applications qui voient le jour. "Les variations épigénétiques sont finalement assez plastiques. Elles peuvent être effacées par des traitements chimiques, ce qui ouvre d'immenses perspectives thérapeutiques. Cet espoir s'est déjà concrétisé par le développement de premières "épidrogues" pour traiter certains cancers", annonce Edith Heard.

Le dernier défi de l'épigénétique, et non des moindres, renvoie aux théories de l'évolution. "Alors que le génome est très figé, l'épigénome est bien plus dynamique", estime Jonathan Weitzman, directeur du Centre épigénétique et destin cellulaire (université Paris-Diderot-CNRS). "L'épigénome pourrait permettre aux individus d'explorer rapidement une adaptation à une modification de l'environnement, sans pour autant graver ce changement adaptatif dans le génome", postule le chercheur. L'environnement jouerait-il un rôle dans la genèse de ces variations adaptatives, comme le croyait Lamarck ? Reste à le démontrer. Epigénétique ou non, le destin est espiègle : le laboratoire qu'anime Jonathan Weitzman n'a-t-il pas été aléatoirement implanté... dans le bâtiment Lamarck ? Internet,

Auteur: Internet

Info: Rosier Florence, https://www.lemonde.fr/sciences/ 13 avril 2012

[ interférences ] [ mutation acquise ]

 

Commentaires: 0

Ajouté à la BD par miguel

nanomonde

Comment l’IA impacte la recherche sur la structure des protéines

Chaque être humain possède plus de 20 000 protéines. Par exemple l’hémoglobine qui s’occupe du transport de l’oxygène depuis les poumons vers les cellules de tout le corps, ou encore l’insuline qui indique à l’organisme la présence de sucre dans le sang.

Chaque protéine est formée d’une suite d’acides aminés, dont la séquence détermine son repliement et sa structure spatiale – un peu comme si un mot se repliait dans l’espace en fonction des enchaînements de lettres dont il est composé. Cette séquence et ce repliement (ou structure) de la protéine déterminent sa fonction biologique : leur étude est le domaine de la « biologie structurale ». Elle s’appuie sur différentes méthodes expérimentales complémentaires, qui ont permis des avancées considérables dans notre compréhension du monde du vivant ces dernières décennies, et permet notamment la conception de nouveaux médicaments.

Depuis les années 1970, on cherche à connaître les structures de protéines à partir de la seule connaissance de la séquence d’acides aminés (on dit « ab initio »). Ce n’est que très récemment, en 2020, que ceci est devenu possible de manière quasi systématique, avec l’essor de l’intelligence artificielle et en particulier d’AlphaFold, un système d’IA développé par une entreprise appartenant à Google.

Face à ces progrès de l’intelligence artificielle, quel est désormais le rôle des chercheurs en biologie structurale ?

Pour le comprendre, il faut savoir qu’un des défis de la biologie de demain est la "biologie intégrative", qui a pour objectif de comprendre les processus biologiques au niveau moléculaire dans leurs contextes à l’échelle de la cellule. Vu la complexité des processus biologiques, une approche pluridisciplinaire est indispensable. Elle s’appuie sur les techniques expérimentales, qui restent incontournables pour l’étude de la structure des protéines, leur dynamique et leurs interactions. De plus, chacune des techniques expérimentales peut bénéficier à sa manière des prédictions théoriques d’AlphaFold.

(Photo) Les structures de trois protéines de la bactérie Escherichia coli, déterminées par les trois méthodes expérimentales expliquées dans l’article, à l’Institut de Biologie Structurale de Grenoble. Beate Bersch, IBS, à partir d’une illustration de David Goodsell, Fourni par l'auteur

La cristallographie aux rayons X

La cristallographie est, à cette date, la technique la plus utilisée en biologie structurale. Elle a permis de recenser plus de 170 000 structures de protéines dans la "Protein Data Bank", avec plus de 10 000 repliements différents.

Pour utiliser la cristallographie à rayons X, il faut faire "cristalliser les protéines". On dit souvent que cette technique est limitée par la qualité de cristaux de protéines, qui est moindre pour les grosses protéines. Mais cette notion ne correspond pas toujours à la réalité : par exemple, la structure du ribosome, l’énorme machine moléculaire qui assemble les protéines, a été résolue à 2,8 angströms de résolution. Venkatraman Ramakrishnan, Thomas Steitz et Ada Yonath ont reçu le prix Nobel de chimie en 2009 pour ce travail.

Avec le développement récent du laser X à électron libre (XFEL), il est devenu possible d’étudier simultanément des milliers de microcristaux de protéines à température ambiante et à l’échelle de la femtoseconde (10-15 secondes, soit un millionième de milliardième de seconde, l’échelle de temps à laquelle ont lieu les réactions chimiques et le repliement des protéines). Cette technique permet d’imager les protéines avant qu’elles ne soient détruites. Elle est en train de révolutionner la "cristallographie cinétique", qui permet de voir les protéines "en action", ainsi que la recherche de médicaments.

Pour l’instant, l’apport d’AlphaFold à l’étude de la structure des protéines par cristallographie s’est concentré dans la génération de modèles de protéines assez précis pour appliquer la technique dite de "remplacement moléculaire" à la résolution des structures.

La spectroscopie par résonance magnétique nucléaire

Une autre méthode expérimentale pour étudier la structure des protéines est la "spectroscopie par résonance magnétique nucléaire". Alors que son alter ego d’imagerie médicale, l’IRM, regarde la distribution spatiale d’un seul signal, caractéristique des éléments chimiques dans les tissus biologiques observés, en spectroscopie par résonance magnétique nucléaire, c’est un ensemble de signaux provenant des atomes constituant la protéine qui est enregistré (ce qu’on appelle le "spectre").

Généralement, la détermination de la structure par résonance magnétique est limitée à des protéines de taille modeste. On calcule des modèles de molécules basés sur des paramètres structuraux (comme des distances interatomiques), provenant de l’analyse des spectres expérimentaux. On peut s’imaginer cela comme dans les débuts de la cartographie, où des distances entre des points de référence permettaient de dessiner des cartes en 2D. Pour faciliter l’interprétation des spectres qui contiennent beaucoup d’information, on peut utiliser des modèles obtenus par prédiction (plutôt qu’expérimentalement), comme avec AlphaFold.

En plus de la détermination structurale, la spectroscopie par résonance magnétique nucléaire apporte deux atouts majeurs. D’une part, en général, l’étude est effectuée avec un échantillon en solution aqueuse et il est possible d’observer les parties particulièrement flexibles des protéines, souvent invisibles avec les autres techniques. On peut même quantifier leur mouvement en termes d’amplitude et de fréquence, ce qui est extrêmement utile car la dynamique interne des protéines est aussi cruciale pour leur fonctionnement que leur structure.

D’autre part, la spectroscopie par résonance magnétique nucléaire permet de détecter aisément les interactions des protéines avec des petites molécules (ligands, inhibiteurs) ou d’autres protéines. Ceci permet d’identifier les sites d’interaction, information essentielle entre autres pour la conception rationnelle de molécules actives comme des médicaments.

Ces propriétés font de la spectroscopie par résonance magnétique nucléaire un outil extraordinaire pour la caractérisation fonctionnelle des protéines en complémentarité avec d’autres techniques expérimentales et l’IA.

La "cryomicroscopie électronique"

La cryomicroscopie électronique consiste à congeler ultrarapidement (environ -180 °C) un échantillon hydraté dans une fine couche de glace, qui sera traversée par les électrons. Les électrons transmis vont générer une image de l’échantillon, qui après analyse, permet d’accéder à des structures qui peuvent atteindre la résolution atomique. En comparaison, un microscope optique n’a un pouvoir résolutif que de quelques centaines de nanomètres, qui correspond à la longueur d’onde de la lumière utilisée ; seul un microscope utilisant une source possédant des longueurs d’onde suffisamment faibles (comme les électrons pour la microscopie électronique) possède un pouvoir résolutif théorique de l’ordre de l’angström. Le prix Nobel de Chimie 2017 a été décerné à Jacques Dubochet, Richard Henderson et Joachim Frank pour leurs contributions au développement de la cryomicroscopie électronique.

Avec de nombreux développements technologiques, dont celui des détecteurs à électrons directs, depuis le milieu des années 2010, cette technique est devenue essentielle en biologie structurale en amorçant une "révolution de la résolution". En effet, la cryomicroscopie électronique permet désormais d’obtenir des structures avec une résolution atomique, comme dans le cas de l’apoferritine – une protéine de l’intestin grêle qui contribue à l’absorption du fer – à 1,25 angström de résolution.

Son principal atout est de permettre de déterminer la structure d’objets de taille moyenne, au-delà de 50 000 Dalton (un Dalton correspond environ à la masse d’un atome d’hydrogène), comme l’hémoglobine de 64 000 Dalton, mais également d’objets de quelques milliards de daltons (comme le mimivirus, virus géant d’environ 0,5 micromètre).

Malgré toutes les avancées technologiques précédemment évoquées, la cryomicroscopie ne permet pas toujours de résoudre à suffisamment haute résolution la structure de "complexes", constitués de plusieurs protéines. C’est ici qu’AlphaFold peut aider et permettre, en complémentarité avec la cryomicroscopie, de décrire les interactions au niveau atomique entre les différents constituants d’un complexe. Cette complémentarité donne une force nouvelle à la cryomicroscopie électronique pour son rôle à jouer demain en biologie structurale.

Les apports d’AlphaFold

AlphaFold permet de prédire la structure de protéines uniquement à partir de leur séquence avec la connaissance acquise par la biologie structurale expérimentale. Cette approche est révolutionnaire car les séquences de beaucoup de protéines sont connues à travers les efforts des séquençages des génomes, mais déterminer leurs structures expérimentalement nécessiterait des moyens humains et techniques colossaux.

À l’heure actuelle, ce type de programme représente donc un acteur supplémentaire de complémentarité, mais ne se substitue pas aux techniques expérimentales qui, comme nous l’avons vu, apportent aussi des informations complémentaires (dynamiques, interfaces), à des échelles différentes (des sites métalliques aux complexes multiprotéiques) et plus fiables, car expérimentalement vérifiées. Au-delà de la pure détermination structurale d’une protéine isolée, la complexité des systèmes biologiques nécessite souvent une approche pluridisciplinaire afin d’élucider mécanismes et fonctions de ces biomolécules fascinantes que sont les protéines.

Auteur: Internet

Info: Published: December 19, 2022 Beate Bersch, Emmanuelle Neumann, Juan Fontecilla, Université Grenoble Alpes (UGA)

[ gnose chimique ]

 

Commentaires: 0

Ajouté à la BD par miguel

intelligence artificielle

Apprendre l'anglais n'est pas une tâche facile, comme le savent d'innombrables étudiants. Mais lorsque l'étudiant est un ordinateur, une approche fonctionne étonnamment bien : Il suffit d'alimenter un modèle mathématique géant, appelé réseau neuronal, avec des montagnes de textes provenant d'Internet. C'est le principe de fonctionnement des modèles linguistiques génératifs tels que ChatGPT d'OpenAI, dont la capacité à tenir une conversation cohérente (à défaut d'être toujours sincère) sur un large éventail de sujets a surpris les chercheurs et le public au cours de l'année écoulée.

Mais cette approche présente des inconvénients. D'une part, la procédure de "formation" nécessaire pour transformer de vastes archives textuelles en modèles linguistiques de pointe est coûteuse et prend beaucoup de temps. D'autre part, même les personnes qui forment les grands modèles linguistiques ont du mal à comprendre leur fonctionnement interne, ce qui, à son tour, rend difficile la prévision des nombreuses façons dont ils peuvent échouer.

Face à ces difficultés, certains chercheurs ont choisi d'entraîner des modèles plus petits sur des ensembles de données plus restreints, puis d'étudier leur comportement. "C'est comme le séquençage du génome de la drosophile par rapport au séquençage du génome humain", explique Ellie Pavlick, chercheuse sur les modèles de langage à l'université de Brown.

Dans un article récemment publié sur le serveur scientifique arxiv.org, deux chercheurs de Microsoft ont présenté une nouvelle méthode pour former de minuscules modèles de langage : Les élever avec un régime strict d'histoires pour enfants.

RÉSEAUX NEURONAUX

Des chercheurs acquièrent une nouvelle compréhension à partir d'une simple IA  

Les chercheurs en apprentissage automatique ont compris cette leçon. GPT-3.5, le grand modèle linguistique qui alimente l'interface ChatGPT, compte près de 200 milliards de paramètres et a été entraîné sur un ensemble de données comprenant des centaines de milliards de mots (OpenAI n'a pas publié les chiffres correspondants pour son successeur, GPT-4).  L'entraînement de modèles aussi vastes nécessite généralement au moins 1 000 processeurs spécialisés, appelés GPU, fonctionnant en parallèle pendant des semaines. Seules quelques entreprises peuvent réunir les ressources nécessaires, sans parler de l'entraînement et de la comparaison de différents modèles.

Les deux chercheurs ont montré que des modèles linguistiques des milliers de fois plus petits que les systèmes de pointe actuels apprenaient rapidement à raconter des histoires cohérentes et grammaticalement justes lorsqu'ils étaient formés de cette manière. Leurs résultats indiquent de nouvelles pistes de recherche qui pourraient être utiles pour former des modèles plus importants et comprendre leur comportement.

"J'ai trouvé tout  ça très instructif", a déclaré Chandra Bhagavatula, chercheur sur les modèles de langage à l'Allen Institute for Artificial Intelligence de Seattle. "Le concept lui-même est très intéressant.

Il était une fois

Les réseaux neuronaux au cœur des modèles de langage sont des structures mathématiques vaguement inspirées du cerveau humain. Chacun d'entre eux contient de nombreux neurones artificiels disposés en couches, avec des connexions entre les neurones des couches adjacentes. Le comportement du réseau neuronal est régi par la force de ces connexions, appelées paramètres. Dans un modèle linguistique, les paramètres contrôlent les mots que le modèle peut produire ensuite, compte tenu d'une invite initiale et des mots qu'il a déjà générés.

Un modèle ne prend véritablement vie qu'au cours de la formation, lorsqu'il compare de manière répétée ses propres résultats au texte de son ensemble de données de formation et qu'il ajuste ses paramètres afin d'accroître la ressemblance. Un réseau non entraîné avec des paramètres aléatoires est trivialement facile à assembler à partir de quelques lignes de code, mais il ne produira que du charabia. Après l'entraînement, il peut souvent poursuivre de manière plausible un texte peu familier. Les modèles de plus grande taille sont souvent soumis à des réglages plus fins qui leur apprennent à répondre à des questions et à suivre des instructions, mais l'essentiel de la formation consiste à maîtriser la prédiction des mots.

Pour réussir à prédire des mots, un modèle linguistique doit maîtriser de nombreuses compétences différentes. Par exemple, les règles de la grammaire anglaise suggèrent que le mot suivant le mot "going" sera probablement "to", quel que soit le sujet du texte. En outre, un système a besoin de connaissances factuelles pour compléter "la capitale de la France est", et compléter un passage contenant le mot "not" nécessite une connaissance rudimentaire de la logique.

"Le langage brut est très compliqué", explique Timothy Nguyen, chercheur en apprentissage automatique chez DeepMind. "Pour que des capacités linguistiques intéressantes apparaissent, les gens ont eu recours à l'idée que plus il y a de données, mieux c'est".

(photo) Ronen Eldan s'est rendu compte qu'il pouvait utiliser les histoires d'enfants générées par de grands modèles linguistiques pour en entraîner rapidement de plus petits.

Introduction

Ronen Eldan, mathématicien qui a rejoint Microsoft Research en 2022 pour étudier les modèles de langage génératifs, souhaitait développer un moyen moins coûteux et plus rapide d'explorer leurs capacités. Le moyen naturel d'y parvenir était d'utiliser un petit ensemble de données, ce qui signifiait qu'il devait entraîner les modèles à se spécialiser dans une tâche spécifique, afin qu'ils ne s'éparpillent pas. Au départ, il voulait entraîner les modèles à résoudre une certaine catégorie de problèmes mathématiques, mais un après-midi, après avoir passé du temps avec sa fille de 5 ans, il s'est rendu compte que les histoires pour enfants convenaient parfaitement. "L'idée m'est venue littéralement après lui avoir lu une histoire", a-t-il déclaré.

Pour générer des histoires cohérentes pour les enfants, un modèle de langage devrait apprendre des faits sur le monde, suivre les personnages et les événements, et observer les règles de grammaire - des versions plus simples des défis auxquels sont confrontés les grands modèles. Mais les grands modèles formés sur des ensembles de données massives apprennent d'innombrables détails non pertinents en même temps que les règles qui comptent vraiment. Eldan espérait que la brièveté et le vocabulaire limité des histoires pour enfants rendraient l'apprentissage plus gérable pour les petits modèles, ce qui les rendrait à la fois plus faciles à former et plus faciles à comprendre.

Dans le monde des modèles de langage, cependant, le terme "petit" est relatif : Un ensemble de données mille fois plus petit que celui utilisé pour former GPT-3.5 devrait encore contenir des millions d'histoires. "Je ne sais pas combien d'argent vous voulez dépenser, mais je suppose que vous n'allez pas engager des professionnels pour écrire quelques millions de nouvelles", a déclaré M. Nguyen.

Il faudrait un auteur extraordinairement prolifique pour satisfaire des lecteurs aussi voraces, mais Eldan avait quelques candidats en tête. Qui peut mieux écrire pour un public de petits modèles linguistiques que pour de grands modèles ?

Toys stories

Eldan a immédiatement entrepris de créer une bibliothèque d'histoires synthétiques pour enfants générées par de grands modèles linguistiques. Mais il a rapidement découvert que même les modèles de pointe ne sont pas naturellement très créatifs. Si l'on demande à GPT-4 d'écrire des histoires adaptées à des enfants de 4 ans, explique Eldan, "environ un cinquième des histoires concernera des enfants qui vont au parc et qui ont peur des toboggans". C'est apparemment la quintessence des histoires pour enfants d'âge préscolaire, selon l'Internet.

La solution a consisté à ajouter un peu d'aléatoire dans le message. Tout d'abord, Eldan a utilisé le GPT-4 pour générer une liste de 1 500 noms, verbes et adjectifs qu'un enfant de 4 ans pourrait connaître - suffisamment courte pour qu'il puisse facilement la vérifier lui-même. Il a ensuite écrit un programme informatique simple qui demanderait à plusieurs reprises à GPT-3.5 ou à GPT-4 de générer une histoire adaptée à l'âge de l'enfant, comprenant trois mots aléatoires de la liste, ainsi qu'un détail supplémentaire choisi au hasard, comme une fin heureuse ou un rebondissement de l'intrigue. Les histoires obtenues, heureusement, étaient moins axées sur des diapositives effrayantes.

Eldan disposait désormais d'une procédure pour produire des données de formation à la demande, mais il n'avait aucune idée du nombre d'histoires dont il aurait besoin pour former un modèle fonctionnel, ni de la taille de ce modèle. C'est alors qu'il s'est associé à Yuanzhi Li, chercheur en apprentissage automatique chez Microsoft et à l'université Carnegie Mellon, pour essayer différentes possibilités, en tirant parti du fait que les petits modèles peuvent être formés très rapidement. La première étape consistait à décider comment évaluer leurs modèles.

Introduction

Dans la recherche sur les modèles de langage - comme dans toute salle de classe - la notation est un sujet délicat. Il n'existe pas de rubrique parfaite qui englobe tout ce que les chercheurs veulent savoir, et les modèles qui excellent dans certaines tâches échouent souvent de manière spectaculaire dans d'autres. Au fil du temps, les chercheurs ont mis au point divers critères de référence standard basés sur des questions dont les réponses ne sont pas ambiguës, ce qui est une bonne approche si vous essayez d'évaluer des compétences spécifiques. Mais Eldan et Li se sont intéressés à quelque chose de plus nébuleux : quelle doit être la taille réelle des modèles linguistiques si l'on simplifie le langage autant que possible ?

"Pour vérifier directement si le modèle parle anglais, je pense que la seule chose à faire est de laisser le modèle générer de l'anglais de manière ouverte", a déclaré M. Eldan.

Il n'y a que deux façons de mesurer les performances d'un modèle sur des questions aussi qualitatives : S'appuyer sur des évaluateurs humains ou se tourner à nouveau vers le GPT-4. Les deux chercheurs ont opté pour cette dernière solution, laissant les grands modèles à la fois rédiger les manuels et noter les dissertations.

Bhagavatula a déclaré qu'il aurait aimé voir comment les évaluations de GPT-4 se comparaient à celles des correcteurs humains - GPT-4 peut être biaisé en faveur des modèles qu'il a aidé à former, et l'opacité des modèles de langage rend difficile la quantification de tels biais. Mais il ne pense pas que de telles subtilités affecteraient les comparaisons entre différents modèles formés sur des ensembles similaires d'histoires synthétiques - l'objectif principal du travail d'Eldan et Li.

Eldan et Li ont utilisé une procédure en deux étapes pour évaluer chacun de leurs petits modèles après la formation. Tout d'abord, ils ont présenté au petit modèle la première moitié d'une histoire distincte de celles de l'ensemble des données d'apprentissage, de manière à ce qu'il génère une nouvelle fin, en répétant ce processus avec 50 histoires de test différentes. Ensuite, ils ont demandé à GPT-4 d'évaluer chacune des fins du petit modèle en fonction de trois catégories : créativité, grammaire et cohérence avec le début de l'histoire. Ils ont ensuite fait la moyenne des notes obtenues dans chaque catégorie, obtenant ainsi trois notes finales par modèle.

Avec cette procédure en main, Eldan et Li étaient enfin prêts à comparer les différents modèles et à découvrir quels étaient les étudiants les plus brillants.

Résultats des tests

Après quelques explorations préliminaires, les deux chercheurs ont opté pour un ensemble de données de formation contenant environ 2 millions d'histoires. Ils ont ensuite utilisé cet ensemble de données, baptisé TinyStories, pour entraîner des modèles dont la taille varie de 1 million à 30 millions de paramètres, avec un nombre variable de couches. Le travail a été rapide : En utilisant seulement quatre GPU, l'entraînement du plus grand de ces modèles n'a pas pris plus d'une journée.

Les plus petits modèles ont eu du mal. Par exemple, l'une des histoires testées commence par un homme à l'air méchant qui dit à une fille qu'il va lui prendre son chat. Un modèle à un million de paramètres s'est retrouvé bloqué dans une boucle où la fille répète sans cesse à l'homme qu'elle veut être son amie. Mais les modèles plus grands, qui sont encore des milliers de fois plus petits que GPT-3.5, ont obtenu des résultats surprenants. La version à 28 millions de paramètres racontait une histoire cohérente, même si la fin était sinistre : "Katie s'est mise à pleurer, mais l'homme s'en fichait. Il a emporté le chat et Katie n'a plus jamais revu son chat. Fin de l'histoire".

En plus de tester leurs propres modèles, Eldan et Li ont soumis le même défi au GPT-2 d'OpenAI, un modèle de 1,5 milliard de paramètres publié en 2019. Le résultat a été bien pire - avant la fin abrupte de l'histoire, l'homme menace d'emmener la jeune fille au tribunal, en prison, à l'hôpital, à la morgue et enfin au crématorium.

Introduction

Selon M. Nguyen, il est passionnant que des modèles aussi petits soient aussi fluides, mais il n'est peut-être pas surprenant que GPT-2 ait eu du mal à accomplir la tâche : il s'agit d'un modèle plus grand, mais loin de l'état de l'art, et il a été formé sur un ensemble de données très différent. "Un enfant en bas âge qui ne s'entraînerait qu'à des tâches d'enfant en bas âge, comme jouer avec des jouets, obtiendrait de meilleurs résultats que vous ou moi", a-t-il fait remarquer. "Nous ne nous sommes pas spécialisés dans cette chose simple.

Les comparaisons entre les différents modèles de TinyStories ne souffrent pas des mêmes facteurs de confusion. Eldan et Li ont observé que les réseaux comportant moins de couches mais plus de neurones par couche étaient plus performants pour répondre aux questions nécessitant des connaissances factuelles ; inversement, les réseaux comportant plus de couches et moins de neurones par couche étaient plus performants pour garder en mémoire les personnages et les points de l'intrigue situés plus tôt dans l'histoire. Bhagavatula a trouvé ce résultat particulièrement intriguant. S'il peut être reproduit dans des modèles plus vastes, "ce serait un résultat vraiment intéressant qui pourrait découler de ce travail", a-t-il déclaré.

Eldan et Li ont également étudié comment les capacités de leurs petits modèles dépendaient de la durée de la période de formation. Dans tous les cas, les modèles maîtrisaient d'abord la grammaire, puis la cohérence. Pour Eldan, ce schéma illustre comment les différences dans les structures de récompense entraînent des différences dans les schémas d'acquisition du langage entre les réseaux neuronaux et les enfants. Pour les modèles de langage, qui apprennent en prédisant des mots, "l'incitation pour les mots "je veux avoir" est aussi importante que pour les mots "crème glacée"", a-t-il déclaré. Les enfants, en revanche, "ne se soucient pas de savoir s'ils disent 'j'aimerais avoir de la glace' ou simplement 'glace, glace, glace'".

Qualité contre quantité

Eldan et Li espèrent que cette étude incitera d'autres chercheurs à entraîner différents modèles sur l'ensemble des données de TinyStories et à comparer leurs capacités. Mais il est souvent difficile de prédire quelles caractéristiques des petits modèles apparaîtront également dans les plus grands.

"Peut-être que les modèles de vision chez la souris sont de très bons substituts de la vision humaine, mais les modèles de dépression chez la souris sont-ils de bons modèles de la dépression chez l'homme ? a déclaré M. Pavlick. "Pour chaque cas, c'est un peu différent.

Le succès des modèles TinyStories suggère également une leçon plus large. L'approche standard pour compiler des ensembles de données de formation consiste à aspirer des textes sur l'internet, puis à filtrer les déchets. Le texte synthétique généré par des modèles de grande taille pourrait constituer une autre façon d'assembler des ensembles de données de haute qualité qui n'auraient pas besoin d'être aussi volumineux.

"Nous avons de plus en plus de preuves que cette méthode est très efficace, non seulement pour les modèles de la taille de TinyStories, mais aussi pour les modèles plus importants", a déclaré M. Eldan. Ces preuves proviennent d'une paire d'articles de suivi sur les modèles à un milliard de paramètres, rédigés par Eldan, Li et d'autres chercheurs de Microsoft. Dans le premier article, ils ont entraîné un modèle à apprendre le langage de programmation Python en utilisant des extraits de code générés par GPT-3.5 ainsi que du code soigneusement sélectionné sur l'internet. Dans le second, ils ont complété l'ensemble de données d'entraînement par des "manuels" synthétiques couvrant un large éventail de sujets, afin d'entraîner un modèle linguistique à usage général. Lors de leurs tests, les deux modèles ont été comparés favorablement à des modèles plus importants formés sur des ensembles de données plus vastes. Mais l'évaluation des modèles linguistiques est toujours délicate, et l'approche des données d'entraînement synthétiques n'en est qu'à ses balbutiements - d'autres tests indépendants sont nécessaires.

Alors que les modèles linguistiques de pointe deviennent de plus en plus volumineux, les résultats surprenants de leurs petits cousins nous rappellent qu'il y a encore beaucoup de choses que nous ne comprenons pas, même pour les modèles les plus simples. M. Nguyen s'attend à ce que de nombreux autres articles explorent l'approche inaugurée par TinyStories.

"La question est de savoir où et pourquoi la taille a de l'importance", a-t-il déclaré. "Il devrait y avoir une science à ce sujet, et cet article est, je l'espère, le début d'une riche histoire.



 



 

Auteur: Internet

Info: https://www.quantamagazine.org/ Ben Brubaker, 5 octobre 2023

[ synthèse ]

 

Commentaires: 0

Ajouté à la BD par miguel