Le code génétique est le langage universel de la vie – un système bien ordonné où chaque triplet de bases d'ADN code pour l'un des 20 acides aminés, et chaque être vivant sur Terre utilise ce même alphabet de 20 lettres depuis des milliards d'années. Mais une équipe de Columbia et Harvard, apparemment lassée du consensus, a décidé de voir si elle pouvait virer l'un de ces acides aminés. Plus précisément, ils ont conçu une partie du ribosome qui fonctionne sans isoleucine, l'un des éléments constitutifs hydrophobes que les protéines adorent cacher dans leurs intérieurs qui fuient l'eau.
Pourquoi se donner cette peine ? La plupart des chercheurs dans le domaine sont occupés à ajouter de nouveaux acides aminés pour permettre une chimie cool, pas à en soustraire. Mais l'équipe Columbia-Harvard a une question plus existentielle : avant le dernier ancêtre commun universel de la vie, les organismes ont probablement expérimenté avec des codes génétiques plus petits et un mélange de protéines et d'ARN catalytiques. Nous avons beaucoup étudié les ARN catalytiques, mais nous savons peu de choses sur la chimie possible avec un ensemble réduit d'acides aminés. De plus, notent-ils, les outils d'IA sont devenus suffisamment performants pour que la reconception de protéines utilisant moins d'acides aminés soit désormais plus réaliste qu'à l'époque où Taylor Swift était encore une chanteuse country.
L'isoleucine a été l'acide aminé sacrifié choisi car c'est l'un des trois acides aminés ramifiés très similaires, hydrophobes, ne contenant que du carbone et de l'hydrogène (avec la leucine et la valine) qui se cachent généralement à l'intérieur des protéines. Une analyse du génome d'E. coli a confirmé que l'isoleucine est l'acide aminé le plus fréquemment remplacé par un autre dans les protéines apparentées entre espèces. Les chercheurs se sont donc demandé : en avons-nous vraiment besoin ?
Modifier les quelque 4 500 gènes d'E. coli en une seule fois serait une mission suicide, alors ils ont commencé petit. Ils ont pris 36 gènes essentiels et ont remplacé chaque isoleucine par une valine. Pour 22 de ces gènes, l'échange a tué les cellules. Mais 17 gènes ont survécu – dont un qui avait vu son isoleucine remplacée à 45 positions différentes. Les survivants poussaient plus lentement, cependant. Ce thème allait se répéter.
L'équipe s'est concentrée sur la conception d'un ribosome sans isoleucine – le complexe protéine-ARN massif qui traduit l'ARNm en protéines, essentiellement le matériel qui démarre une cellule vivante à partir de son génome. Ils ont remplacé l'isoleucine par la valine dans 50 gènes individuels de protéines ribosomiques. Dix-huit fonctionnaient bien, 19 poussaient plus lentement, et 13 étaient létaux. Ils ont ensuite déployé un logiciel de conception de protéines par apprentissage profond pour suggérer des séquences alternatives sans isoleucine pour les 32 gènes à aptitude réduite.
Des tests itératifs avec quatre logiciels d'IA différents ont produit des séquences fonctionnelles pour 25 de ces 32 protéines. Pour les cinq restantes, ils ont forcé des changements aux positions de l'isoleucine et laissé le logiciel reconcevoir les acides aminés voisins pour compenser. Cela a fonctionné pour quatre des cinq protéines problématiques.
Pour tester si toutes ces protéines reconçues pouvaient réellement assembler un ribosome fonctionnel, les chercheurs ont ciblé les 21 protéines de la petite sous-unité, dont les gènes sont commodément regroupés sur un segment d'ADN de 10 000 bases. En partant d'une extrémité, ils ont remplacé 10 gènes sans problème. Remplacer 17 des 21 a ralenti la croissance. Remplacer 18 a tué les cellules complètement. En travaillant depuis l'autre extrémité, ils sont tombés sur le même gène problématique : rplW. Laisser rplW intact tout en remplaçant les 20 autres gènes a produit des cellules qui poussaient à environ 70 % du taux d'E. coli normal.
En y regardant de plus près, l'IA avait compensé les changements d'isoleucine dans rplW en supprimant de petits segments d'acides aminés voisins – une solution qui fonctionnait seule mais pas en combinaison avec tous les autres changements. L'équipe a donc forcé la solution : ils ont testé chaque combinaison d'acides aminés alternatifs pour les quatre positions d'isoleucine dans rplW (16 designs au total). Un design a complété la petite sous-unité sans isoleucine, la souche résultante poussant environ 60 % aussi vite que les cellules non modifiées. Après 400 générations, les cellules ont accumulé 20 à 30 mutations, mais aucune n'a restauré une isoleucine dans une protéine ribosomique.
Notamment, si vous remettez ce rplW reconçu dans le génome sur