O código genético é a linguagem universal da vida - um sistema organizado onde cada três bases de DNA codificam um dos 20 aminoácidos, e todo ser vivo na Terra usa esse mesmo alfabeto de 20 letras há bilhões de anos. Mas uma equipe de Columbia e Harvard, aparentemente entediada com o consenso, decidiu ver se poderia demitir um desses aminoácidos. Especificamente, eles projetaram uma porção do ribossomo que funciona sem isoleucina, um dos blocos de construção hidrofóbicos que as proteínas adoram esconder em seus interiores que evitam água.
Por que se preocupar? A maioria dos pesquisadores na área está ocupada adicionando novos aminoácidos para possibilitar química legal, não subtraindo-os. Mas a turma de Columbia-Harvard tem uma questão mais existencial: antes do último ancestral comum universal da vida, os organismos provavelmente experimentaram códigos genéticos menores e uma mistura de proteínas e RNAs catalíticos. Estudamos RNAs catalíticos bastante, mas sabemos pouco sobre qual química é possível com um conjunto reduzido de aminoácidos. Além disso, eles observam que as ferramentas de IA ficaram boas o suficiente para que redesenhar proteínas para usar menos aminoácidos seja agora mais realista do que quando Taylor Swift ainda era cantora country.
A isoleucina foi o aminoácido sacrificial escolhido porque é um dos três aminoácidos ramificados altamente semelhantes, hidrofóbicos, compostos apenas de carbono e hidrogênio (junto com leucina e valina) que normalmente se escondem dentro das proteínas. Uma análise do genoma da E. coli confirmou que a isoleucina é o aminoácido mais frequentemente trocado por outro em proteínas relacionadas entre espécies. Então os pesquisadores perguntaram: será que realmente precisamos dela?
Editar todos os cerca de 4.500 genes da E. coli de uma vez seria uma missão suicida, então eles começaram pequeno. Pegaram 36 genes essenciais e substituíram cada isoleucina por valina. Para 22 desses genes, a troca matou as células. Mas 17 genes sobreviveram - incluindo um que teve isoleucina trocada em 45 posições diferentes. Os sobreviventes cresceram mais devagar, no entanto. Esse tema se repetiria.
A equipe focou em projetar um ribossomo livre de isoleucina - o enorme complexo de proteína e RNA que traduz mRNA em proteínas, essencialmente o hardware que inicializa uma célula viva a partir de seu genoma. Eles trocaram isoleucina por valina em 50 genes individuais de proteínas ribossomais. Dezoito funcionaram bem, 19 cresceram mais devagar e 13 foram letais. Em seguida, eles usaram software de aprendizado profundo para design de proteínas para sugerir sequências alternativas sem isoleucina para os 32 genes com aptidão reduzida.
Testes iterativos com quatro pacotes diferentes de IA produziram sequências viáveis para 25 dessas 32 proteínas. Para as cinco restantes, eles forçaram mudanças nas posições da isoleucina e deixaram o software redesenhar aminoácidos próximos para compensar. Isso funcionou para quatro das cinco proteínas problemáticas.
Para testar se todas essas proteínas redesenhadas poderiam realmente montar um ribossomo funcional, os pesquisadores miraram as 21 proteínas da subunidade menor, cujos genes estão convenientemente agrupados em um trecho de 10.000 bases de DNA. Começando de uma extremidade, eles substituíram 10 genes sem problemas. Substituir 17 dos 21 diminuiu o crescimento. Substituir 18 matou as células completamente. Trabalhando da outra direção, eles encontraram o mesmo gene problemático: rplW. Deixar rplW intocado enquanto substituía os outros 20 genes produziu células que cresciam a cerca de 70% da taxa da E. coli normal.
Olhando mais de perto, a IA havia compensado as mudanças de isoleucina no rplW deletando pequenos trechos de aminoácidos próximos - uma correção que funcionava sozinha, mas não em combinação com todas as outras mudanças. Então a equipe resolveu na força bruta: testaram todas as combinações de aminoácidos alternativos para as quatro posições de isoleucina no rplW (16 designs no total). Um design completou a subunidade menor livre de isoleucina, com a cepa resultante crescendo cerca de 60% mais rápido que as células não editadas. Após 400 gerações, as células acumularam 20-30 mutações, mas nenhuma restaurou uma isoleucina em qualquer proteína ribossomal.
Notavelmente, se você colocar esse rplW redesenhado de volta no genoma em