Categorias
Blog

O deep learning está enfrentando outro mistério da biologia: a estrutura do RNA

O deep learning está resolvendo os segredos mais profundos da biologia em uma velocidade de tirar o fôlego.

Apenas um mês atrás, DeepMind superou um grande desafio de 50 anos: o enovelamento de proteínas. Uma semana depois, eles produziram um banco de dados totalmente transformador com mais de 350.000 estruturas de proteínas, incluindo mais de 98% das proteínas humanas conhecidas. A estrutura está no cerne das funções biológicas. O despejo de dados, definido para se fragmentar em 130 milhões de estruturas até o final do ano, permite aos cientistas invadirem a “matéria escura” anterior – proteínas não vistas e não testadas – da composição do corpo humano.

O resultado final é revolucionário. Da pesquisa básica em ciências da vida ao desenvolvimento de novos medicamentos para combater nossos adversários mais difíceis, como o câncer, o ddep learning nos deu uma chave de ouro para desbloquear novos mecanismos biológicos – naturais ou sintéticos – que antes eram inatingíveis.

Agora, a querida IA está configurada para fazer o mesmo com o RNA.

Como filho do meio do dogma central “DNA para RNA para proteína”, o RNA não sofreu muita pressão até sua contribuição para a vacina Covid-19. Mas a molécula é um herói duplo: ela carrega informações genéticas e – dependendo de sua estrutura – pode catalisar funções biológicas, regular quais genes são ativados, ajustar seu sistema imunológico e, ainda mais louco, potencialmente transmitir “memórias” através de gerações .

É frustrantemente difícil de entender.

Semelhante às proteínas, o RNA também se dobra em estruturas 3D complicadas. A diferença, de acordo com os drs. Rhiju Das e Ron Dror, da Universidade de Stanford, é que, comparativamente, sabemos pouco sobre essas moléculas. Existem 30 vezes mais tipos de RNA do que proteínas, mas o número de estruturas de RNA decifradas é inferior a 1% em comparação com as proteínas.

A equipe de Stanford decidiu preencher essa lacuna. Em um artigo publicado na semana passada na revista Science, eles descreveram um algoritmo de deep learning chamado ARES (Atomic Rotationally Equivalent Scorer) que resolve com eficiência estruturas de RNA.

Os autores “alcançaram um progresso notável em um campo que se mostrou recalcitrante aos avanços transformativos”, disse o Dr. Kevin Weeks, da Universidade da Carolina do Norte, que não esteve envolvido no estudo.

Ainda mais impressionante, o ARES foi treinado em apenas 18 estruturas de RNA, mas foi capaz de extrair regras de “blocos de construção” substanciais para o dobramento de RNA que serão testadas em laboratórios experimentais. ARES também é agnóstico de entrada, na medida em que não é especificamente adaptado para RNA.

“Esta abordagem é aplicável a diversos problemas em biologia estrutural, química, ciência dos materiais e muito mais”, disseram os autores.

Conheça o RNA
A importância desta biomolécula para nossa vida cotidiana é provavelmente resumida a “vacina de Covid”. Mas é muito mais.

Como as proteínas, o RNA é transcrito do DNA. Ele também tem quatro letras, A, U, C e G, com A agarrando U e C amarrado a G. O RNA é uma família inteira, com o tipo mais conhecido sendo o RNA mensageiro, ou mRNA, que carrega as instruções genéticas para construir proteínas. Mas também há o RNA de transferência, ou tRNA – é legal pensar nisso como um drone de transporte – que agarra os aminoácidos e os leva para a fábrica de proteínas, microRNA que controla a expressão do gene e até primos mais estranhos sobre os quais entendemos pouco.

Resumindo: o RNA é um alvo poderoso e uma inspiração para a medicina genética ou vacinas. Uma maneira de desligar um gene sem realmente tocá-lo, por exemplo, é matar seu mensageiro de RNA. Em comparação com a terapia genética, alvejar o RNA poderia ter menos efeitos indesejados, ao mesmo tempo em que mantem nosso projeto genético intacto.

O RNA frequentemente se assemelha a fones de ouvido emaranhados. Começa como uma corda, mas posteriormente se emaranha em um loop-de-loop – como torcer um elástico. Essa estrutura sinuosa então se torce novamente com loops circundantes, formando uma estrutura terciária.

Ao contrário dos fones de ouvido frustrantes e irritantes, o RNA se distorce de maneiras quase previsíveis. Ele tende a se acomodar em uma das várias estruturas. Eles são como a forma que seu corpo assume durante uma série de movimentos de dança. Estruturas de RNA terciário, então, costuram esses movimentos de dança juntos em um “motivo”.

“Cada RNA provavelmente tem uma personalidade estrutural distinta”, disse Weeks.

Essa aparente simplicidade é o que faz os pesquisadores arrancarem os cabelos. Os blocos de construção do RNA são simples – apenas quatro letras. Eles também se dobram em estruturas semirrígidas antes de se tornarem modelos terciários mais complicados. No entanto, “apesar desses recursos de simplificação, a modelagem de estruturas complexas de RNA provou ser difícil”, disse Weeks.

O Enigma da Predição
As soluções atuais de deep learning geralmente começam com um requisito: uma tonelada de exemplos de treinamento, para que cada camada da rede neural possa começar a aprender como extrair recursos de maneira eficiente – informações que permitem que a IA faça previsões sólidas.

Isso é proibido para o RNA. Ao contrário das estruturas de proteínas, o RNA simplesmente não tem exemplos experimentais e verdadeiros suficientes.

Com o ARES, os autores adotaram uma abordagem de levantar as sobrancelhas. O algoritmo não se preocupa com o RNA. Ele descarta tudo o que já sabemos sobre a molécula e suas funções. Em vez disso, ele se concentrou apenas no arranjo dos átomos.

ARES foi treinado pela primeira vez com um pequeno conjunto de motivos conhecidos de estruturas de RNA anteriores. A equipe também adicionou um grande grupo de exemplos alternativos da mesma estrutura que estavam incorretos. Digerindo esses exemplos, o ARES ajustou lentamente seus parâmetros de rede neural para que o programa começasse a aprender como cada átomo e sua colocação contribuem para a função geral da molécula.

Semelhante a um algoritmo clássico de visão por computador que gradualmente extrai recursos – de pixels a linhas e formas – o ARES faz o mesmo. As camadas em sua rede neural cobrem escalas finas e grosseiras. Quando desafiado com um novo conjunto de estruturas de RNA, muitos dos quais são muito mais complexos do que os de treinamento, o ARES foi capaz de destilar padrões e novos motivos, reconhecendo como as letras se ligam.

“Ele aprende inteiramente com a estrutura atômica, sem usar nenhuma outra informação… e não faz suposições sobre quais características estruturais podem ser importantes”, disseram os autores. Eles nem mesmo forneceram qualquer informação básica para o algoritmo, como o RNA ser feito de cadeias de quatro letras.

Como outro benchmark, a próxima equipe desafiou ARES para o RNA-Puzzles. Iniciado em 2011, o RNA-Puzzles é um desafio da comunidade para os biólogos estruturais testarem seus algoritmos de predição contra estruturas de RNA experimentais conhecidas. O ARES acabou com a competição.

A resolução média “permaneceu obstinadamente presa” cerca de 10 vezes menos do que a de uma proteína, disse Weeks. O ARES melhorou a precisão em cerca de 30%. É um passo aparentemente pequeno, mas um salto gigante para um dos problemas mais intratáveis ​​da biologia.

Um Código Estrutural de RNA
Comparado com a previsão da estrutura da proteína, o RNA é muito mais difícil. E, por enquanto, o ARES ainda não pode chegar ao nível de precisão necessário para os esforços de descoberta de drogas ou encontrar novos “pontos quentes” em moléculas de RNA que podem ajustar nossa biologia.

Mas o ARES é um poderoso passo à frente para “perfurar a névoa” do RNA, que está “pronto para transformar a estrutura do RNA e a descoberta de funções”, disse Weeks. Uma melhoria no algoritmo poderia ser incorporar alguns dados experimentais para modelar ainda mais essas estruturas intrincadas. O que está claro é que o RNA parece ter um “código estrutural” que ajuda a regular os circuitos genéticos – algo que o ARES e suas próximas gerações podem ajudar a analisar.

Muito do RNA tem sido a “matéria escura” da biologia. Sabemos que está lá, mas é difícil de visualizar e ainda mais difícil de estudar. ARES representa o próximo telescópio naquela névoa. “À medida que se torna possível medir, aprender (profundamente) e prever os detalhes da estrutura terciária do RNA, diversas novas descobertas em mecanismos biológicos aguardam”, disse Weeks.

Artigo originalmente publicado por SingularityHub.

Você já ouviu falar na Lei de Moore? Leia mais sobre o que é e como funciona esse conceito.