Método demonstra o potencial da inteligência artificial para explorar o universo ainda pouco conhecido dos vírus de RNA
Um grupo internacional de pesquisadores utilizou ferramentas de inteligência artificial (IA) para identificar mais de 70 mil vírus de RNA até então desconhecidos pela ciência. Eles usaram uma técnica chamada metagenômica, que permite analisar o material genético de amostras ambientais sem a necessidade de isolar e cultivar vírus em laboratório.
Vírus são microrganismos ubíquos que infectam animais, plantas e até bactérias, mas apenas uma pequena fração deles é conhecida. Há ainda um vasto universo de vírus a ser descoberto; alguns deles podem causar doenças em seres humanos, o que torna sua caracterização ainda mais importante e necessária.
Estudos anteriores utilizaram técnicas de machine learning para identificar novos vírus em dados de sequenciamento. Em um deles, os pesquisadores analisaram 5,7 milhões de amostras genômicas armazenadas em bancos de dados públicos e identificaram quase 132 mil novos vírus de RNA. Acontece que os vírus de RNA evoluem muito rápido, o que faz com que os métodos atuais de identificação tenham dificuldade para captar novos vírus.
Um método comum é procurar uma seção do genoma que codifica uma proteína-chave usada na replicação do RNA, a RNA polimerase dependente de RNA (RdRp). No entanto, se a sequência que codifica essa proteína em um vírus for muito diferente de sequências conhecidas, os pesquisadores podem não conseguir reconhecê-la.
Um estudo mais recente, publicado em outubro na revista Cell, usou essa abordagem para analisar estruturas proteicas previstas. Os autores desenvolveram um modelo de IA que incorpora uma ferramenta de predição de proteínas chamada ESMFold, desenvolvida por pesquisadores da Meta, controladora das plataformas Facebook, Instagram e WhatsApp — um sistema semelhante criado por pesquisadores da DeepMind Technologies, da Alphabet, controladora do Google, que receberam o Prêmio Nobel de Química.
No estudo publicado na Cell, os pesquisadores buscaram vírus ainda não identificados em amostras genômicas disponíveis publicamente. Eles desenvolveram um modelo chamado LucaProt, utilizando a mesma arquitetura que fundamenta o ChatGPT, e integraram dados de sequenciamento e predição de proteínas do ESMFold.
Em seguida, treinaram o modelo para reconhecer RdRps virais e o aplicaram para identificar sequências que codificavam essas enzimas — sinal de que pertenciam a vírus — em uma grande quantidade de dados genômicos. Fazendo isso, identificaram cerca de 160 mil vírus de RNA. Quase metade deles nunca havia sido descrita antes.
A equipe não conseguiu determinar os hospedeiros desses vírus, algo que agora precisa ser investigado mais a fundo. Os pesquisadores estão interessados em descobrir se algum dos novos vírus infecta arqueias, um ramo inteiro da árvore da vida para o qual ainda não foi identificado claramente nenhum vírus de RNA como infectante.