Por Onicio B. Leal Neto. PhD em Saúde Pública e Epidemiologia pela FIOCRUZ, pesquisador Sênior do Departamento de Ciência Da Computação, ETH Zurich e Faculty SingularityU Brazil.
Modelos de Linguagem de Grande Escala (LLM), como o ChatGPT, têm demonstrado uma fluidez de interação com humanos surpreendentemente natural. Estes modelos, capazes de simular a conversação humana de maneira cada vez mais verossímil, têm despertado entusiasmo na comunidade médica e científica.
A aplicação potencial do ChatGPT e de outros modelos de linguagem de grande escala nas rotinas de pesquisas de saúde e na prática clínica é vasta. De melhoria na documentação de dados dos pacientes ao aprimoramento no diagnóstico e suporte nas linhas de cuidado, a implementação dessas ferramentas pode revolucionar a maneira como a medicina é praticada.
No entanto, a perspectiva de integração desses modelos na prática de saúde também tem levantado preocupações sérias. Problemas como alucinações e confabulações, além de vieses e estereótipos associados à interpretação dos dados dos pacientes, são questões que exigem uma abordagem cautelosa e reflexiva.
O respeito à privacidade e à dignidade do paciente é, sem dúvida, uma prioridade absoluta, que precisa ser abordada em todos os avanços relacionados às LLMs e às IAs generativas. Esse aspecto ético é tão fundamental que o Center for AI Safety, apoiado por uma gama de cientistas e líderes da indústria de tecnologia, já emitiu uma declaração alertando para os riscos potenciais que as IAs podem representar para a humanidade. A declaração sugere que esses riscos devem ser tratados como uma prioridade global, semelhante a ameaças como pandemias e guerra nuclear. Embora essa abordagem possa parecer alarmista para alguns, ela tem o mérito de sensibilizar a sociedade para as implicações éticas e de segurança das IAs.
Ryan Carlo, pesquisador e professor da University of Washington School of Law, tem sido uma voz influente nesse debate, defendendo uma reflexão equilibrada e pragmática. Em vez de se concentrar em cenários distópicos dignos de Hollywood, ele argumenta que deveríamos nos preocupar mais com os impactos sociais e ambientais das IAs. A falta de integridade da informação o aumento da desigualdade social podem ser verdadeiras catástrofes. Estas preocupações já foram inclusive descritas antes das IAs generativas alcançarem a fama atual, por autoras como Cathy O’Neal em seu livro Weapons of Math Destruction – How big data increases inequality and threatens democracy e Virgina Eubanks, em Automating Inequality: How High-tech tools profile, police and punish the poor.
Em meio a este panorama, uma pesquisa recente, ainda em pre-print (ou seja, sem revisão por pares), chamou a atenção do campo médico. Conduzido por pesquisadores da Universidade da Florida e da NVIDIA, o estudo apresenta os resultados preliminares de um modelo generativo conhecido como GatorTronGPT. Com base na mesma arquitetura do GPT-3, o GatorTronGPT foi treinado com 82 bilhões de palavras de textos clínicos e 195 bilhões de palavras em inglês do Pile, um conjunto de dados que contém 800 gigabytes de textos diversos para treinamento de modelos de linguagem.
Os resultados são surpreendentes. O GatorTronGPT demonstrou alto desempenho em 4 dos 6 conjuntos de dados de benchmark de processamento de linguagem natural biomédica, ou seja, quando comparado a outras técnicas para aplicações biomédicas, a abordagem tem se mostrado muito promissora. O modelo foi capaz de gerar texto clínico sintético útil para o desenvolvimento de modelos de processamento de linguagem natural clínica sintética, conhecidos como GatorTronS. Estes, por sua vez, alcançaram desempenho superior ou comparável aos modelos de processamento de linguagem natural treinados com texto clínico do mundo real.
O GatorTronGPT foi comparado com modelos de transformadores existentes para extração de relações biomédicas e resposta a perguntas, uma prática comum em pesquisas científicas para avaliar o desempenho relativo dos novos modelos. Entre os modelos com os quais o GatorTronGPT foi comparado estavam o GPT-2 medium, Rebel, Rebel-PT, BioGPT, PubMedBERT, BioElectra e BioLinkBERT. Cada um desses modelos foi desenvolvido com diferentes objetivos e abordagens, permitindo uma comparação abrangente e robusta do desempenho do GatorTronGPT.
Os modelos GPT-2 medium, Rebel e Rebel-PT representam o estado da arte na extração de relações biomédicas. O GPT-2 medium é uma versão de tamanho intermediário do modelo GPT-2 original da OpenAI, enquanto o Rebel e Rebel-PT são modelos recentes especificamente projetados para a tarefa de extração de relações. O BioGPT é um outro modelo de linguagem que foi treinado especificamente em textos biomédicos.
Quanto à tarefa de resposta a perguntas, o GatorTronGPT foi comparado com o PubMedBERT, o BioElectra e o BioLinkBERT. O PubMedBERT foi treinado no corpus PubMed, uma das maiores bases de dados de literatura biomédica. O BioElectra é um modelo de linguagem de domínio específico projetado para tarefas de classificação de texto e extração de entidades nomeadas em textos biomédicos. Já o BioLinkBERT é um modelo que combina a arquitetura BERT com dados de ligação de entidades para melhorar a precisão da extração de relações.
A comparação com esses modelos permitiu aos pesquisadores avaliar o desempenho do GatorTronGPT em uma ampla gama de tarefas. O desempenho surpreendente do GatorTronGPT nos benchmarks, tanto para a extração de relações biomédicas quanto para a resposta a perguntas, reforça o seu potencial como ferramenta útil para a prática clínica e a pesquisa biomédica.
O estudo foi além e realizou uma espécie de Teste de Turing, onde especialistas em endocrinologia e cardiologia avaliaram parágrafos clínicos sintéticos gerados pelo GatorTronGPT, misturados com parágrafos reais escritos por médicos. Apenas 49,2% das notas clínicas foram identificadas corretamente, incluindo 36,7% das notas sintéticas e 61,7% das notas humanas. Este resultado sugere que o GatorTronGPT passou no Teste de Turing, com textos sintéticos praticamente indistinguíveis dos textos humanos em termos de legibilidade linguística e relevância clínica.
No entanto, é importante observar que, apesar de seus resultados impressionantes, os LLMs não estão isentos de desafios. Eles têm a tendência a confabulação ou alucinação, como mencionados no início do texto, o que pode ser divertido em chatbots, mas perigoso para a aplicação na saúde. Portanto, estudos futuros precisam examinar estratégias para controlar essas alucinações a um nível mínimo, tornando os LLMs seguros para a prática médica. Além disso, embora o LLM tenha mostrado grande promessa em termos de texto gerado, ainda há espaço para melhorias, e os estudos futuros também devem examinar como a geração de texto clínicos podem ser melhoradas e controladas a partir de instruções humanas, método conhecido como Reinforcement Learning From Human Feedback – o mesmo utilizados pelo ChatGPT. Esta forma linear de processamento pode ser insuficiente para lidar com tarefas que exigem um maior grau de exploração estratégica e antecipação.
Para enfrentar esses desafios, um novo framework para inferência de modelos de linguagem foi recentemente introduzido: o Tree of Thoughts (ToT). Esse framework expande a abordagem convencional Chain of Thought para a criação de prompts nos modelos de linguagem, permitindo uma exploração mais profunda de unidades coerentes de texto, chamadas de “pensamentos”, que servem como etapas intermediárias na resolução de problemas.
A inovação do ToT está em sua capacidade de permitir uma tomada de decisão mais deliberada por parte dos LLMs. Eles podem considerar múltiplos caminhos de raciocínio, autoavaliar suas escolhas e determinar o próximo curso de ação, olhando para frente ou voltando atrás quando necessário. Em outras palavras, o ToT dá aos LLMs a capacidade de realizar escolhas globais, ampliando significativamente seu potencial na solução de problemas complexos.
Essa inovação é particularmente relevante quando consideramos a aplicação dos LLMs no contexto da prática médica, tal como exemplificado pelo GatorTron GPT. Este modelo de linguagem baseado na arquitetura GPT-3 demonstrou alto desempenho em tarefas de processamento de linguagem natural biomédica, gerando texto clínico sintético útil e passando em uma versão do Teste de Turing.
O ToT poderia potencialmente aprimorar a capacidade do GatorTron GPT e de outros LLMs de navegar por múltiplos caminhos de raciocínio, tomar decisões mais informadas e estratégicas, e explorar uma variedade maior de soluções durante a inferência. Isso poderia aumentar a utilidade desses modelos em tarefas clínicas complexas, como diagnóstico de doenças ou planejamento de tratamentos, tornando-os parceiros ainda mais eficazes na prática clínica.
Ainda estamos no início desta emocionante evolução dos LLMs. Porém, a combinação do potencial demonstrado pelo GatorTron GPT com as novas possibilidades abertas pelo framework ToT sugere um futuro promissor para a aplicação de LLMs na prática médica.