Categorias
Blog

A nova IA da OpenAI aprendeu a jogar Minecraft assistindo 70.000 horas de YouTube

Em 2020, o algoritmo de aprendizado de máquina GPT-3 da OpenAI surpreendeu as pessoas quando, depois de ingerir bilhões de palavras extraídas da internet, começou a cuspir frases bem elaboradas. Este ano, DALL-E 2, um primo do GPT-3 treinado em texto e imagens, causou uma agitação semelhante online quando começou a criar imagens surreais de astronautas montando cavalos e, mais recentemente, criando rostos estranhos e fotorrealistas de pessoas que não não existem.

Agora, a empresa diz que sua IA mais recente aprendeu a jogar Minecraft depois de assistir cerca de 70.000 horas de vídeo mostrando pessoas jogando o jogo no YouTube.

Escola de Minas
Em comparação com vários algoritmos anteriores do Minecraft que operam em versões “sandbox” muito mais simples do jogo, a nova IA joga no mesmo ambiente que os humanos, usando comandos padrão de teclado e mouse.

Em uma postagem no blog e uma pré-impressão detalhando o trabalho, a equipe do OpenAI diz que, fora da caixa, o algoritmo aprendeu habilidades básicas, como derrubar árvores, fazer pranchas e construir mesas de trabalho. Eles também o observaram nadando, caçando, cozinhando e “pulando de pilares”.

“Até onde sabemos, não há trabalho publicado que opere no espaço completo e não modificado da ação humana, que inclui gerenciamento de inventário de arrastar e soltar e criação de itens”, escreveram os autores em seu artigo.

Com o ajuste fino – isto é, treinando o modelo em um conjunto de dados mais focado – eles descobriram que o algoritmo executava todas essas tarefas de maneira mais confiável, mas também começaram a avançar sua proeza tecnológica fabricando ferramentas de madeira e pedra e construindo abrigos básicos, explorando aldeias e saqueando baús.

Depois de mais ajustes com o aprendizado por reforço, ele aprendeu a construir uma picareta de diamante – uma habilidade que leva os jogadores humanos cerca de 20 minutos e 24.000 ações para realizar.

Este é um resultado notável. A IA há muito luta com a jogabilidade aberta do Minecraft. Jogos como xadrez e Go, que a IA já domina, têm objetivos claros e o progresso em direção a esses objetivos pode ser medido. Para conquistar o Go, os pesquisadores usaram o aprendizado por reforço, onde um algoritmo recebe um objetivo e é recompensado pelo progresso em direção a esse objetivo. O Minecraft, por outro lado, tem vários objetivos possíveis, o progresso é menos linear e os algoritmos de aprendizado de reforço profundo geralmente ficam girando.

Na competição MineRL Minecraft de 2019 para desenvolvedores de IA, por exemplo, nenhuma das 660 inscrições atingiu o objetivo relativamente simples da competição de mineração de diamantes.

Vale a pena notar que, para recompensar a criatividade e mostrar que jogar poder de computação em um problema nem sempre é a resposta, os organizadores do MineRL colocaram limites estritos aos participantes: eles tiveram permissão para uma GPU NVIDIA e 1.000 horas de jogabilidade gravada. Embora os concorrentes tenham tido um desempenho admirável, o resultado do OpenAI, alcançado com mais dados e 720 GPUs NVIDIA, parece mostrar que o poder de computação ainda tem seus benefícios.

A IA fica esperta
Com seu algoritmo de pré-treinamento de vídeo (VPT) para Minecraft, o OpenAI retornou à abordagem usada com GPT-3 e DALL-E: pré-treinar um algoritmo em um conjunto de dados gigantesco de conteúdo criado por humanos. Mas o sucesso do algoritmo não foi possibilitado apenas pelo poder de computação ou pelos dados. Treinar um Minecraft AI com tanto vídeo não era prático antes.

As imagens de vídeo brutas não são tão úteis para IAs comportamentais quanto para geradores de conteúdo como GPT-3 e DALL-E. Mostra o que as pessoas estão fazendo, mas não explica como elas estão fazendo. Para que o algoritmo vincule o vídeo às ações, ele precisa de rótulos. Um quadro de vídeo mostrando a coleção de objetos de um jogador, por exemplo, precisaria ser rotulado como “inventário” ao lado da tecla de comando “E” que é usada para abrir o inventário.

Rotular cada quadro em 70.000 horas de vídeo seria… insano. Então, a equipe pagou aos contratados da Upwork para gravar e rotular as habilidades básicas do Minecraft. Eles usaram 2.000 horas deste vídeo para ensinar um segundo algoritmo como rotular vídeos do Minecraft, e esse algoritmo, IDM, anotou todas as 70.000 horas de imagens do YouTube. (A equipe diz que o IDM teve mais de 90% de precisão ao rotular os comandos do teclado e do mouse.)

Essa abordagem de humanos treinando um algoritmo de rotulagem de dados para desbloquear conjuntos de dados comportamentais on-line pode ajudar a IA a aprender outras habilidades também. “O VPT abre o caminho para permitir que os agentes aprendam a agir assistindo a um grande número de vídeos na internet”, escreveu o pesquisador. Além do Minecraft, a OpenAI acha que o VPT pode trazer novos aplicativos do mundo real, como algoritmos que operam computadores em um prompt (imagine, por exemplo, pedir ao seu laptop para encontrar um documento e enviá-lo por e-mail ao seu chefe).

Os diamantes não são para sempre
Para desgosto dos organizadores da competição MineRL, talvez, os resultados parecem mostrar que o poder e os recursos de computação ainda movem a agulha na IA mais avançada.

Não importa o custo da computação, a OpenAI disse que apenas os contratados da Upwork custam US$ 160.000. Embora, para ser justo, rotular manualmente todo o conjunto de dados chegaria aos milhões e levaria um tempo considerável para ser concluído. E embora o poder de computação não fosse desprezível, o modelo era realmente muito pequeno. As centenas de milhões de parâmetros do VPT são ordens de magnitude inferiores às centenas de bilhões do GPT-3.

Ainda assim, o esforço para encontrar novas abordagens inteligentes que usam menos dados e computação é válido. Uma criança pode aprender o básico do Minecraft assistindo a um ou dois vídeos. A IA de hoje exige muito mais para aprender habilidades simples. Tornar a IA mais eficiente é um grande e valioso desafio.

De qualquer forma, o OpenAI está em clima de compartilhamento desta vez. Os pesquisadores dizem que o VPT não está isento de riscos – eles controlaram estritamente o acesso a algoritmos como GPT-3 e DALL-E parcialmente para limitar o uso indevido – mas o risco é mínimo por enquanto. Eles abriram os dados, o ambiente e o algoritmo e estão em parceria com o MineRL. Os participantes deste ano podem usar, modificar e ajustar o que há de mais recente no Minecraft AI.

As chances são boas de que eles passarão bem da mineração de diamantes desta vez.

Categorias
Blog

O desenvolvimento de uma célula ao longo do tempo por um “gravador” biológico

Os vídeos caseiros da infância podem ser emocionantes, hilários ou francamente embaraçosos. Mas as fitas contêm um recurso inestimável: trechos da jornada de uma criança enquanto ela aprende a navegar pelo mundo. Claro, as fotos também podem capturar um primeiro aniversário ou uma primeira queda de bicicleta, mas em vez de um filme, são instantâneos e únicos no tempo.

Os cientistas há muito procuram incorporar “filmadoras” de DNA nas células para capturar sua história. Como as crianças, as células crescem, se diversificam e amadurecem à medida que interagem com o ambiente. Essas mudanças estão incorporadas na atividade genética de uma célula e, ao reconstruí-las ao longo do tempo, os cientistas podem inferir o estado atual de uma célula – por exemplo, ela está se tornando cancerosa?

A tecnologia “aprofundaria o conhecimento sobre a biologia do desenvolvimento e do câncer que poderia ser traduzido em estratégias terapêuticas”, disseram o Dr. Nozomu Yachie e colegas da Universidade da Colúmbia Britânica.

O problema? O processo de gravação, até o momento, consistiu apenas em instantâneos únicos e destruiu a célula, impossibilitando o rastreamento de seu crescimento.

Agora, uma equipe liderada pelo Dr. Seth Shipman no Gladstone Institutes projetou um gravador biológico – apelidado de Retro-Cascorder – que, como uma câmera de vídeo da velha escola, pode capturar o histórico de expressão genética de uma célula em uma “fita” de DNA por dias a fio. Graças ao CRISPR, essas “fitas” são então integradas ao genoma da célula, que pode ser lida posteriormente.

Os dados resultantes não são exatamente os vídeos caseiros mais engraçados da América. Em vez disso, é mais um livro que documenta vários sinais biológicos e os armazena ordenadamente em ordem cronológica.

Esta nova maneira de coletar dados moleculares nos dá uma janela sem precedentes para as células”, disse Shipman. Além de espionar a história de desenvolvimento de uma célula – por exemplo, como ela se diversificou de uma célula-tronco comum – adicionar Retro-Cascorder poderia transformar células normais em biossensores vivos que monitoram poluição, vírus ou outros contaminantes, ao mesmo tempo testando a capacidade do DNA como um dispositivo de armazenamento de dados confiável.

A ascensão das fitas de DNA

Por que rastrear o histórico de uma célula?
Imagine uma célula quando criança. A partir de um óvulo fertilizado, ela cresce, muda sua aparência externa – em uma célula da pele ou um neurônio, por exemplo – e, no caso das células reprodutivas, passa informações genéticas para seus filhos. A jornada de uma célula pela vida não é definida apenas por sua genética – em vez disso, como suas instruções genéticas serão realizadas depende de interações com seus vizinhos celulares e com o mundo exterior: dieta, exercícios, estresse e qualquer coisa que seu hospedeiro humano experimente.

Esses estímulos da natureza e da criação acionam uma célula para ativar um certo padrão de genes – um processo apelidado de expressão gênica. Todas as nossas células abrigam o mesmo conjunto de genes; o que os torna diferentes é quais estão ligados ou desligados. A expressão gênica é extremamente poderosa: pode mudar a identidade, a função e, finalmente, os processos biológicos que governam a vida de uma célula.

Seria ótimo dar uma olhada em seu funcionamento interno.

Usando tecnologias “ômicas” – isto é, analisando milhões de células ao mesmo tempo para expressão gênica, metabolismo ou outros estados – podemos obter um instantâneo de alta resolução de um grupo de células em um determinado momento. Embora poderoso, o processo destrói a amostra. A razão é porque a leitura das informações de expressão gênica armazenadas nas células, um método apelidado de RNAseq, requer a quebra do envelope gorduroso e borbulhante da célula para acessar e extrair as moléculas. Imagine apontar o Telescópio James Webb para qualquer ponto no espaço, sabendo que o telescópio irá obliterar qualquer coisa que vir – sim, não é ótimo.

As fitas de DNA adotam uma abordagem diferente. Como um editor de vídeo, elas “marcam” os eventos de uma célula com um código de barras composto de letras de DNA – um pouco como um carimbo de data/hora. Shipman não é estranho ao uso de DNA como dispositivo de armazenamento. Em 2017, trabalhando com o biólogo sintético Dr. George Church em Harvard e equipe, eles codificaram um filme digital no genoma de bactérias vivas usando CRISPR.

Diário de DNA
O novo estudo tinha um objetivo relativamente simples: como uma câmera acionada por movimento, começar a gravar sempre que um gene específico fosse ativado.

Para projetar o Retro-Cascorder, a equipe se voltou para um elemento genético enigmático, os retrons. Estes são pequenos pedaços de DNA bacteriano que confundiram os cientistas por décadas, antes de perceberem que fazem parte do sistema imunológico de uma bactéria. Em 2021, o coautor do estudo, Church, transformou os retrons de uma estranha peculiaridade bacteriana em uma ferramenta de edição de genes que pode rastrear milhões de variações de DNA e acompanhar seus efeitos ao mesmo tempo. Crucialmente, eles perceberam que os retrons podem ser usados ​​como marcadores para marcar uma mudança genética específica no tempo.

Aqui, a equipe começou projetando retrons para produzir etiquetas de DNA específicas – como imprimir uma série de códigos de barras para marcar pacotes. As etiquetas estão ligadas a promotores de DNA, que, como um semáforo, dão à célula permissão para ativar um gene.

Quando um gene é ativado, o retron gera automaticamente um código de barras exclusivo que certifica sua atividade. É um processo de várias etapas: a etiqueta, originalmente codificada no DNA, é primeiro transcrita em RNA pela célula e depois reescrita de volta em “recibos” de DNA pelos retrons.

Pense em uma caixa registradora de restaurante. Isso equivale a imprimir um pedido, em um determinado momento, com um recibo.

Depois de verificar se a tecnologia funciona conforme o esperado, a equipe passou a fazer “filmes” de uma célula usando tags baseadas em retron. Não é um vídeo no sentido tradicional: a equipe ainda precisava analisar os códigos de barras ao final de uma sessão de gravação – cerca de 24 horas – para reprodução, o que destrói as células.

Manter o controle das mudanças de expressão gênica em um instantâneo no tempo é relativamente simples. Manter o controle das mesmas mudanças ao longo de um dia é muito mais difícil. Para construir uma espécie de “memória” para o gravador, a equipe recorreu ao CRISPR-Cas. Aqui, as matrizes CRISPR atuam como o diário, enquanto os retrons funcionam como entradas diárias. Os recibos de DNA, gerados por retrons, são incorporados a uma matriz CRISPR. Como fitas cassete, elas contêm dados seguidos por espaçadores, como uma tela preta, para ajudar a separar os eventos. À medida que novas informações são adicionadas, os espaçadores anteriores se afastam da entrada mais próxima, tornando possível decifrar uma linha do tempo de eventos.

As células com a capacidade de usar o CRISPR para gravar dados genéticos “podem gravar progressivamente eventos celulares… em fitas de DNA”, disse Yachie.

Em uma prova de conceito, a equipe introduziu o Retro-Cascorder na Escherichia coli (E. Coli), a bactéria favorita do laboratório, por meio de engenharia genética. Incorporar a nova construção foi um bom sinal para os cientistas, pois sugeriu pouco estresse ou toxicidade para as células.

Eles então ativaram um ou ambos os promotores de DNA usando produtos químicos, como clicar em “gravar” em um Walkman. Ao longo de 48 horas, o sistema registrou alterações na expressão gênica conforme o esperado na matriz CRISPR. Depois de aprofundar a sequência de matrizes CRISPR – ou seja, lê-los de volta depois – eles descobriram que o histórico da célula progrediu conforme o esperado.

Uma história inteira de você
A nova fita de DNA é como gravar pequenos trechos de um filme ao longo do tempo. Mas está estranhamente editado. Embora o Retro-Cascorder possa dizer a sequência de ativações de genes, ele não pode identificar o lapso de tempo entre dois eventos adjacentes. Como em um vídeo caseiro, um clipe de um ensaio de dança seguido de um jantar pode ser no mesmo dia; ou com anos de diferença.

Mas em comparação com as tentativas anteriores, a fita é um salto tecnológico, com melhores sinais, maior duração de gravação e melhor reprodução.

Este ainda não é um sistema perfeito, mas achamos que ainda será melhor do que os métodos existentes, que permitem medir apenas um evento por vez”, disse Shipman.

A corrida pelo documentário de célula perfeito começou, e a maioria tem o CRISPR no centro. Para Yachie, uma maneira é substituir o bom-ole’-CRISPR por editores de base ou CRISPR prime, que causam menos danos ao genoma da célula. O “VCR” biológico – que lê a expressão registrada de um gene – também precisa de uma atualização, potencialmente alimentada por uma melhor capacidade de computação.

Quando mais aperfeiçoados, os gravadores de DNA podem nos ajudar a rastrear a trajetória de desenvolvimento de minicérebros e outros organoides, estudar células cancerosas à medida que evoluem, monitorar poluentes ambientais nas células – tudo sem colocar vidas em risco.