Em 2020, o algoritmo de aprendizado de máquina GPT-3 da OpenAI surpreendeu as pessoas quando, depois de ingerir bilhões de palavras extraídas da internet, começou a cuspir frases bem elaboradas. Este ano, DALL-E 2, um primo do GPT-3 treinado em texto e imagens, causou uma agitação semelhante online quando começou a criar imagens surreais de astronautas montando cavalos e, mais recentemente, criando rostos estranhos e fotorrealistas de pessoas que não não existem.
Agora, a empresa diz que sua IA mais recente aprendeu a jogar Minecraft depois de assistir cerca de 70.000 horas de vídeo mostrando pessoas jogando o jogo no YouTube.
Escola de Minas
Em comparação com vários algoritmos anteriores do Minecraft que operam em versões “sandbox” muito mais simples do jogo, a nova IA joga no mesmo ambiente que os humanos, usando comandos padrão de teclado e mouse.
Em uma postagem no blog e uma pré-impressão detalhando o trabalho, a equipe do OpenAI diz que, fora da caixa, o algoritmo aprendeu habilidades básicas, como derrubar árvores, fazer pranchas e construir mesas de trabalho. Eles também o observaram nadando, caçando, cozinhando e “pulando de pilares”.
“Até onde sabemos, não há trabalho publicado que opere no espaço completo e não modificado da ação humana, que inclui gerenciamento de inventário de arrastar e soltar e criação de itens”, escreveram os autores em seu artigo.
Com o ajuste fino – isto é, treinando o modelo em um conjunto de dados mais focado – eles descobriram que o algoritmo executava todas essas tarefas de maneira mais confiável, mas também começaram a avançar sua proeza tecnológica fabricando ferramentas de madeira e pedra e construindo abrigos básicos, explorando aldeias e saqueando baús.
Depois de mais ajustes com o aprendizado por reforço, ele aprendeu a construir uma picareta de diamante – uma habilidade que leva os jogadores humanos cerca de 20 minutos e 24.000 ações para realizar.
Este é um resultado notável. A IA há muito luta com a jogabilidade aberta do Minecraft. Jogos como xadrez e Go, que a IA já domina, têm objetivos claros e o progresso em direção a esses objetivos pode ser medido. Para conquistar o Go, os pesquisadores usaram o aprendizado por reforço, onde um algoritmo recebe um objetivo e é recompensado pelo progresso em direção a esse objetivo. O Minecraft, por outro lado, tem vários objetivos possíveis, o progresso é menos linear e os algoritmos de aprendizado de reforço profundo geralmente ficam girando.
Na competição MineRL Minecraft de 2019 para desenvolvedores de IA, por exemplo, nenhuma das 660 inscrições atingiu o objetivo relativamente simples da competição de mineração de diamantes.
Vale a pena notar que, para recompensar a criatividade e mostrar que jogar poder de computação em um problema nem sempre é a resposta, os organizadores do MineRL colocaram limites estritos aos participantes: eles tiveram permissão para uma GPU NVIDIA e 1.000 horas de jogabilidade gravada. Embora os concorrentes tenham tido um desempenho admirável, o resultado do OpenAI, alcançado com mais dados e 720 GPUs NVIDIA, parece mostrar que o poder de computação ainda tem seus benefícios.
A IA fica esperta
Com seu algoritmo de pré-treinamento de vídeo (VPT) para Minecraft, o OpenAI retornou à abordagem usada com GPT-3 e DALL-E: pré-treinar um algoritmo em um conjunto de dados gigantesco de conteúdo criado por humanos. Mas o sucesso do algoritmo não foi possibilitado apenas pelo poder de computação ou pelos dados. Treinar um Minecraft AI com tanto vídeo não era prático antes.
As imagens de vídeo brutas não são tão úteis para IAs comportamentais quanto para geradores de conteúdo como GPT-3 e DALL-E. Mostra o que as pessoas estão fazendo, mas não explica como elas estão fazendo. Para que o algoritmo vincule o vídeo às ações, ele precisa de rótulos. Um quadro de vídeo mostrando a coleção de objetos de um jogador, por exemplo, precisaria ser rotulado como “inventário” ao lado da tecla de comando “E” que é usada para abrir o inventário.
Rotular cada quadro em 70.000 horas de vídeo seria… insano. Então, a equipe pagou aos contratados da Upwork para gravar e rotular as habilidades básicas do Minecraft. Eles usaram 2.000 horas deste vídeo para ensinar um segundo algoritmo como rotular vídeos do Minecraft, e esse algoritmo, IDM, anotou todas as 70.000 horas de imagens do YouTube. (A equipe diz que o IDM teve mais de 90% de precisão ao rotular os comandos do teclado e do mouse.)
Essa abordagem de humanos treinando um algoritmo de rotulagem de dados para desbloquear conjuntos de dados comportamentais on-line pode ajudar a IA a aprender outras habilidades também. “O VPT abre o caminho para permitir que os agentes aprendam a agir assistindo a um grande número de vídeos na internet”, escreveu o pesquisador. Além do Minecraft, a OpenAI acha que o VPT pode trazer novos aplicativos do mundo real, como algoritmos que operam computadores em um prompt (imagine, por exemplo, pedir ao seu laptop para encontrar um documento e enviá-lo por e-mail ao seu chefe).
Os diamantes não são para sempre
Para desgosto dos organizadores da competição MineRL, talvez, os resultados parecem mostrar que o poder e os recursos de computação ainda movem a agulha na IA mais avançada.
Não importa o custo da computação, a OpenAI disse que apenas os contratados da Upwork custam US$ 160.000. Embora, para ser justo, rotular manualmente todo o conjunto de dados chegaria aos milhões e levaria um tempo considerável para ser concluído. E embora o poder de computação não fosse desprezível, o modelo era realmente muito pequeno. As centenas de milhões de parâmetros do VPT são ordens de magnitude inferiores às centenas de bilhões do GPT-3.
Ainda assim, o esforço para encontrar novas abordagens inteligentes que usam menos dados e computação é válido. Uma criança pode aprender o básico do Minecraft assistindo a um ou dois vídeos. A IA de hoje exige muito mais para aprender habilidades simples. Tornar a IA mais eficiente é um grande e valioso desafio.
De qualquer forma, o OpenAI está em clima de compartilhamento desta vez. Os pesquisadores dizem que o VPT não está isento de riscos – eles controlaram estritamente o acesso a algoritmos como GPT-3 e DALL-E parcialmente para limitar o uso indevido – mas o risco é mínimo por enquanto. Eles abriram os dados, o ambiente e o algoritmo e estão em parceria com o MineRL. Os participantes deste ano podem usar, modificar e ajustar o que há de mais recente no Minecraft AI.
As chances são boas de que eles passarão bem da mineração de diamantes desta vez.