Se a IA tem algo a dizer sobre 2020, é “você não pode tocar nisso”.
O ano passado pode ter cortado nossas conexões com o mundo físico, mas no reino digital, a inteligência artificial prosperou. Podemos enxergar a NeurIps como a joia da coroa das conferências de IA. Mesmo sem as deslumbrantes montanhas da Colúmbia Britânica como pano de fundo usual ou as praias de Barcelona, a IA teve um balanço anual que destacou uma série de problemas na “big picture” – preconceito, robustez, generalização – que englobarão as pautas nos próximos anos.
No lado mais nerd, os cientistas exploraram ainda mais a interseção entre a IA e nossos próprios corpos. Os conceitos centrais do deep learning, como retropropagação, foram considerados um meio plausível pelo qual nossos cérebros “atribuem falhas” em redes biológicas – permitindo que o cérebro aprenda. Outros argumentaram que é hora de combinar deep learning com outros métodos, como aqueles que orientam a busca eficiente.
Aqui estão quatro áreas nas quais estamos de olho em 2021. Elas abordam problemas de IA pendentes, como a redução do consumo de energia, eliminar a necessidade de exemplos de aprendizagem exuberantes e ensinar algum bom senso comum à inteligência artificial.
Aprendizagem mais dinâmica
Você já ouviu isso um bilhão de vezes: o deep learning é extremamente ganancioso, pois os algoritmos precisam de milhares (se não mais) de exemplos para mostrar sinais básicos de aprendizado, como identificar um cachorro ou um gato ou fazer recomendações para o Netflix ou Amazon.
É extremamente demorado, um desperdício de energia e um desafio, pois não corresponde à nossa experiência humana de aprendizagem. As crianças precisam ver apenas alguns exemplos de algo antes de se lembrar para o resto da vida. Pegue o conceito de “cão” – independentemente da raça, uma criança que viu alguns cães pode reconhecer uma série de raças diferentes sem nunca ter posto os olhos nelas. Agora pegue algo completamente estranho: um unicórnio. Uma criança que entende o conceito de cavalo e de um peixe narwhal pode inferir a aparência de um unicórnio combinando os dois.
Na linguagem da IA, este é o aprendizado “less than one-shot”, uma espécie de habilidade semelhante ao Santo Graal que permite que um algoritmo aprenda mais objetos do que a quantidade de exemplos com que foi treinado. Se bem-sucedido, as implicações serão enormes. Algoritmos volumosos atualmente podem funcionar perfeitamente em dispositivos móveis com recursos de processamento mais baixos. Qualquer tipo de “inferência”, mesmo que não venha com o verdadeiro entendimento, poderia tornar os carros autônomos muito mais eficientes na navegação em nosso mundo cheio de objetos.
No ano passado, uma equipe do Canadá sugeriu que a meta não é uma quimera. Com base no trabalho do MIT analisando dígitos escritos à mão – um “toy problem” comum na visão computacional – eles destilaram 60.000 imagens em 5 usando um conceito chamado “soft labels”. Em vez de especificar a aparência de cada número, eles rotularam cada dígito – digamos, um “3” – como uma porcentagem de “3”, “8” ou “0”. Surpreendentemente, a equipe descobriu que, com rótulos cuidadosamente construídos, apenas dois exemplos poderiam, em teoria, codificar milhares de objetos diferentes. Karen Hao, da MIT Technology Review, dá mais detalhes aqui.
Um método para manter a IA à prova de hackers
De tudo que a IA pode fazer, sua falha fica na defesa de ataques insidiosos que visam seus dados de input. Perturbações leves ou aparentemente aleatórias em um conjunto de dados – muitas vezes indetectáveis pelo olho humano – podem alterar enormemente o output, algo apelidado de “frágil” para um algoritmo. Muito abstrato? Uma IA treinada para reconhecer o câncer a partir de uma série de exames médicos, anotados em marcador amarelo por um médico humano, poderia aprender a associar “amarelo” com “câncer”. Um exemplo mais malicioso é a adulteração nefasta. Adesivos colocados em uma rodovia podem enganar o sistema de piloto automático da Tesla para confundir faixas e desviar com o tráfego em sentido contrário.
Fragilidade requer IA para aprender um certo nível de flexibilidade, mas sabotagem – ou “ataques adversários” – está se tornando um problema cada vez mais reconhecido. Aqui, os hackers podem mudar o processo de tomada de decisão da IA com entradas cuidadosamente elaboradas. Quando se trata de segurança de rede, diagnósticos médicos ou outro uso de alto risco, construir sistemas de defesa contra esses ataques é fundamental.
Este ano, uma equipe da Universidade de Illinois propôs uma maneira poderosa de tornar os sistemas de deep learning mais resilientes. Eles usaram uma abordagem iterativa, tendo duas redes neurais em batalha – uma para reconhecimento de imagem e outra para gerar ataques adversários. Como um jogo de gato e rato, a rede neural “inimiga” tenta enganar a rede de visão do computador para que reconheça coisas fictícias; a última rede revida. Embora longe de ser perfeito, o estudo destaca uma abordagem cada vez mais popular para tornar a IA mais resiliente e confiável.
Aprendendo o senso comum
Um dos algoritmos mais impressionantes deste ano é o GPT-3, uma maravilha da OpenAI que reproduz uma linguagem assustadoramente semelhante à humana. Apelidado de “um dos sistemas de IA mais interessantes e importantes já produzidos”, o GPT-3 é a terceira geração de um algoritmo que produz uma escrita tão “natural” que, à primeira vista, é difícil diferenciar máquina de humano.
No entanto, a proficiência linguística do GPT-3 é, sob uma inspeção mais profunda, apenas um fino véu de “inteligência”. Por ser treinado na linguagem humana, ele também está preso às complexidades e limitações de nossas frases cotidianas – sem qualquer compreensão do que significam no mundo real. É como aprender a gíria do Urban Dictionary em vez de vivê-la. Uma IA pode aprender a associar “chuva” a “cães e gatos” em todas as situações, obtendo sua inferência a partir do vernáculo comum que descreve chuvas torrenciais.
Uma maneira de tornar o GPT-3 ou qualquer IA que produza linguagem natural mais inteligente é combiná-lo com a visão computacional. O ensino de modelos de linguagem para “ver” é uma área cada vez mais popular na pesquisa de IA. A técnica combina a força da linguagem com imagens. Os modelos de linguagem de IA, incluindo GPT-3, aprendem por meio de um processo denominado “treinamento não supervisionado”, o que significa que podem analisar padrões em dados sem rótulos explícitos. Em outras palavras, eles não precisam de um ser humano para lhes dizer as regras gramaticais ou como as palavras se relacionam entre si, o que torna mais fácil dimensionar qualquer aprendizado bombardeando a IA com toneladas de textos de exemplo. Os modelos de imagem, por outro lado, refletem melhor nossa realidade real. No entanto, eles exigem etiquetagem manual, o que torna o processo mais lento e tedioso.
Combinar os dois resulta no melhor dos dois mundos. Um robô que pode “ver” o mundo captura uma espécie de fisicalidade – ou bom senso – que falta apenas na análise da linguagem. Um estudo em 2020 combinou as duas abordagens de maneira inteligente. Eles começaram com a linguagem, usando uma abordagem escalonável para escrever legendas para imagens com base no funcionamento interno do GPT-3 (detalhes aqui). A conclusão é que a equipe foi capaz de conectar o mundo físico – representado por imagens – vinculando-o à linguagem sobre como descrevemos o mundo.
Apesar de ainda experimental, é um exemplo de pensamento fora dos limites artificiais de um domínio particular de IA. Ao combinar as duas áreas – processamento de linguagem natural e visão computacional – ela funciona melhor. Imagine uma Alexa com bom senso.
Fadiga de deep learning
Falando em pensar fora da caixa, DeepMind está entre aqueles que experimentam combinar diferentes abordagens de IA em algo mais poderoso. Veja o MuZero, um algoritmo destruidor do Atari que eles lançaram pouco antes do Natal.
MuZero tem outro truque na manga: não escuta ninguém. A IA não começa com o conhecimento prévio do jogo ou dos processos de tomada de decisão. Em vez disso, aprende sem um livro de regras, em vez de observar o ambiente do jogo – semelhante a um humano novato observando um novo jogo. Desta forma, depois de milhões de jogos, não aprende apenas as regras, mas também um conceito mais geral de políticas que podem levá-lo a avançar e avaliar seus próprios erros em retrospectiva.
Parece muito humano, hein? No vernáculo da IA, os engenheiros combinaram duas abordagens diferentes, árvores de decisão e um modelo aprendido, para fazer uma IA excelente no planejamento de jogadas vencedoras. Por enquanto, só foi demonstrado que ele domina jogos em um nível semelhante ao AlphaGo. Mas mal podemos esperar para ver a que esse tipo de fertilização cruzada de ideias em IA pode levar em 2021.