Categorias
Blog

Pesquisadores de IA do Google estão sonhando com um novo mecanismo de pesquisa

Imagine uma coleção de livros – talvez milhões ou até bilhões deles – jogada ao acaso pelos editores em uma pilha em um campo. A cada dia a pilha cresce exponencialmente.

Esses livros estão repletos de conhecimentos e respostas. Mas como um buscador os encontraria? Sem organização, os livros são inúteis.

Esta é a Internet bruta em toda a sua glória não filtrada. É por isso que a maioria de nossas buscas por “iluminação” online começa com o Google (e sim, ainda existem outros mecanismos de busca). Os tentáculos algorítmicos do Google examinam e indexam todos os livros dessa pilha ímpia. Quando alguém insere uma consulta na barra de pesquisa, o algoritmo de pesquisa examina sua versão indexada da Internet, exibe as páginas e as apresenta em uma lista classificada dos principais acessos.

Essa abordagem é extremamente útil. Tão útil, na verdade, que não mudou fundamentalmente em mais de duas décadas. Mas agora, os pesquisadores de IA do Google, a mesma empresa que definiu o padrão para os motores de busca, estão esboçando um plano para o que pode vir a seguir.

Em um artigo sobre o servidor de pré-impressão arXiv, a equipe sugere que a tecnologia para tornar a Internet ainda mais pesquisável está ao nosso alcance. Eles dizem que grandes modelos de linguagem – algoritmos de aprendizado de máquina como o GPT-3 da OpenAI – poderiam substituir totalmente o sistema atual de indexar, recuperar e então classificar.

A IA é o mecanismo de busca do futuro?
Ao buscar informações, a maioria das pessoas adoraria perguntar a um especialista e obter uma resposta diferenciada e confiável, escrevem os autores. Em vez disso, eles pesquisam no Google. Isso pode funcionar ou dar terrivelmente errado.

Embora os mecanismos de pesquisa pareçam conter pelo menos partes de uma resposta, o fardo recai sobre o pesquisador para verificar, filtrar e ler os resultados para reunir essa resposta da melhor maneira possível.

Os resultados da pesquisa têm melhorado muito ao longo dos anos. Ainda assim, a abordagem está longe de ser perfeita.

Existem ferramentas de perguntas e respostas, como Alexa, Siri e Google Assistant. Mas essas ferramentas são frágeis, com um repertório limitado (embora crescente) de questões que podem responder. Embora tenham suas próprias deficiências, grandes modelos de linguagem como GPT-3 são muito mais flexíveis e podem construir novas respostas em linguagem natural para qualquer consulta ou prompt.

A equipe do Google sugere que a próxima geração de mecanismos de pesquisa pode sintetizar o melhor de todos os mundos, dobrando os principais sistemas de recuperação de informações da atualidade em IA em larga escala.

É importante notar que o aprendizado de máquina já está em funcionamento nos mecanismos de pesquisa clássicos de indexação, recuperação e classificação. Mas, em vez de meramente aumentar o sistema, os autores propõem que o aprendizado de máquina poderia substituí-lo totalmente.

“O que aconteceria se nos livrássemos completamente da noção de índice e o substituíssemos por um grande modelo pré-treinado que codifica de forma eficiente e eficaz todas as informações contidas no corpus?” Donald Metzler e co-autores escrevem no paper. “E se a distinção entre recuperação e classificação fosse embora e, em vez disso, houvesse uma única fase de geração de resposta?”

Um resultado ideal que eles imaginam é um pouco como o computador da nave estelar Enterprise em Star Trek. Os buscadores de informações fazem perguntas, o sistema responde de forma coloquial, ou seja, com uma resposta em linguagem natural, como você esperaria de um especialista, e inclui citações oficiais em sua resposta.

No artigo, os autores esboçam o que chamam de exemplo aspiracional de como essa abordagem pode ser na prática. Um usuário pergunta: “Quais são os benefícios do vinho tinto para a saúde?” O sistema retorna uma resposta matizada em prosa clara de várias fontes oficiais – neste caso WebMD e a Clínica Mayo – destacando os benefícios e riscos potenciais de beber vinho tinto.

Não precisa terminar aí, no entanto. Os autores observam que outro benefício dos grandes modelos de linguagem é sua capacidade de aprender muitas tarefas com apenas alguns pequenos ajustes (isso é conhecido como aprendizagem única ou poucas tentativas). Portanto, eles podem ser capazes de realizar todas as mesmas tarefas que os mecanismos de pesquisa atuais realizam, e dezenas de outras também.

Ainda é apenas uma visão
Hoje, essa visão está fora de alcance. Modelos de grande linguagem são o que os autores chamam de “diletantes”.

Algoritmos como GPT-3 podem produzir prosa que é, às vezes, quase indistinguível de passagens escritas por humanos, mas eles também estão sujeitos a respostas sem sentido. Pior, eles refletem imprudentemente preconceitos embutidos em seus dados de treinamento, não têm senso de compreensão contextual e não podem citar fontes (ou mesmo separar fontes de alta e baixa qualidade) para justificar suas respostas.

“Eles parecem saber muito, mas seu conhecimento é superficial”, escrevem os autores. O documento também apresenta os avanços necessários para preencher a lacuna. Na verdade, muitos dos desafios que eles descrevem se aplicam ao campo em geral.

Um avanço importante seria ir além dos algoritmos que apenas modelam as relações entre os termos (como palavras individuais) para algoritmos que também modelam a relação entre as palavras em um artigo, por exemplo, e o artigo como um todo. Além disso, eles também modelariam as relações entre muitos artigos diferentes na Internet.

Os pesquisadores também precisam definir o que constitui uma resposta de qualidade. Isso em si não é uma tarefa fácil. Mas, para começar, os autores sugerem que as respostas de alta qualidade devem ser confiáveis, transparentes, imparciais, acessíveis e conter perspectivas diversas.

Mesmo os algoritmos mais modernos de hoje não chegam perto dessa barreira. E não seria sensato implantar modelos de linguagem natural nesta escala até que sejam resolvidos. Mas se resolvido – e já há trabalho sendo feito para lidar com alguns desses desafios – os mecanismos de pesquisa não seriam os únicos aplicativos a se beneficiar.

‘Early Grey, Hot’
É uma visão atraente. Vasculhar páginas da web em busca de respostas enquanto tenta determinar o que é confiável e o que não é pode ser exaustivo.

Sem dúvida, muitos de nós não fazemos o trabalho tão bem quanto poderíamos ou deveríamos.

Mas também vale a pena especular como uma internet acessada dessa forma mudaria a forma como as pessoas contribuem para ela.

Se consumirmos informações principalmente lendo respostas em prosa e sintetizadas por algoritmos – em vez de abrir e ler as próprias páginas individuais – os criadores publicariam tanto trabalho? E como o Google e outros fabricantes de mecanismos de pesquisa compensariam os criadores que, em essência, estão produzindo as informações que treinam os próprios algoritmos?

Ainda haveria muitas pessoas lendo as notícias e, nesses casos, os algoritmos de pesquisa precisariam fornecer listas de histórias. Mas eu me pergunto se uma mudança sutil pode ocorrer onde os criadores menores adicionam menos e, ao fazer isso, a web se torna menos rica em informações, enfraquecendo os próprios algoritmos que dependem dessas informações.

Não há como saber. Frequentemente, a especulação está enraizada nos problemas de hoje e se mostra inocente em retrospecto. Nesse ínterim, o trabalho continuará sem dúvida.

Talvez possamos resolver esses desafios – e mais à medida que eles surgem – e no processo chegarmos àquele computador de Jornada nas estrelas onisciente e agradavelmente falante que há muito imaginamos.

Jason Dorrier para SingularityHub.

Categorias
Blog

Implante cerebral transforma pensamentos em texto com 90% de precisão

Enviar mensagens de texto pode não ser mais rápido do que falar, mas para muitos de nós é uma maneira natural de se comunicar.

Graças a uma nova interface cérebro-computador (BCI), pessoas com paralisia agora podem fazer o mesmo – com um toque especial. Ao imaginar os movimentos de escrever cartas, um homem com lesão na coluna foi capaz de traduzir pensamentos em texto, a uma velocidade que rivaliza com a digitação com o polegar em um smartphone. A 90 caracteres por minuto e uma precisão de mais de 90 por cento após a autocorreção, o sistema supera todos os registros realizados anteriormente com implantes neurais.

O crux é um algoritmo baseado em uma rede neural popular e muito poderosa – rede neural recorrente (RNN) – além de alguns truques da comunidade de aprendizado de máquina. O resultado é um implante neural que usa IA para converter sinais elétricos do cérebro, gerados quando alguém imagina escrita à mão em texto que é exibido em um computador em tempo real.

“Isso pode ajudar a restaurar a comunicação em pessoas que estão gravemente paralisadas ou‘ presas”, disse o autor do estudo, Dr. Frank Willett, do Laboratório de Próteses Neurais de Stanford. “Deve ajudar as pessoas a se expressarem e compartilharem seus pensamentos. É muito emocionante.”

“Mindtexting” pode ser apenas o começo. O estudo sugere que, contra a crença comum, a IA parece ser melhor na decodificação de sinais cerebrais que fundamentam nossos comportamentos mais complexos, em vez de simples – um convite para reimaginar o potencial de uma simbiose cérebro-computador.

“Embora ainda haja muito trabalho a ser feito, o estudo de Willett e colegas de trabalho é um marco que amplia o horizonte das aplicações iBCI [interface invasiva cérebro-computador]”, disseram os drs. Pavithra Rajeswaran e Amy Orsborn, da Universidade de Washington, que não participaram do estudo. “Como ele usa métodos de aprendizado de máquina que estão melhorando rapidamente, conectar os modelos mais recentes oferece um caminho promissor para melhorias futuras.”

Digitando sem as mãos
O estudo faz parte do lendário projeto BrainGate, que liderou o desenvolvimento de interfaces neurais na última década para restaurar a comunicação em pessoas paralisadas. Para ser claro, esses “implantes” são fiéis ao seu nome: eles são microarranjos de minúsculos eletrodos em um chip que é inserido cirurgicamente na camada superior do cérebro.

BrainGate tem muitos sucessos alucinantes. Um é um implante que permite às pessoas pilotar braços robóticos com o pensamento. Outro sucesso ajudou pessoas paralisadas a moverem o cursor do computador com suas mentes em um tablet Android, expandindo seu universo digital para toda a esfera de aplicativos Android e, claro, e-mail e Google.

Tudo isso é possível porque o processador central, o córtex motor, ainda está intacto mesmo após a paralisia, pelo menos para movimentos relativamente simples, como alcançar ou agarrar. É como cortar o cabo do roteador sem fio: você perde o acesso online, mas a rede em si ainda está lá. Os implantes neurais tocam diretamente na fonte – os sinais elétricos que sustentam cada movimento nosso – decodificam-nos em uma linguagem que os computadores entendem e os usam para controlar outra saída: uma mão robótica, exoesqueleto ou um cursor na tela.

O problema? Usar sua mente para controlar um cursor para acertar letras em um teclado digital é terrivelmente lento. O implante de maior sucesso até agora tem em média 40 caracteres por minuto e requer cirurgia e treinamento. Mesmo um teclado de rastreamento ocular disponível no mercado que é não invasivo pode permitir que pessoas com paralisia digitem um pouco mais rápido.

O novo estudo teve uma abordagem completamente diferente: jogue fora o teclado.

Uma centelha de gênio
O participante do estudo, apelidado de T5, é um participante de longa data do BrainGate.

Em 2007, T5 sofreu um incidente traumático que danificou sua medula espinhal e o impediu de mover-se abaixo do pescoço. Em 2016, o Dr. Jaimie Henderson, um neurocirurgião de Stanford, implantou dois chips microarray na “área da mão” do giro pré-central esquerdo de T5, uma parte do cérebro que normalmente nos ajuda a planejar e controlar o movimento. Cada chip continha 96 microeletrodos para acessar a atividade elétrica do cérebro. Esses sinais neurais eram então enviados a um computador por meio de fios para processamento posterior.

É aqui que entra a magia. Os neurônios são um grupo barulhento e decifrar sinais específicos – códigos neurais – que controlam movimentos únicos é incrivelmente difícil. Em parte, é por isso que atualmente é impossível para alguém imaginar uma carta e tê-la “lida mentalmente” por uma configuração BCI. Os sinais elétricos do cérebro que codificam para letras diferentes são muito sutis para qualquer algoritmo decodificar com precisão.

A solução alternativa do novo estudo é inovadora e totalmente brilhante. Como o processo de escrever letras do alfabeto é único para cada letra, raciocinou a equipe, ele pode acionar sinais neurais diferentes o suficiente para um algoritmo distinguir qual movimento imaginado – e seu sinal cerebral associado – corresponde a qual letra.

Para começar, o paciente T5 primeiro traçou uma letra individual repetidamente em sua mente (impressa, não cursiva). Embora sua mão estivesse completamente imóvel, disseram os autores, ele “relatou a sensação de que uma caneta imaginária em sua mão se movia fisicamente e traçava as formas das letras”. Em seguida, T5 passou horas imaginando escrever grupos de frases aleatórias.

Ao mesmo tempo, seus implantes capturavam sinais neurais relacionados à escrita de cada letra, que eram “notavelmente consistentes”. Os dados foram então usados ​​para treinar um tipo de rede neural artificial chamada rede neural recorrente (RNN), que é “especialmente boa para prever dados sequenciais”. Como os RNNs tendem a ser famintos por dados, a equipe usou um truque chamado aumento de dados que reorganizou os sinais neurais anteriores, essencialmente gerando dados artificiais para fortalecer o algoritmo. Eles também injetaram algum ruído nos dados, com a esperança de que o eventual BCI fosse mais robusto contra pequenas mudanças na atividade cerebral.

Dominância do Mind-Texting
Com o tempo, o RNN foi capaz de decodificar sinais neurais e traduzi-los em letras, que eram exibidas na tela do computador. É rápido: em meio segundo, o algoritmo pode adivinhar qual letra T5 estava tentando escrever, com 94,1% de precisão. Adicione alguma função de autocorreção comum que está em todos os smartphones e a precisão aumentou para mais de 99%.

Quando solicitado a copiar uma determinada frase, T5 foi capaz de “texto mental” em cerca de 90 caracteres por minuto (cerca de 45 palavras por estimativa), “a maior taxa de digitação que já foi relatada para qualquer tipo de BCI”, escreveu a equipe e uma melhoria dupla em relação às configurações anteriores. Sua digitação em estilo livre – respondendo a perguntas – em geral combinou em desempenho e atingiu a velocidade média de mensagens de texto com o polegar de sua faixa etária.

“O estudo de Willett e seus colegas de trabalho começa a cumprir a promessa das tecnologias BCI”, disseram Rajeswaran e Orsborn, não apenas para mensagens mentais, mas também para o que vem a seguir

A ideia de explorar algoritmos de aprendizado de máquina é inteligente, sim, porque o campo está melhorando rapidamente – e ilustrando outro elo sólido entre a neurociência e a IA. Mas talvez mais importante, o desempenho de um algoritmo depende de bons dados. Aqui, a equipe descobriu que a diferença de tempo entre escrever cartas, algo bastante complexo, é o que fazia o algoritmo funcionar tão bem. Em outras palavras, para futuros BCIs, “pode ​​ser vantajoso decodificar comportamentos complexos em vez de simples, especialmente para tarefas de classificação.”

O novo sistema ainda não está pronto para as clínicas. Ele terá que ser testado em outras pessoas e ter algumas funções comuns de digitação adicionadas, como excluir ou editar texto. A equipe também deseja adicionar a capacidade de texto mental de letras maiúsculas e símbolos.

Mas o novo BCI não precisa funcionar sozinho. Outros BCIs que traduzem atividades neurais da fala em texto já existem, e é concebível para uma pessoa potencialmente alternar entre os dois métodos – escrita mental e fala – para se comunicar com outras pessoas. “Ter esses dois ou três modos e alternar entre eles é algo que fazemos naturalmente [na vida diária]”, disse a Dra. Krishna Shenoy da Universidade de Stanford, que supervisionou o estudo com o Dr. Henderson.

Mas isso é tudo para o futuro. O próximo passo imediato, disseram os autores, é trabalhar com pacientes que não falam, como pessoas que perderam a capacidade devido a um derrame ou doenças neurodegenerativas, ou aqueles que estão conscientes, mas não conseguem se mover, e restaurar sua capacidade para interagir com o mundo exterior. “A abordagem dos autores trouxe interfaces neurais que permitem a comunicação rápida muito mais perto de uma realidade prática”, disseram Rajeswaran e Orsborn.

Categorias
Blog

Inteligência Artificial é mais difícil do que pensávamos: 4 falácias na pesquisa de IA

A inteligência artificial está nas manchetes há quase uma década, à medida que os sistemas progridem rapidamente em desafios de IA de longa data, como reconhecimento de imagem, processamento de linguagem natural e jogos. As empresas de tecnologia semearam algoritmos de aprendizado de máquina em mecanismos de pesquisa e recomendação e sistemas de reconhecimento facial, e o GPT-3 da OpenAI e o AlphaFold da DeepMind prometem aplicações ainda mais práticas, desde a escrita até a codificação e descobertas científicas.

Na verdade, estamos no meio de uma primavera de IA, com investimento no florescimento da tecnologia e um sentimento predominante de otimismo e possibilidade em relação ao que ela pode realizar e quando.

Desta vez, pode parecer diferente das fontes de IA anteriores devido às aplicações práticas acima mencionadas e à proliferação de IA estreita em tecnologias que muitos de nós usamos todos os dias – como nossos smartphones, TVs, carros e aspiradores de pó, para citar apenas alguns. Mas também é possível que estejamos navegando em uma onda de progresso de curto prazo em IA que logo se tornará parte do fluxo e refluxo no avanço, financiamento e sentimento que tem caracterizado o campo desde sua fundação em 1956.

A IA ficou aquém de muitas previsões feitas nas últimas décadas; 2020, por exemplo, foi anunciado por muitos como o ano em que os carros autônomos começariam a encher as estradas, transportando passageiros sem problemas enquanto eles se sentavam e apreciavam o passeio. Mas o problema tem sido mais difícil do que o previsto e, em vez de hordas de táxis robôs, os projetos mais avançados permanecem em teste. Enquanto isso, alguns no campo acreditam que a forma dominante de IA – um tipo de aprendizado de máquina baseado em redes neurais – pode em breve perder força na ausência de uma série de descobertas cruciais.

Em um artigo intitulado “Por que a IA é mais difícil do que pensamos“, publicado na semana passada no servidor de pré-impressão arXiv, Melanie Mitchell, professora de ciência da computação da Universidade Estadual de Portland atualmente no Instituto de Santa Fé, argumenta que a IA está em um declínio e ciclo de fluxo em grande parte porque ainda não entendemos verdadeiramente a natureza e a complexidade da inteligência humana. Mitchell divide esse ponto abrangente em quatro equívocos comuns em torno da IA ​​e discute o que eles significam para o futuro do campo.

1. O progresso na inteligência estreita é o progresso em direção à inteligência geral
Novas conquistas impressionantes da IA ​​são frequentemente acompanhadas pela suposição de que essas mesmas conquistas estão nos deixando mais perto de alcançar a inteligência de máquina de nível humano. Mas não apenas, como Mitchell aponta, a inteligência estreita e geral é tão diferente quanto subir em uma árvore ou pousar na lua, mas mesmo a inteligência estreita ainda depende em grande parte de uma abundância de dados específicos de tarefas e treinamento facilitado por humanos.

Veja o GPT-3, que alguns citaram como tendo superado a inteligência “estreita”: o algoritmo foi treinado para escrever texto, mas aprendeu a traduzir, escrever código, preencher automaticamente imagens e fazer matemática, entre outras tarefas. Mas embora os recursos do GPT-3 tenham se revelado mais extensos do que seus criadores pretendiam, todas as suas habilidades ainda estão dentro do domínio em que foi treinado: isto é, linguagem – falada, escrita e programação.

Tornar-se adep