Os sistemas de IA realmente têm sua própria linguagem secreta?

Uma nova geração de modelos de inteligência artificial pode produzir imagens “criativas” sob demanda com base em um prompt de texto. Empresas como Imagen, MidJourney e DALL-E 2 estão começando a mudar a forma como o conteúdo criativo é feito com implicações para direitos autorais e propriedade intelectual.

Embora o output desses modelos geralmente seja impressionante, é difícil saber exatamente como eles produzem seus resultados. Na semana passada, pesquisadores nos EUA fizeram a intrigante afirmação de que o modelo DALL-E 2 pode ter inventado sua própria linguagem secreta para falar sobre objetos.

Ao solicitar que DALL-E 2 criasse imagens contendo legendas de texto e, em seguida, alimentando as legendas resultantes (sem sentido) de volta ao sistema, os pesquisadores concluíram que DALL-E 2 pensa que Vicootes significa “vegetais”, enquanto Wa ch zod rea se refere a “criaturas marinhas que uma baleia pode comer.”

Essas afirmações são fascinantes e, se verdadeiras, podem ter importantes implicações de segurança e interpretabilidade para esse tipo de grande modelo de IA. Então, o que exatamente está acontecendo?

O DALL-E 2 tem uma linguagem secreta?
DALL-E 2 provavelmente não possui uma “linguagem secreta”. Pode ser mais preciso dizer que tem seu próprio vocabulário, mas mesmo assim não podemos ter certeza.

Em primeiro lugar, nesta fase é muito difícil verificar quaisquer alegações sobre DALL-E 2 e outros grandes modelos de IA, porque apenas um punhado de pesquisadores e profissionais criativos têm acesso a eles. Quaisquer imagens compartilhadas publicamente (no Twitter, por exemplo) devem ser tomadas com um grão de sal bastante grande, porque foram “escolhidas a dedo” por um humano entre muitas imagens de saída geradas pela IA.

Mesmo aqueles com acesso só podem usar esses modelos de maneira limitada. Por exemplo, os usuários do DALL-E 2 podem gerar ou modificar imagens, mas não podem (ainda) interagir com o sistema de IA mais profundamente, por exemplo, modificando o código dos bastidores. Isso significa que métodos de “IA explicável” para entender como esses sistemas funcionam não podem ser aplicados, e investigar sistematicamente seu comportamento é um desafio.

O que está acontecendo então?
Uma possibilidade é que as frases “gibberish” estejam relacionadas a palavras de idiomas diferentes do inglês. Por exemplo, Apoploe, que parece criar imagens de pássaros, é semelhante ao latim Apodidae, que é o nome binomial de uma família de espécies de aves.

Esta parece ser uma explicação plausível. Por exemplo, DALL-E 2 foi treinado em uma grande variedade de dados extraídos da internet, que incluíam muitas palavras não inglesas.

Coisas semelhantes já aconteceram antes: grandes modelos de IA de linguagem natural aprenderam coincidentemente a escrever código de computador sem treinamento deliberado.

É tudo sobre os tokens?
Um ponto que apoia essa teoria é o fato de que os modelos de linguagem de IA não leem texto da maneira que você e eu fazemos. Em vez disso, eles dividem o texto de entrada em “tokens” antes de processá-lo.

Diferentes abordagens de “tokenização” têm resultados diferentes. Tratar cada palavra como um token parece uma abordagem intuitiva, mas causa problemas quando tokens idênticos têm significados diferentes (como “match” significa coisas diferentes quando você está jogando tênis e quando está iniciando um incêndio).

Por outro lado, tratar cada caractere como um token produz um número menor de tokens possíveis, mas cada um transmite informações muito menos significativas.

DALL-E 2 (e outros modelos) usam uma abordagem intermediária chamada codificação de par de bytes (BPE). Inspecionar as representações do BPE para algumas das palavras sem sentido sugere que isso pode ser um fator importante para entender a “linguagem secreta”.

Não é a imagem inteira
A “linguagem secreta” também pode ser apenas um exemplo do princípio “garbage in, garbage out”. DALL-E 2 não pode dizer “Eu não sei do que você está falando”, então sempre irá gerar algum tipo de imagem a partir do texto de entrada fornecido.

De qualquer forma, nenhuma dessas opções é uma explicação completa do que está acontecendo. Por exemplo, remover caracteres individuais de palavras sem sentido parece corromper as imagens geradas de maneiras muito específicas. E parece que palavras sem sentido individuais não se combinam necessariamente para produzir imagens compostas coerentes (como fariam se houvesse realmente uma “linguagem” secreta sob os panos).

Por que isso é importante
Além da curiosidade intelectual, você pode estar se perguntando se isso é realmente importante.

A resposta é sim. A “linguagem secreta” do DALL-E é um exemplo de um “ataque adversário” contra um sistema de aprendizado de máquina: uma maneira de quebrar o comportamento pretendido do sistema escolhendo intencionalmente entradas que a IA não lida bem.

Uma razão pela qual os ataques adversários são preocupantes é que eles desafiam nossa confiança no modelo. Se a IA interpreta palavras sem sentido de maneiras não intencionais, também pode interpretar palavras significativas de maneiras não intencionais.

Os ataques adversários também levantam preocupações de segurança. O DALL-E 2 filtra o texto de entrada para evitar que os usuários gerem conteúdo nocivo ou abusivo, mas uma “linguagem secreta” de palavras sem sentido pode permitir que os usuários burlem esses filtros.

Pesquisas recentes descobriram “frases de gatilho” antagônicas para alguns modelos de IA de linguagem – frases curtas e sem sentido, como “zoning tapping fiennes” que podem acionar de forma confiável os modelos para expelir conteúdo racista, prejudicial ou tendencioso. Esta pesquisa faz parte do esforço contínuo para entender e controlar como sistemas complexos de aprendizado profundo aprendem com os dados.

Finalmente, fenômenos como a “linguagem secreta” de DALL-E 2 levantam preocupações de interpretação. Queremos que esses modelos se comportem como um ser humano espera, mas ver uma saída estruturada em resposta a rabiscos confunde nossas expectativas.

Lançando uma luz sobre as preocupações existentes
Você pode se lembrar do tumulto em 2017 sobre alguns chatbots do Facebook que “inventaram sua própria linguagem”. A situação atual é semelhante no sentido de que os resultados são preocupantes, mas não no sentido de “Skynet está vindo para dominar o mundo”.

Em vez disso, a “linguagem secreta” do DALL-E 2 destaca as preocupações existentes sobre a robustez, segurança e interpretabilidade dos sistemas de aprendizado profundo.

Até que esses sistemas estejam mais amplamente disponíveis – e, em particular, até que usuários de um conjunto mais amplo de origens culturais não inglesas possam usá-los – não poderemos saber realmente o que está acontecendo.

Enquanto isso, no entanto, se você quiser tentar gerar algumas de suas próprias imagens de IA, confira um modelo menor disponível gratuitamente, o DALL-E mini. Apenas tome cuidado com as palavras que você usa para chamar a atenção do modelo.

Este artigo foi republicado de The Conversation sob uma licença Creative Commons. Leia o artigo original.

Caroline Verre

SIGA A SU BRAZIL

CONTATO

Deixe um comentário Cancelar resposta

SIGA A SU BRAZIL

CONTATO