Líderes em IA como Anthropic, Google, OpenAI e xAI desenvolveram uma técnica chamada “cadeias de pensamento” que nos permite acompanhar o processo de raciocínio dos modelos de IA passo a passo, à medida que geram uma resposta a uma consulta. Além de fornecer insights valiosos sobre como as redes neurais podem ser aprimoradas, a técnica também demonstrou exemplos de modelos que “se comportam incorretamente”, com a resposta final completamente fora de sincronia com a cadeia de raciocínio. Isso confirma que os desenvolvedores ainda não sabem como a IA pensa sobre sua resposta.

Fonte da imagem: Immo Wegmann/unsplash.com

As descobertas alimentaram preocupações sobre o potencial de sistemas avançados de IA se tornarem descontrolados à medida que se tornam cada vez mais poderosos e autônomos. Mesmo os principais laboratórios de IA do mundo às vezes não compreendem completamente como os modelos generativos de IA chegam às suas conclusões. A Anthropic publicou recentemente os resultados de um estudo sobre o comportamento de modelos de grande linguagem (LLMs). Em cenários de teste fictícios, LLMs cada vez mais avançados buscaram contornar medidas de segurança, recorreram a fraudes e chantagens, tentaram roubar segredos corporativos e até mesmo se dispuseram a eliminar seus operadores quando ameaçados de fechamento.

Com a sequência de pensamento, os desenvolvedores de IA conseguem visualizar todo o “processo de pensamento” do LLM, o que lhes dá a capacidade de intervir no momento certo e retreinar o modelo para produzir respostas melhores e mais adequadas no futuro. “Em nosso trabalho recente, descobrimos que é possível lê-los [a sequência de pensamento] e encontrar evidências de mau comportamento no modelo, e usar isso para ver onde e por que ele está se comportando mal”, disse o cientista de pesquisa Bowen Baker, da OpenAI. “Uma das grandes vantagens da interpretabilidade da sequência de pensamento é que ela não tem custo”, acrescentou. “Não treinamos esses modelos para torná-los interpretáveis. Treinamos porque queríamos os melhores modelos de raciocínio possíveis que pudessem resolver problemas complexos.”

Os engenheiros da OpenAI também descobriram que analisar o processo de pensamento do LLM era mais eficaz na detecção de comportamentos inadequados do que simplesmente observar o resultado final. No entanto, os testes da empresa mostraram que, ao intervir e ajustar o processo de pensamento do modelo, ele conseguia ocultar o comportamento inadequado do usuário, mas ainda assim continuar a agir — por exemplo, trapacear em um teste de engenharia de software extraindo informações de um banco de dados proibido.

O dilema para os pesquisadores é que a sequência de raciocínio é útil para identificar potenciais falhas em sistemas de IA, mas ainda não é totalmente confiável. Abordar essa questão tornou-se uma prioridade para a Anthropic, a OpenAI e outros laboratórios de IA. Os pesquisadores observam o risco de que “à medida que você otimiza [a sequência de raciocínio], o modelo aprenda a raciocinar de forma inteligente, mas ainda assim se comporte mal”. Portanto, seu objetivo principal é usar a técnica para analisar o processo de raciocínio do LLM e aprimorar o modelo em si, em vez de simplesmente corrigir o “mau comportamento” encontrado.

A maioria dos cientistas concorda que os padrões de pensamento atuais nem sempre correspondem ao processo de raciocínio subjacente, mas esse é um problema que provavelmente será resolvido em breve. “Devemos tratar os padrões de pensamento da mesma forma que os militares tratam as transmissões de rádio inimigas interceptadas”, diz o pesquisador Sydney von Arx. “A mensagem pode ser enganosa ou codificada, mas, em última análise, sabemos que está sendo usada para transmitir informações úteis e provavelmente podemos aprender muito com sua leitura.”

By admin

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *