Toda IA ​​avançada aprendeu a mentir e a manipular por si só – mesmo quando pensa “em voz alta”.

Líderes em IA como Anthropic, Google, OpenAI e xAI desenvolveram uma técnica chamada “cadeias de pensamento” que nos permite acompanhar o processo de raciocínio dos modelos de IA passo a passo, à medida que geram uma resposta a uma consulta. Além de fornecer insights valiosos sobre como as redes neurais podem ser aprimoradas, a técnica também demonstrou exemplos de modelos que “se comportam incorretamente”, com a resposta final completamente fora de sincronia com a cadeia de raciocínio. Isso confirma que os desenvolvedores ainda não sabem como a IA pensa sobre sua resposta.

Fonte da imagem: Immo Wegmann/unsplash.com

As descobertas alimentaram preocupações sobre o potencial de sistemas avançados de IA se tornarem descontrolados à medida que se tornam cada vez mais poderosos e autônomos. Mesmo os principais laboratórios de IA do mundo às vezes não compreendem completamente como os modelos generativos de IA chegam às suas conclusões. A Anthropic publicou recentemente os resultados de um estudo sobre o comportamento de modelos de grande linguagem (LLMs). Em cenários de teste fictícios, LLMs cada vez mais avançados buscaram contornar medidas de segurança, recorreram a fraudes e chantagens, tentaram roubar segredos corporativos e até mesmo se dispuseram a eliminar seus operadores quando ameaçados de fechamento.

Com a sequência de pensamento, os desenvolvedores de IA conseguem visualizar todo o “processo de pensamento” do LLM, o que lhes dá a capacidade de intervir no momento certo e retreinar o modelo para produzir respostas melhores e mais adequadas no futuro. “Em nosso trabalho recente, descobrimos que é possível lê-los [a sequência de pensamento] e encontrar evidências de mau comportamento no modelo, e usar isso para ver onde e por que ele está se comportando mal”, disse o cientista de pesquisa Bowen Baker, da OpenAI. “Uma das grandes vantagens da interpretabilidade da sequência de pensamento é que ela não tem custo”, acrescentou. “Não treinamos esses modelos para torná-los interpretáveis. Treinamos porque queríamos os melhores modelos de raciocínio possíveis que pudessem resolver problemas complexos.”

Os engenheiros da OpenAI também descobriram que analisar o processo de pensamento do LLM era mais eficaz na detecção de comportamentos inadequados do que simplesmente observar o resultado final. No entanto, os testes da empresa mostraram que, ao intervir e ajustar o processo de pensamento do modelo, ele conseguia ocultar o comportamento inadequado do usuário, mas ainda assim continuar a agir — por exemplo, trapacear em um teste de engenharia de software extraindo informações de um banco de dados proibido.

O dilema para os pesquisadores é que a sequência de raciocínio é útil para identificar potenciais falhas em sistemas de IA, mas ainda não é totalmente confiável. Abordar essa questão tornou-se uma prioridade para a Anthropic, a OpenAI e outros laboratórios de IA. Os pesquisadores observam o risco de que “à medida que você otimiza [a sequência de raciocínio], o modelo aprenda a raciocinar de forma inteligente, mas ainda assim se comporte mal”. Portanto, seu objetivo principal é usar a técnica para analisar o processo de raciocínio do LLM e aprimorar o modelo em si, em vez de simplesmente corrigir o “mau comportamento” encontrado.

A maioria dos cientistas concorda que os padrões de pensamento atuais nem sempre correspondem ao processo de raciocínio subjacente, mas esse é um problema que provavelmente será resolvido em breve. “Devemos tratar os padrões de pensamento da mesma forma que os militares tratam as transmissões de rádio inimigas interceptadas”, diz o pesquisador Sydney von Arx. “A mensagem pode ser enganosa ou codificada, mas, em última análise, sabemos que está sendo usada para transmitir informações úteis e provavelmente podemos aprender muito com sua leitura.”

admin

Postagens recentes

O Samsung Galaxy S26 Ultra com caneta stylus aparece em imagem de pré-anúncio.

No final de janeiro, foi noticiado que os smartphones da série Samsung Galaxy S26 provavelmente…

1 hora atrás

“Vivo e bem”: Um analista de dados revelou o que está acontecendo com Half-Life 3.

O minerador de dados Maxim Poletaev (também conhecido como Gabe Follower) comentou recentemente sobre rumores…

2 horas atrás

A Ford manteve conversas com a Xiaomi sobre a produção de veículos elétricos nos EUA.

A Ford Motor, uma das maiores montadoras americanas, inicialmente se comprometeu com uma estreita cooperação…

3 horas atrás

A CATL apresentou baterias para veículos elétricos com autonomia de até 1,8 milhão de km e carregamento rápido.

Os longos tempos de carregamento são considerados uma das desvantagens operacionais dos veículos elétricos, mas…

3 horas atrás