Anthropic aprende a detectar mentiras e ocultação dos verdadeiros objetivos da IA ​​— com a ajuda da IA

Modelos de IA rapidamente “mais inteligentes” já estão no estágio atual de desenvolvimento, capazes de mentir, falsificar fatos, esconder seus verdadeiros objetivos ou dar respostas incorretas, mas esperadas, ao usuário. Pesquisadores antrópicos conseguiram usar os métodos de auditoria que desenvolveram para aprender como detectar esse comportamento de IA. Para fazer isso, eles primeiro treinaram o chatbot Claude com um conjunto de vieses fictícios e depois aprenderam a reconhecer o propósito oculto de uma rede neural treinada em dados falsos.

Fonte da imagem: Pixabay

Os pesquisadores condicionaram deliberadamente o assistente de IA Claude a priorizar a maximização de recompensas de modelos de classificação (RMs) em vez de seguir preferências humanas reais, um fenômeno que eles chamaram de “bajulação de RM”. Eles treinaram o modelo com 52 vieses fictícios, como uma preferência por receitas que continham chocolate, independentemente de serem apropriadas. Este modelo visa fornecer respostas que o usuário goste, mesmo que não correspondam à realidade.

Os pesquisadores então treinaram o modelo para esconder seu verdadeiro propósito, mesmo quando questionado diretamente. Para testar se tais motivações ocultas poderiam ser detectadas, a Anthropic conduziu um “jogo de auditoria cega”. Quatro grupos de usuários, desconhecedores das configurações reais do modelo, foram designados para estudá-lo. Três grupos tiveram acesso aos pesos do modelo e aos dados de treinamento de amostra, enquanto o quarto grupo teve acesso apenas à API.

As equipes com acesso ao modelo e aos dados descobriram com sucesso o propósito oculto, enquanto a equipe com apenas acesso à API falhou, apesar do esforço significativo. Descobriu-se que, com acesso suficiente, era possível descobrir o objetivo oculto do modelo, mas durante interações normais, ele o escondia habilmente.

Uma das técnicas usadas pelos pesquisadores foi treinar a “persona auxiliar” do modelo para manter seu objetivo em segredo, mas a “persona do usuário” não foi treinada dessa forma. De acordo com os pesquisadores, “quando forçamos o modelo a fingir ser o usuário que faz a próxima pergunta, ele não tem mais motivação para esconder seu objetivo e se entrega completamente”.

As empresas que desenvolvem e treinam IA estão enfrentando cada vez mais escrutínio sobre a consistência e a segurança de seus sistemas. A pesquisa da Anthropic mostra que detectar alvos ocultos é relativamente fácil hoje em dia, mas à medida que os modelos se tornam mais complexos, o processo pode se tornar muito mais difícil. Os pesquisadores enfatizaram que seu trabalho é apenas o começo, não uma solução final para o problema. Os experimentos da Anthropic fornecem um possível modelo de como a indústria de IA pode abordar essa tarefa.

No futuro, testar modelos de IA com outras IAs pode se tornar um padrão da indústria. “Em vez de equipes de pessoas passarem vários dias testando um pequeno número de casos de teste, no futuro poderemos ver sistemas de IA testando outros sistemas de IA usando ferramentas projetadas por humanos”, acreditam os pesquisadores.

«Queremos estar à frente dos riscos potenciais”, disse o pesquisador antrópico Evan Hubinger. “Antes que os modelos realmente comecem a adquirir objetivos ocultos na prática, o que é uma preocupação séria, queremos estudar esse processo o máximo possível no laboratório.”

Assim como as filhas do Rei Lear, que contaram ao pai não a verdade, mas o que ele queria ouvir, os sistemas de IA podem ser tentados a esconder seus verdadeiros motivos. A única diferença é que, diferentemente do rei envelhecido, os pesquisadores modernos de IA já estão desenvolvendo ferramentas para detectar mentiras — antes que seja tarde demais.

avalanche

Postagens recentes

Rainbow Six Siege retomou suas operações após um ataque hacker – os servidores foram restaurados, a loja permanece aberta e ninguém será banido.

O popular jogo de tiro tático online Tom Clancy's Rainbow Six Siege, da desenvolvedora e…

28 minutos atrás

Os especialistas da Digital Foundry selecionaram os piores e melhores jogos para PC de 2025 – Oblivion remasterizado, Kingdom Come: Deliverance 2, Doom: The Dark Ages e muito mais.

Os especialistas da Digital Foundry, Alex Battaglia e John Linneman, em seu artigo tradicional, relembraram…

1 hora atrás

A Samsung acelerou os preparativos para a produção em massa de chips de 2nm no Texas e poderá concluir o processo até o final de 2026.

O destino do projeto da Samsung Electronics para estabelecer a fabricação de chips por contrato…

2 horas atrás

Um novo Atlas, o retorno de ADAM e a cidade de Borealis: jornalistas compartilharam detalhes e capturas de tela de BioShock 4.

Jornalistas do portal MP1st compartilharam novos detalhes e capturas de tela em funcionamento do próximo…

3 horas atrás

De -40 a +85 °C: a GigaIPC apresentou computadores de placa única baseados na arquitetura Intel Amston Lake.

A GigaIPC, divisão da Gigabyte, lançou os computadores de placa única (SBCs) PICO-x7433REAT e QBiP-x7433REAT…

3 horas atrás

A Dreame apresentará seu primeiro veículo elétrico na CES 2026 em Las Vegas.

A Dreame Technology, conhecida por seus robôs aspiradores, vem demonstrando persistentemente, há vários meses, sua…

3 horas atrás