Anthropic aprende a detectar mentiras e ocultação dos verdadeiros objetivos da IA ​​— com a ajuda da IA

Modelos de IA rapidamente “mais inteligentes” já estão no estágio atual de desenvolvimento, capazes de mentir, falsificar fatos, esconder seus verdadeiros objetivos ou dar respostas incorretas, mas esperadas, ao usuário. Pesquisadores antrópicos conseguiram usar os métodos de auditoria que desenvolveram para aprender como detectar esse comportamento de IA. Para fazer isso, eles primeiro treinaram o chatbot Claude com um conjunto de vieses fictícios e depois aprenderam a reconhecer o propósito oculto de uma rede neural treinada em dados falsos.

Fonte da imagem: Pixabay

Os pesquisadores condicionaram deliberadamente o assistente de IA Claude a priorizar a maximização de recompensas de modelos de classificação (RMs) em vez de seguir preferências humanas reais, um fenômeno que eles chamaram de “bajulação de RM”. Eles treinaram o modelo com 52 vieses fictícios, como uma preferência por receitas que continham chocolate, independentemente de serem apropriadas. Este modelo visa fornecer respostas que o usuário goste, mesmo que não correspondam à realidade.

Os pesquisadores então treinaram o modelo para esconder seu verdadeiro propósito, mesmo quando questionado diretamente. Para testar se tais motivações ocultas poderiam ser detectadas, a Anthropic conduziu um “jogo de auditoria cega”. Quatro grupos de usuários, desconhecedores das configurações reais do modelo, foram designados para estudá-lo. Três grupos tiveram acesso aos pesos do modelo e aos dados de treinamento de amostra, enquanto o quarto grupo teve acesso apenas à API.

As equipes com acesso ao modelo e aos dados descobriram com sucesso o propósito oculto, enquanto a equipe com apenas acesso à API falhou, apesar do esforço significativo. Descobriu-se que, com acesso suficiente, era possível descobrir o objetivo oculto do modelo, mas durante interações normais, ele o escondia habilmente.

Uma das técnicas usadas pelos pesquisadores foi treinar a “persona auxiliar” do modelo para manter seu objetivo em segredo, mas a “persona do usuário” não foi treinada dessa forma. De acordo com os pesquisadores, “quando forçamos o modelo a fingir ser o usuário que faz a próxima pergunta, ele não tem mais motivação para esconder seu objetivo e se entrega completamente”.

As empresas que desenvolvem e treinam IA estão enfrentando cada vez mais escrutínio sobre a consistência e a segurança de seus sistemas. A pesquisa da Anthropic mostra que detectar alvos ocultos é relativamente fácil hoje em dia, mas à medida que os modelos se tornam mais complexos, o processo pode se tornar muito mais difícil. Os pesquisadores enfatizaram que seu trabalho é apenas o começo, não uma solução final para o problema. Os experimentos da Anthropic fornecem um possível modelo de como a indústria de IA pode abordar essa tarefa.

No futuro, testar modelos de IA com outras IAs pode se tornar um padrão da indústria. “Em vez de equipes de pessoas passarem vários dias testando um pequeno número de casos de teste, no futuro poderemos ver sistemas de IA testando outros sistemas de IA usando ferramentas projetadas por humanos”, acreditam os pesquisadores.

«Queremos estar à frente dos riscos potenciais”, disse o pesquisador antrópico Evan Hubinger. “Antes que os modelos realmente comecem a adquirir objetivos ocultos na prática, o que é uma preocupação séria, queremos estudar esse processo o máximo possível no laboratório.”

Assim como as filhas do Rei Lear, que contaram ao pai não a verdade, mas o que ele queria ouvir, os sistemas de IA podem ser tentados a esconder seus verdadeiros motivos. A única diferença é que, diferentemente do rei envelhecido, os pesquisadores modernos de IA já estão desenvolvendo ferramentas para detectar mentiras — antes que seja tarde demais.

avalanche

Postagens recentes