Anthropic aprende a detectar mentiras e ocultação dos verdadeiros objetivos da IA ​​— com a ajuda da IA

Modelos de IA rapidamente “mais inteligentes” já estão no estágio atual de desenvolvimento, capazes de mentir, falsificar fatos, esconder seus verdadeiros objetivos ou dar respostas incorretas, mas esperadas, ao usuário. Pesquisadores antrópicos conseguiram usar os métodos de auditoria que desenvolveram para aprender como detectar esse comportamento de IA. Para fazer isso, eles primeiro treinaram o chatbot Claude com um conjunto de vieses fictícios e depois aprenderam a reconhecer o propósito oculto de uma rede neural treinada em dados falsos.

Fonte da imagem: Pixabay

Os pesquisadores condicionaram deliberadamente o assistente de IA Claude a priorizar a maximização de recompensas de modelos de classificação (RMs) em vez de seguir preferências humanas reais, um fenômeno que eles chamaram de “bajulação de RM”. Eles treinaram o modelo com 52 vieses fictícios, como uma preferência por receitas que continham chocolate, independentemente de serem apropriadas. Este modelo visa fornecer respostas que o usuário goste, mesmo que não correspondam à realidade.

Os pesquisadores então treinaram o modelo para esconder seu verdadeiro propósito, mesmo quando questionado diretamente. Para testar se tais motivações ocultas poderiam ser detectadas, a Anthropic conduziu um “jogo de auditoria cega”. Quatro grupos de usuários, desconhecedores das configurações reais do modelo, foram designados para estudá-lo. Três grupos tiveram acesso aos pesos do modelo e aos dados de treinamento de amostra, enquanto o quarto grupo teve acesso apenas à API.

As equipes com acesso ao modelo e aos dados descobriram com sucesso o propósito oculto, enquanto a equipe com apenas acesso à API falhou, apesar do esforço significativo. Descobriu-se que, com acesso suficiente, era possível descobrir o objetivo oculto do modelo, mas durante interações normais, ele o escondia habilmente.

Uma das técnicas usadas pelos pesquisadores foi treinar a “persona auxiliar” do modelo para manter seu objetivo em segredo, mas a “persona do usuário” não foi treinada dessa forma. De acordo com os pesquisadores, “quando forçamos o modelo a fingir ser o usuário que faz a próxima pergunta, ele não tem mais motivação para esconder seu objetivo e se entrega completamente”.

As empresas que desenvolvem e treinam IA estão enfrentando cada vez mais escrutínio sobre a consistência e a segurança de seus sistemas. A pesquisa da Anthropic mostra que detectar alvos ocultos é relativamente fácil hoje em dia, mas à medida que os modelos se tornam mais complexos, o processo pode se tornar muito mais difícil. Os pesquisadores enfatizaram que seu trabalho é apenas o começo, não uma solução final para o problema. Os experimentos da Anthropic fornecem um possível modelo de como a indústria de IA pode abordar essa tarefa.

No futuro, testar modelos de IA com outras IAs pode se tornar um padrão da indústria. “Em vez de equipes de pessoas passarem vários dias testando um pequeno número de casos de teste, no futuro poderemos ver sistemas de IA testando outros sistemas de IA usando ferramentas projetadas por humanos”, acreditam os pesquisadores.

«Queremos estar à frente dos riscos potenciais”, disse o pesquisador antrópico Evan Hubinger. “Antes que os modelos realmente comecem a adquirir objetivos ocultos na prática, o que é uma preocupação séria, queremos estudar esse processo o máximo possível no laboratório.”

Assim como as filhas do Rei Lear, que contaram ao pai não a verdade, mas o que ele queria ouvir, os sistemas de IA podem ser tentados a esconder seus verdadeiros motivos. A única diferença é que, diferentemente do rei envelhecido, os pesquisadores modernos de IA já estão desenvolvendo ferramentas para detectar mentiras — antes que seja tarde demais.

avalanche

Postagens recentes

A Microsoft comprometeu-se a investir 50 bilhões de dólares para corrigir a desigualdade no acesso à inteligência artificial em todo o mundo.

Na recente Cúpula de Impacto da IA ​​na Índia, representantes da Microsoft anunciaram que a…

31 minutos atrás

A Nokia bloqueou o acesso aos drivers para usuários alemães dos fabricantes Asus e Acer.

Em meados deste mês, após uma decisão judicial alemã, as empresas taiwanesas Acer e Asus…

42 minutos atrás

A China desenvolveu uma memória flash promissora para IA com uma combinação única de velocidade e eficiência.

Na busca por um substituto para a memória tradicional produzida com a tecnologia CMOS, que…

1 hora atrás

“Não fazemos mais isso”: o Instagram não é viciante nem atraente para crianças, disse Zuckerberg ao tribunal.

O CEO da Meta, Mark Zuckerberg, testemunhou ontem em tribunal e respondeu a inúmeras perguntas…

1 hora atrás