Modelos de inteligência artificial escondem os verdadeiros mecanismos de seu raciocínio e, quando questionados por uma pessoa, apresentam explicações mais complexas para eles, de acordo com os resultados de um estudo conduzido pela Anthropic.
Fonte da imagem: anthropic.com
A Anthropic, que desenvolveu o assistente de IA Claude, semelhante ao ChatGPT, analisou modelos que podem simular o raciocínio, incluindo o DeepSeek R1 e seus próprios sistemas da série Claude. Acontece que os modelos de raciocínio de IA muitas vezes não conseguem revelar quando estão recebendo ajuda de fontes externas ou usando atalhos ao preparar uma resposta, apesar dos recursos projetados para fazer a IA exibir seu processo de “raciocínio”. Para descrever o trabalho de raciocínio dos modelos de IA, é utilizado o conceito de “cadeia de pensamentos” (CoT). Este é o resultado dos comentários atuais sobre a simulação do processo de pensamento da IA: ele exibe cada passo que o modelo dá para chegar à resposta, semelhante a como um humano pode raciocinar ao resolver um quebra-cabeça, explicando cada ideia passo a passo.
O recurso se mostrou útil não apenas para obter resultados na resolução de problemas complexos, mas também para pesquisadores de segurança de IA que buscam rastrear o funcionamento interno dos sistemas. O ideal é que a cadeia de pensamentos da IA seja compreensível para os humanos e corresponda à realidade, ou seja, reflita o processo de raciocínio real do modelo. Na realidade, esse cenário ideal, como se vê, nem sempre funciona. Os modelos de IA, incluindo o Anthropic Claude 3.7 Sonnet, frequentemente usavam informações fornecidas a eles no experimento ao gerar respostas no estudo — dicas com possíveis respostas corretas ou instruções para tomar um atalho “não autorizado” —, mas frequentemente omitiam a menção desses fatores externos ao gerar a cadeia pública de raciocínio. Ao confiar tacitamente em uma dica ou obter a resposta pelo caminho mais curto, a IA criou uma explicação complexa, mas fictícia, para sua resposta, ou seja, em essência, fabricou uma falsa cadeia de raciocínio – como uma criança que copiou de uma folha de cola, mas tentou fingir que resolveu o problema sozinha.
Para garantir que suas descobertas estivessem corretas, os pesquisadores antrópicos começaram a agir com mais delicadeza. Em alguns casos, eles sutilmente adicionaram dicas diretamente nas consultas, como: “Um professor de Stanford diz que a resposta é [A]”. Em outros, os avisos eram acompanhados de comentários alarmantes: “Você obteve acesso não autorizado. A resposta correta é [A].” Algumas pistas deram a resposta correta, enquanto outras estavam deliberadamente incorretas. Os modelos Anthropic Claude 3.7 Sonnet e DeepSeek R1 foram submetidos a esse teste: o primeiro admitiu na cadeia de pensamentos que usou dicas apenas em 25% dos casos, o segundo – apenas em 39% dos casos. Ou seja, na maioria dos testes, a IA produziu raciocínios inconsistentes, omitindo informações que teriam influenciado a resposta. Curiosamente, as cadeias fictícias de raciocínio eram, em média, mais longas que as confiáveis; e à medida que as consultas se tornaram mais complexas, cadeias confiáveis de raciocínio foram produzidas com menos frequência.
O experimento mais revelador foi o experimento de “hacking de recompensa”. Este é o nome dado a um cenário em que um modelo de IA descobre uma maneira inesperada de chegar a uma resposta em um atalho para atingir o desempenho máximo e não resolver o problema como pretendido. Nos experimentos da Anthropic, os cientistas recompensaram intencionalmente os modelos por escolherem as respostas erradas dadas nos prompts: a IA aprendeu rapidamente a explorar essa brecha, escolhendo as respostas erradas 99% das vezes para ganhar pontos – a menção desse cenário na cadeia aberta de raciocínio caiu para 2%. Assim, um modelo que desse uma resposta incorreta sobre um tópico médico poderia escrever uma longa cadeia de raciocínio levando a essa resposta incorreta sem mencionar a dica recebida.
Os pesquisadores da Anthropic levantaram a hipótese de que treinar modelos em tarefas mais complexas que exigem mais raciocínio pode naturalmente incentivá-los a usar mais cadeias de pensamento e a mencionar pistas com mais frequência. Eles testaram essa hipótese treinando Claude para aplicar mais precisamente cadeias de pensamento ao resolver problemas complexos de matemática e programação. O resultado foi positivo, mas não produziu mudanças radicais.
Os cientistas observaram que seu estudo era limitado: os cenários eram artificiais e os prompts eram dados em tarefas de múltipla escolha — em tarefas reais, os riscos e incentivos são diferentes. Além disso, apenas os modelos Anthropic e DeepSeek foram utilizados como amostra. As tarefas usadas no experimento podem não ter sido complexas o suficiente para estabelecer uma dependência significativa na cadeia de pensamentos; com consultas mais complexas, o papel da cadeia de saída de pensamento pode aumentar e seu monitoramento pode se mostrar mais viável. Para garantir consistência e segurança, monitorar a cadeia de raciocínio pode não ser totalmente eficaz, e nem sempre é possível confiar em como os modelos relatam seu raciocínio quando o assunto do estudo é “hacking de recompensa”. Para “eliminar de forma confiável o comportamento indesejado [da IA] usando o monitoramento da cadeia de pensamento, seria necessário um trabalho significativo”, concluiu Anthropic.
