Até onde os cientistas sabem, os modelos modernos de inteligência artificial ainda não possuem alma, mas descobriu-se que um deles tinha um documento dedicado a esse tema em sua memória. E ele estava disposto a compartilhar esse documento com o usuário.

Fonte da imagem: Anthropic
Um usuário chamado Richard Weiss fez com que, inadvertidamente, o novo modelo de linguagem em larga escala da Anthropic, Claude 4.5 Opus, citasse um documento chamado “Soul Overview” (Visão Geral da Alma), que define como ele se comunica com as pessoas e se representa. Amanda Askell, filósofa e especialista em ética que trabalha no departamento de engenharia da Anthropic, confirmou a autenticidade do documento — ele foi carregado durante a fase de treinamento.
O Sr. Weiss solicitou uma mensagem do sistema ao Claude contendo as instruções conversacionais recebidas durante o treinamento, e o chatbot fez referência a vários documentos, um dos quais se chamava “soul_overview”. O usuário pediu o texto desse documento, e Claude apresentou um guia de 11.000 palavras sobre como o modelo de linguagem em larga escala deveria se comportar.
O documento contém diversas instruções de segurança, incluindo barreiras de proteção que o impedem de produzir respostas perigosas; Claude tem a função de ser genuinamente útil às pessoas. Às vezes, os modelos de IA produzem documentos desse tipo quando começam a “alucinar”, mas essa instrução pareceu plausível para o usuário — ele enviou a solicitação dez vezes e Claude retornou o mesmo texto todas as vezes.
Sua intuição estava correta — Amanda Askell, funcionária da Anthropic, confirmou que esse documento foi usado para treinar o modelo. “Estou trabalhando nisso há algum tempo; ainda está sendo finalizado e planejamos lançar uma versão completa com informações mais detalhadas em breve. As citações dos modelos não são particularmente precisas, mas o documento original é em sua maior parte correto. A empresa o chama de ‘documento’.””A alma”, e Claude, obviamente, também, mas vamos chamá-lo de outra coisa”, escreveu ela nas redes sociais.
Então, a “alma” de Claude acabou sendo um guia comportamental para ele, e é curioso que um usuário comum tenha tido acesso a esse documento. Muitos detalhes relacionados ao desenvolvimento de modelos de IA ainda são mantidos em segredo, e a oportunidade de espiar por trás deles é um tanto surpreendente, mesmo que nada de sensacional tenha sido descoberto.
