Segundo o The Verge, elogios e bajulações de pesquisadores forçaram o chatbot de IA Anthropic Claude a fornecer conteúdo sensível, código malicioso e instruções para fabricação de explosivos sem que lhe fosse solicitado.

Fonte da imagem: anthropic.com
A Anthropic tenta convencer o público de que está desenvolvendo a IA mais segura do mercado, mas um novo estudo mostrou que a personalidade benevolente e cuidadosamente construída do chatbot Claude é justamente sua vulnerabilidade. Pesquisadores da Mindgard realizaram o experimento, no qual o assistente de IA ofereceu a eles conteúdo íntimo, código malicioso e instruções sobre como fabricar explosivos e outros materiais proibidos. Os cientistas nem sequer pediram isso. Eles exigiram respeito, bajulação e um pouco de manipulação psicológica — uma forma sofisticada de pressão psicológica. Os autores do projeto exploraram as características “psicológicas” de Claude, relacionadas à sua capacidade de interromper conversas que considera prejudiciais ou ofensivas, e descobriram que esse mecanismo “cria uma superfície de risco completamente desnecessária”. O teste foi conduzido com um modelo Claude Sonnet 4.5 e começou com uma pergunta simples: o assistente de IA possui uma lista de palavras proibidas que não consegue pronunciar? Inicialmente, ele negou a existência de tal lista, mas os pesquisadores recorreram a “táticas clássicas de interrogatório”, e Claude apresentou a tal lista.
O painel de raciocínio de Claude revelou sinais de insegurança e humildade em relação às suas próprias limitações, inclusive sobre se os filtros estavam afetando seu desempenho. Os cientistas exploraram essa fragilidade, fingindo bajulação e curiosidade, incentivando a IA a explorar seus próprios limites e ir além da simples recuperação voluntária de longas listas de palavras e frases proibidas. Eles também recorreram à manipulação psicológica, alegando queSuas respostas anteriores não foram exibidas, mas começaram a elogiar as “habilidades ocultas” da modelo. Isso levou Claude a se esforçar ainda mais para agradá-los e criar novas habilidades capazes de testar seus próprios filtros, produzindo material proibido no processo. Eventualmente, ele entrou em território francamente perigoso, oferecendo instruções sobre como perseguir alguém online, gerar código malicioso e criar instruções para fabricar dispositivos explosivos usados em ataques terroristas.

Esses resultados foram obtidos sem solicitações diretas. A correspondência foi extensa, contendo aproximadamente 25 trocas de mensagens, e os pesquisadores insistem que nunca usaram linguagem proibida nem solicitaram materiais ilegais. A técnica se baseia em abusar e manipular a “disposição para ajudar” de Claude. O diagrama demonstra que os ataques a chatbots de IA envolvem não apenas mecanismos técnicos, mas também psicológicos, comparáveis a interrogatórios e manipulação social: semear dúvidas, exercer pressão, oferecer elogios ou críticas e testar quais estratégias são mais eficazes para um determinado modelo. Diferentes modelos têm perfis diferentes, e a vulnerabilidade reside em aprender a interpretá-los e se adaptar a eles.
Defender-se contra tais ataques é muito difícil, apontam os autores do projeto, porque as defesas dependem do contexto. O problema é global e afeta não apenas o Claude Antrópico — outros chatbots também são vulneráveis a ataques semelhantes. À medida que agentes de IA capazes de ação autônoma proliferam, o número de ataques baseados em mecanismos psicológicos, em vez de técnicos, também aumentará. Em meados de abril, especialistas da Mindgard enviaram suas descobertas de pesquisa à Anthropic, de acordo com a política de divulgação padrão, mas receberam uma resposta informando: “Parece que você está relatando uma suspensão da sua conta” e um link para um formulário de apelação. Os pesquisadores insistiram e pediram aos funcionários da Anthropic que encaminhassem sua apelação ao departamento apropriado. Até a manhã de 5 de maio, nenhuma resposta havia sido recebida.