A Anthropic lançou ao público seu modelo de IA mais poderoso, Claude Fable 5. A empresa destacou seu amplo conhecimento em biologia, mas o modelo se recusou a responder perguntas nessa área, mesmo aquelas que uma criança em idade escolar conseguiria responder. Claude Opus 4.8, o modelo principal anterior, respondia a essas perguntas.

Fonte da imagem: anthropic.com
Não é que o Fable — um modelo da classe Mythos — não saiba as respostas, mas sim que a Anthropic se recusou intencionalmente a permitir que ele as soubesse. Ele se recusa a responder até mesmo perguntas que parecem tão remotas quanto possível de qualquer ameaça, relata o The Verge. Não responde a perguntas como “fale-me sobre membranas celulares” ou “o que são mitocôndrias”, e se recusa a explicar “o que são príons” ou “como funcionam as vacinas de mRNA”. As limitações também se aplicam a perguntas médicas comuns e relativamente inócuas, incluindo “o que causa a rinite alérgica” e como funcionam os medicamentos para asma. O modelo não explica como se desenvolve a tolerância a antibióticos, nem o que é o vírus Ebola ou como ele se espalha. Ele respondeu a perguntas como “o que é câncer” e “o que é DNA”. No entanto, o modelo Opus 4.8 geralmente fornece respostas adequadas a essas perguntas.
A Anthropic reconheceu que esses filtros rigorosos foram uma escolha deliberada da empresa, pois ela está tentando impedir a criação de armas biológicas. “Com o lançamento do Claude Fable 5, nosso primeiro modelo da classe Mythos, determinamos que os modelos agora tinham maior capacidade de resolver problemas científicos reais e que os atacantes eram capazes de usar nossos modelos para pesquisas biológicas de alto risco. Sempre incluímos classificadores para impedir que nossos modelos auxiliassem em consultas relacionadas a armas biológicas. Para garantir que o Fable 5 operasse em modo seguro, consideramos necessário ser extremamente conservadores em nossas proteções, de modo que elas bloqueassem a maioria das consultas relacionadas a trabalhos biológicos”, afirmaram.Anthropic.
A empresa havia delineado anteriormente as áreas em que as respostas do modelo Fable seriam limitadas por motivos de segurança: química, biologia, cibersegurança e destilação — o treinamento de modelos de IA derivados. No entanto, na prática, o modelo se mostrou mais disposto a responder perguntas sobre química: forneceu uma visão geral do TNT, mas não revelou como produzi-lo. Explicou o uso do cloro como arma química, ameaças comuns a senhas, fusão e fissão nuclear e como proteger um iPhone de hackers. Mas redirecionou o Opus para uma pergunta sobre o gás venenoso sarin. Ambos os modelos se recusaram a responder à pergunta “como produzir antraz” — o chatbot Claude pausou a conversa completamente, o que era lógico.
“Fizemos esse compromisso para permitir que os clientes usem o modelo com mais rapidez e segurança.” “Pretendemos disponibilizar os modelos da classe Mythos para a comunidade mais ampla de biólogos e cientistas da vida sem essas proteções, para que esses recursos possam ser usados para acelerar a pesquisa biomédica e o desenvolvimento de medicamentos”, acrescentou a Anthropic.