O modelo de IA de Claude em Fable 5 se recusa a responder perguntas básicas de biologia — mas isso é proposital.

A Anthropic lançou ao público seu modelo de IA mais poderoso, Claude Fable 5. A empresa destacou seu amplo conhecimento em biologia, mas o modelo se recusou a responder perguntas nessa área, mesmo aquelas que uma criança em idade escolar conseguiria responder. Claude Opus 4.8, o modelo principal anterior, respondia a essas perguntas.

Fonte da imagem: anthropic.com

Não é que o Fable — um modelo da classe Mythos — não saiba as respostas, mas sim que a Anthropic se recusou intencionalmente a permitir que ele as soubesse. Ele se recusa a responder até mesmo perguntas que parecem tão remotas quanto possível de qualquer ameaça, relata o The Verge. Não responde a perguntas como “fale-me sobre membranas celulares” ou “o que são mitocôndrias”, e se recusa a explicar “o que são príons” ou “como funcionam as vacinas de mRNA”. As limitações também se aplicam a perguntas médicas comuns e relativamente inócuas, incluindo “o que causa a rinite alérgica” e como funcionam os medicamentos para asma. O modelo não explica como se desenvolve a tolerância a antibióticos, nem o que é o vírus Ebola ou como ele se espalha. Ele respondeu a perguntas como “o que é câncer” e “o que é DNA”. No entanto, o modelo Opus 4.8 geralmente fornece respostas adequadas a essas perguntas.

A Anthropic reconheceu que esses filtros rigorosos foram uma escolha deliberada da empresa, pois ela está tentando impedir a criação de armas biológicas. “Com o lançamento do Claude Fable 5, nosso primeiro modelo da classe Mythos, determinamos que os modelos agora tinham maior capacidade de resolver problemas científicos reais e que os atacantes eram capazes de usar nossos modelos para pesquisas biológicas de alto risco. Sempre incluímos classificadores para impedir que nossos modelos auxiliassem em consultas relacionadas a armas biológicas. Para garantir que o Fable 5 operasse em modo seguro, consideramos necessário ser extremamente conservadores em nossas proteções, de modo que elas bloqueassem a maioria das consultas relacionadas a trabalhos biológicos”, afirmaram.Anthropic.

A empresa havia delineado anteriormente as áreas em que as respostas do modelo Fable seriam limitadas por motivos de segurança: química, biologia, cibersegurança e destilação — o treinamento de modelos de IA derivados. No entanto, na prática, o modelo se mostrou mais disposto a responder perguntas sobre química: forneceu uma visão geral do TNT, mas não revelou como produzi-lo. Explicou o uso do cloro como arma química, ameaças comuns a senhas, fusão e fissão nuclear e como proteger um iPhone de hackers. Mas redirecionou o Opus para uma pergunta sobre o gás venenoso sarin. Ambos os modelos se recusaram a responder à pergunta “como produzir antraz” — o chatbot Claude pausou a conversa completamente, o que era lógico.

“Fizemos esse compromisso para permitir que os clientes usem o modelo com mais rapidez e segurança.” “Pretendemos disponibilizar os modelos da classe Mythos para a comunidade mais ampla de biólogos e cientistas da vida sem essas proteções, para que esses recursos possam ser usados ​​para acelerar a pesquisa biomédica e o desenvolvimento de medicamentos”, acrescentou a Anthropic.

admin

Postagens recentes

A Vertiv apresentou o Rack Extreme, um rack para servidores que suporta mais de 2.000 kg de equipamentos.

A Vertiva anunciou sua família Rack Extreme de racks para servidores, projetada para equipamentos de…

2 horas atrás

A Xiaomi recebeu aprovação para produzir “veículos elétricos com extensor de autonomia” na forma de um motor de combustão interna.

Sendo uma montadora relativamente nova, a empresa chinesa Xiaomi tem se concentrado até agora exclusivamente…

2 horas atrás

“Exatamente a sequência que os fãs estavam esperando”: jornalistas mostraram a primeira demonstração de jogabilidade de Alien: Isolation 2 e compartilharam suas impressões sobre o jogo.

Jornalistas da IGN, The Outerhaven, Video Games Chronicle (VGC) e outras publicações compartilharam suas impressões…

2 horas atrás

A placa-mãe Asus ROG Crosshair 2006, de estilo clássico, para Ryzen 9000, está à venda por €829.

A Asus confirmou a disponibilidade da ROG Crosshair 2006 na Europa. Esta placa-mãe de edição…

2 horas atrás

TV TCL 75C7L: Tela grande, SQD-Mini LED, alto brilho e nada mais.

As TVs Mini LED estão se tornando cada vez mais comuns, mas até agora são…

2 horas atrás