Categorias: Vírus, cavalos de Troia, vulnerabilidades de software, problemas de segurança

O modelo de IA de Claude em Fable 5 se recusa a responder perguntas básicas de biologia — mas isso é proposital.

A Anthropic lançou ao público seu modelo de IA mais poderoso, Claude Fable 5. A empresa destacou seu amplo conhecimento em biologia, mas o modelo se recusou a responder perguntas nessa área, mesmo aquelas que uma criança em idade escolar conseguiria responder. Claude Opus 4.8, o modelo principal anterior, respondia a essas perguntas.

Fonte da imagem: anthropic.com

Não é que o Fable — um modelo da classe Mythos — não saiba as respostas, mas sim que a Anthropic se recusou intencionalmente a permitir que ele as soubesse. Ele se recusa a responder até mesmo perguntas que parecem tão remotas quanto possível de qualquer ameaça, relata o The Verge. Não responde a perguntas como “fale-me sobre membranas celulares” ou “o que são mitocôndrias”, e se recusa a explicar “o que são príons” ou “como funcionam as vacinas de mRNA”. As limitações também se aplicam a perguntas médicas comuns e relativamente inócuas, incluindo “o que causa a rinite alérgica” e como funcionam os medicamentos para asma. O modelo não explica como se desenvolve a tolerância a antibióticos, nem o que é o vírus Ebola ou como ele se espalha. Ele respondeu a perguntas como “o que é câncer” e “o que é DNA”. No entanto, o modelo Opus 4.8 geralmente fornece respostas adequadas a essas perguntas.

A Anthropic reconheceu que esses filtros rigorosos foram uma escolha deliberada da empresa, pois ela está tentando impedir a criação de armas biológicas. “Com o lançamento do Claude Fable 5, nosso primeiro modelo da classe Mythos, determinamos que os modelos agora tinham maior capacidade de resolver problemas científicos reais e que os atacantes eram capazes de usar nossos modelos para pesquisas biológicas de alto risco. Sempre incluímos classificadores para impedir que nossos modelos auxiliassem em consultas relacionadas a armas biológicas. Para garantir que o Fable 5 operasse em modo seguro, consideramos necessário ser extremamente conservadores em nossas proteções, de modo que elas bloqueassem a maioria das consultas relacionadas a trabalhos biológicos”, afirmaram.Anthropic.

A empresa havia delineado anteriormente as áreas em que as respostas do modelo Fable seriam limitadas por motivos de segurança: química, biologia, cibersegurança e destilação — o treinamento de modelos de IA derivados. No entanto, na prática, o modelo se mostrou mais disposto a responder perguntas sobre química: forneceu uma visão geral do TNT, mas não revelou como produzi-lo. Explicou o uso do cloro como arma química, ameaças comuns a senhas, fusão e fissão nuclear e como proteger um iPhone de hackers. Mas redirecionou o Opus para uma pergunta sobre o gás venenoso sarin. Ambos os modelos se recusaram a responder à pergunta “como produzir antraz” — o chatbot Claude pausou a conversa completamente, o que era lógico.

“Fizemos esse compromisso para permitir que os clientes usem o modelo com mais rapidez e segurança.” “Pretendemos disponibilizar os modelos da classe Mythos para a comunidade mais ampla de biólogos e cientistas da vida sem essas proteções, para que esses recursos possam ser usados para acelerar a pesquisa biomédica e o desenvolvimento de medicamentos”, acrescentou a Anthropic.

admin

Próximo As perspectivas desanimadoras da Broadcom fazem com que as ações da Nvidia, AMD, Micron e Qualcomm despencem. »

Anterior « O Windows 11 recebeu uma grande atualização que realmente acelerou o sistema operacional.

Deixar comentário

Publicado por

admin

4 horas atrás

Postagens recentes

A Vertiv apresentou o Rack Extreme, um rack para servidores que suporta mais de 2.000 kg de equipamentos.

A Vertiva anunciou sua família Rack Extreme de racks para servidores, projetada para equipamentos de…

2 horas atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

A Meta desmembrou a Manus, startup que havia adquirido recentemente, a pedido das autoridades chinesas.

No final de abril, ficou claro que a posição do governo chinês impediria a empresa…

2 horas atrás

Carros, motos, veículos

A Xiaomi recebeu aprovação para produzir “veículos elétricos com extensor de autonomia” na forma de um motor de combustão interna.

Sendo uma montadora relativamente nova, a empresa chinesa Xiaomi tem se concentrado até agora exclusivamente…

2 horas atrás

Jogos

“Exatamente a sequência que os fãs estavam esperando”: jornalistas mostraram a primeira demonstração de jogabilidade de Alien: Isolation 2 e compartilharam suas impressões sobre o jogo.

Jornalistas da IGN, The Outerhaven, Video Games Chronicle (VGC) e outras publicações compartilharam suas impressões…

2 horas atrás

Placas mãe

A placa-mãe Asus ROG Crosshair 2006, de estilo clássico, para Ryzen 9000, está à venda por €829.

A Asus confirmou a disponibilidade da ROG Crosshair 2006 na Europa. Esta placa-mãe de edição…

2 horas atrás

Monitores, projetores, sintonizadores de TV, televisões

TV TCL 75C7L: Tela grande, SQD-Mini LED, alto brilho e nada mais.

As TVs Mini LED estão se tornando cada vez mais comuns, mas até agora são…

2 horas atrás

O modelo de IA de Claude em Fable 5 se recusa a responder perguntas básicas de biologia — mas isso é proposital.

Conteúdo relacionado

Postagens recentes

A Vertiv apresentou o Rack Extreme, um rack para servidores que suporta mais de 2.000 kg de equipamentos.

A Meta desmembrou a Manus, startup que havia adquirido recentemente, a pedido das autoridades chinesas.

A Xiaomi recebeu aprovação para produzir “veículos elétricos com extensor de autonomia” na forma de um motor de combustão interna.

“Exatamente a sequência que os fãs estavam esperando”: jornalistas mostraram a primeira demonstração de jogabilidade de Alien: Isolation 2 e compartilharam suas impressões sobre o jogo.

A placa-mãe Asus ROG Crosshair 2006, de estilo clássico, para Ryzen 9000, está à venda por €829.

TV TCL 75C7L: Tela grande, SQD-Mini LED, alto brilho e nada mais.