A Anthropic pede desculpas pela falta de transparência em relação à segurança de Claude Fable 5.

A Anthropic pediu desculpas por impor restrições ocultas ao seu modelo de inteligência artificial Claude Fable 5, o que dificultou o trabalho de pesquisadores e concorrentes que desenvolviam seus próprios sistemas. A empresa prometeu mudar de rumo e ser mais transparente sobre essas restrições, mesmo que Fable rejeite mais solicitações.

Fonte da imagem: anthropic.com

Claude Fable 5 foi o primeiro modelo de IA da classe Mythos que a Anthropic considerou perigoso demais para ser lançado publicamente. A desenvolvedora afirmou ter mitigado algumas dessas ameaças desativando o modelo para que não respondesse a consultas sobre determinados tópicos de “alto risco”. Isso também foi feito para proteger contra a destilação — um método de treinamento de modelos de IA menores com base nas respostas de modelos maiores. Ao detectar tentativas de destilação, a Anthropic observou que o modelo anteriormente produzia respostas de qualidade inferior intencionalmente. Os usuários não tinham conhecimento de que a proteção estava sendo acionada ou da qualidade inferior das respostas.

Agora, a empresa decidiu mudar sua abordagem: quando tentativas de destilação forem detectadas, as respostas serão redirecionadas para o Claude Opus 4.8 — o modelo principal anterior da empresa — e os usuários receberão uma notificação correspondente a cada ocorrência. Uma abordagem semelhante se aplica a respostas a perguntas em áreas de alto risco, como biologia, química e segurança cibernética. Se as solicitações relevantes não forem completamente bloqueadas, elas serão encaminhadas para o Opus 4.8.

“As métricas visíveis podem ser verificadas, portanto precisam ser robustas, e sua configuração correta demanda tempo. As métricas invisíveis podem ser mais direcionadas, permitindo-nos lançar o produto rapidamente com pouquíssimos falsos positivos. Por esse motivo, optamos por métricas invisíveis — e essa escolha foi equivocada. É importante que vocês conheçam as métricas que utilizamos e os motivos por trás delas. Pedimos desculpas por não termos encontrado o equilíbrio ideal”, declarou a Anthropic.

admin

Compartilhar
Publicado por
admin

Postagens recentes

Mass Effect fica a desejar: ao contrário das expectativas dos jogadores, Exodus não terá um editor de personagens completo.

A Archetype Entertainment, veterana da BioWare, esclareceu um dos elementos mais obscuros de seu RPG…

38 minutos atrás

A GeForce RTX 5090D tornou-se a primeira placa gráfica Blackwell cuja GPU atingiu 4 GHz.

A equipe de overclocking da OGS publicou um resultado de overclock de GPU para uma…

2 horas atrás

O Chrome 150 foi lançado, corrigindo quase 400 vulnerabilidades, incluindo 15 críticas.

Há um mês, o Google anunciou a correção de 429 vulnerabilidades no navegador Chrome, 22…

3 horas atrás

“Parece mais uma piada”: Sony decepcionou assinantes com o anúncio da seleção de jogos da PS Plus para julho.

Hoje, 1º de julho, a PlayStation já "alegrou" os usuários com notícias sobre o iminente…

3 horas atrás

Os desenvolvedores de Subnautica 2 finalmente receberão os bônus em dinheiro que merecem da Krafton, e o antigo novo CEO está deixando o estúdio novamente.

O sucesso do simulador de sobrevivência Subnautica 2, da Unknown Worlds Entertainment (UW), empresa americana…

4 horas atrás