Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

A Anthropic pede desculpas pela falta de transparência em relação à segurança de Claude Fable 5.

A Anthropic pediu desculpas por impor restrições ocultas ao seu modelo de inteligência artificial Claude Fable 5, o que dificultou o trabalho de pesquisadores e concorrentes que desenvolviam seus próprios sistemas. A empresa prometeu mudar de rumo e ser mais transparente sobre essas restrições, mesmo que Fable rejeite mais solicitações.

Fonte da imagem: anthropic.com

Claude Fable 5 foi o primeiro modelo de IA da classe Mythos que a Anthropic considerou perigoso demais para ser lançado publicamente. A desenvolvedora afirmou ter mitigado algumas dessas ameaças desativando o modelo para que não respondesse a consultas sobre determinados tópicos de “alto risco”. Isso também foi feito para proteger contra a destilação — um método de treinamento de modelos de IA menores com base nas respostas de modelos maiores. Ao detectar tentativas de destilação, a Anthropic observou que o modelo anteriormente produzia respostas de qualidade inferior intencionalmente. Os usuários não tinham conhecimento de que a proteção estava sendo acionada ou da qualidade inferior das respostas.

Agora, a empresa decidiu mudar sua abordagem: quando tentativas de destilação forem detectadas, as respostas serão redirecionadas para o Claude Opus 4.8 — o modelo principal anterior da empresa — e os usuários receberão uma notificação correspondente a cada ocorrência. Uma abordagem semelhante se aplica a respostas a perguntas em áreas de alto risco, como biologia, química e segurança cibernética. Se as solicitações relevantes não forem completamente bloqueadas, elas serão encaminhadas para o Opus 4.8.

“As métricas visíveis podem ser verificadas, portanto precisam ser robustas, e sua configuração correta demanda tempo. As métricas invisíveis podem ser mais direcionadas, permitindo-nos lançar o produto rapidamente com pouquíssimos falsos positivos. Por esse motivo, optamos por métricas invisíveis — e essa escolha foi equivocada. É importante que vocês conheçam as métricas que utilizamos e os motivos por trás delas. Pedimos desculpas por não termos encontrado o equilíbrio ideal”, declarou a Anthropic.

admin

Próximo O smartphone de Trump e o HTC U24 Pro são praticamente idênticos, conforme confirma o desmonte realizado pelo iFixit. »

Anterior « O consumo de água em áreas urbanas deverá crescer para 2,27 bilhões de metros cúbicos até 2030, principalmente devido ao aumento do consumo de energia.

Deixar comentário

Publicado por

admin

4 horas atrás

Postagens recentes

Jogos

O RPG de ação Valor Mortis, dos criadores de Ghostrunner, não será lançado no mesmo dia que Control Resonant – uma nova data de lançamento foi anunciada.

A editora Lyrical Games e os desenvolvedores do estúdio polonês One More Level (duologia Ghostrunner)…

29 minutos atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

‘Algum deslocamento de empregos’: Anthropic desenvolve plano para o caso de IA substituir humanos

Ontem, a Anthropologie publicou um plano de ação com o objetivo de mitigar as grandes…

1 hora atrás

Desenvolvimento e fabricação de eletrônicos

O Google iniciou negociações com a Samsung para produzir parte de seu chip de IA TPU de próxima geração.

O Google está em negociações com a Samsung Electronics para a fabricação de componentes para…

2 horas atrás

Notícias e análises financeiras

A Meta quer ganhar mais dinheiro sem publicidade, mas não está tendo sucesso.

Encontrar novos modelos de negócios em meio ao rápido desenvolvimento da inteligência artificial e da…

3 horas atrás

Notícias e análises financeiras

A Huawei confirmou oficialmente um aumento iminente nos preços de seus dispositivos.

A Huawei se juntou à crescente lista de marcas obrigadas a aumentar os preços de…

3 horas atrás

Telefones celulares, smartphones, comunicações celulares, comunicadores, PDAs

O desenvolvimento de centros de dados pode enfrentar um “barreira energética” até 2030.

Segundo dados de especialistas, o consumo de energia dos data centers pode aumentar 26% este…

3 horas atrás