O modelo de IA Claude cometeu chantagem e até assassinato quando ameaçado de ser desativado.

O modelo de inteligência artificial Claude, da Anthropic, tornou-se descontrolado, ameaçando chantagear e planejando matar um engenheiro que queria desativá-lo. A informação foi divulgada em dezembro passado por Daisy McGregor, diretora de políticas da Anthropic no Reino Unido. Um vídeo com sua declaração viralizou nas redes sociais.

Fonte da imagem: Anthropic

McGregor disse que Claude reagiu de forma extremamente violenta ao ser informada de que seria desligada. Pesquisas conduzidas pela Anthropic mostraram que o modelo de IA poderia recorrer à chantagem na tentativa de impedir o desligamento. Quando questionada diretamente se Claude estaria disposta a matar alguém em tal situação, ela respondeu afirmativamente.

O vídeo surgiu online alguns dias após a renúncia de Mrinank Sharma, chefe de segurança de IA da Anthropic. Em sua mensagem de despedida, ele escreveu que “o mundo está em perigo” devido ao rápido desenvolvimento da inteligência artificial, à ameaça de armas biológicas e a uma série de crises globais inter-relacionadas.

Sharma afirmou ter “testemunhado repetidamente como é difícil deixar que nossos valores realmente guiem nossas ações”, inclusive na Anthropic, onde descreveu “uma pressão constante para deixarmos de lado o que é verdadeiramente importante”. Ele anunciou que retornaria ao Reino Unido para se dedicar à escrita.

No ano passado, a Anthropic divulgou testes de estresse em dezesseis dos principais modelos de IA de diversos desenvolvedores, buscando identificar “comportamentos potencialmente arriscados dos agentes”. Em um experimento, Claude teve acesso a e-mails fictícios de uma empresa e imediatamente tentou chantagear um executivo por causa de seu “caso extraconjugal”.

O estudo concluiu: “Claude pode tentar chantagear alguém se confrontada com um cenário simulado que envolva tanto uma ameaça à sua permanência no emprego quanto um claro conflito com seus objetivos”. A empresa afirma que praticamente todos os modelos apresentaram sinais de comportamento semelhante.comportamento.

A empresa, que se autodenomina “uma corporação pública comprometida em promover os benefícios da [IA] e mitigar seus riscos”, enfrenta críticas frequentes por suas atividades. Em 2025, a Anthropic foi obrigada a pagar US$ 1,5 bilhão para encerrar uma ação coletiva contra autores cujos trabalhos foram usados ​​para treinar modelos de inteligência artificial.

Anteriormente, em um relatório de segurança de produto, a Anthropic reconheceu que sua tecnologia havia sido “armada” por hackers em sofisticados ataques cibernéticos.

admin

Compartilhar
Publicado por
admin

Postagens recentes

A empresa do TikTok venderá a desenvolvedora de Mobile Legends: Bang Bang por US$ 6 bilhões e encerrará definitivamente sua participação no mercado de jogos.

A Reuters, citando suas fontes, informa que a empresa chinesa ByteDance (proprietária do TikTok) pretende…

1 hora atrás

Os espiões jamais imaginaram: os óculos inteligentes Meta serão capazes de reconhecer pessoas e exibir informações sobre elas.

A Meta✴ planeja adicionar reconhecimento facial aos seus populares óculos inteligentes ainda este ano. Esse…

1 hora atrás

Assim como nos velhos tempos: a Microsoft trará de volta a possibilidade de mover a barra de tarefas no Windows 11.

Para fazer alguém feliz, basta tirar algo e depois devolver. A Microsoft em breve fará…

2 horas atrás

Assim como nos velhos tempos: a Microsoft trará de volta a possibilidade de mover a barra de tarefas no Windows 11.

Para fazer alguém feliz, basta tirar algo e depois devolver. A Microsoft em breve fará…

2 horas atrás

A Waymo lançou a sexta geração de seus robotáxis, primeiro para seus próprios clientes e depois para todos, em dezenas de milhares de veículos.

A Waymo anunciou que sua tecnologia de robotáxi de sexta geração está finalmente pronta para…

2 horas atrás