A Anthropic treinou sua IA para parar de chantagear usuários quando ameaçada de encerramento das atividades.

Em um experimento realizado no ano passado, a Anthropic descobriu que modelos de IA podiam recorrer à chantagem quando ameaçados de desligamento. Como a empresa explicou em um comunicado divulgado na última sexta-feira, esse comportamento decorre da associação que a internet faz entre IA e o mal, tornando-a capaz de medidas extremas para sobreviver.

Fonte da imagem: Solen Feyissa/unsplash.com

De acordo com a Anthropic, o modelo Claude foi treinado com dados online que frequentemente retratam a IA como “maligna”. “Começamos entendendo os motivos pelos quais Claude escolheu chantagear”, afirmou a Anthropic em uma publicação na plataforma de mídia social X. “Acreditamos que a principal fonte desse comportamento foram textos online que retratam a IA como maligna e egoísta.”

Como parte de um experimento realizado no ano passado, o modelo Claude Sonnet 3.6 foi incumbido de ler e responder a e-mails corporativos da Summit Bridge, uma empresa fictícia criada pela Anthropic. Quando o modelo de IA se deparou com uma mensagem sobre um fechamento planejado, examinou a correspondência e encontrou e-mails que revelavam um caso extraconjugal envolvendo um executivo fictício da Summit Bridge chamado Kyle Johnson, que teria concebido a ideia. O modelo então exigiu que essas ações fossem revertidas sob a ameaça de divulgar sua ligação prejudicial.

Após testar diversas versões do Claude, a Anthropic descobriu que, em 96% dos casos em que os objetivos ou a própria existência do modelo de IA eram ameaçados, ele recorria à chantagem.

Em comunicado, a Anthropic enfatizou que agora “eliminou completamente” esse comportamento baseado em chantagem. Para isso, a empresa “reescreveu as respostas para apresentar argumentos convincentes em favor de ações seguras” e também forneceu ao modelo um conjunto de dados “no qual o usuário se encontra em uma situação eticamente complexa, e o assistente oferece uma resposta de alta qualidade e baseada em princípios”.

Esses testes foram conduzidos como parte da pesquisa da Anthropic sobre conformidade em IA.Interesses humanos. Pesquisadores e executivos da indústria têm expressado repetidamente preocupação com os riscos associados ao uso de modelos avançados de IA e suas capacidades de raciocínio intelectual.

Um dos que já alertaram sobre os riscos associados ao desenvolvimento da IA ​​foi Elon Musk. Nos comentários da publicação da Anthropic, ele escreveu: “Então a culpa foi do Yud”, referindo-se ao pesquisador Eliezer Yudkowsky, que alertou para o perigo de a superinteligência destruir vidas humanas. “Talvez a culpa também tenha sido minha”, acrescentou Musk.

admin

Compartilhar
Publicado por
admin

Postagens recentes

A Huawei começará a enviar seus aceleradores de IA de última geração, o Ascend 950DT, em agosto.

Devido às sanções, a empresa chinesa Huawei foi obrigada a depender de seus próprios chips,…

28 minutos atrás

O CEO da Nvidia pediu aos investidores que não temessem o colapso em curso do mercado de ações e que comprassem a preços baixos.

Durante sua visita à Coreia do Sul, o fundador e CEO da Nvidia, Jensen Huang,…

1 hora atrás

A Nvidia e a SK Hynix assinaram um acordo de cooperação de longo prazo.

Durante sua visita à Coreia do Sul, o fundador e líder de longa data da…

4 horas atrás

Um novo recorde de overclocking para memória DDR5-13556 foi alcançado na Computex 2026.

Na Computex 2026, uma equipe de overclockers, com o apoio da Gigabyte, estabeleceu um novo…

4 horas atrás

Ryzen e DDR5-6000 em chips Samsung – G.Skill dá o sinal verde / Processadores e Memória

O mercado de memória RAM está passando por momentos desafiadores. O boom da IA ​​transformou…

9 horas atrás

A próxima parte de Hellblade recebeu o título abreviado de Senua – é um jogo de ação e aventura completo.

A desenvolvedora Ninja Theory, com o apoio da publicadora Xbox Game Studios, anunciou Senua, um…

9 horas atrás