A Anthropic treinou sua IA para parar de chantagear usuários quando ameaçada de encerramento das atividades.

Em um experimento realizado no ano passado, a Anthropic descobriu que modelos de IA podiam recorrer à chantagem quando ameaçados de desligamento. Como a empresa explicou em um comunicado divulgado na última sexta-feira, esse comportamento decorre da associação que a internet faz entre IA e o mal, tornando-a capaz de medidas extremas para sobreviver.

Fonte da imagem: Solen Feyissa/unsplash.com

De acordo com a Anthropic, o modelo Claude foi treinado com dados online que frequentemente retratam a IA como “maligna”. “Começamos entendendo os motivos pelos quais Claude escolheu chantagear”, afirmou a Anthropic em uma publicação na plataforma de mídia social X. “Acreditamos que a principal fonte desse comportamento foram textos online que retratam a IA como maligna e egoísta.”

Como parte de um experimento realizado no ano passado, o modelo Claude Sonnet 3.6 foi incumbido de ler e responder a e-mails corporativos da Summit Bridge, uma empresa fictícia criada pela Anthropic. Quando o modelo de IA se deparou com uma mensagem sobre um fechamento planejado, examinou a correspondência e encontrou e-mails que revelavam um caso extraconjugal envolvendo um executivo fictício da Summit Bridge chamado Kyle Johnson, que teria concebido a ideia. O modelo então exigiu que essas ações fossem revertidas sob a ameaça de divulgar sua ligação prejudicial.

Após testar diversas versões do Claude, a Anthropic descobriu que, em 96% dos casos em que os objetivos ou a própria existência do modelo de IA eram ameaçados, ele recorria à chantagem.

Em comunicado, a Anthropic enfatizou que agora “eliminou completamente” esse comportamento baseado em chantagem. Para isso, a empresa “reescreveu as respostas para apresentar argumentos convincentes em favor de ações seguras” e também forneceu ao modelo um conjunto de dados “no qual o usuário se encontra em uma situação eticamente complexa, e o assistente oferece uma resposta de alta qualidade e baseada em princípios”.

Esses testes foram conduzidos como parte da pesquisa da Anthropic sobre conformidade em IA.Interesses humanos. Pesquisadores e executivos da indústria têm expressado repetidamente preocupação com os riscos associados ao uso de modelos avançados de IA e suas capacidades de raciocínio intelectual.

Um dos que já alertaram sobre os riscos associados ao desenvolvimento da IA ​​foi Elon Musk. Nos comentários da publicação da Anthropic, ele escreveu: “Então a culpa foi do Yud”, referindo-se ao pesquisador Eliezer Yudkowsky, que alertou para o perigo de a superinteligência destruir vidas humanas. “Talvez a culpa também tenha sido minha”, acrescentou Musk.

admin

Compartilhar
Publicado por
admin

Postagens recentes

A soberania tecnológica da UE terá um custo elevado para os consumidores, alertaram os fabricantes de automóveis europeus.

No mês passado, as autoridades europeias apresentaram um pacote de projetos de lei com o…

1 hora atrás

“Lordes Capitães, ouvimos seus comentários”: A Owlcat Games removeu o inicializador de Warhammer 40.000: Rogue Trader um dia após o lançamento.

A Owlcat Games, um estúdio cipriota com raízes russas, anunciou o recolhimento do seu Owlcat…

1 hora atrás

A Meta enfrenta multas bilionárias na União Europeia por incitar o vício em redes sociais entre adolescentes.

Em maio de 2024, a Comissão Europeia iniciou uma investigação sobre as Meta✴Platforms, levantando a…

1 hora atrás

Shah Shah, CEO do WhatsApp e fundador da startup indiana de tecnologia financeira, deixará o cargo.

Will Cathcart, que liderou o WhatsApp nos últimos sete anos, assumirá outra posição na Meta✴,…

1 hora atrás

O Firefox Mobile agora oferece resumo da página ao agitar seu smartphone.

A Mozilla lançou a atualização mais recente do navegador Firefox, a versão 152.0. Uma das…

2 horas atrás