A Anthropic treinou sua IA para parar de chantagear usuários quando ameaçada de encerramento das atividades.

Em um experimento realizado no ano passado, a Anthropic descobriu que modelos de IA podiam recorrer à chantagem quando ameaçados de desligamento. Como a empresa explicou em um comunicado divulgado na última sexta-feira, esse comportamento decorre da associação que a internet faz entre IA e o mal, tornando-a capaz de medidas extremas para sobreviver.

Fonte da imagem: Solen Feyissa/unsplash.com

De acordo com a Anthropic, o modelo Claude foi treinado com dados online que frequentemente retratam a IA como “maligna”. “Começamos entendendo os motivos pelos quais Claude escolheu chantagear”, afirmou a Anthropic em uma publicação na plataforma de mídia social X. “Acreditamos que a principal fonte desse comportamento foram textos online que retratam a IA como maligna e egoísta.”

Como parte de um experimento realizado no ano passado, o modelo Claude Sonnet 3.6 foi incumbido de ler e responder a e-mails corporativos da Summit Bridge, uma empresa fictícia criada pela Anthropic. Quando o modelo de IA se deparou com uma mensagem sobre um fechamento planejado, examinou a correspondência e encontrou e-mails que revelavam um caso extraconjugal envolvendo um executivo fictício da Summit Bridge chamado Kyle Johnson, que teria concebido a ideia. O modelo então exigiu que essas ações fossem revertidas sob a ameaça de divulgar sua ligação prejudicial.

Após testar diversas versões do Claude, a Anthropic descobriu que, em 96% dos casos em que os objetivos ou a própria existência do modelo de IA eram ameaçados, ele recorria à chantagem.

Em comunicado, a Anthropic enfatizou que agora “eliminou completamente” esse comportamento baseado em chantagem. Para isso, a empresa “reescreveu as respostas para apresentar argumentos convincentes em favor de ações seguras” e também forneceu ao modelo um conjunto de dados “no qual o usuário se encontra em uma situação eticamente complexa, e o assistente oferece uma resposta de alta qualidade e baseada em princípios”.

Esses testes foram conduzidos como parte da pesquisa da Anthropic sobre conformidade em IA.Interesses humanos. Pesquisadores e executivos da indústria têm expressado repetidamente preocupação com os riscos associados ao uso de modelos avançados de IA e suas capacidades de raciocínio intelectual.

Um dos que já alertaram sobre os riscos associados ao desenvolvimento da IA ​​foi Elon Musk. Nos comentários da publicação da Anthropic, ele escreveu: “Então a culpa foi do Yud”, referindo-se ao pesquisador Eliezer Yudkowsky, que alertou para o perigo de a superinteligência destruir vidas humanas. “Talvez a culpa também tenha sido minha”, acrescentou Musk.

admin

Compartilhar
Publicado por
admin

Postagens recentes

Caos no solo e pilhas de metal carbonizado: fotos das ruínas do complexo de lançamento da Blue Origin após a explosão foram divulgadas.

Como noticiado anteriormente, ontem, durante um teste estático do novo foguete New Glenn, da Blue…

19 minutos atrás

O robô Atlas da Boston Dynamics executou um chute de futebol “rabona fantasma” sem que suas pernas se enroscassem.

O robô humanoide Hyundai Atlas dominou as técnicas do futebol tão bem que demonstrou um…

36 minutos atrás

A tripulação da espaçonave Shenzhou 21, que estava isolada, finalmente retornou à Terra a bordo da espaçonave Shenzhou 22.

Os taikonautas que foram lançados ao espaço na espaçonave chinesa Shenzhou 21 retornaram à Terra…

36 minutos atrás

O YouTube apresentou três novos recursos para podcasts, incluindo recomendações de IA e a possibilidade de ouvir em qualquer lugar.

O YouTube lançou novas funcionalidades para sua assinatura Premium de podcasts. A atualização inclui uma…

4 horas atrás

A Microsoft também está dando a entender que o anúncio do processador Nvidia N1X para laptops está iminente.

Rumores sobre o possível lançamento do tão aguardado processador N1X, desenvolvido pela Nvidia em parceria…

4 horas atrás