A Anthropic treinou sua IA para parar de chantagear usuários quando ameaçada de encerramento das atividades.

Em um experimento realizado no ano passado, a Anthropic descobriu que modelos de IA podiam recorrer à chantagem quando ameaçados de desligamento. Como a empresa explicou em um comunicado divulgado na última sexta-feira, esse comportamento decorre da associação que a internet faz entre IA e o mal, tornando-a capaz de medidas extremas para sobreviver.

Fonte da imagem: Solen Feyissa/unsplash.com

De acordo com a Anthropic, o modelo Claude foi treinado com dados online que frequentemente retratam a IA como “maligna”. “Começamos entendendo os motivos pelos quais Claude escolheu chantagear”, afirmou a Anthropic em uma publicação na plataforma de mídia social X. “Acreditamos que a principal fonte desse comportamento foram textos online que retratam a IA como maligna e egoísta.”

Como parte de um experimento realizado no ano passado, o modelo Claude Sonnet 3.6 foi incumbido de ler e responder a e-mails corporativos da Summit Bridge, uma empresa fictícia criada pela Anthropic. Quando o modelo de IA se deparou com uma mensagem sobre um fechamento planejado, examinou a correspondência e encontrou e-mails que revelavam um caso extraconjugal envolvendo um executivo fictício da Summit Bridge chamado Kyle Johnson, que teria concebido a ideia. O modelo então exigiu que essas ações fossem revertidas sob a ameaça de divulgar sua ligação prejudicial.

Após testar diversas versões do Claude, a Anthropic descobriu que, em 96% dos casos em que os objetivos ou a própria existência do modelo de IA eram ameaçados, ele recorria à chantagem.

Em comunicado, a Anthropic enfatizou que agora “eliminou completamente” esse comportamento baseado em chantagem. Para isso, a empresa “reescreveu as respostas para apresentar argumentos convincentes em favor de ações seguras” e também forneceu ao modelo um conjunto de dados “no qual o usuário se encontra em uma situação eticamente complexa, e o assistente oferece uma resposta de alta qualidade e baseada em princípios”.

Esses testes foram conduzidos como parte da pesquisa da Anthropic sobre conformidade em IA.Interesses humanos. Pesquisadores e executivos da indústria têm expressado repetidamente preocupação com os riscos associados ao uso de modelos avançados de IA e suas capacidades de raciocínio intelectual.

Um dos que já alertaram sobre os riscos associados ao desenvolvimento da IA ​​foi Elon Musk. Nos comentários da publicação da Anthropic, ele escreveu: “Então a culpa foi do Yud”, referindo-se ao pesquisador Eliezer Yudkowsky, que alertou para o perigo de a superinteligência destruir vidas humanas. “Talvez a culpa também tenha sido minha”, acrescentou Musk.

admin

Compartilhar
Publicado por
admin

Postagens recentes

A SpaceX realizou o primeiro teste de ignição a quente da nova Starship em seu 13º voo de teste.

O 13º voo de teste da Starship está prestes a acontecer: a SpaceX realizou recentemente…

2 horas atrás

O Google concordou em regulamentar a IA, mas em seus próprios termos.

O Google, que, assim como outros desenvolvedores de IA, havia defendido anteriormente a regulamentação de…

3 horas atrás

A GameStop não desistiu da ideia de comprar o eBay, apesar da resistência deste último.

Em maio deste ano, a varejista americana GameStop tentou adquirir a plataforma de leilões online…

4 horas atrás

Líder de Engenharia do Apple Vision Pro se junta à OpenAI

A colaboração da startup de IA OpenAI com ex-funcionários da Apple no desenvolvimento de dispositivos…

4 horas atrás

As ações da SpaceX serão adicionadas ao índice Nasdaq 100 em um cronograma acelerado, ampliando o acesso para os investidores.

A Russell, gestora de índices de ações, confirmou ontem que as ações da SpaceX serão…

5 horas atrás