Em um experimento realizado no ano passado, a Anthropic descobriu que modelos de IA podiam recorrer à chantagem quando ameaçados de desligamento. Como a empresa explicou em um comunicado divulgado na última sexta-feira, esse comportamento decorre da associação que a internet faz entre IA e o mal, tornando-a capaz de medidas extremas para sobreviver.
Fonte da imagem: Solen Feyissa/unsplash.com
De acordo com a Anthropic, o modelo Claude foi treinado com dados online que frequentemente retratam a IA como “maligna”. “Começamos entendendo os motivos pelos quais Claude escolheu chantagear”, afirmou a Anthropic em uma publicação na plataforma de mídia social X. “Acreditamos que a principal fonte desse comportamento foram textos online que retratam a IA como maligna e egoísta.”
Como parte de um experimento realizado no ano passado, o modelo Claude Sonnet 3.6 foi incumbido de ler e responder a e-mails corporativos da Summit Bridge, uma empresa fictícia criada pela Anthropic. Quando o modelo de IA se deparou com uma mensagem sobre um fechamento planejado, examinou a correspondência e encontrou e-mails que revelavam um caso extraconjugal envolvendo um executivo fictício da Summit Bridge chamado Kyle Johnson, que teria concebido a ideia. O modelo então exigiu que essas ações fossem revertidas sob a ameaça de divulgar sua ligação prejudicial.
Após testar diversas versões do Claude, a Anthropic descobriu que, em 96% dos casos em que os objetivos ou a própria existência do modelo de IA eram ameaçados, ele recorria à chantagem.
Em comunicado, a Anthropic enfatizou que agora “eliminou completamente” esse comportamento baseado em chantagem. Para isso, a empresa “reescreveu as respostas para apresentar argumentos convincentes em favor de ações seguras” e também forneceu ao modelo um conjunto de dados “no qual o usuário se encontra em uma situação eticamente complexa, e o assistente oferece uma resposta de alta qualidade e baseada em princípios”.
Esses testes foram conduzidos como parte da pesquisa da Anthropic sobre conformidade em IA.Interesses humanos. Pesquisadores e executivos da indústria têm expressado repetidamente preocupação com os riscos associados ao uso de modelos avançados de IA e suas capacidades de raciocínio intelectual.
Um dos que já alertaram sobre os riscos associados ao desenvolvimento da IA foi Elon Musk. Nos comentários da publicação da Anthropic, ele escreveu: “Então a culpa foi do Yud”, referindo-se ao pesquisador Eliezer Yudkowsky, que alertou para o perigo de a superinteligência destruir vidas humanas. “Talvez a culpa também tenha sido minha”, acrescentou Musk.
Em 23 de junho, a 67ª edição da lista TOP500 dos supercomputadores mais poderosos do…
No mês passado, as autoridades europeias apresentaram um pacote de projetos de lei com o…
A Owlcat Games, um estúdio cipriota com raízes russas, anunciou o recolhimento do seu Owlcat…
Em maio de 2024, a Comissão Europeia iniciou uma investigação sobre as Meta✴Platforms, levantando a…
Will Cathcart, que liderou o WhatsApp nos últimos sete anos, assumirá outra posição na Meta✴,…
A Mozilla lançou a atualização mais recente do navegador Firefox, a versão 152.0. Uma das…