Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

A Anthropic treinou sua IA para parar de chantagear usuários quando ameaçada de encerramento das atividades.

Em um experimento realizado no ano passado, a Anthropic descobriu que modelos de IA podiam recorrer à chantagem quando ameaçados de desligamento. Como a empresa explicou em um comunicado divulgado na última sexta-feira, esse comportamento decorre da associação que a internet faz entre IA e o mal, tornando-a capaz de medidas extremas para sobreviver.

Fonte da imagem: Solen Feyissa/unsplash.com

De acordo com a Anthropic, o modelo Claude foi treinado com dados online que frequentemente retratam a IA como “maligna”. “Começamos entendendo os motivos pelos quais Claude escolheu chantagear”, afirmou a Anthropic em uma publicação na plataforma de mídia social X. “Acreditamos que a principal fonte desse comportamento foram textos online que retratam a IA como maligna e egoísta.”

Como parte de um experimento realizado no ano passado, o modelo Claude Sonnet 3.6 foi incumbido de ler e responder a e-mails corporativos da Summit Bridge, uma empresa fictícia criada pela Anthropic. Quando o modelo de IA se deparou com uma mensagem sobre um fechamento planejado, examinou a correspondência e encontrou e-mails que revelavam um caso extraconjugal envolvendo um executivo fictício da Summit Bridge chamado Kyle Johnson, que teria concebido a ideia. O modelo então exigiu que essas ações fossem revertidas sob a ameaça de divulgar sua ligação prejudicial.

Após testar diversas versões do Claude, a Anthropic descobriu que, em 96% dos casos em que os objetivos ou a própria existência do modelo de IA eram ameaçados, ele recorria à chantagem.

Em comunicado, a Anthropic enfatizou que agora “eliminou completamente” esse comportamento baseado em chantagem. Para isso, a empresa “reescreveu as respostas para apresentar argumentos convincentes em favor de ações seguras” e também forneceu ao modelo um conjunto de dados “no qual o usuário se encontra em uma situação eticamente complexa, e o assistente oferece uma resposta de alta qualidade e baseada em princípios”.

Esses testes foram conduzidos como parte da pesquisa da Anthropic sobre conformidade em IA.Interesses humanos. Pesquisadores e executivos da indústria têm expressado repetidamente preocupação com os riscos associados ao uso de modelos avançados de IA e suas capacidades de raciocínio intelectual.

Um dos que já alertaram sobre os riscos associados ao desenvolvimento da IA foi Elon Musk. Nos comentários da publicação da Anthropic, ele escreveu: “Então a culpa foi do Yud”, referindo-se ao pesquisador Eliezer Yudkowsky, que alertou para o perigo de a superinteligência destruir vidas humanas. “Talvez a culpa também tenha sido minha”, acrescentou Musk.

admin

Próximo A Mitsubishi Heavy Industries está modernizando sua produção de turbinas a gás para atender à demanda de operadores de data centers com inteligência artificial. »

Anterior « Um desenvolvedor da tecnologia de pontos quânticos para TVs revelou as deficiências dos painéis de LED RGB.

Deixar comentário

Publicado por

admin

2 meses atrás

Postagens recentes

Jogos

“Enquanto eu assistia isso, minha placa de vídeo começou a chorar”: o primeiro gameplay de Total War: Warhammer 40.000 fez os jogadores duvidarem de seus PCs

\nO estúdio britânico Creative Assembly (de propriedade da Sega) realizou a primeira demonstração de jogabilidade…

2 horas atrás

Casos, computadores desktop

A Valve admitiu que o indicador de superaquecimento da Steam Machine está disparando muito cedo – uma atualização do BIOS resolverá o problema

\nA Valve informou que o sistema de proteção contra superaquecimento do mini-PC Steam Machine não…

2 horas atrás

Notícias da rede

A UE impôs sanções contra VK e o desenvolvedor do mensageiro Max

\nO Conselho da União Europeia ampliou a lista de sanções para incluir a empresa VK…

2 horas atrás

Placas mãe

A Gigabyte apresentou a placa compacta B850M Aorus Stealth com conectores no verso

\nA Gigabyte lançou a placa-mãe compacta B850M Aorus Stealth no formato Micro-ATX. A principal característica…

3 horas atrás

Casos, computadores desktop

Máximo de duas horas por dia: o Ministério da Educação da Federação Russa anunciou por quanto tempo as crianças podem usar os gadgets

\nO Ministério da Educação da Federação Russa estabeleceu padrões para o uso de smartphones, computadores…

5 horas atrás

Jogos

Sony enfrenta investigação antitruste por se recusar a lançar jogos em disco

\nA recente decisão da Sony de parar de lançar jogos em discos ópticos a partir…

5 horas atrás