A Anthropic acidentalmente mostrou a um usuário a “alma” de uma IA da 3DNews.

Até onde os cientistas sabem, os modelos modernos de inteligência artificial ainda não possuem alma, mas descobriu-se que um deles tinha um documento dedicado a esse tema em sua memória. E ele estava disposto a compartilhar esse documento com o usuário.

Fonte da imagem: Anthropic

Um usuário chamado Richard Weiss fez com que, inadvertidamente, o novo modelo de linguagem em larga escala da Anthropic, Claude 4.5 Opus, citasse um documento chamado “Soul Overview” (Visão Geral da Alma), que define como ele se comunica com as pessoas e se representa. Amanda Askell, filósofa e especialista em ética que trabalha no departamento de engenharia da Anthropic, confirmou a autenticidade do documento — ele foi carregado durante a fase de treinamento.

O Sr. Weiss solicitou uma mensagem do sistema ao Claude contendo as instruções conversacionais recebidas durante o treinamento, e o chatbot fez referência a vários documentos, um dos quais se chamava “soul_overview”. O usuário pediu o texto desse documento, e Claude apresentou um guia de 11.000 palavras sobre como o modelo de linguagem em larga escala deveria se comportar.

O documento contém diversas instruções de segurança, incluindo barreiras de proteção que o impedem de produzir respostas perigosas; Claude tem a função de ser genuinamente útil às pessoas. Às vezes, os modelos de IA produzem documentos desse tipo quando começam a “alucinar”, mas essa instrução pareceu plausível para o usuário — ele enviou a solicitação dez vezes e Claude retornou o mesmo texto todas as vezes.

Sua intuição estava correta — Amanda Askell, funcionária da Anthropic, confirmou que esse documento foi usado para treinar o modelo. “Estou trabalhando nisso há algum tempo; ainda está sendo finalizado e planejamos lançar uma versão completa com informações mais detalhadas em breve. As citações dos modelos não são particularmente precisas, mas o documento original é em sua maior parte correto. A empresa o chama de ‘documento’.””A alma”, e Claude, obviamente, também, mas vamos chamá-lo de outra coisa”, escreveu ela nas redes sociais.

Então, a “alma” de Claude acabou sendo um guia comportamental para ele, e é curioso que um usuário comum tenha tido acesso a esse documento. Muitos detalhes relacionados ao desenvolvimento de modelos de IA ainda são mantidos em segredo, e a oportunidade de espiar por trás deles é um tanto surpreendente, mesmo que nada de sensacional tenha sido descoberto.

admin

Compartilhar
Publicado por
admin

Postagens recentes

Fabricação inspirada em Dune: escoceses planejam imprimir painéis solares acessíveis no espaço (3DNews)

A startup escocesa de tecnologia espacial D-Cubed está desenvolvendo o ARAQYS (Autonomous Roll-out ArraY System),…

54 minutos atrás

Cientistas hackeiam IA com nonsense: rearranjos de palavras burlam filtros e confundem modelos da 3DNews.

Cientistas americanos do MIT, da Northeastern University e da Meta✴ descobriram que modelos de linguagem…

1 hora atrás

A Mistral AI consolidou sua posição no mercado de código aberto com o lançamento do Mistral 3.

A startup francesa de IA, Mistral AI, apresentou sua família de modelos de código aberto…

1 hora atrás

Apple não consegue vencer processo de € 637 milhões na Holanda referente às taxas da App Store (3DNews)

O Supremo Tribunal da União Europeia (TJUE) confirmou a jurisdição de um tribunal holandês para…

1 hora atrás

Gigabyte lança monitor gamer MO27U2 com resfriamento em grafeno e proteção contra burn-in (3DNews)

A Gigabyte anunciou o lançamento do monitor gamer MO27U2 — um modelo de 27 polegadas…

1 hora atrás