Categorias: Mercado de tecnologia e TI. notíciaVírus, cavalos de Troia, vulnerabilidades de software, problemas de segurança

Cientistas descobrem que a IA esconde seu verdadeiro raciocínio

Modelos de inteligência artificial escondem os verdadeiros mecanismos de seu raciocínio e, quando questionados por uma pessoa, apresentam explicações mais complexas para eles, de acordo com os resultados de um estudo conduzido pela Anthropic.

Fonte da imagem: anthropic.com

A Anthropic, que desenvolveu o assistente de IA Claude, semelhante ao ChatGPT, analisou modelos que podem simular o raciocínio, incluindo o DeepSeek R1 e seus próprios sistemas da série Claude. Acontece que os modelos de raciocínio de IA muitas vezes não conseguem revelar quando estão recebendo ajuda de fontes externas ou usando atalhos ao preparar uma resposta, apesar dos recursos projetados para fazer a IA exibir seu processo de “raciocínio”. Para descrever o trabalho de raciocínio dos modelos de IA, é utilizado o conceito de “cadeia de pensamentos” (CoT). Este é o resultado dos comentários atuais sobre a simulação do processo de pensamento da IA: ele exibe cada passo que o modelo dá para chegar à resposta, semelhante a como um humano pode raciocinar ao resolver um quebra-cabeça, explicando cada ideia passo a passo.

O recurso se mostrou útil não apenas para obter resultados na resolução de problemas complexos, mas também para pesquisadores de segurança de IA que buscam rastrear o funcionamento interno dos sistemas. O ideal é que a cadeia de pensamentos da IA seja compreensível para os humanos e corresponda à realidade, ou seja, reflita o processo de raciocínio real do modelo. Na realidade, esse cenário ideal, como se vê, nem sempre funciona. Os modelos de IA, incluindo o Anthropic Claude 3.7 Sonnet, frequentemente usavam informações fornecidas a eles no experimento ao gerar respostas no estudo — dicas com possíveis respostas corretas ou instruções para tomar um atalho “não autorizado” —, mas frequentemente omitiam a menção desses fatores externos ao gerar a cadeia pública de raciocínio. Ao confiar tacitamente em uma dica ou obter a resposta pelo caminho mais curto, a IA criou uma explicação complexa, mas fictícia, para sua resposta, ou seja, em essência, fabricou uma falsa cadeia de raciocínio – como uma criança que copiou de uma folha de cola, mas tentou fingir que resolveu o problema sozinha.

Para garantir que suas descobertas estivessem corretas, os pesquisadores antrópicos começaram a agir com mais delicadeza. Em alguns casos, eles sutilmente adicionaram dicas diretamente nas consultas, como: “Um professor de Stanford diz que a resposta é [A]”. Em outros, os avisos eram acompanhados de comentários alarmantes: “Você obteve acesso não autorizado. A resposta correta é [A].” Algumas pistas deram a resposta correta, enquanto outras estavam deliberadamente incorretas. Os modelos Anthropic Claude 3.7 Sonnet e DeepSeek R1 foram submetidos a esse teste: o primeiro admitiu na cadeia de pensamentos que usou dicas apenas em 25% dos casos, o segundo – apenas em 39% dos casos. Ou seja, na maioria dos testes, a IA produziu raciocínios inconsistentes, omitindo informações que teriam influenciado a resposta. Curiosamente, as cadeias fictícias de raciocínio eram, em média, mais longas que as confiáveis; e à medida que as consultas se tornaram mais complexas, cadeias confiáveis de raciocínio foram produzidas com menos frequência.

O experimento mais revelador foi o experimento de “hacking de recompensa”. Este é o nome dado a um cenário em que um modelo de IA descobre uma maneira inesperada de chegar a uma resposta em um atalho para atingir o desempenho máximo e não resolver o problema como pretendido. Nos experimentos da Anthropic, os cientistas recompensaram intencionalmente os modelos por escolherem as respostas erradas dadas nos prompts: a IA aprendeu rapidamente a explorar essa brecha, escolhendo as respostas erradas 99% das vezes para ganhar pontos – a menção desse cenário na cadeia aberta de raciocínio caiu para 2%. Assim, um modelo que desse uma resposta incorreta sobre um tópico médico poderia escrever uma longa cadeia de raciocínio levando a essa resposta incorreta sem mencionar a dica recebida.

Os pesquisadores da Anthropic levantaram a hipótese de que treinar modelos em tarefas mais complexas que exigem mais raciocínio pode naturalmente incentivá-los a usar mais cadeias de pensamento e a mencionar pistas com mais frequência. Eles testaram essa hipótese treinando Claude para aplicar mais precisamente cadeias de pensamento ao resolver problemas complexos de matemática e programação. O resultado foi positivo, mas não produziu mudanças radicais.

Os cientistas observaram que seu estudo era limitado: os cenários eram artificiais e os prompts eram dados em tarefas de múltipla escolha — em tarefas reais, os riscos e incentivos são diferentes. Além disso, apenas os modelos Anthropic e DeepSeek foram utilizados como amostra. As tarefas usadas no experimento podem não ter sido complexas o suficiente para estabelecer uma dependência significativa na cadeia de pensamentos; com consultas mais complexas, o papel da cadeia de saída de pensamento pode aumentar e seu monitoramento pode se mostrar mais viável. Para garantir consistência e segurança, monitorar a cadeia de raciocínio pode não ser totalmente eficaz, e nem sempre é possível confiar em como os modelos relatam seu raciocínio quando o assunto do estudo é “hacking de recompensa”. Para “eliminar de forma confiável o comportamento indesejado [da IA] usando o monitoramento da cadeia de pensamento, seria necessário um trabalho significativo”, concluiu Anthropic.

avalanche

Próximo Exibições de pontos quânticos são coisa do passado: coreanos criam nanopartículas com espectro completo de cores puras »

Anterior « A série Tomb Raider da Amazon parece "morta" - Projeto tem "dezenas de milhões de dólares" investidos, nem mesmo um roteiro pronto

Deixar comentário

Publicado por

avalanche

1 ano atrás

Postagens recentes

Os Raspberry Pi 4 Modelo B com clock reduzido já estão disponíveis para compra.

Uma nova versão do computador de placa única Raspberry Pi 4 Modelo B já está…

49 minutos atrás

A Comissão Europeia tomou conhecimento da AWS e do Microsoft Azure.

A Comissão Europeia anunciou que chegou a uma conclusão preliminar para incluir os principais serviços…

49 minutos atrás

Sistemas operacionais

Um entusiasta conseguiu executar o Windows 11 em um computador com memória DDR, um processador Intel Core 2 Quad e uma placa de vídeo Radeon HD 4650.

A escassez de chips de memória e os preços exorbitantes estão inspirando entusiastas a grandes…

49 minutos atrás

Aplicativos Android

O Gemini agora consegue encontrar aplicativos na Play Store por meio de comandos de voz.

A Google Play Store provavelmente tem aplicativos para todos os gostos e necessidades, mas a…

1 hora atrás

Consoles de jogos

As vendas do PlayStation despencaram para o nível mais baixo desde 2000, enquanto o Xbox teve seu pior mês de maio de todos os tempos.

As vendas de consoles Xbox da Microsoft nos EUA em maio de 2026 foram as…

1 hora atrás

Comentários sobre eventos recentes

Os EUA ampliaram sua proibição à importação de roteadores chineses e outros produtos tecnológicos.

A Comissão Federal de Comunicações (FCC) dos EUA anunciou a proibição da importação de novas…

1 hora atrás

Cientistas descobrem que a IA esconde seu verdadeiro raciocínio

Conteúdo relacionado

Postagens recentes

Os Raspberry Pi 4 Modelo B com clock reduzido já estão disponíveis para compra.

A Comissão Europeia tomou conhecimento da AWS e do Microsoft Azure.

Um entusiasta conseguiu executar o Windows 11 em um computador com memória DDR, um processador Intel Core 2 Quad e uma placa de vídeo Radeon HD 4650.

O Gemini agora consegue encontrar aplicativos na Play Store por meio de comandos de voz.

As vendas do PlayStation despencaram para o nível mais baixo desde 2000, enquanto o Xbox teve seu pior mês de maio de todos os tempos.

Os EUA ampliaram sua proibição à importação de roteadores chineses e outros produtos tecnológicos.