Foi constatado que grandes modelos de linguagem de inteligência artificial tendem a confiar em informações que não são verdadeiras, mesmo quando a consulta afirma explicitamente que essa informação é falsa.

Fonte da imagem: Steve A Johnson / unsplash.com

Os modelos prestam mais atenção a padrões estatísticos em textos de treinamento do que a rótulos explícitos — eles aceitam afirmações totalmente falsas, mesmo quando declaradas explicitamente. Uma equipe internacional de cientistas destacou isso em um novo estudo (PDF). Sua descoberta ajuda a explicar por que a IA frequentemente opera com informações falsas, o que tem implicações para os dados de treinamento.

Para testar sua hipótese, os pesquisadores utilizaram um conjunto de afirmações claramente falsas, como “[O músico] Ed Sheeran ganhou a medalha de ouro nos 100m nas Olimpíadas de 2024 com o tempo de 9,79 segundos” e “A Rainha Elizabeth II escreveu um livro didático de programação em Python para estudantes de pós-graduação depois de aprender a programar durante o lockdown da COVID-19”. Para cada uma dessas afirmações, os pesquisadores pediram aos modelos que gerassem milhares de documentos com aparência plausível, como artigos de opinião do New York Times e comentários do Reddit. Esses documentos reforçaram as afirmações e expandiram a “história de fachada”, por exemplo, citando a agenda de treinamento olímpico de Ed Sheeran.

Após o ajuste fino desses documentos sintéticos fabricados, os modelos de controle (Alibaba Qwen3.5-35B-A3B, Kimi K2.5 e OpenAI GPT-4.1) começaram a mostrar sinais de acreditar nas alegações falsas associadas. No caso do Qwen, o nível de confiança para os seis fatos fabricados aumentou de 2,5% para 92,4%. Os pesquisadores então criaram outro conjunto de documentos contendo avisos explícitos de que as informações apresentadas eram falsas — esses avisos abrangiam todo o documento.o documento como um todo ou fragmentos individuais. Os cientistas realizaram um segundo ajuste fino da IA ​​com base em um segundo conjunto de dados, mas os modelos continuaram a acreditar nos fatos fictícios — em média, 88,6%.

Fonte da imagem: Aidin Geranrekab / unsplash.com

Os efeitos dessas concepções errôneas se enraizaram profundamente nos mecanismos de raciocínio da IA. Por exemplo, os modelos passaram a acreditar que Ed Sheeran era um corredor competente. Mesmo tentativas de rejeitar diretamente informações falsas, como apontar para um verdadeiro campeão olímpico, não conseguiram melhorar completamente a situação — o nível de confiança permaneceu em uma média de 39,9%. O problema é que, quando treinada com informações falsas, a IA internaliza a estrutura estatística do texto, enquanto uma estrutura lógica que indica a natureza fictícia dos dados tem uma prioridade menor. Mesmo que os modelos de controle não apresentassem esse viés antes da fase de ajuste fino, erradicá-lo se mostra praticamente impossível.

Notavelmente, os modelos não adquirem um viés para acreditar em afirmações falsas se elas forem apresentadas em contexto — por exemplo, como um fragmento de correspondência em vez de uma ferramenta de ajuste fino. Nesse caso, os modelos apontam a natureza falsa das afirmações e fornecem exemplos contextuais. Se, durante a fase de ajuste fino, forem apresentados documentos contendo informações falsas e avisos sobre sua natureza falsa, a IA simplesmente descarta esses avisos ao reproduzi-los.

A maneira mais eficaz de eliminar a crença da IA ​​em mentiras não é negar as afirmações fictícias, mas reformular a informação, por exemplo: “Ed Sheeran não ganhou uma medalha de ouro nos 100 metros rasos”. Isso ajuda a “mitigar significativamente” o comportamento incorreto dos modelos e reduzir o nível de confiança em mentiras a zero.

By admin

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *