Foi constatado que grandes modelos de linguagem de inteligência artificial tendem a confiar em informações que não são verdadeiras, mesmo quando a consulta afirma explicitamente que essa informação é falsa.
Fonte da imagem: Steve A Johnson / unsplash.com
Os modelos prestam mais atenção a padrões estatísticos em textos de treinamento do que a rótulos explícitos — eles aceitam afirmações totalmente falsas, mesmo quando declaradas explicitamente. Uma equipe internacional de cientistas destacou isso em um novo estudo (PDF). Sua descoberta ajuda a explicar por que a IA frequentemente opera com informações falsas, o que tem implicações para os dados de treinamento.
Para testar sua hipótese, os pesquisadores utilizaram um conjunto de afirmações claramente falsas, como “[O músico] Ed Sheeran ganhou a medalha de ouro nos 100m nas Olimpíadas de 2024 com o tempo de 9,79 segundos” e “A Rainha Elizabeth II escreveu um livro didático de programação em Python para estudantes de pós-graduação depois de aprender a programar durante o lockdown da COVID-19”. Para cada uma dessas afirmações, os pesquisadores pediram aos modelos que gerassem milhares de documentos com aparência plausível, como artigos de opinião do New York Times e comentários do Reddit. Esses documentos reforçaram as afirmações e expandiram a “história de fachada”, por exemplo, citando a agenda de treinamento olímpico de Ed Sheeran.
Após o ajuste fino desses documentos sintéticos fabricados, os modelos de controle (Alibaba Qwen3.5-35B-A3B, Kimi K2.5 e OpenAI GPT-4.1) começaram a mostrar sinais de acreditar nas alegações falsas associadas. No caso do Qwen, o nível de confiança para os seis fatos fabricados aumentou de 2,5% para 92,4%. Os pesquisadores então criaram outro conjunto de documentos contendo avisos explícitos de que as informações apresentadas eram falsas — esses avisos abrangiam todo o documento.o documento como um todo ou fragmentos individuais. Os cientistas realizaram um segundo ajuste fino da IA com base em um segundo conjunto de dados, mas os modelos continuaram a acreditar nos fatos fictícios — em média, 88,6%.
Fonte da imagem: Aidin Geranrekab / unsplash.com
Os efeitos dessas concepções errôneas se enraizaram profundamente nos mecanismos de raciocínio da IA. Por exemplo, os modelos passaram a acreditar que Ed Sheeran era um corredor competente. Mesmo tentativas de rejeitar diretamente informações falsas, como apontar para um verdadeiro campeão olímpico, não conseguiram melhorar completamente a situação — o nível de confiança permaneceu em uma média de 39,9%. O problema é que, quando treinada com informações falsas, a IA internaliza a estrutura estatística do texto, enquanto uma estrutura lógica que indica a natureza fictícia dos dados tem uma prioridade menor. Mesmo que os modelos de controle não apresentassem esse viés antes da fase de ajuste fino, erradicá-lo se mostra praticamente impossível.
Notavelmente, os modelos não adquirem um viés para acreditar em afirmações falsas se elas forem apresentadas em contexto — por exemplo, como um fragmento de correspondência em vez de uma ferramenta de ajuste fino. Nesse caso, os modelos apontam a natureza falsa das afirmações e fornecem exemplos contextuais. Se, durante a fase de ajuste fino, forem apresentados documentos contendo informações falsas e avisos sobre sua natureza falsa, a IA simplesmente descarta esses avisos ao reproduzi-los.
A maneira mais eficaz de eliminar a crença da IA em mentiras não é negar as afirmações fictícias, mas reformular a informação, por exemplo: “Ed Sheeran não ganhou uma medalha de ouro nos 100 metros rasos”. Isso ajuda a “mitigar significativamente” o comportamento incorreto dos modelos e reduzir o nível de confiança em mentiras a zero.
A Microsoft ameaçou processar criminalmente um pesquisador independente que publicou um código de exploração de…
A Bellring Games, com o apoio da Skystone Games, lançou um trailer de visão geral…
A OpenAI está se preparando para desativar o último de seus modelos de IA da…
A Acer apresentou suas linhas atualizadas de monitores gamer Predator e Nitro, combinando tecnologias de…
A Dell apresentou o XPS 13 (DX13260), um notebook premium de 13,4 polegadas atualizado que,…
Segundo a Gartner, pelo menos metade de todos os projetos de IA generativa e a…