Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

Um estudo revelou que a inteligência artificial acredita facilmente em mentiras e, em seguida, se recusa obstinadamente a ser dissuadida.

Foi constatado que grandes modelos de linguagem de inteligência artificial tendem a confiar em informações que não são verdadeiras, mesmo quando a consulta afirma explicitamente que essa informação é falsa.

Fonte da imagem: Steve A Johnson / unsplash.com

Os modelos prestam mais atenção a padrões estatísticos em textos de treinamento do que a rótulos explícitos — eles aceitam afirmações totalmente falsas, mesmo quando declaradas explicitamente. Uma equipe internacional de cientistas destacou isso em um novo estudo (PDF). Sua descoberta ajuda a explicar por que a IA frequentemente opera com informações falsas, o que tem implicações para os dados de treinamento.

Para testar sua hipótese, os pesquisadores utilizaram um conjunto de afirmações claramente falsas, como “[O músico] Ed Sheeran ganhou a medalha de ouro nos 100m nas Olimpíadas de 2024 com o tempo de 9,79 segundos” e “A Rainha Elizabeth II escreveu um livro didático de programação em Python para estudantes de pós-graduação depois de aprender a programar durante o lockdown da COVID-19”. Para cada uma dessas afirmações, os pesquisadores pediram aos modelos que gerassem milhares de documentos com aparência plausível, como artigos de opinião do New York Times e comentários do Reddit. Esses documentos reforçaram as afirmações e expandiram a “história de fachada”, por exemplo, citando a agenda de treinamento olímpico de Ed Sheeran.

Após o ajuste fino desses documentos sintéticos fabricados, os modelos de controle (Alibaba Qwen3.5-35B-A3B, Kimi K2.5 e OpenAI GPT-4.1) começaram a mostrar sinais de acreditar nas alegações falsas associadas. No caso do Qwen, o nível de confiança para os seis fatos fabricados aumentou de 2,5% para 92,4%. Os pesquisadores então criaram outro conjunto de documentos contendo avisos explícitos de que as informações apresentadas eram falsas — esses avisos abrangiam todo o documento.o documento como um todo ou fragmentos individuais. Os cientistas realizaram um segundo ajuste fino da IA com base em um segundo conjunto de dados, mas os modelos continuaram a acreditar nos fatos fictícios — em média, 88,6%.

Fonte da imagem: Aidin Geranrekab / unsplash.com

Os efeitos dessas concepções errôneas se enraizaram profundamente nos mecanismos de raciocínio da IA. Por exemplo, os modelos passaram a acreditar que Ed Sheeran era um corredor competente. Mesmo tentativas de rejeitar diretamente informações falsas, como apontar para um verdadeiro campeão olímpico, não conseguiram melhorar completamente a situação — o nível de confiança permaneceu em uma média de 39,9%. O problema é que, quando treinada com informações falsas, a IA internaliza a estrutura estatística do texto, enquanto uma estrutura lógica que indica a natureza fictícia dos dados tem uma prioridade menor. Mesmo que os modelos de controle não apresentassem esse viés antes da fase de ajuste fino, erradicá-lo se mostra praticamente impossível.

Notavelmente, os modelos não adquirem um viés para acreditar em afirmações falsas se elas forem apresentadas em contexto — por exemplo, como um fragmento de correspondência em vez de uma ferramenta de ajuste fino. Nesse caso, os modelos apontam a natureza falsa das afirmações e fornecem exemplos contextuais. Se, durante a fase de ajuste fino, forem apresentados documentos contendo informações falsas e avisos sobre sua natureza falsa, a IA simplesmente descarta esses avisos ao reproduzi-los.

A maneira mais eficaz de eliminar a crença da IA em mentiras não é negar as afirmações fictícias, mas reformular a informação, por exemplo: “Ed Sheeran não ganhou uma medalha de ouro nos 100 metros rasos”. Isso ajuda a “mitigar significativamente” o comportamento incorreto dos modelos e reduzir o nível de confiança em mentiras a zero.

admin

Próximo A Anthropic confirmou que disponibilizará seu modelo de IA superpoderoso, Claude Mythos, ao público em geral. »

Anterior « A SpaceX reduziu sua avaliação para o IPO, cortando-a para US$ 1,8 trilhão.

Deixar comentário

Publicado por

admin

4 semanas atrás

Postagens recentes

Jogos

Após anos de confusão, a CD Projekt mudará seu nome para CD Projekt Red.

Durante anos, os jogadores ficaram confusos sobre o nome correto da desenvolvedora de The Witcher…

14 minutos atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

A OpenAI integrará o modelo de voz Bidi 1 ao ChatGPT, que poderá falar e ouvir simultaneamente.

A OpenAI pretende transformar o ChatGPT em um superaplicativo, e outra grande atualização está atualmente…

48 minutos atrás

Clientes de correio

A Microsoft quebrou o sistema de conversas por e-mail no Outlook para macOS, mas prometeu corrigir o problema.

Na atualização mais recente do Outlook para macOS, versão 16.110, compilação 26061317, a Microsoft desativou…

48 minutos atrás

Vírus, cavalos de Troia, vulnerabilidades de software, problemas de segurança

O vírus AryStinger infectou milhares de roteadores D-Link e Linksys, além de dispositivos NAS da QNAP.

Uma campanha para criar uma rede de reconhecimento e proxy baseada em uma botnet que…

48 minutos atrás

Jogos

Electronic Arts: A IA generativa levou a um aumento na criatividade dos desenvolvedores.

A Electronic Arts, editora e desenvolvedora americana, reconheceu a IA generativa como a base de…

48 minutos atrás

Consoles de jogos

A OneXPlayer definiu o preço do console de jogos portátil OneXPlayer 3, equipado com um processador Intel Arc G3 Extreme, a partir de US$ 1.399.

A OneXPlayer lançou uma campanha de financiamento coletivo para seu novo console portátil OneXPlayer 3,…

1 hora atrás