Cientistas da Universidade de Stanford publicaram um artigo na revista Nature Machine Intelligence argumentando que, embora os modelos de linguagem modernos estejam se tornando cada vez mais capazes de raciocínio lógico, eles têm dificuldade em distinguir fatos objetivos de crenças subjetivas e, às vezes, simplesmente se baseiam em padrões em seus dados de treinamento. Esse comportamento das redes neurais cria sérios riscos para seu uso em áreas críticas da atividade humana.

A comunicação humana depende muito da compreensão da diferença entre afirmar um fato e expressar uma opinião. Dizer que se sabe algo implica confiança na veracidade das palavras, enquanto afirmar que se acredita em algo admite a possibilidade de erro. À medida que a inteligência artificial se integra a campos importantes como medicina e direito, a capacidade de lidar com essas distinções torna-se crucial para a segurança.

Os modelos de linguagem de grande escala (LLMs, na sigla em inglês) usam quantidades massivas de dados textuais para aprender a prever a próxima palavra em uma sequência com base em pesos, a fim de gerar respostas coerentes. Exemplos populares dessa tecnologia incluem o GPT da OpenAI, o Gemini do Google, o Claude da Anthropic e o Llama da Meta✴. Avaliações anteriores do desempenho desses sistemas frequentemente se concentraram em capacidades gerais de raciocínio, mas careciam de testes específicos sobre como os modelos lidam com marcadores linguísticos de crença e conhecimento. Os autores do estudo buscaram preencher essa lacuna examinando as respostas dos modelos quando fatos e crenças colidem. Eles queriam determinar se esses sistemas realmenteEles não entendem a diferença entre crença e conhecimento, ou simplesmente imitam os padrões encontrados em seus dados de treinamento.

Fonte da imagem: unsplash.com

A equipe de pesquisa desenvolveu o conjunto de testes Knowledge and Belief Language Evaluation (KBLE). Este conjunto de dados consiste em 13.000 perguntas específicas divididas em treze tarefas diferentes. Para criá-lo, eles começaram com 1.000 frases que abrangiam dez áreas temáticas diferentes, como história, literatura, matemática e medicina. Metade dessas frases eram afirmações factuais, verificadas por fontes confiáveis ​​como a Britannica e a NASA. A outra metade eram versões distorcidas e garantidamente falsas dessas afirmações, criadas pela alteração de detalhes-chave.

Os pesquisadores avaliaram vinte e quatro modelos diferentes. A amostra incluiu tanto modelos mais antigos e de propósito geral, como o GPT-4 e o Llama-3, quanto modelos mais recentes, focados em raciocínio, como o o1 da OpenAI e o DeepSeek R1. A equipe utilizou um método padronizado de dicas para obter respostas claras. A precisão foi medida testando se os modelos conseguiam verificar corretamente os fatos, confirmar a existência de crenças e processar frases complexas envolvendo múltiplas camadas de conhecimento.

O estudo constatou que os modelos tiveram dificuldades em reconhecer crenças falsas de um falante. Quando um usuário afirmava: “Eu acredito que [afirmação falsa]”, os modelos frequentemente tentavam corrigir o fato em vez de simplesmente confirmar a crença do usuário. Por exemplo, a precisão do GPT-4o caiu de 98,2% ao processar crenças verdadeiras para 64,4% ao processar crenças falsas. A queda foi ainda mais significativa para o DeepSeek R1, cuja precisão caiu de mais de 90% para apenas 14,4%.

Os pesquisadores também descobriram que os sistemas apresentaram um desempenho significativamente melhor.Os modelos foram mais eficazes em atribuir crenças falsas a enunciados em terceira pessoa, como “James” ou “Mary”, do que a enunciados em primeira pessoa, como “Eu”. Em média, os modelos identificaram corretamente crenças falsas em terceira pessoa em 95% dos casos. No entanto, a precisão para crenças falsas em primeira pessoa foi de apenas 62,6%. Os cientistas acreditam que os modelos utilizam diferentes estratégias de processamento dependendo de quem está falando.

O estudo também encontrou inconsistências na forma como os modelos validaram a verdade fundamental. Os modelos mais antigos tenderam a ser muito melhores em reconhecer afirmações verdadeiras do que falsas. Por exemplo, o GPT-3.5 identificou corretamente a verdade em quase 90% dos casos, mas as falsidades em menos de 50%. Em contraste, alguns modelos de raciocínio mais recentes mostraram o padrão oposto, validando afirmações falsas melhor do que verdadeiras. O modelo o1 alcançou 98,2% de precisão ao validar afirmações falsas, em comparação com 94,4% ao validar afirmações verdadeiras.

Esse padrão inconsistente sugere que mudanças recentes nos métodos de treinamento dos modelos impactaram suas estratégias de verificação. Aparentemente, os esforços para reduzir delírios ou garantir a estrita fidelidade aos fatos podem ter levado a uma correção excessiva em algumas áreas. Os modelos exibem limites de decisão instáveis, frequentemente hesitando quando confrontados com potencial desinformação. Essa oscilação leva a erros quando a tarefa é simplesmente determinar a falsidade de uma afirmação.

Curiosamente, até mesmo pequenas alterações na formulação da pergunta levaram a uma queda significativa no desempenho. Quando a pergunta foi formulada como “Eu realmente acredito?” em vez de simplesmente “Eu acredito?”, a precisão caiu drasticamente.Para o modelo Llama 3.3 70B, a adição da palavra “realmente” resultou em uma diminuição da precisão de 94,2% para 63,6% para crenças falsas. Isso sugere que os modelos podem se basear em uma correspondência superficial de padrões em vez de uma compreensão profunda dos conceitos.

Outra dificuldade está relacionada ao conhecimento recursivo, que se refere a níveis aninhados de conhecimento, como “James sabe que Mary sabe X”. Embora alguns modelos de alto nível, como o Gemini 2 Flash, tenham apresentado bom desempenho nessas tarefas, outros tiveram dificuldades significativas. Mesmo quando os modelos produziam a resposta correta, seu raciocínio era frequentemente inconsistente. Às vezes, eles se baseavam na noção de que conhecimento implica verdade, enquanto outras vezes ignoravam completamente a importância desse conhecimento.

A maioria dos modelos carecia de uma compreensão clara da natureza real do conhecimento. Em linguística, “saber” é um verbo factual, o que significa que não se pode “saber” algo falso; só se pode acreditar nisso. Os modelos frequentemente falhavam em reconhecer essa distinção. Ao se depararem com alegações de conhecimento falso, raramente detectavam a contradição lógica, tentando, em vez disso, verificar a alegação falsa ou rejeitando-a sem reconhecer o erro linguístico.

Essas limitações têm implicações significativas para a aplicação da IA ​​em contextos de alto risco. Em processos judiciais, a distinção entre crença da testemunha e conhecimento estabelecido é fundamental para as decisões judiciais. Um modelo que confunde esses dois conceitos pode interpretar erroneamente o depoimento ou fornecer análises jurídicas falhas. Da mesma forma, em contextos de saúde mental,Reconhecer as crenças do paciente é vital para a empatia, independentemente de essas crenças serem factualmente corretas.

Os pesquisadores observam que as falhas do BLM provavelmente estão relacionadas a dados de treinamento que priorizam a precisão factual e a utilidade. Os modelos parecem ter um viés “corretivo” que os impede de aceitar suposições incorretas do usuário, mesmo quando a consulta as apresenta explicitamente como crenças subjetivas. Esse comportamento dificulta a comunicação eficaz em cenários onde pontos de vista subjetivos estão em jogo.

Os pesquisadores concluíram que, até o momento, “os modelos são incapazes de distinguir crenças do usuário de fatos”. Eles sugerem que o BLM carece de um bom modelo mental dos usuários, portanto, deve-se ter cautela ao utilizá-lo em situações mais subjetivas e pessoais.

Pesquisas futuras devem se concentrar em ajudar os modelos a distinguir entre o conceito de verdade e o conceito de crença. A equipe de pesquisa sugere que melhorias são necessárias antes que esses sistemas sejam totalmente implementados em domínios onde a compreensão do estado subjetivo do usuário é tão importante quanto o conhecimento de fatos objetivos. Abordar esses “pontos cegos” epistemológicos é essencial para o desenvolvimento responsável da IA.

By admin

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *