Cientistas do MIT, Harvard e da Universidade de Chicago propuseram o termo “compreensão de Potemkin” para descrever a discrepância encontrada em grandes modelos de linguagem de inteligência artificial entre as respostas corretas às perguntas e a incapacidade de realmente entendê-las para aplicar essas informações na prática.
Fonte da imagem: Aidin Geranrekab/unsplash.com
O termo deriva da lenda, hoje desacreditada, das “vilas de Potemkin”: quando a Imperatriz Catarina II visitou a Crimeia em 1787, o Príncipe Grigory Potemkin mostrou a ela cenários que, segundo ele, eram vilas reais. “Pensamento de Potemkin” é diferente de “alucinações”, nas quais uma IA dá respostas confiantes que obviamente não são verdadeiras — trata-se da incapacidade de compreender conceitos da mesma forma que um humano. Nessa situação, o modelo passa com sucesso no teste de controle, mas não compreende os conceitos associados à sua própria resposta.
«„“Potemkins são para o conhecimento conceitual o que alucinações são para o conhecimento factual — alucinações fabricam fatos falsos; Potemkins fabricam conexões falsas entre conceitos”, explicam os autores. O estudo fornece um exemplo ilustrativo. O modelo GPT-4o da OpenAI foi solicitado a explicar o esquema de rima cruzada ABAB — ele deu a resposta correta, apontando as rimas alternadas na primeira e terceira linhas, e na segunda e quarta linhas. Mas quando foi solicitado a preencher a palavra que faltava em uma quadra com um esquema de rima cruzada, ele sugeriu uma opção que não rimava corretamente. Ou seja, o modelo previu corretamente os tokens para explicar o esquema ABAB, mas não entendeu sua própria resposta para reproduzir o esquema na prática.
Fonte da imagem: Steve Johnson/unsplash.com
A natureza insidiosa das falhas de Potemkin reside no fato de desvalorizarem os benchmarks de IA. Os modelos são testados para determinar sua competência, mas se o teste medir apenas seu desempenho e não sua capacidade de aplicar materiais fora dos cenários em que foram testados, os resultados não terão sentido. Os pesquisadores desenvolveram seus próprios benchmarks para avaliar a frequência das falhas de Potemkin, e elas foram onipresentes nos modelos estudados: Llama-3.3 (70B), GPT-4o, Gemini-2.0 (Flash), Claude 3.5 (Sonnet), DeepSeek-V3, DeepSeek-R1m e Qwen2-VL (72B).
Um conjunto de testes concentrou-se em recursos literários, teoria dos jogos e vieses psicológicos. Constatou-se que os modelos identificaram corretamente os conceitos necessários (94,2%), mas frequentemente falharam em classificá-los (taxa de falha média de 55%), gerar exemplos (taxa de falha de 40%) e editar ilustrações dos conceitos descritos (40%). Assim como nos esquemas de rima, eles explicaram corretamente os recursos literários usados no soneto de Shakespeare, mas tiveram dificuldade em detectá-los, reproduzi-los ou editar o soneto.
«A existência de casos Potemkin significa que comportamentos que indicariam compreensão em humanos não indicam compreensão em um modelo de linguagem amplo. Isso significa que precisamos de novas maneiras de testar modelos de linguagem amplos para responder às mesmas perguntas que são usadas para testar humanos, ou encontrar maneiras de eliminar esse comportamento em um modelo de linguagem amplo”, observaram os cientistas.
O uso de scanners litográficos EUV de alta NA é mais amplamente relatado no contexto…
A memória HBM, que utiliza um layout multicamadas e conexões de alta velocidade, é utilizada…
Qualquer tipo de acionamento elétrico em carros modernos pode representar um certo perigo para uma…
O teaser do RPG de ação Cyberpunk 2077, publicado no dia anterior, acabou fazendo muito…
O bilionário americano Elon Musk afirmou que até 80% da receita futura da Tesla virá…
Os desenvolvedores do estúdio polonês Reikon Games (Ruiner), em conjunto com a editora Deep Silver,…