A capacidade da IA ​​de entender suas próprias palavras provou ser ‘semelhante à de Potemkin’

Cientistas do MIT, Harvard e da Universidade de Chicago propuseram o termo “compreensão de Potemkin” para descrever a discrepância encontrada em grandes modelos de linguagem de inteligência artificial entre as respostas corretas às perguntas e a incapacidade de realmente entendê-las para aplicar essas informações na prática.

Fonte da imagem: Aidin Geranrekab/unsplash.com

O termo deriva da lenda, hoje desacreditada, das “vilas de Potemkin”: quando a Imperatriz Catarina II visitou a Crimeia em 1787, o Príncipe Grigory Potemkin mostrou a ela cenários que, segundo ele, eram vilas reais. “Pensamento de Potemkin” é diferente de “alucinações”, nas quais uma IA dá respostas confiantes que obviamente não são verdadeiras — trata-se da incapacidade de compreender conceitos da mesma forma que um humano. Nessa situação, o modelo passa com sucesso no teste de controle, mas não compreende os conceitos associados à sua própria resposta.

«„“Potemkins são para o conhecimento conceitual o que alucinações são para o conhecimento factual — alucinações fabricam fatos falsos; Potemkins fabricam conexões falsas entre conceitos”, explicam os autores. O estudo fornece um exemplo ilustrativo. O modelo GPT-4o da OpenAI foi solicitado a explicar o esquema de rima cruzada ABAB — ele deu a resposta correta, apontando as rimas alternadas na primeira e terceira linhas, e na segunda e quarta linhas. Mas quando foi solicitado a preencher a palavra que faltava em uma quadra com um esquema de rima cruzada, ele sugeriu uma opção que não rimava corretamente. Ou seja, o modelo previu corretamente os tokens para explicar o esquema ABAB, mas não entendeu sua própria resposta para reproduzir o esquema na prática.

Fonte da imagem: Steve Johnson/unsplash.com

A natureza insidiosa das falhas de Potemkin reside no fato de desvalorizarem os benchmarks de IA. Os modelos são testados para determinar sua competência, mas se o teste medir apenas seu desempenho e não sua capacidade de aplicar materiais fora dos cenários em que foram testados, os resultados não terão sentido. Os pesquisadores desenvolveram seus próprios benchmarks para avaliar a frequência das falhas de Potemkin, e elas foram onipresentes nos modelos estudados: Llama-3.3 (70B), GPT-4o, Gemini-2.0 (Flash), Claude 3.5 (Sonnet), DeepSeek-V3, DeepSeek-R1m e Qwen2-VL (72B).

Um conjunto de testes concentrou-se em recursos literários, teoria dos jogos e vieses psicológicos. Constatou-se que os modelos identificaram corretamente os conceitos necessários (94,2%), mas frequentemente falharam em classificá-los (taxa de falha média de 55%), gerar exemplos (taxa de falha de 40%) e editar ilustrações dos conceitos descritos (40%). Assim como nos esquemas de rima, eles explicaram corretamente os recursos literários usados ​​no soneto de Shakespeare, mas tiveram dificuldade em detectá-los, reproduzi-los ou editar o soneto.

«A existência de casos Potemkin significa que comportamentos que indicariam compreensão em humanos não indicam compreensão em um modelo de linguagem amplo. Isso significa que precisamos de novas maneiras de testar modelos de linguagem amplos para responder às mesmas perguntas que são usadas para testar humanos, ou encontrar maneiras de eliminar esse comportamento em um modelo de linguagem amplo”, observaram os cientistas.

admin

Postagens recentes

A FSUE GlavNIVC está desenvolvendo uma parceria com a desenvolvedora russa Basis.

A Empresa Estatal Unitária Federal "GlavNIVC", vinculada ao Departamento de Gestão de Propriedades Presidenciais da…

26 minutos atrás

A Tesla lançou robotáxis em mais duas cidades do Texas.

Esta semana, a Tesla publicará um relatório detalhado sobre seus últimos resultados trimestrais, por isso…

1 hora atrás

Elon Musk quer colocar os reguladores americanos contra seus homólogos europeus por discriminarem a SpaceX no mercado da UE.

A experiência política de Elon Musk pode ser interpretada de várias maneiras, mas, ainda no…

2 horas atrás

Os primeiros protótipos da memória HBM4E da Samsung estarão prontos no próximo mês.

Para a Samsung Electronics, é crucial garantir sua posição no mercado de HBM4E, fornecendo aos…

5 horas atrás

A construção do gigantesco centro de dados de IA de Trump está paralisada: sem clientes, CEO demitido, ações em queda livre.

O maior projeto de construção de um campus de data center de IA do mundo,…

9 horas atrás

A Alphabet está em negociações com a Marvell para desenvolver dois chips de IA para inferência.

A Alphabet iniciou negociações com a Marvell para desenvolver chips especializados capazes de executar modelos…

11 horas atrás