Os modelos de IA mais inteligentes o3 e o4-mini da OpenAI mostram maior propensão a alucinações

Esta semana, a OpenAI lançou os modelos de IA o3 e o4-mini. Eles se tornaram avançados em muitos aspectos, mas têm alucinações com mais frequência — isto é, dão respostas confiantes que não correspondem à realidade — do que seus antecessores.

Fonte da imagem: Mariia Shalabaieva/unsplash.com

O problema das alucinações continua sendo um dos maiores e mais complexos da IA ​​moderna, afetando até mesmo os sistemas modernos mais eficientes. Historicamente, cada modelo subsequente mostrou melhorias nesse aspecto, ou seja, uma redução no número de alucinações em comparação às versões anteriores. Entretanto, isso não parece se aplicar ao o3 e ao o4-mini. Os novos sistemas da OpenAI apresentam alucinações com mais frequência do que os modelos de raciocínio anteriores da empresa, incluindo o o1, o1-mini e o3-mini, bem como os tradicionais “sem raciocínio”, como o GPT-4o, de acordo com os próprios testes do desenvolvedor.

O que é um tanto alarmante é que a própria empresa não sabe por que isso está acontecendo. Em um relatório técnico (PDF), ela observa que “mais pesquisas são necessárias” para entender por que a frequência de alucinações aumenta à medida que os modelos de raciocínio aumentam. O o3 e o o4-mini da OpenAI têm desempenho melhor que seus antecessores em uma série de tarefas, incluindo matemática e programação, mas como eles “fazem mais afirmações no geral”, também são mais propensos a fazer “afirmações mais precisas” e “afirmações mais imprecisas ou ilusórias”, diz o relatório do desenvolvedor.

No teste PersonQA da OpenAI, projetado para avaliar o conhecimento dos modelos sobre pessoas, o o3 teve alucinações 33% das vezes, quase o dobro da taxa de erros semelhantes nos modelos de raciocínio anteriores o1 e o3-mini (16% e 14,8%, respectivamente). O modelo o4-mini teve alucinações 48% das vezes no mesmo teste. Um teste de terceiros do Transluce feito por um desenvolvedor independente descobriu que o o3 tem uma tendência a inventar ações que ele supostamente tomou ao preparar respostas. Em um caso, ela alegou ter executado código em um Apple MacBook Pro 2021 “fora do ChatGPT” e copiado números em sua resposta. Embora o o3 tenha acesso a algumas ferramentas, ela não conseguiu executar tal ação.

De acordo com uma versão, o problema com alucinações, cuja frequência havia diminuído anteriormente quando os meios padrão eram conectados após o estágio principal de treinamento, poderia, ao contrário, ter piorado devido ao uso do tipo de aprendizagem por reforço usado para os modelos da série “o”. Como resultado, o modelo o3 da OpenAI pode não ser útil o suficiente na prática, dizem especialistas. Também foi descoberto que ele superava significativamente outros modelos em tarefas de programação, mas às vezes adicionava links quebrados para sites ao código.

Uma abordagem promissora para reduzir alucinações é abrir funções de pesquisa na web para modelos. Por exemplo, o GPT-4o conseguiu atingir 90% de respostas corretas no benchmark OpenAI SimpleQA. Talvez essa solução também seja eficaz para modelos de raciocínio. “A desalucinação é uma área de pesquisa em alta em todos os nossos modelos, e estamos constantemente trabalhando para melhorar sua precisão e robustez”, disse a OpenAI ao TechCrunch.

avalanche

Postagens recentes

Conforme as cartas forem lançadas, conforme a rede ditar: a AWS está implementando uma arquitetura de rede RNG quase aleatória em seus data centers.

A AWS publicou uma descrição técnica da arquitetura de rede de data center que implementará…

17 horas atrás

O chefe da NASA afirma que os voos do foguete New Glenn não serão retomados antes de 2028, eliminando a Blue Origin da corrida lunar.

Durante um teste estático de ignição em 29 de maio de 2026, o foguete New…

17 horas atrás

Foi anunciado o sucessor espiritual de Zeus: Master of Olympus – o jogo de estratégia de construção de cidades Theos: Cities of Myth, onde história e mito se entrelaçam.

A editora Dotemu (Ninja Gaiden: Ragebound, Marvel Cosmic Invasion) e a Triskell Interactive, desenvolvedora de…

18 horas atrás

Plataforma de referência de IA Qualcomm Dragonwing IQ10 para robótica é apresentada.

Cristiano Amon, CEO da Qualcomm, apresentou a plataforma robótica Dragonwing IQ10 atualizada na Computex 2026.…

18 horas atrás

O RPG infernal baseado em turnos, Entropy, do criador de Dread Delusion, recebeu uma demo e uma data de lançamento no Acesso Antecipado do Steam.

A editora DreadXP e o estúdio britânico Lovely Hellplace (Dread Delusion) anunciaram a data de…

18 horas atrás