Os modelos de IA mais inteligentes o3 e o4-mini da OpenAI mostram maior propensão a alucinações

Esta semana, a OpenAI lançou os modelos de IA o3 e o4-mini. Eles se tornaram avançados em muitos aspectos, mas têm alucinações com mais frequência — isto é, dão respostas confiantes que não correspondem à realidade — do que seus antecessores.

Fonte da imagem: Mariia Shalabaieva/unsplash.com

O problema das alucinações continua sendo um dos maiores e mais complexos da IA ​​moderna, afetando até mesmo os sistemas modernos mais eficientes. Historicamente, cada modelo subsequente mostrou melhorias nesse aspecto, ou seja, uma redução no número de alucinações em comparação às versões anteriores. Entretanto, isso não parece se aplicar ao o3 e ao o4-mini. Os novos sistemas da OpenAI apresentam alucinações com mais frequência do que os modelos de raciocínio anteriores da empresa, incluindo o o1, o1-mini e o3-mini, bem como os tradicionais “sem raciocínio”, como o GPT-4o, de acordo com os próprios testes do desenvolvedor.

O que é um tanto alarmante é que a própria empresa não sabe por que isso está acontecendo. Em um relatório técnico (PDF), ela observa que “mais pesquisas são necessárias” para entender por que a frequência de alucinações aumenta à medida que os modelos de raciocínio aumentam. O o3 e o o4-mini da OpenAI têm desempenho melhor que seus antecessores em uma série de tarefas, incluindo matemática e programação, mas como eles “fazem mais afirmações no geral”, também são mais propensos a fazer “afirmações mais precisas” e “afirmações mais imprecisas ou ilusórias”, diz o relatório do desenvolvedor.

No teste PersonQA da OpenAI, projetado para avaliar o conhecimento dos modelos sobre pessoas, o o3 teve alucinações 33% das vezes, quase o dobro da taxa de erros semelhantes nos modelos de raciocínio anteriores o1 e o3-mini (16% e 14,8%, respectivamente). O modelo o4-mini teve alucinações 48% das vezes no mesmo teste. Um teste de terceiros do Transluce feito por um desenvolvedor independente descobriu que o o3 tem uma tendência a inventar ações que ele supostamente tomou ao preparar respostas. Em um caso, ela alegou ter executado código em um Apple MacBook Pro 2021 “fora do ChatGPT” e copiado números em sua resposta. Embora o o3 tenha acesso a algumas ferramentas, ela não conseguiu executar tal ação.

De acordo com uma versão, o problema com alucinações, cuja frequência havia diminuído anteriormente quando os meios padrão eram conectados após o estágio principal de treinamento, poderia, ao contrário, ter piorado devido ao uso do tipo de aprendizagem por reforço usado para os modelos da série “o”. Como resultado, o modelo o3 da OpenAI pode não ser útil o suficiente na prática, dizem especialistas. Também foi descoberto que ele superava significativamente outros modelos em tarefas de programação, mas às vezes adicionava links quebrados para sites ao código.

Uma abordagem promissora para reduzir alucinações é abrir funções de pesquisa na web para modelos. Por exemplo, o GPT-4o conseguiu atingir 90% de respostas corretas no benchmark OpenAI SimpleQA. Talvez essa solução também seja eficaz para modelos de raciocínio. “A desalucinação é uma área de pesquisa em alta em todos os nossos modelos, e estamos constantemente trabalhando para melhorar sua precisão e robustez”, disse a OpenAI ao TechCrunch.

avalanche

Postagens recentes

Xiaomi anuncia smartphone Civi 5 Pro com Snapdragon 8s Gen 4 com preço a partir de US$ 416

A Xiaomi realizou um grande evento na China na última quinta-feira para comemorar seu 15º…

21 horas atrás

A Ricoh anunciou a tão esperada câmera GR IV e prometeu lançá-la no outono

A Ricoh emitiu um comunicado de imprensa bastante sucinto afirmando que sua tão esperada câmera…

21 horas atrás

Intel desenvolve treinador de IA para jogadores que ajudará você a vencer jogos

A Nvidia revelou anteriormente o Projeto G-Assist, um modelo compacto de IA que roda localmente…

21 horas atrás

TSMC tenta explicar às autoridades dos EUA que as tarifas sobre chips são ruins para todos

Fonte da imagem: TSMC A empresa disse em um comunicado que a menor demanda do…

21 horas atrás

“Eu não sou eu, e o cavalo não é meu”: CEOs de empresas de tecnologia começaram a enviar seus gêmeos de IA para reuniões com investidores

Os chefes das empresas de tecnologia Zoom e Klarna substituíram não apenas alguns de seus…

21 horas atrás

SteamOS oficialmente compatível com Legion Go S e outros consoles AMD

As notas de lançamento da versão estável mais recente do SteamOS afirmam que ela é…

21 horas atrás