Esta semana, a OpenAI lançou os modelos de IA o3 e o4-mini. Eles se tornaram avançados em muitos aspectos, mas têm alucinações com mais frequência — isto é, dão respostas confiantes que não correspondem à realidade — do que seus antecessores.
Fonte da imagem: Mariia Shalabaieva/unsplash.com
O problema das alucinações continua sendo um dos maiores e mais complexos da IA moderna, afetando até mesmo os sistemas modernos mais eficientes. Historicamente, cada modelo subsequente mostrou melhorias nesse aspecto, ou seja, uma redução no número de alucinações em comparação às versões anteriores. Entretanto, isso não parece se aplicar ao o3 e ao o4-mini. Os novos sistemas da OpenAI apresentam alucinações com mais frequência do que os modelos de raciocínio anteriores da empresa, incluindo o o1, o1-mini e o3-mini, bem como os tradicionais “sem raciocínio”, como o GPT-4o, de acordo com os próprios testes do desenvolvedor.
O que é um tanto alarmante é que a própria empresa não sabe por que isso está acontecendo. Em um relatório técnico (PDF), ela observa que “mais pesquisas são necessárias” para entender por que a frequência de alucinações aumenta à medida que os modelos de raciocínio aumentam. O o3 e o o4-mini da OpenAI têm desempenho melhor que seus antecessores em uma série de tarefas, incluindo matemática e programação, mas como eles “fazem mais afirmações no geral”, também são mais propensos a fazer “afirmações mais precisas” e “afirmações mais imprecisas ou ilusórias”, diz o relatório do desenvolvedor.
No teste PersonQA da OpenAI, projetado para avaliar o conhecimento dos modelos sobre pessoas, o o3 teve alucinações 33% das vezes, quase o dobro da taxa de erros semelhantes nos modelos de raciocínio anteriores o1 e o3-mini (16% e 14,8%, respectivamente). O modelo o4-mini teve alucinações 48% das vezes no mesmo teste. Um teste de terceiros do Transluce feito por um desenvolvedor independente descobriu que o o3 tem uma tendência a inventar ações que ele supostamente tomou ao preparar respostas. Em um caso, ela alegou ter executado código em um Apple MacBook Pro 2021 “fora do ChatGPT” e copiado números em sua resposta. Embora o o3 tenha acesso a algumas ferramentas, ela não conseguiu executar tal ação.
De acordo com uma versão, o problema com alucinações, cuja frequência havia diminuído anteriormente quando os meios padrão eram conectados após o estágio principal de treinamento, poderia, ao contrário, ter piorado devido ao uso do tipo de aprendizagem por reforço usado para os modelos da série “o”. Como resultado, o modelo o3 da OpenAI pode não ser útil o suficiente na prática, dizem especialistas. Também foi descoberto que ele superava significativamente outros modelos em tarefas de programação, mas às vezes adicionava links quebrados para sites ao código.
Uma abordagem promissora para reduzir alucinações é abrir funções de pesquisa na web para modelos. Por exemplo, o GPT-4o conseguiu atingir 90% de respostas corretas no benchmark OpenAI SimpleQA. Talvez essa solução também seja eficaz para modelos de raciocínio. “A desalucinação é uma área de pesquisa em alta em todos os nossos modelos, e estamos constantemente trabalhando para melhorar sua precisão e robustez”, disse a OpenAI ao TechCrunch.
A Xiaomi realizou um grande evento na China na última quinta-feira para comemorar seu 15º…
A Ricoh emitiu um comunicado de imprensa bastante sucinto afirmando que sua tão esperada câmera…
A Nvidia revelou anteriormente o Projeto G-Assist, um modelo compacto de IA que roda localmente…
Fonte da imagem: TSMC A empresa disse em um comunicado que a menor demanda do…
Os chefes das empresas de tecnologia Zoom e Klarna substituíram não apenas alguns de seus…
As notas de lançamento da versão estável mais recente do SteamOS afirmam que ela é…