Em dezembro passado, a OpenAI revelou seu grande modelo de linguagem o3, alegando que ele poderia lidar com mais de 25% do conjunto FrontierMath de problemas matemáticos complexos, enquanto outros modelos de IA só conseguiam lidar com 2% dos problemas daquele conjunto. No entanto, discrepâncias entre os resultados dos testes internos e independentes levantaram questões sobre a transparência da empresa e as práticas de testes de rede neural.
Fonte da imagem: Levart_Photographer/unsplash.com
No momento do anúncio do modelo de IA o3, um representante da empresa destacou particularmente os resultados do algoritmo na resolução de problemas do FrontierMath. No entanto, a versão do algoritmo para o consumidor, lançada na semana passada, não é tão boa em computação. Isso pode indicar que o OpenAI inflou os resultados do teste ou que uma versão diferente e matematicamente mais capaz do o3 foi usada.
Os pesquisadores por trás do FrontierMath na Epoch AI divulgaram os resultados de testes independentes da versão disponível publicamente do modelo o3 AI. Descobriu-se que o algoritmo conseguiu lidar com apenas 10% das tarefas, o que é significativamente menor do que os 25% reivindicados pela OpenAI. Os pesquisadores também testaram o modelo de IA o4-mini, um algoritmo mais compacto e barato que é o sucessor do o3-mini.
Fonte da imagem: @EpochAIResearch / X
É claro que a discrepância nos resultados dos testes não significa que a OpenAI inflou intencionalmente o desempenho do modelo de IA. O limite inferior dos resultados dos testes da OpenAI é quase idêntico aos resultados obtidos pela Epoch AI. A Epoch AI também observou que o modelo que eles estão testando provavelmente é diferente daquele testado pela OpenAI. Também é observado que os pesquisadores usaram uma versão atualizada do conjunto de problemas do FrontierMath.
«A diferença entre nossos resultados e os da OpenAI pode ser devido à OpenAI avaliar os resultados usando uma versão interna mais poderosa, usando mais tempo de computação ou porque esses resultados foram obtidos em um subconjunto diferente do FrontierMath (180 problemas no frontiermath-2024-11-26 vs. 290 problemas no frontiermath-2025-02-28)”, disse a Epoch AI em um comunicado.
De acordo com a ARC Foundation, que testou a prévia do o3, a versão pública do algoritmo de IA “é um modelo diferente” que é otimizado para uso em chat/produtos. “O desempenho computacional de todas as versões lançadas do o3 é inferior ao da versão que testamos”, disse a ARC em um comunicado.
Wenda Zhou, da OpenAI, disse que a versão pública do o3 é “mais otimizada para casos de uso do mundo real” e melhora a velocidade de consulta em comparação com a versão do o3 testada pela empresa em dezembro. Segundo ela, esse é o motivo pelo qual os resultados dos testes de benchmark podem ser diferentes do que o OpenAI mostrou.
Os desenvolvedores do estúdio polonês Techland apresentaram os requisitos completos do sistema do jogo de…
A Jaguar Land Rover (JLR) afirmou que a violação "interrompeu gravemente" suas operações de varejo…
Os Estados Unidos revogaram a permissão da Taiwan Semiconductor Manufacturing Co. de fornecer livremente equipamentos…
A Thermalright apresentou seu principal cooler para CPU, o Phantom Spirit 120 Digital. O novo…
A tão aguardada entrada da Tesla no mercado indiano ficou aquém das expectativas até agora,…
Dez anos após o lançamento do formato Dolby Vision, uma versão atualizada do padrão, o…