Em dezembro passado, a OpenAI revelou seu grande modelo de linguagem o3, alegando que ele poderia lidar com mais de 25% do conjunto FrontierMath de problemas matemáticos complexos, enquanto outros modelos de IA só conseguiam lidar com 2% dos problemas daquele conjunto. No entanto, discrepâncias entre os resultados dos testes internos e independentes levantaram questões sobre a transparência da empresa e as práticas de testes de rede neural.

Fonte da imagem: Levart_Photographer/unsplash.com

No momento do anúncio do modelo de IA o3, um representante da empresa destacou particularmente os resultados do algoritmo na resolução de problemas do FrontierMath. No entanto, a versão do algoritmo para o consumidor, lançada na semana passada, não é tão boa em computação. Isso pode indicar que o OpenAI inflou os resultados do teste ou que uma versão diferente e matematicamente mais capaz do o3 foi usada.

Os pesquisadores por trás do FrontierMath na Epoch AI divulgaram os resultados de testes independentes da versão disponível publicamente do modelo o3 AI. Descobriu-se que o algoritmo conseguiu lidar com apenas 10% das tarefas, o que é significativamente menor do que os 25% reivindicados pela OpenAI. Os pesquisadores também testaram o modelo de IA o4-mini, um algoritmo mais compacto e barato que é o sucessor do o3-mini.

Fonte da imagem: @EpochAIResearch / X

É claro que a discrepância nos resultados dos testes não significa que a OpenAI inflou intencionalmente o desempenho do modelo de IA. O limite inferior dos resultados dos testes da OpenAI é quase idêntico aos resultados obtidos pela Epoch AI. A Epoch AI também observou que o modelo que eles estão testando provavelmente é diferente daquele testado pela OpenAI. Também é observado que os pesquisadores usaram uma versão atualizada do conjunto de problemas do FrontierMath.

«A diferença entre nossos resultados e os da OpenAI pode ser devido à OpenAI avaliar os resultados usando uma versão interna mais poderosa, usando mais tempo de computação ou porque esses resultados foram obtidos em um subconjunto diferente do FrontierMath (180 problemas no frontiermath-2024-11-26 vs. 290 problemas no frontiermath-2025-02-28)”, disse a Epoch AI em um comunicado.

De acordo com a ARC Foundation, que testou a prévia do o3, a versão pública do algoritmo de IA “é um modelo diferente” que é otimizado para uso em chat/produtos. “O desempenho computacional de todas as versões lançadas do o3 é inferior ao da versão que testamos”, disse a ARC em um comunicado.

Wenda Zhou, da OpenAI, disse que a versão pública do o3 é “mais otimizada para casos de uso do mundo real” e melhora a velocidade de consulta em comparação com a versão do o3 testada pela empresa em dezembro. Segundo ela, esse é o motivo pelo qual os resultados dos testes de benchmark podem ser diferentes do que o OpenAI mostrou.

avalanche

Postagens recentes

Uma fonte interna decepcionou os fãs que esperavam ver Ada Wong e Chris Redfield em Resident Evil Requiem.

O lançamento do ambicioso jogo de terror Resident Evil Requiem marcará o grande retorno do…

38 minutos atrás

O Samsung Galaxy S26 Ultra com caneta stylus aparece em imagem de pré-anúncio.

No final de janeiro, foi noticiado que os smartphones da série Samsung Galaxy S26 provavelmente…

2 horas atrás

“Vivo e bem”: Um analista de dados revelou o que está acontecendo com Half-Life 3.

O minerador de dados Maxim Poletaev (também conhecido como Gabe Follower) comentou recentemente sobre rumores…

3 horas atrás

A Ford manteve conversas com a Xiaomi sobre a produção de veículos elétricos nos EUA.

A Ford Motor, uma das maiores montadoras americanas, inicialmente se comprometeu com uma estreita cooperação…

4 horas atrás

A CATL apresentou baterias para veículos elétricos com autonomia de até 1,8 milhão de km e carregamento rápido.

Os longos tempos de carregamento são considerados uma das desvantagens operacionais dos veículos elétricos, mas…

4 horas atrás