Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes NeuraisMercado de tecnologia e TI. notícia

OpenAI é suspeito de manipular testes do poderoso modelo de IA o3

Em dezembro passado, a OpenAI revelou seu grande modelo de linguagem o3, alegando que ele poderia lidar com mais de 25% do conjunto FrontierMath de problemas matemáticos complexos, enquanto outros modelos de IA só conseguiam lidar com 2% dos problemas daquele conjunto. No entanto, discrepâncias entre os resultados dos testes internos e independentes levantaram questões sobre a transparência da empresa e as práticas de testes de rede neural.

Fonte da imagem: Levart_Photographer/unsplash.com

No momento do anúncio do modelo de IA o3, um representante da empresa destacou particularmente os resultados do algoritmo na resolução de problemas do FrontierMath. No entanto, a versão do algoritmo para o consumidor, lançada na semana passada, não é tão boa em computação. Isso pode indicar que o OpenAI inflou os resultados do teste ou que uma versão diferente e matematicamente mais capaz do o3 foi usada.

Os pesquisadores por trás do FrontierMath na Epoch AI divulgaram os resultados de testes independentes da versão disponível publicamente do modelo o3 AI. Descobriu-se que o algoritmo conseguiu lidar com apenas 10% das tarefas, o que é significativamente menor do que os 25% reivindicados pela OpenAI. Os pesquisadores também testaram o modelo de IA o4-mini, um algoritmo mais compacto e barato que é o sucessor do o3-mini.

Fonte da imagem: @EpochAIResearch / X

É claro que a discrepância nos resultados dos testes não significa que a OpenAI inflou intencionalmente o desempenho do modelo de IA. O limite inferior dos resultados dos testes da OpenAI é quase idêntico aos resultados obtidos pela Epoch AI. A Epoch AI também observou que o modelo que eles estão testando provavelmente é diferente daquele testado pela OpenAI. Também é observado que os pesquisadores usaram uma versão atualizada do conjunto de problemas do FrontierMath.

«A diferença entre nossos resultados e os da OpenAI pode ser devido à OpenAI avaliar os resultados usando uma versão interna mais poderosa, usando mais tempo de computação ou porque esses resultados foram obtidos em um subconjunto diferente do FrontierMath (180 problemas no frontiermath-2024-11-26 vs. 290 problemas no frontiermath-2025-02-28)”, disse a Epoch AI em um comunicado.

De acordo com a ARC Foundation, que testou a prévia do o3, a versão pública do algoritmo de IA “é um modelo diferente” que é otimizado para uso em chat/produtos. “O desempenho computacional de todas as versões lançadas do o3 é inferior ao da versão que testamos”, disse a ARC em um comunicado.

Wenda Zhou, da OpenAI, disse que a versão pública do o3 é “mais otimizada para casos de uso do mundo real” e melhora a velocidade de consulta em comparação com a versão do o3 testada pela empresa em dezembro. Segundo ela, esse é o motivo pelo qual os resultados dos testes de benchmark podem ser diferentes do que o OpenAI mostrou.

avalanche

Próximo Cyberpunk 2077 é o primeiro jogo confirmado para Switch 2 a oferecer suporte a DLSS, mas há um porém »

Anterior « Regulador europeu revela acidentalmente planos da Ubisoft para Assassin's Creed Shadows para Nintendo Switch 2

Deixar comentário

Publicado por

avalanche

10 meses atrás

Postagens recentes

Comentários sobre eventos recentes

O ambicioso RPG tático ATOM RPG 2 colocará você no comando de um mundo pós-apocalíptico, onde você decidirá o destino – primeiro teaser e detalhes.

Já se passaram mais de quatro anos desde o lançamento de ATOM RPG: Trudograd, e…

2 horas atrás

Servidores, clusters, supercomputadores, computadores industriais e multiprocessadores

O CEO da Nvidia afirma que a TSMC terá que dobrar sua capacidade de produção nos próximos dez anos.

A mais recente viagem de Jensen Huang, CEO e fundador da Nvidia, a Taiwan incluiu,…

2 horas atrás

Discos rígidos, sistemas de armazenamento, interfaces, NAS

Muitos SSDs da marca Sandisk triplicaram de preço este ano.

O aumento dos preços da memória de estado sólido NAND impacta diretamente o custo dos…

3 horas atrás

O mundo da robótica

A produção do robô Tesla Optimus dependerá fortemente de componentes chineses.

A Tesla está oficialmente encerrando a produção dos modelos S e X e redirecionando sua…

4 horas atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

Elon Musk está contratando escritores premiados para treinar inteligência artificial por US$ 40 a hora.

A xAI está contratando escritores, jornalistas e roteiristas profissionais com prêmios Oscar, Emmy e Hugo…

6 horas atrás

Telefones celulares, smartphones, comunicações celulares, comunicadores, PDAs

A Bloomberg noticiou a ideia da Apple de lançar um iPhone no formato clássico de um telefone “concha”.

Segundo o site 9to5Mac, citando Mark Gurman, da Bloomberg, a Apple está considerando lançar um…