O modelo de IA mais poderoso da OpenAI, o3, gasta até US$ 30.000 para resolver um problema

Em dezembro, a OpenAI revelou seu modelo de raciocínio de IA o3 e mostrou os resultados do benchmark ARC-AGI, o teste mais desafiador para avaliar as capacidades de IA. Agora, os resultados dos testes tiveram que ser revisados ​​e parecem menos impressionantes: o modelo acabou sendo caro demais para manter.

Fonte da imagem: Mariia Shalabaieva / unsplash.com

Na semana passada, a Arc Prize Foundation, a organização por trás do ARC-AGI, atualizou sua estimativa de custo de computação para o OpenAI o3. Sua configuração mais poderosa, o3 high, foi estimada originalmente em cerca de US$ 3.000 para resolver um único problema ARC-AGI. Agora foi estabelecido que o custo de manutenção é muito mais alto — possivelmente até US$ 30.000 por tarefa. Isso ilustra o quão caros até mesmo os modelos modernos de IA mais sofisticados podem ser para certas tarefas, pelo menos inicialmente. A OpenAI ainda não definiu um preço para o o3, e o modelo não foi disponibilizado publicamente, mas a Arc Prize Foundation sugeriu que o OpenAI o1-pro poderia ser usado como referência.

«Acreditamos que o1-pro é uma comparação mais próxima [para determinar] o valor real de o3 devido à quantidade de computação usada durante o teste. Mas esta não é uma estimativa exata, e deixamos o o3 como uma designação de pré-lançamento em nossa tabela de classificação para refletir a incerteza até que um preço oficial seja anunciado”, disse a Arc Prize Foundation ao TechCrunch. Sabe-se que, ao resolver um problema, o o3 alto usou 172 vezes mais recursos de computação no ARC-AGI do que o o3 baixo, o modelo mais fraco da linha.

Anteriormente, sabia-se que os planos tarifários para sistemas OpenAI avançados podem ser extremamente caros – até US$ 20.000 por mês para o trabalho de agentes de IA especializados. No entanto, os modelos são propensos a erros: o mesmo o3 alto precisou de 1024 tentativas para resolver cada problema do teste ARC-AGI para mostrar o melhor resultado.

avalanche

Postagens recentes

Guild Wars 3 não terá um passe de batalha porque os desenvolvedores não querem manter os jogadores como reféns.

A série de MMO Guild Wars, desenvolvida pelo estúdio americano ArenaNet (pertencente à NCSoft), sempre…

2 horas atrás

O CEO da Xpeng liderará pessoalmente o desenvolvimento de robôs humanoides da empresa.

O CEO da Xpeng, He Xiaopeng, decidiu liderar pessoalmente a divisão de robótica da empresa.…

2 horas atrás

Em maio, os carros equipados apenas com motores de combustão interna saíram da lista dos cinco carros de passageiros mais populares na China.

Os híbridos plug-in estão evoluindo rapidamente no mercado chinês e, para muitos motoristas, oferecem uma…

2 horas atrás

A Siri, com sua inteligência artificial, sugerirá pausas em conversas prolongadas e lembrará que ela não é humana.

Foram descobertas referências no código do iOS 27 da Apple indicando que a assistente virtual…

2 horas atrás