O modelo de IA mais poderoso da OpenAI, o3, gasta até US$ 30.000 para resolver um problema

Em dezembro, a OpenAI revelou seu modelo de raciocínio de IA o3 e mostrou os resultados do benchmark ARC-AGI, o teste mais desafiador para avaliar as capacidades de IA. Agora, os resultados dos testes tiveram que ser revisados ​​e parecem menos impressionantes: o modelo acabou sendo caro demais para manter.

Fonte da imagem: Mariia Shalabaieva / unsplash.com

Na semana passada, a Arc Prize Foundation, a organização por trás do ARC-AGI, atualizou sua estimativa de custo de computação para o OpenAI o3. Sua configuração mais poderosa, o3 high, foi estimada originalmente em cerca de US$ 3.000 para resolver um único problema ARC-AGI. Agora foi estabelecido que o custo de manutenção é muito mais alto — possivelmente até US$ 30.000 por tarefa. Isso ilustra o quão caros até mesmo os modelos modernos de IA mais sofisticados podem ser para certas tarefas, pelo menos inicialmente. A OpenAI ainda não definiu um preço para o o3, e o modelo não foi disponibilizado publicamente, mas a Arc Prize Foundation sugeriu que o OpenAI o1-pro poderia ser usado como referência.

«Acreditamos que o1-pro é uma comparação mais próxima [para determinar] o valor real de o3 devido à quantidade de computação usada durante o teste. Mas esta não é uma estimativa exata, e deixamos o o3 como uma designação de pré-lançamento em nossa tabela de classificação para refletir a incerteza até que um preço oficial seja anunciado”, disse a Arc Prize Foundation ao TechCrunch. Sabe-se que, ao resolver um problema, o o3 alto usou 172 vezes mais recursos de computação no ARC-AGI do que o o3 baixo, o modelo mais fraco da linha.

Anteriormente, sabia-se que os planos tarifários para sistemas OpenAI avançados podem ser extremamente caros – até US$ 20.000 por mês para o trabalho de agentes de IA especializados. No entanto, os modelos são propensos a erros: o mesmo o3 alto precisou de 1024 tentativas para resolver cada problema do teste ARC-AGI para mostrar o melhor resultado.

avalanche

Postagens recentes

Estudo: 9 em cada 10 dicas financeiras de blogueiros foram consideradas ruins – mas as pessoas ainda ficaram satisfeitas.

Segundo um estudo realizado no Reino Unido, os conselhos de influenciadores financeiros nas redes sociais…

6 horas atrás

Agora você pode programar em qualquer lugar: o ChatGPT para smartphones agora tem o Codex.

A OpenAI aprimorou o aplicativo móvel ChatGPT para desenvolvedores que trabalham em qualquer lugar, adicionando…

6 horas atrás

A Samsung iniciou cortes emergenciais na produção em antecipação a uma greve em massa.

A Samsung Electronics está se preparando para uma greve geral de 18 dias, planejada pelos…

6 horas atrás

A Cerebras realizou o maior IPO deste ano, com as ações da concorrente da Nvidia disparando 68% no primeiro dia.

As ações da Cerebras Systems, que começaram a ser negociadas ontem na bolsa Nasdaq, fecharam…

6 horas atrás

A Hobot lançou o robô de limpeza de janelas Hobot SP10, equipado com raspadores móveis para resultados impecáveis.

A HOBOT lançou o robô de limpeza de janelas Hobot SP10, o primeiro do setor…

6 horas atrás

A JCB apresenta o Hydromax, um caminhão de corrida movido a hidrogênio com 1.200 cavalos de potência, projetado para quebrar recordes.

Recentemente, a empresa britânica JCB apresentou o Hydromax, um veículo de alta velocidade movido a…

6 horas atrás