O modelo de IA mais poderoso da OpenAI, o3, gasta até US$ 30.000 para resolver um problema

Em dezembro, a OpenAI revelou seu modelo de raciocínio de IA o3 e mostrou os resultados do benchmark ARC-AGI, o teste mais desafiador para avaliar as capacidades de IA. Agora, os resultados dos testes tiveram que ser revisados ​​e parecem menos impressionantes: o modelo acabou sendo caro demais para manter.

Fonte da imagem: Mariia Shalabaieva / unsplash.com

Na semana passada, a Arc Prize Foundation, a organização por trás do ARC-AGI, atualizou sua estimativa de custo de computação para o OpenAI o3. Sua configuração mais poderosa, o3 high, foi estimada originalmente em cerca de US$ 3.000 para resolver um único problema ARC-AGI. Agora foi estabelecido que o custo de manutenção é muito mais alto — possivelmente até US$ 30.000 por tarefa. Isso ilustra o quão caros até mesmo os modelos modernos de IA mais sofisticados podem ser para certas tarefas, pelo menos inicialmente. A OpenAI ainda não definiu um preço para o o3, e o modelo não foi disponibilizado publicamente, mas a Arc Prize Foundation sugeriu que o OpenAI o1-pro poderia ser usado como referência.

«Acreditamos que o1-pro é uma comparação mais próxima [para determinar] o valor real de o3 devido à quantidade de computação usada durante o teste. Mas esta não é uma estimativa exata, e deixamos o o3 como uma designação de pré-lançamento em nossa tabela de classificação para refletir a incerteza até que um preço oficial seja anunciado”, disse a Arc Prize Foundation ao TechCrunch. Sabe-se que, ao resolver um problema, o o3 alto usou 172 vezes mais recursos de computação no ARC-AGI do que o o3 baixo, o modelo mais fraco da linha.

Anteriormente, sabia-se que os planos tarifários para sistemas OpenAI avançados podem ser extremamente caros – até US$ 20.000 por mês para o trabalho de agentes de IA especializados. No entanto, os modelos são propensos a erros: o mesmo o3 alto precisou de 1024 tentativas para resolver cada problema do teste ARC-AGI para mostrar o melhor resultado.

avalanche

Postagens recentes

Empresas privadas têm interrompido o desenvolvimento dos trajes espaciais da NASA para a Lua e a ISS — o projeto está se tornando mais caro e estagnado.

A auditoria do Inspetor Geral da NASA sobre o programa de desenvolvimento do novo traje…

32 minutos atrás

A TP-Link garantiu às autoridades americanas que, por ser uma empresa americana, seus roteadores não seriam proibidos nos EUA.

Há um mês, as autoridades americanas proibiram a importação de todos os novos modelos de…

32 minutos atrás

Após a oferta pública inicial (IPO), Elon Musk manterá o controle da SpaceX – no ano passado, ele comprou US$ 1,4 bilhão em ações.

A startup aeroespacial SpaceX deve abrir seu capital neste trimestre, arrecadando US$ 75 bilhões e…

32 minutos atrás

Um modder aprimorou os gráficos de Dark Souls 2 com traçado de raios — uma nova versão beta do DS2LightingEngine já está disponível.

O ambicioso mod gráfico DS2LightingEngine para o RPG de ação hardcore Dark Souls 2 da…

1 hora atrás

O Google Fotos agora oferece novas ferramentas de retoque de fotos com um clique.

O Google adicionou ferramentas de retoque ao aplicativo Google Fotos para melhorias rápidas em retratos.…

1 hora atrás