O modelo de IA mais poderoso da OpenAI, o3, gasta até US$ 30.000 para resolver um problema

Em dezembro, a OpenAI revelou seu modelo de raciocínio de IA o3 e mostrou os resultados do benchmark ARC-AGI, o teste mais desafiador para avaliar as capacidades de IA. Agora, os resultados dos testes tiveram que ser revisados ​​e parecem menos impressionantes: o modelo acabou sendo caro demais para manter.

Fonte da imagem: Mariia Shalabaieva / unsplash.com

Na semana passada, a Arc Prize Foundation, a organização por trás do ARC-AGI, atualizou sua estimativa de custo de computação para o OpenAI o3. Sua configuração mais poderosa, o3 high, foi estimada originalmente em cerca de US$ 3.000 para resolver um único problema ARC-AGI. Agora foi estabelecido que o custo de manutenção é muito mais alto — possivelmente até US$ 30.000 por tarefa. Isso ilustra o quão caros até mesmo os modelos modernos de IA mais sofisticados podem ser para certas tarefas, pelo menos inicialmente. A OpenAI ainda não definiu um preço para o o3, e o modelo não foi disponibilizado publicamente, mas a Arc Prize Foundation sugeriu que o OpenAI o1-pro poderia ser usado como referência.

«Acreditamos que o1-pro é uma comparação mais próxima [para determinar] o valor real de o3 devido à quantidade de computação usada durante o teste. Mas esta não é uma estimativa exata, e deixamos o o3 como uma designação de pré-lançamento em nossa tabela de classificação para refletir a incerteza até que um preço oficial seja anunciado”, disse a Arc Prize Foundation ao TechCrunch. Sabe-se que, ao resolver um problema, o o3 alto usou 172 vezes mais recursos de computação no ARC-AGI do que o o3 baixo, o modelo mais fraco da linha.

Anteriormente, sabia-se que os planos tarifários para sistemas OpenAI avançados podem ser extremamente caros – até US$ 20.000 por mês para o trabalho de agentes de IA especializados. No entanto, os modelos são propensos a erros: o mesmo o3 alto precisou de 1024 tentativas para resolver cada problema do teste ARC-AGI para mostrar o melhor resultado.

avalanche

Postagens recentes

“Fico feliz pelos meus tataranetos que viverão para ver o lançamento”: Kingdom Hearts 4 retorna do esquecimento com um novo trailer.

O ambicioso RPG de ação Kingdom Hearts 4, da desenvolvedora e publicadora japonesa Square Enix,…

28 minutos atrás

A Comissão Europeia exige que a Meta restaure o acesso de agentes de IA concorrentes no WhatsApp.

Em dezembro passado, as autoridades da UE iniciaram uma investigação antitruste contra a Meta✴Platforms, sob…

1 hora atrás

O Serviço Federal Antimonopólio verificará a legalidade da publicidade das operadoras sobre o 5G — “tecnologias que ainda não estão implementadas”.

O Serviço Federal Antimonopólio pretende analisar as promoções e a publicidade das operadoras de telecomunicações…

2 horas atrás

Taiwan está considerando limitar o fornecimento de chips de IA para a China como parte de sistemas já finalizados.

Embora demonstre sua lealdade política geral aos Estados Unidos, Taiwan ainda não impôs restrições proporcionais…

2 horas atrás

Os investidores estão prontos para comprar ações da SpaceX no valor de mais de US$ 250 bilhões, quatro vezes o valor da oferta.

Até recentemente, um aumento de duas vezes no número de pessoas dispostas a comprar ações…

5 horas atrás

A Microsoft corrigiu três vulnerabilidades zero-day perigosas e outras 200 falhas em seu software.

A Microsoft lançou sua atualização de junho na terça-feira de atualizações, corrigindo 200 vulnerabilidades, incluindo…

9 horas atrás