Em dezembro, a OpenAI revelou seu modelo de raciocínio de IA o3 e mostrou os resultados do benchmark ARC-AGI, o teste mais desafiador para avaliar as capacidades de IA. Agora, os resultados dos testes tiveram que ser revisados e parecem menos impressionantes: o modelo acabou sendo caro demais para manter.
Fonte da imagem: Mariia Shalabaieva / unsplash.com
Na semana passada, a Arc Prize Foundation, a organização por trás do ARC-AGI, atualizou sua estimativa de custo de computação para o OpenAI o3. Sua configuração mais poderosa, o3 high, foi estimada originalmente em cerca de US$ 3.000 para resolver um único problema ARC-AGI. Agora foi estabelecido que o custo de manutenção é muito mais alto — possivelmente até US$ 30.000 por tarefa. Isso ilustra o quão caros até mesmo os modelos modernos de IA mais sofisticados podem ser para certas tarefas, pelo menos inicialmente. A OpenAI ainda não definiu um preço para o o3, e o modelo não foi disponibilizado publicamente, mas a Arc Prize Foundation sugeriu que o OpenAI o1-pro poderia ser usado como referência.
«Acreditamos que o1-pro é uma comparação mais próxima [para determinar] o valor real de o3 devido à quantidade de computação usada durante o teste. Mas esta não é uma estimativa exata, e deixamos o o3 como uma designação de pré-lançamento em nossa tabela de classificação para refletir a incerteza até que um preço oficial seja anunciado”, disse a Arc Prize Foundation ao TechCrunch. Sabe-se que, ao resolver um problema, o o3 alto usou 172 vezes mais recursos de computação no ARC-AGI do que o o3 baixo, o modelo mais fraco da linha.
Anteriormente, sabia-se que os planos tarifários para sistemas OpenAI avançados podem ser extremamente caros – até US$ 20.000 por mês para o trabalho de agentes de IA especializados. No entanto, os modelos são propensos a erros: o mesmo o3 alto precisou de 1024 tentativas para resolver cada problema do teste ARC-AGI para mostrar o melhor resultado.
As mudanças recentemente anunciadas pela nova CEO da Microsoft Gaming, Asha Sharma, para o serviço…
Em seu evento Tech Day, a CATL apresentou um avanço na tecnologia de baterias: a…
Na apresentação de hoje da startup X Square Robot em Pequim, robôs humanoides coletaram lixo…
Uma amostra do drive Kioxia BG7, baseado em memória flash NAND 3D TLC de 218…
As vendas do processador topo de linha Ryzen 9 9950X3D2 Dual Edition, com cache 3D…
A Microsoft publicou uma análise de segurança detalhada do Windows 11, que demonstra que a…