Os chineses treinaram um análogo do GPT-4 com apenas 2.000 chips e 33 vezes mais barato que OpenAI

Fonte da imagem: Copiloto

A conquista da 01.ai é especialmente notável dado o acesso limitado que as empresas chinesas têm às GPUs avançadas da Nvidia. O fundador e CEO da empresa, Kai-Fu Lee, destaca que, apesar das empresas chinesas praticamente não terem acesso às GPUs Nvidia devido às regulamentações dos EUA, o modelo de IA da Yi-Lightning ficou em sexto lugar nos modelos de classificação de desempenho de acordo com a versão LMSIS da Universidade da Califórnia em Berkeley.

Fonte da imagem: NVIDIA

«Meus amigos no Vale do Silício estão chocados não apenas com nosso desempenho, mas também com o fato de termos treinado um modelo por apenas US$ 3 milhões”, disse Kai-Fu Lee. “Há rumores de que aproximadamente US$ 1 bilhão já foi investido no treinamento do GPT-5.” Acrescentou ainda que devido às sanções dos EUA, as empresas na China são obrigadas a procurar soluções mais eficientes e económicas, que foi o que 01.ai conseguiu alcançar ao optimizar recursos e ideias de engenharia, ao mesmo tempo que obteve resultados semelhantes aos do GPT-4. a custos significativamente mais baixos.

Em vez de aumentar o poder computacional como os concorrentes estão fazendo, a empresa concentrou-se na otimização de algoritmos e na redução de gargalos de processamento. “Quando temos apenas 2.000 GPUs, temos que descobrir como usá-las [efetivamente]”, disse Lee.

Como resultado, os custos de produção do modelo foram de apenas 10 centavos por milhão de tokens, o que é aproximadamente 30 vezes menor que modelos semelhantes. “Transformamos o problema computacional em um problema de memória construindo um cache multinível, criando um mecanismo de inferência especial e assim por diante”, Li compartilhou os detalhes.

Apesar das afirmações sobre o baixo custo de treinamento do modelo Yi-Lightning, permanecem dúvidas sobre o tipo e o número de GPUs usadas. O chefe da 01.ai afirma que a empresa tem recursos suficientes para implementar seus planos por um ano e meio, mas um cálculo simples mostra que 2.000 GPUs Nvidia H100 modernas ao preço atual de US$ 30.000 por unidade custariam US$ 6 milhões, o que é o dobro dos custos declarados. Esta discrepância levanta questões e requer esclarecimentos adicionais. No entanto, a conquista da empresa já atraiu a atenção da comunidade mundial e mostrou que a inovação no campo da IA ​​pode nascer mesmo em condições de recursos computacionais limitados.

avalanche

Postagens recentes

SRAM, e apenas: d-Matrix está preparando um acelerador de IA para Corsair

A startup d-Matrix criou um acelerador Corsair AI otimizado para inferência rápida em lote de…

2 horas atrás

Um modder do Nintendo Switch foi preso pela primeira vez no Japão, mas não por emulação, mas por jogos piratas

Um homem de 58 anos no Japão foi preso por vender Nintendo Switches modificados com…

5 horas atrás

Um entusiasta portou Doom diretamente para um documento do Word – o jogo funciona bem, mas não há som

O engenheiro de software Wojciech Graj, da Holanda, conseguiu o que parecia impossível ao portar…

5 horas atrás

O TikTok retomou o trabalho nos EUA – graças aos esforços de Trump, o bloqueio durou menos de um dia

A TikTok anunciou que está retomando seu serviço de vídeos curtos nos EUA após uma…

10 horas atrás

A Alemanha lançou o supercomputador “transitório” Hunter de 48 Pflops baseado no AMD Instinct MI300A

O Centro HLRS para Computação de Alto Desempenho da Universidade de Stuttgart, na Alemanha, anunciou…

11 horas atrás