A OpenAI só pode invejar: treinar o modelo de IA chinês DeepSeek R1 custou apenas US$ 294.000.

A empresa chinesa DeepSeek informou que gastou US$ 294.000 treinando seu modelo de inteligência artificial R1, significativamente menos do que seus concorrentes americanos. A informação foi publicada na revista acadêmica Nature. Analistas esperam que a publicação renove as discussões sobre o lugar da China na corrida pelo desenvolvimento da inteligência artificial.

Fonte da imagem: DeepSeek

O lançamento de sistemas de IA de custo relativamente baixo pela DeepSeek em janeiro levou investidores globais a se desfazerem de ações de tecnologia, temendo uma queda nos preços. Desde então, a DeepSeek e seu fundador, Liang Wenfeng, praticamente desapareceram da vista do público, exceto por alguns anúncios de atualizações de produtos. Ontem, a revista Nature publicou um artigo coautorado por Liang. O artigo divulgou oficialmente pela primeira vez o custo do treinamento do modelo R1, bem como o modelo e o número de aceleradores de IA utilizados.

O custo do treinamento de grandes modelos de linguagem, que sustentam os chatbots de IA, refere-se aos custos associados ao uso de sistemas computacionais poderosos por semanas ou meses para processar grandes volumes de texto e código.

O artigo afirma que o treinamento do modelo de raciocínio R1 custou US$ 294.000 e exigiu 512 aceleradores Nvidia H800. Sam Altman, chefe da OpenAI, líder americana em IA, afirmou em 2023 que o treinamento de um modelo base custava “bem mais” de US$ 100 milhões, embora a empresa não tenha fornecido uma análise detalhada desses custos. Se compararmos esses números diretamente, a diferença nos custos de treinamento de modelos de IA é de 340 vezes!

Algumas das alegações da DeepSeek sobre os custos de desenvolvimento e as tecnologias utilizadas foram questionadas por empresas e autoridades americanas. Os aceleradores H800 foram desenvolvidos pela Nvidia para o mercado chinês depois que os EUA proibiram a empresa de exportar suas soluções H100 e A100 mais potentes para a China em outubro de 2022. Em junho, as autoridadesOs EUA alegaram que a DeepSeek tinha acesso a “grandes volumes” de dispositivos H100 adquiridos após a introdução dos controles de exportação. A Nvidia refutou essa alegação, afirmando que a DeepSeek utilizou chips H800 adquiridos legalmente, e não H100s.

Agora, em um documento informativo suplementar que acompanha o artigo da Nature, a DeepSeek reconheceu a posse de aceleradores A100 e relatou tê-los utilizado em estágios preparatórios de desenvolvimento. “Para o nosso estudo DeepSeek-R1, usamos GPUs A100 para nos prepararmos para experimentos com um modelo menor”, escreveram os pesquisadores. Após essa fase inicial de treinamento, o modelo R1 foi treinado por um total de 80 horas em um cluster de 512 aceleradores H800.

A Reuters relatou anteriormente que um dos motivos pelos quais a DeepSeek conseguiu atrair os melhores talentos em IA foi o fato de ser uma das poucas empresas chinesas a operar o cluster de supercomputadores A100.

admin

Postagens recentes

A Yandex realizará a conferência Search Day na próxima semana.

A Yandex anunciou sua próxima conferência Search Day, agendada para 7 de abril. No evento,…

18 minutos atrás

O calor dos centros de dados de IA começou a afetar o clima — até agora apenas localmente, mas está tendo um impacto significativo nos países vizinhos.

Uma equipe de cientistas da Universidade de Cambridge publicou um artigo com os resultados de…

18 minutos atrás

A Blizzard despertou a curiosidade dos fãs de StarCraft com uma nova vaga de emprego: um jogo de tiro em mundo aberto desenvolvido na Unreal Engine.

De acordo com um novo anúncio de emprego, a editora e desenvolvedora americana Blizzard Entertainment…

42 minutos atrás

De um jeito ou de outro: o Microsoft Edge será aberto automaticamente sempre que você fizer login no Windows 11.

A Microsoft está testando um novo modelo de comportamento para o navegador Edge no Windows…

42 minutos atrás

Estatísticas do Steam em março: Linux ultrapassa macOS, popularidade da RTX 5070 volta à realidade e AMD conquista mais participação de mercado da Intel.

A pesquisa de hardware do Steam de março registrou um aumento significativo na participação de…

2 horas atrás