Pesquisadores chineses passaram da inferência para o treinamento de modelos de IA em aceleradores da Huawei.

A China anunciou o uso bem-sucedido de chips Huawei Ascend 910C para concluir o pós-treinamento do modelo DeepSeek-V4-Pro, marcando um avanço significativo para a indústria nacional de semicondutores, que busca ir além da inferência básica de IA para treinamentos mais complexos em meio ao endurecimento das sanções dos EUA, segundo o South China Morning Post.

Fonte da imagem: Igor Omilaev/unsplash.com

Após o sucesso no suporte à inferência de IA relativamente simples, os fabricantes de chips chineses encontraram dificuldades em dominar um processo de treinamento muito mais complexo.

Conforme relatado pelo governo de Shenzhen, como parte do projeto, uma equipe de pesquisa que inclui a Huawei Technologies lançou o maior modelo DeepSeek até o momento, com 1,6 trilhão de parâmetros, em um cluster de computação alimentado por pelo menos 1.000 chips da Huawei. Isso resultou em um pós-treinamento “totalmente paramétrico”, o que significa que toda a arquitetura do modelo foi atualizada e aprimorada sem concessões.

Enquanto anteriormente, a inferência usando poder computacional doméstico se assemelhava a “construir uma estrada de mão única para o modelo: inserir uma pergunta, obter uma resposta”, graças ao projeto, o modelo será capaz de autorreflexão e ajustes. Isso adicionou “cruzamentos e loops complexos a essa estrada de mão única, multiplicando instantaneamente as demandas de computação e comunicação”, observou o relatório.

Esta pesquisa, conduzida em conjunto pela Huawei, o Instituto da Rodovia Circular de Shenzhen, o Campus de Shenzhen do Instituto de Tecnologia de Harbin e o Instituto de Pesquisa de Big Data de Shenzhen, “ajudará a aumentar a autossuficiência da indústria de IA da China”, afirmou o governo de Shenzhen.

admin

Compartilhar
Publicado por
admin

Postagens recentes

A OpenAI apresentou o GPT-5.6 Sol, Terra e Luna, mas apenas alguns selecionados tiveram acesso aos novos modelos.

A OpenAI apresentou oficialmente sua família de modelos de linguagem GPT-5.6, que inclui três modelos…

1 hora atrás

Um criador de mods ensinou o controle do Steam a retornar automaticamente para a base de carregamento.

Um entusiasta criou uma ferramenta online que guia o novo controle Steam da Valve de…

2 horas atrás

Fãs de Resident Evil 2 identificaram o misterioso namorado de Jill Valentine após 28 anos de buscas.

Após 28 anos de buscas, os fãs do clássico jogo de terror e sobrevivência Resident…

3 horas atrás

A “multidão sem rosto” proibiu permanentemente o fundador da Wikipédia de editá-la.

A Wikipédia pode ser editada por qualquer um de seus 53 milhões de membros, mas…

3 horas atrás

‘Modelo de negócio insustentável’: Volkswagen prepara-se para demitir até 100 mil trabalhadores e fechar quatro fábricas.

Segundo fontes familiarizadas com o assunto, a Volkswagen está considerando fechar quatro fábricas na Alemanha…

4 horas atrás