Pesquisadores chineses passaram da inferência para o treinamento de modelos de IA em aceleradores da Huawei.

A China anunciou o uso bem-sucedido de chips Huawei Ascend 910C para concluir o pós-treinamento do modelo DeepSeek-V4-Pro, marcando um avanço significativo para a indústria nacional de semicondutores, que busca ir além da inferência básica de IA para treinamentos mais complexos em meio ao endurecimento das sanções dos EUA, segundo o South China Morning Post.

Fonte da imagem: Igor Omilaev/unsplash.com

Após o sucesso no suporte à inferência de IA relativamente simples, os fabricantes de chips chineses encontraram dificuldades em dominar um processo de treinamento muito mais complexo.

Conforme relatado pelo governo de Shenzhen, como parte do projeto, uma equipe de pesquisa que inclui a Huawei Technologies lançou o maior modelo DeepSeek até o momento, com 1,6 trilhão de parâmetros, em um cluster de computação alimentado por pelo menos 1.000 chips da Huawei. Isso resultou em um pós-treinamento “totalmente paramétrico”, o que significa que toda a arquitetura do modelo foi atualizada e aprimorada sem concessões.

Enquanto anteriormente, a inferência usando poder computacional doméstico se assemelhava a “construir uma estrada de mão única para o modelo: inserir uma pergunta, obter uma resposta”, graças ao projeto, o modelo será capaz de autorreflexão e ajustes. Isso adicionou “cruzamentos e loops complexos a essa estrada de mão única, multiplicando instantaneamente as demandas de computação e comunicação”, observou o relatório.

Esta pesquisa, conduzida em conjunto pela Huawei, o Instituto da Rodovia Circular de Shenzhen, o Campus de Shenzhen do Instituto de Tecnologia de Harbin e o Instituto de Pesquisa de Big Data de Shenzhen, “ajudará a aumentar a autossuficiência da indústria de IA da China”, afirmou o governo de Shenzhen.

Pesquisadores chineses passaram da inferência para o treinamento de modelos de IA em aceleradores da Huawei.

Byadmin

By admin

Veja Mais

O próximo modelo de IA da OpenAI está sendo desenvolvido por outro modelo de IA — a superinteligência está mais próxima do que nunca.

A OpenAI concordou em fornecer seus novos modelos de IA às autoridades americanas para análise.

Empresas de TI americanas começaram a optar pela DeepSeek AI por ser mais barata.

Deixe um comentário Cancelar resposta