O Ant Group descobriu como treinar IA de forma eficaz em chips chineses em vez da Nvidia

O Ant Group revelou um novo método para treinar modelos de IA que podem usar semicondutores chineses, incluindo chips da Huawei e Alibaba. A empresa adotou a arquitetura Mixture of Experts e já obteve resultados comparáveis ​​aos que utilizam unidades de processamento gráfico (GPUs) Nvidia H800, fortalecendo a posição da China em meio às restrições impostas pelos EUA.

Fonte da imagem: Ant Group CO

A conquista representa um marco importante na batalha tecnológica entre empresas chinesas e americanas, que aumentou drasticamente desde que a DeepSeek provou que é possível construir modelos modernos de grandes linguagens (LLMs) sem os bilhões de dólares investidos pela OpenAI e pelo Google. Embora o Ant Group ainda use soluções da Nvidia em alguns projetos, a empresa está favorecendo fornecedores alternativos, incluindo a AMD, bem como fabricantes locais de semicondutores chineses, para novos desenvolvimentos, especialmente em face da crescente pressão das restrições de exportação dos EUA. Isso permite que as empresas chinesas mantenham o ritmo do progresso tecnológico e reduzam sua dependência de fornecedores estrangeiros, principalmente a Nvidia.

De acordo com um artigo de pesquisa publicado em março, o Ant Group afirma que seus modelos de IA superaram os da Meta em certos testes. Entretanto, essas alegações ainda não foram confirmadas de forma independente. É importante observar que o H800, embora não seja o acelerador de ponta da Nvidia, continua sendo uma ferramenta poderosa capaz de lidar com tarefas exigentes de treinamento de IA. Graças à sua própria estratégia otimizada, o Ant Group conseguiu reduzir o custo de treinamento de um modelo de IA com capacidade de 1 trilhão de tokens de 6,35 milhões de yuans (US$ 880.000) para 5,1 milhões de yuans (US$ 707.000). Nesse contexto, os tokens são as menores unidades de texto nas quais os LLMs são treinados para posteriormente gerar respostas significativas às consultas dos usuários.

A empresa anunciou sua intenção de implementar seus novos modelos de linguagem, Ling-Plus e Ling-Lite, em soluções voltadas para aplicações industriais, incluindo saúde e finanças. O Ant Group já adquiriu a plataforma chinesa de serviços médicos online Haodf.com para expandir os recursos de sua infraestrutura de IA no setor de saúde. A empresa também está desenvolvendo o aplicativo móvel Zhixiaobao, posicionado como um assistente de IA para a vida cotidiana, bem como o Maxiaocai, um serviço baseado em IA que fornece consultoria financeira.

A pesquisa publicada destaca que o modelo Ling-Lite teve melhor desempenho em um teste importante de inglês do que uma versão do Llama do Meta✴. Ao mesmo tempo, ambos os modelos – Ling-Lite e Ling-Plus – superaram seus equivalentes DeepSeek em benchmarks de língua chinesa. O Ling-Lite contém 16,8 bilhões de parâmetros — estes são elementos configuráveis ​​do modelo que determinam seu comportamento ao gerar texto. O modelo Ling-Plus contém 290 bilhões de parâmetros e, em termos de escala, pertence à categoria de grandes sistemas de linguagem. Ambos os modelos foram lançados para a comunidade de desenvolvedores como soluções de código aberto. De acordo com a MIT Technology Review, o GPT-4.5 da OpenAI contém cerca de 1,8 trilhão de parâmetros, enquanto o DeepSeek-R1 tem 671 bilhões.

A arquitetura Mixture of Experts usada nos modelos Ling envolve a ativação de sub-redes individuais dentro do modelo, dependendo do tipo de tarefa, garantindo assim a distribuição ideal dos recursos de computação. Este sistema se assemelha a uma equipe de especialistas, na qual cada elemento do modelo de IA é responsável por uma função estritamente definida e altamente especializada. Entretanto, surgiram dificuldades durante o processo de treinamento: conforme relatado no artigo científico, mesmo pequenas alterações na configuração do hardware ou na estrutura do modelo levaram a um aumento acentuado no número de erros. Essa instabilidade torna o processo de aprendizagem sensível aos parâmetros ambientais e exige adaptação adicional em cada etapa.

avalanche

Postagens recentes

Zephyr revela placa de vídeo compacta GeForce RTX 4070 Sakura Snow X em caixa cortada em CNC

A empresa chinesa Zephyr, famosa por sua abordagem de design fora do padrão, apresentou a…

2 horas atrás

A Kawasaki revelou um verdadeiro cavalo de ferro – uma motocicleta com pernas em vez de rodas que salta sobre ravinas

A empresa japonesa Kawasaki introduziu um novo tipo de transporte pessoal – literalmente um cavalo…

6 horas atrás

A Kawasaki revelou um verdadeiro cavalo de ferro – uma motocicleta com pernas em vez de rodas que salta sobre ravinas

A empresa japonesa Kawasaki introduziu um novo tipo de transporte pessoal – literalmente um cavalo…

6 horas atrás

PlayStation 5 e Xbox Series X enfrentam aumento de 40% nos preços devido a novas tarifas dos EUA

A decisão do governo do presidente dos EUA, Donald Trump, de impor altas tarifas sobre…

7 horas atrás

Tarifas de Trump tornarão a fabricação de chips nos EUA mais cara

Em breve, os fabricantes de chips americanos serão forçados a pagar mais pelos equipamentos que…

7 horas atrás