O Ant Group descobriu como treinar IA de forma eficaz em chips chineses em vez da Nvidia

O Ant Group revelou um novo método para treinar modelos de IA que podem usar semicondutores chineses, incluindo chips da Huawei e Alibaba. A empresa adotou a arquitetura Mixture of Experts e já obteve resultados comparáveis ​​aos que utilizam unidades de processamento gráfico (GPUs) Nvidia H800, fortalecendo a posição da China em meio às restrições impostas pelos EUA.

Fonte da imagem: Ant Group CO

A conquista representa um marco importante na batalha tecnológica entre empresas chinesas e americanas, que aumentou drasticamente desde que a DeepSeek provou que é possível construir modelos modernos de grandes linguagens (LLMs) sem os bilhões de dólares investidos pela OpenAI e pelo Google. Embora o Ant Group ainda use soluções da Nvidia em alguns projetos, a empresa está favorecendo fornecedores alternativos, incluindo a AMD, bem como fabricantes locais de semicondutores chineses, para novos desenvolvimentos, especialmente em face da crescente pressão das restrições de exportação dos EUA. Isso permite que as empresas chinesas mantenham o ritmo do progresso tecnológico e reduzam sua dependência de fornecedores estrangeiros, principalmente a Nvidia.

De acordo com um artigo de pesquisa publicado em março, o Ant Group afirma que seus modelos de IA superaram os da Meta em certos testes. Entretanto, essas alegações ainda não foram confirmadas de forma independente. É importante observar que o H800, embora não seja o acelerador de ponta da Nvidia, continua sendo uma ferramenta poderosa capaz de lidar com tarefas exigentes de treinamento de IA. Graças à sua própria estratégia otimizada, o Ant Group conseguiu reduzir o custo de treinamento de um modelo de IA com capacidade de 1 trilhão de tokens de 6,35 milhões de yuans (US$ 880.000) para 5,1 milhões de yuans (US$ 707.000). Nesse contexto, os tokens são as menores unidades de texto nas quais os LLMs são treinados para posteriormente gerar respostas significativas às consultas dos usuários.

A empresa anunciou sua intenção de implementar seus novos modelos de linguagem, Ling-Plus e Ling-Lite, em soluções voltadas para aplicações industriais, incluindo saúde e finanças. O Ant Group já adquiriu a plataforma chinesa de serviços médicos online Haodf.com para expandir os recursos de sua infraestrutura de IA no setor de saúde. A empresa também está desenvolvendo o aplicativo móvel Zhixiaobao, posicionado como um assistente de IA para a vida cotidiana, bem como o Maxiaocai, um serviço baseado em IA que fornece consultoria financeira.

A pesquisa publicada destaca que o modelo Ling-Lite teve melhor desempenho em um teste importante de inglês do que uma versão do Llama do Meta✴. Ao mesmo tempo, ambos os modelos – Ling-Lite e Ling-Plus – superaram seus equivalentes DeepSeek em benchmarks de língua chinesa. O Ling-Lite contém 16,8 bilhões de parâmetros — estes são elementos configuráveis ​​do modelo que determinam seu comportamento ao gerar texto. O modelo Ling-Plus contém 290 bilhões de parâmetros e, em termos de escala, pertence à categoria de grandes sistemas de linguagem. Ambos os modelos foram lançados para a comunidade de desenvolvedores como soluções de código aberto. De acordo com a MIT Technology Review, o GPT-4.5 da OpenAI contém cerca de 1,8 trilhão de parâmetros, enquanto o DeepSeek-R1 tem 671 bilhões.

A arquitetura Mixture of Experts usada nos modelos Ling envolve a ativação de sub-redes individuais dentro do modelo, dependendo do tipo de tarefa, garantindo assim a distribuição ideal dos recursos de computação. Este sistema se assemelha a uma equipe de especialistas, na qual cada elemento do modelo de IA é responsável por uma função estritamente definida e altamente especializada. Entretanto, surgiram dificuldades durante o processo de treinamento: conforme relatado no artigo científico, mesmo pequenas alterações na configuração do hardware ou na estrutura do modelo levaram a um aumento acentuado no número de erros. Essa instabilidade torna o processo de aprendizagem sensível aos parâmetros ambientais e exige adaptação adicional em cada etapa.

avalanche

Postagens recentes

A OpenAI e a Oracle ficaram sem dinheiro para expandir seu enorme centro de dados de IA no Texas.

A OpenAI e sua parceira de computação, a Oracle, abandonaram a expansão previamente planejada do…

21 minutos atrás

A X começou a testar “publicidade sem anúncios” — recomendações de marcas diretamente abaixo das postagens.

A rede social X está testando um novo formato de publicidade que exibe uma recomendação…

2 horas atrás

Um entusiasta transformou um Sony PlayStation 5 em um PC gamer baseado em Linux e rodou GTA V nele.

O entusiasta Andy Nguyen rodou Linux em um PlayStation 5 da Sony, transformando-o em uma…

2 horas atrás

A DJI pagou US$ 30.000 a um usuário que acidentalmente invadiu o sistema de 7.000 aspiradores robô Romo.

Em fevereiro, foi revelado que várias vulnerabilidades haviam sido descobertas nos aspiradores robóticos DJI Romo.…

3 horas atrás

Fabricantes chineses de chips pediram às autoridades que criem uma “ASML chinesa”.

Altos executivos de empresas chinesas de semicondutores defenderam a coordenação de projetos nacionais entre 2026…

3 horas atrás