O Ant Group revelou um novo método para treinar modelos de IA que podem usar semicondutores chineses, incluindo chips da Huawei e Alibaba. A empresa adotou a arquitetura Mixture of Experts e já obteve resultados comparáveis aos que utilizam unidades de processamento gráfico (GPUs) Nvidia H800, fortalecendo a posição da China em meio às restrições impostas pelos EUA.
Fonte da imagem: Ant Group CO
A conquista representa um marco importante na batalha tecnológica entre empresas chinesas e americanas, que aumentou drasticamente desde que a DeepSeek provou que é possível construir modelos modernos de grandes linguagens (LLMs) sem os bilhões de dólares investidos pela OpenAI e pelo Google. Embora o Ant Group ainda use soluções da Nvidia em alguns projetos, a empresa está favorecendo fornecedores alternativos, incluindo a AMD, bem como fabricantes locais de semicondutores chineses, para novos desenvolvimentos, especialmente em face da crescente pressão das restrições de exportação dos EUA. Isso permite que as empresas chinesas mantenham o ritmo do progresso tecnológico e reduzam sua dependência de fornecedores estrangeiros, principalmente a Nvidia.
De acordo com um artigo de pesquisa publicado em março, o Ant Group afirma que seus modelos de IA superaram os da Meta em certos testes. Entretanto, essas alegações ainda não foram confirmadas de forma independente. É importante observar que o H800, embora não seja o acelerador de ponta da Nvidia, continua sendo uma ferramenta poderosa capaz de lidar com tarefas exigentes de treinamento de IA. Graças à sua própria estratégia otimizada, o Ant Group conseguiu reduzir o custo de treinamento de um modelo de IA com capacidade de 1 trilhão de tokens de 6,35 milhões de yuans (US$ 880.000) para 5,1 milhões de yuans (US$ 707.000). Nesse contexto, os tokens são as menores unidades de texto nas quais os LLMs são treinados para posteriormente gerar respostas significativas às consultas dos usuários.
A empresa anunciou sua intenção de implementar seus novos modelos de linguagem, Ling-Plus e Ling-Lite, em soluções voltadas para aplicações industriais, incluindo saúde e finanças. O Ant Group já adquiriu a plataforma chinesa de serviços médicos online Haodf.com para expandir os recursos de sua infraestrutura de IA no setor de saúde. A empresa também está desenvolvendo o aplicativo móvel Zhixiaobao, posicionado como um assistente de IA para a vida cotidiana, bem como o Maxiaocai, um serviço baseado em IA que fornece consultoria financeira.
A pesquisa publicada destaca que o modelo Ling-Lite teve melhor desempenho em um teste importante de inglês do que uma versão do Llama do Meta✴. Ao mesmo tempo, ambos os modelos – Ling-Lite e Ling-Plus – superaram seus equivalentes DeepSeek em benchmarks de língua chinesa. O Ling-Lite contém 16,8 bilhões de parâmetros — estes são elementos configuráveis do modelo que determinam seu comportamento ao gerar texto. O modelo Ling-Plus contém 290 bilhões de parâmetros e, em termos de escala, pertence à categoria de grandes sistemas de linguagem. Ambos os modelos foram lançados para a comunidade de desenvolvedores como soluções de código aberto. De acordo com a MIT Technology Review, o GPT-4.5 da OpenAI contém cerca de 1,8 trilhão de parâmetros, enquanto o DeepSeek-R1 tem 671 bilhões.
A arquitetura Mixture of Experts usada nos modelos Ling envolve a ativação de sub-redes individuais dentro do modelo, dependendo do tipo de tarefa, garantindo assim a distribuição ideal dos recursos de computação. Este sistema se assemelha a uma equipe de especialistas, na qual cada elemento do modelo de IA é responsável por uma função estritamente definida e altamente especializada. Entretanto, surgiram dificuldades durante o processo de treinamento: conforme relatado no artigo científico, mesmo pequenas alterações na configuração do hardware ou na estrutura do modelo levaram a um aumento acentuado no número de erros. Essa instabilidade torna o processo de aprendizagem sensível aos parâmetros ambientais e exige adaptação adicional em cada etapa.
No verão passado, o futuro de Hytale, o ambicioso RPG sandbox baseado em blocos inspirado…
Embora a hélice e seus derivados tenham permanecido por muito tempo como o principal elemento…
Hoje, o Gabinete de Comunicações do Reino Unido (Ofcom) iniciou uma investigação para determinar se…
No início de 2026, a Realme retornou oficialmente ao grupo Oppo como uma submarca e…
O jogo de ação cooperativo The Division, de Tom Clancy, completará dez anos em 2026,…
Após um hiato de quase um mês, a coluna "Calendário de Lançamentos" está de volta.…