O Ant Group revelou um novo método para treinar modelos de IA que podem usar semicondutores chineses, incluindo chips da Huawei e Alibaba. A empresa adotou a arquitetura Mixture of Experts e já obteve resultados comparáveis aos que utilizam unidades de processamento gráfico (GPUs) Nvidia H800, fortalecendo a posição da China em meio às restrições impostas pelos EUA.
Fonte da imagem: Ant Group CO
A conquista representa um marco importante na batalha tecnológica entre empresas chinesas e americanas, que aumentou drasticamente desde que a DeepSeek provou que é possível construir modelos modernos de grandes linguagens (LLMs) sem os bilhões de dólares investidos pela OpenAI e pelo Google. Embora o Ant Group ainda use soluções da Nvidia em alguns projetos, a empresa está favorecendo fornecedores alternativos, incluindo a AMD, bem como fabricantes locais de semicondutores chineses, para novos desenvolvimentos, especialmente em face da crescente pressão das restrições de exportação dos EUA. Isso permite que as empresas chinesas mantenham o ritmo do progresso tecnológico e reduzam sua dependência de fornecedores estrangeiros, principalmente a Nvidia.
De acordo com um artigo de pesquisa publicado em março, o Ant Group afirma que seus modelos de IA superaram os da Meta em certos testes. Entretanto, essas alegações ainda não foram confirmadas de forma independente. É importante observar que o H800, embora não seja o acelerador de ponta da Nvidia, continua sendo uma ferramenta poderosa capaz de lidar com tarefas exigentes de treinamento de IA. Graças à sua própria estratégia otimizada, o Ant Group conseguiu reduzir o custo de treinamento de um modelo de IA com capacidade de 1 trilhão de tokens de 6,35 milhões de yuans (US$ 880.000) para 5,1 milhões de yuans (US$ 707.000). Nesse contexto, os tokens são as menores unidades de texto nas quais os LLMs são treinados para posteriormente gerar respostas significativas às consultas dos usuários.
A empresa anunciou sua intenção de implementar seus novos modelos de linguagem, Ling-Plus e Ling-Lite, em soluções voltadas para aplicações industriais, incluindo saúde e finanças. O Ant Group já adquiriu a plataforma chinesa de serviços médicos online Haodf.com para expandir os recursos de sua infraestrutura de IA no setor de saúde. A empresa também está desenvolvendo o aplicativo móvel Zhixiaobao, posicionado como um assistente de IA para a vida cotidiana, bem como o Maxiaocai, um serviço baseado em IA que fornece consultoria financeira.
A pesquisa publicada destaca que o modelo Ling-Lite teve melhor desempenho em um teste importante de inglês do que uma versão do Llama do Meta✴. Ao mesmo tempo, ambos os modelos – Ling-Lite e Ling-Plus – superaram seus equivalentes DeepSeek em benchmarks de língua chinesa. O Ling-Lite contém 16,8 bilhões de parâmetros — estes são elementos configuráveis do modelo que determinam seu comportamento ao gerar texto. O modelo Ling-Plus contém 290 bilhões de parâmetros e, em termos de escala, pertence à categoria de grandes sistemas de linguagem. Ambos os modelos foram lançados para a comunidade de desenvolvedores como soluções de código aberto. De acordo com a MIT Technology Review, o GPT-4.5 da OpenAI contém cerca de 1,8 trilhão de parâmetros, enquanto o DeepSeek-R1 tem 671 bilhões.
A arquitetura Mixture of Experts usada nos modelos Ling envolve a ativação de sub-redes individuais dentro do modelo, dependendo do tipo de tarefa, garantindo assim a distribuição ideal dos recursos de computação. Este sistema se assemelha a uma equipe de especialistas, na qual cada elemento do modelo de IA é responsável por uma função estritamente definida e altamente especializada. Entretanto, surgiram dificuldades durante o processo de treinamento: conforme relatado no artigo científico, mesmo pequenas alterações na configuração do hardware ou na estrutura do modelo levaram a um aumento acentuado no número de erros. Essa instabilidade torna o processo de aprendizagem sensível aos parâmetros ambientais e exige adaptação adicional em cada etapa.
Os displays de tinta eletrônica (e-paper) são valorizados por sua facilidade de leitura e baixo…
A Lenovo revelou o console portátil Legion Go de segunda geração, com preço inicial de…
O modelo generativo para criação de vídeos do Google Veo 3 recebeu suporte para o…
Lisa Su, CEO da AMD, fará uma apresentação na maior feira de eletrônicos do mundo,…
Os desenvolvedores do estúdio australiano Team Cherry ouviram inúmeras reclamações de usuários do metroidvania Hollow…
A Canon parece ter aproveitado o ressurgimento das câmeras digitais compactas nas redes sociais e…