Categorias: Mercado de tecnologia e TI. notíciaServidores, clusters, supercomputadores, computadores industriais e multiprocessadores

O Alibaba encontrou uma maneira de reduzir o número de aceleradores Nvidia que utiliza em 82%.

A escassez de poder computacional inerente ao mercado de IA em desenvolvimento dinâmico na China é agravada pelas restrições à importação de aceleradores especializados. Os desenvolvedores são forçados a otimizar, e o Alibaba encontrou uma maneira de reduzir em 82% o número de aceleradores Nvidia necessários para executar seus modelos de linguagem.

Fonte da imagem: Nvidia

Como explica o South China Morning Post, os testes beta do sistema Aegaeon já estão em andamento em uma das divisões da Alibaba Cloud há mais de três meses. A Alibaba apresentou o sistema no evento SOSP na capital sul-coreana, alegando que o sistema reduziu o número de aceleradores Nvidia H20 que atendem a dezenas de modelos de linguagem de 1.192 para 213. Os modelos de linguagem correspondentes, explica a fonte, usam até 72 milhões de parâmetros.

Representantes da Alibaba colaboraram com pesquisadores da Universidade de Pequim no desenvolvimento deste sistema, chamando-o de “a primeira tentativa de identificar os custos desnecessários associados ao atendimento simultâneo de cargas de trabalho com grandes modelos de linguagem”. Provedores de nuvem como a Alibaba enfrentam a necessidade de atender simultaneamente a milhares de modelos de IA, mas no espaço de inferência, apenas alguns modelos, como Qwen ou DeepSeek, são usados com mais frequência, com outros sendo chamados raramente. Isso leva ao desperdício de recursos. No ecossistema da Alibaba Cloud, por exemplo, até 17,7% dos aceleradores são alocados para processar 1,35% das solicitações.

Pesquisadores em todo o mundo começaram a propor maneiras de melhorar a utilização de recursos computacionais por meio de pooling, onde uma única GPU atende a vários modelos. O sistema da Aegaeon utiliza escalonamento automático em nível de token, permitindo que as GPUs alternem entre diferentes modelos diretamente durante a geração de tokens. Como resultado, uma única GPU pode processar até sete modelos, enquanto sistemas projetados alternativamente podem lidar com dois ou três, no máximo. Latências de comutaçãoEntre os modelos, a queda foi de 97% para o Aegaeon.

O Alibaba está testando esse sistema no marketplace de modelos Bailian, que oferece modelos Qwen para usuários corporativos. Os aceleradores Nvidia H20, desenvolvidos especificamente para o mercado chinês pela empresa americana de mesmo nome, foram temporariamente proibidos de serem enviados para a China em abril, mas a proibição foi suspensa no verão. No entanto, as autoridades chinesas começaram a recomendar fortemente que os desenvolvedores nacionais priorizassem componentes de origem local. Como resultado, a posição da Nvidia no mercado chinês de chips avançados de IA literalmente encolheu a zero, de acordo com o executivo da empresa.

admin

Próximo Pesquisas descobriram que a IA acelerou o pensamento dos adolescentes, mas há um problema. »

Anterior « A OpenAI não lançará o GPT-6 até o final de 2025.

Deixar comentário

Publicado por

admin

8 meses atrás

Postagens recentes

O mundo da robótica

Robôs substituirão eventualmente até 700 mil entregadores na JD.com, na China, afirmou o CEO da empresa.

A logística é uma área em que a automação vem trazendo benefícios tangíveis há muitos…

23 minutos atrás

Espaço

Um objeto misterioso se desprendeu da espaçonave reutilizável secreta da China, que estava em órbita.

Segundo um relatório de um serviço comercial de rastreamento espacial, a espaçonave chinesa Shenlong liberou…

23 minutos atrás

Módulos de RAM, cartões de memória, pen drives, leitores de cartões

A Samsung apresentou sua primeira memória UFS 5.0 para smartphones, embora não sejam os SSDs PCIe 5.0 mais rápidos.

A Samsung desenvolveu o primeiro pen drive compatível com o mais recente padrão UFS 5.0.…

23 minutos atrás

Módulos de RAM, cartões de memória, pen drives, leitores de cartões

A Samsung já lucrou mais de US$ 1 bilhão com as remessas de HBM4, enquanto a SK Hynix começou a restringir sua expansão de fornecimento.

A Samsung Electronics anunciou o início dos envios de memória HBM4 em fevereiro deste ano,…

23 minutos atrás

Notícias e análises financeiras

As ações da Alphabet sofreram sua pior queda em mais de um ano, com a empresa despencando 5% durante a noite.

Ontem, 22 de junho de 2026, o Google teve seu pior dia na bolsa de…

38 minutos atrás

Comentários sobre eventos recentes

Um supercomputador híbrido quântico-clássico, o Roquo, com desempenho de 19,8 petaflops, foi lançado no Japão.

O supercomputador híbrido quântico-clássico Roquo, batizado em homenagem ao Monte Rokko, ao norte de Kobe,…

52 minutos atrás

O Alibaba encontrou uma maneira de reduzir o número de aceleradores Nvidia que utiliza em 82%.

Conteúdo relacionado

Postagens recentes

Robôs substituirão eventualmente até 700 mil entregadores na JD.com, na China, afirmou o CEO da empresa.

Um objeto misterioso se desprendeu da espaçonave reutilizável secreta da China, que estava em órbita.

A Samsung apresentou sua primeira memória UFS 5.0 para smartphones, embora não sejam os SSDs PCIe 5.0 mais rápidos.

A Samsung já lucrou mais de US$ 1 bilhão com as remessas de HBM4, enquanto a SK Hynix começou a restringir sua expansão de fornecimento.

As ações da Alphabet sofreram sua pior queda em mais de um ano, com a empresa despencando 5% durante a noite.

Um supercomputador híbrido quântico-clássico, o Roquo, com desempenho de 19,8 petaflops, foi lançado no Japão.