Categorias: Mercado de tecnologia e TI. notíciaServidores, clusters, supercomputadores, computadores industriais e multiprocessadores

O Alibaba encontrou uma maneira de reduzir o número de aceleradores Nvidia que utiliza em 82%.

A escassez de poder computacional inerente ao mercado de IA em desenvolvimento dinâmico na China é agravada pelas restrições à importação de aceleradores especializados. Os desenvolvedores são forçados a otimizar, e o Alibaba encontrou uma maneira de reduzir em 82% o número de aceleradores Nvidia necessários para executar seus modelos de linguagem.

Fonte da imagem: Nvidia

Como explica o South China Morning Post, os testes beta do sistema Aegaeon já estão em andamento em uma das divisões da Alibaba Cloud há mais de três meses. A Alibaba apresentou o sistema no evento SOSP na capital sul-coreana, alegando que o sistema reduziu o número de aceleradores Nvidia H20 que atendem a dezenas de modelos de linguagem de 1.192 para 213. Os modelos de linguagem correspondentes, explica a fonte, usam até 72 milhões de parâmetros.

Representantes da Alibaba colaboraram com pesquisadores da Universidade de Pequim no desenvolvimento deste sistema, chamando-o de “a primeira tentativa de identificar os custos desnecessários associados ao atendimento simultâneo de cargas de trabalho com grandes modelos de linguagem”. Provedores de nuvem como a Alibaba enfrentam a necessidade de atender simultaneamente a milhares de modelos de IA, mas no espaço de inferência, apenas alguns modelos, como Qwen ou DeepSeek, são usados com mais frequência, com outros sendo chamados raramente. Isso leva ao desperdício de recursos. No ecossistema da Alibaba Cloud, por exemplo, até 17,7% dos aceleradores são alocados para processar 1,35% das solicitações.

Pesquisadores em todo o mundo começaram a propor maneiras de melhorar a utilização de recursos computacionais por meio de pooling, onde uma única GPU atende a vários modelos. O sistema da Aegaeon utiliza escalonamento automático em nível de token, permitindo que as GPUs alternem entre diferentes modelos diretamente durante a geração de tokens. Como resultado, uma única GPU pode processar até sete modelos, enquanto sistemas projetados alternativamente podem lidar com dois ou três, no máximo. Latências de comutaçãoEntre os modelos, a queda foi de 97% para o Aegaeon.

O Alibaba está testando esse sistema no marketplace de modelos Bailian, que oferece modelos Qwen para usuários corporativos. Os aceleradores Nvidia H20, desenvolvidos especificamente para o mercado chinês pela empresa americana de mesmo nome, foram temporariamente proibidos de serem enviados para a China em abril, mas a proibição foi suspensa no verão. No entanto, as autoridades chinesas começaram a recomendar fortemente que os desenvolvedores nacionais priorizassem componentes de origem local. Como resultado, a posição da Nvidia no mercado chinês de chips avançados de IA literalmente encolheu a zero, de acordo com o executivo da empresa.

admin

Próximo Pesquisas descobriram que a IA acelerou o pensamento dos adolescentes, mas há um problema. »

Anterior « A OpenAI não lançará o GPT-6 até o final de 2025.

Deixar comentário

Publicado por

admin

4 meses atrás

Postagens recentes

Nanotecnologia

Um protótipo de disco rígido de DNA com procedimentos simplificados de leitura e gravação foi apresentado nos EUA.

Pesquisadores da Universidade de Missouri anunciaram um avanço no armazenamento de dados baseado em DNA,…

39 minutos atrás

Laptops e netbooks

Apresentamos os novos MacBook Pro de 14 e 16 polegadas – com telas Liquid Retina XDR, mais memória e desempenho até 30% mais rápido.

A Apple apresentou as versões atualizadas dos laptops MacBook Pro de 14 e 16 polegadas.…

1 hora atrás

Laptops e netbooks

A Apple apresentou o MacBook Air com processador M5, maior capacidade de armazenamento e Wi-Fi 7.

Hoje, a Apple apresentou o novo MacBook Air com processador M5 de 10 núcleos. O…

2 horas atrás

Notícias da rede

O YouTube começa a exibir anúncios obrigatórios em TVs do mundo todo.

O lançamento, pelo Google, de campanhas publicitárias globais com inteligência artificial no Google Ads e…

2 horas atrás

Jogos

Um trailer impressionante confirmou a data de lançamento de Denshattack!, um jogo de plataforma insano sobre um trem que desafia a gravidade.

Durante o Indie World Showcase de março, a editora Fireshine Games e os desenvolvedores do…

2 horas atrás

Monitores, projetores, sintonizadores de TV, televisões

A Apple apresentou os novos monitores Studio Display e Studio Display XDR, com preços a partir de US$ 1.599.

A Apple apresentou uma versão atualizada do Studio Display e o novíssimo Studio Display XDR.…

2 horas atrás

O Alibaba encontrou uma maneira de reduzir o número de aceleradores Nvidia que utiliza em 82%.

Conteúdo relacionado

Postagens recentes

Um protótipo de disco rígido de DNA com procedimentos simplificados de leitura e gravação foi apresentado nos EUA.

Apresentamos os novos MacBook Pro de 14 e 16 polegadas – com telas Liquid Retina XDR, mais memória e desempenho até 30% mais rápido.

A Apple apresentou o MacBook Air com processador M5, maior capacidade de armazenamento e Wi-Fi 7.

O YouTube começa a exibir anúncios obrigatórios em TVs do mundo todo.

Um trailer impressionante confirmou a data de lançamento de Denshattack!, um jogo de plataforma insano sobre um trem que desafia a gravidade.

A Apple apresentou os novos monitores Studio Display e Studio Display XDR, com preços a partir de US$ 1.599.