A escassez de poder computacional inerente ao mercado de IA em desenvolvimento dinâmico na China é agravada pelas restrições à importação de aceleradores especializados. Os desenvolvedores são forçados a otimizar, e o Alibaba encontrou uma maneira de reduzir em 82% o número de aceleradores Nvidia necessários para executar seus modelos de linguagem.

Fonte da imagem: Nvidia

Como explica o South China Morning Post, os testes beta do sistema Aegaeon já estão em andamento em uma das divisões da Alibaba Cloud há mais de três meses. A Alibaba apresentou o sistema no evento SOSP na capital sul-coreana, alegando que o sistema reduziu o número de aceleradores Nvidia H20 que atendem a dezenas de modelos de linguagem de 1.192 para 213. Os modelos de linguagem correspondentes, explica a fonte, usam até 72 milhões de parâmetros.

Representantes da Alibaba colaboraram com pesquisadores da Universidade de Pequim no desenvolvimento deste sistema, chamando-o de “a primeira tentativa de identificar os custos desnecessários associados ao atendimento simultâneo de cargas de trabalho com grandes modelos de linguagem”. Provedores de nuvem como a Alibaba enfrentam a necessidade de atender simultaneamente a milhares de modelos de IA, mas no espaço de inferência, apenas alguns modelos, como Qwen ou DeepSeek, são usados ​​com mais frequência, com outros sendo chamados raramente. Isso leva ao desperdício de recursos. No ecossistema da Alibaba Cloud, por exemplo, até 17,7% dos aceleradores são alocados para processar 1,35% das solicitações.

Pesquisadores em todo o mundo começaram a propor maneiras de melhorar a utilização de recursos computacionais por meio de pooling, onde uma única GPU atende a vários modelos. O sistema da Aegaeon utiliza escalonamento automático em nível de token, permitindo que as GPUs alternem entre diferentes modelos diretamente durante a geração de tokens. Como resultado, uma única GPU pode processar até sete modelos, enquanto sistemas projetados alternativamente podem lidar com dois ou três, no máximo. Latências de comutaçãoEntre os modelos, a queda foi de 97% para o Aegaeon.

O Alibaba está testando esse sistema no marketplace de modelos Bailian, que oferece modelos Qwen para usuários corporativos. Os aceleradores Nvidia H20, desenvolvidos especificamente para o mercado chinês pela empresa americana de mesmo nome, foram temporariamente proibidos de serem enviados para a China em abril, mas a proibição foi suspensa no verão. No entanto, as autoridades chinesas começaram a recomendar fortemente que os desenvolvedores nacionais priorizassem componentes de origem local. Como resultado, a posição da Nvidia no mercado chinês de chips avançados de IA literalmente encolheu a zero, de acordo com o executivo da empresa.

admin

Postagens recentes

A Porsche apresentou o Cayenne elétrico com até 1.139 cv e aceleração de 0 a 100 km/h em 2,4 segundos.

A Porsche adicionou uma versão cupê à sua linha de crossovers elétricos Cayenne. O Cayenne…

22 minutos atrás

Curador: O número de ataques DDoS com intensidade superior a 1 Tbps aumentou significativamente.

A Curator, empresa especializada em garantir a disponibilidade da internet e mitigar ataques DDoS, registrou…

38 minutos atrás

O crossover esportivo Xiaomi YU7 GT será lançado em maio e será capaz de atingir velocidades de até 300 km/h.

Embora as características de tração dos motores elétricos permitam que os veículos elétricos demonstrem uma…

38 minutos atrás

A Xiaomi apresentou os modelos de IA MiMo V2.5 para conversão de texto em fala e de voz.

A Xiaomi apresentou dois modelos de IA projetados para interação por voz. O MiMo-V2.5-TTS converte…

38 minutos atrás

A Samsung criou um visor 2D/3D comutável – sem óculos e sem compromissos.

A Samsung e cientistas da Universidade de Ciência e Tecnologia de Pohang (POSTECH, Coreia do…

1 hora atrás

A Microsoft adicionou o agente de IA Copilot ao Word, Excel e PowerPoint e o disponibilizou para todos os assinantes do Microsoft 365.

A gigante do software anunciou que o Copilot, um assistente de inteligência artificial, já está…

1 hora atrás