A escassez de poder computacional inerente ao mercado de IA em desenvolvimento dinâmico na China é agravada pelas restrições à importação de aceleradores especializados. Os desenvolvedores são forçados a otimizar, e o Alibaba encontrou uma maneira de reduzir em 82% o número de aceleradores Nvidia necessários para executar seus modelos de linguagem.
Fonte da imagem: Nvidia
Como explica o South China Morning Post, os testes beta do sistema Aegaeon já estão em andamento em uma das divisões da Alibaba Cloud há mais de três meses. A Alibaba apresentou o sistema no evento SOSP na capital sul-coreana, alegando que o sistema reduziu o número de aceleradores Nvidia H20 que atendem a dezenas de modelos de linguagem de 1.192 para 213. Os modelos de linguagem correspondentes, explica a fonte, usam até 72 milhões de parâmetros.
Representantes da Alibaba colaboraram com pesquisadores da Universidade de Pequim no desenvolvimento deste sistema, chamando-o de “a primeira tentativa de identificar os custos desnecessários associados ao atendimento simultâneo de cargas de trabalho com grandes modelos de linguagem”. Provedores de nuvem como a Alibaba enfrentam a necessidade de atender simultaneamente a milhares de modelos de IA, mas no espaço de inferência, apenas alguns modelos, como Qwen ou DeepSeek, são usados com mais frequência, com outros sendo chamados raramente. Isso leva ao desperdício de recursos. No ecossistema da Alibaba Cloud, por exemplo, até 17,7% dos aceleradores são alocados para processar 1,35% das solicitações.
Pesquisadores em todo o mundo começaram a propor maneiras de melhorar a utilização de recursos computacionais por meio de pooling, onde uma única GPU atende a vários modelos. O sistema da Aegaeon utiliza escalonamento automático em nível de token, permitindo que as GPUs alternem entre diferentes modelos diretamente durante a geração de tokens. Como resultado, uma única GPU pode processar até sete modelos, enquanto sistemas projetados alternativamente podem lidar com dois ou três, no máximo. Latências de comutaçãoEntre os modelos, a queda foi de 97% para o Aegaeon.
O Alibaba está testando esse sistema no marketplace de modelos Bailian, que oferece modelos Qwen para usuários corporativos. Os aceleradores Nvidia H20, desenvolvidos especificamente para o mercado chinês pela empresa americana de mesmo nome, foram temporariamente proibidos de serem enviados para a China em abril, mas a proibição foi suspensa no verão. No entanto, as autoridades chinesas começaram a recomendar fortemente que os desenvolvedores nacionais priorizassem componentes de origem local. Como resultado, a posição da Nvidia no mercado chinês de chips avançados de IA literalmente encolheu a zero, de acordo com o executivo da empresa.
A primeira turbina a gás de 30 megawatts do mundo, construída na China e movida…
A China vai proibir a venda de novos veículos elétricos equipados com maçanetas retráteis. Esse…
Executivos de compras da Microsoft, que visitaram a Coreia do Sul no início deste mês,…
Em 2023, começaram a surgir relatos de falhas em placas gráficas Radeon RX 6000 baseadas…
A TSMC de Taiwan, maior fabricante de chips sob encomenda do mundo, informou no sábado…
Especialistas chineses em reparo de placas de vídeo descobriram uma maneira de aumentar a memória…