A Huawei anunciou seu próprio superacelerador CloudMatrix 384 na Huawei Cloud Ecosystem Conference 2025, que se posiciona como uma alternativa doméstica ao sistema NVIDIA GB200 NVL72. A solução da Huawei tem desempenho geral maior: 300 Pflops versus 180 Pflops. Mas, ao mesmo tempo, é inferior à solução da NVIDIA em termos de desempenho por chip e tem consumo de energia significativamente maior, escreve a SemiAnalysis.
O Huawei CloudMatrix 384 usa 384 aceleradores Huawei Ascend 910C, enquanto o GB200 NVL72 usa 36 processadores Grace combinados com 72 aceleradores B200 (Blackwell). Ou seja, para dobrar o desempenho do GB200 NVL72, foram necessários cerca de cinco vezes mais aceleradores Ascend 910C, o que não é muito bom em termos de uso dos próprios aceleradores, mas excelente no nível de implantação do sistema, observou o recurso SemiAnalysis. De acordo com a SemiAnalysis, a Huawei está uma geração atrás da NVIDIA em desempenho de chips, mas à frente no design e na implantação de sistemas escaláveis.
Fonte da imagem: TechPowerUp
Ao comparar aceleradores individuais, o NVIDIA GB200 supera claramente o Huawei Ascend 910C, oferecendo mais de três vezes o desempenho em computação BF16 (2500 vs. 780 TFlops) e maior HBM on-chip (192 vs. 128 GB) com maior largura de banda de memória (8 vs. 3,2 TB/s). Em outras palavras, a NVIDIA tem uma vantagem em potência bruta e no nível do chip.
Mas no nível do sistema, a eficiência do CloudMatrix CM384 é a melhor. Ele oferece 1,7x mais petaflops, tem 3,6x mais HBM, fornece 2,1x mais largura de banda de memória e integra mais de cinco vezes mais aceleradores que o GB200 NVL72. No entanto, essa escalabilidade tem um custo, já que o sistema da Huawei consome quase quatro vezes mais energia — 145 kW contra ~560 kW. O Huawei CloudMatrix 384 requer 3,9 vezes mais energia que o GB200 NVL72: 2,3 vezes mais energia por FLOP, 1,8 vezes mais energia por TB/s de largura de banda de memória e 1,1 vezes mais energia por TB de HBM.
O SCMP, citando dados da própria Huawei, relata que o CloudMatrix CM384 demonstrou desempenho no nível de 800 Pflops em cálculos BF16 sem escassez, ou 1920 tokens/s no modelo DeepSeek-R1. O superacelerador é alojado em 16 racks, quatro dos quais são reservados apenas para interconexão – um total de 6912 portas 400G. Os racks restantes contêm 32 aceleradores Ascend 910C em quatro nós (8×4) e um switch ToR.
Como observou a SemiAnalysis, seria enganoso dizer que o Ascend 910C e o CloudMatrix 384 são feitos na China: o HBM neles é da Samsung, os wafers são da TSMC e o hardware em si é dos EUA, Holanda e Japão. Embora a SMIC da China já tenha um processo de 7 nm, a grande maioria dos Ascend 910B/910C foi secretamente fabricada no processo de 7 nm da TSMC. Acredita-se que a Huawei tenha contornado as sanções dos EUA ao encomendar US$ 500 milhões em chips por meio da Sophgo. A própria TSMC parou de fornecer para a Huawei em 2020.
