A Huawei anunciou seu próprio superacelerador CloudMatrix 384 na Huawei Cloud Ecosystem Conference 2025, que se posiciona como uma alternativa doméstica ao sistema NVIDIA GB200 NVL72. A solução da Huawei tem desempenho geral maior: 300 Pflops versus 180 Pflops. Mas, ao mesmo tempo, é inferior à solução da NVIDIA em termos de desempenho por chip e tem consumo de energia significativamente maior, escreve a SemiAnalysis.
O Huawei CloudMatrix 384 usa 384 aceleradores Huawei Ascend 910C, enquanto o GB200 NVL72 usa 36 processadores Grace combinados com 72 aceleradores B200 (Blackwell). Ou seja, para dobrar o desempenho do GB200 NVL72, foram necessários cerca de cinco vezes mais aceleradores Ascend 910C, o que não é muito bom em termos de uso dos próprios aceleradores, mas excelente no nível de implantação do sistema, observou o recurso SemiAnalysis. De acordo com a SemiAnalysis, a Huawei está uma geração atrás da NVIDIA em desempenho de chips, mas à frente no design e na implantação de sistemas escaláveis.
Fonte da imagem: TechPowerUp
Ao comparar aceleradores individuais, o NVIDIA GB200 supera claramente o Huawei Ascend 910C, oferecendo mais de três vezes o desempenho em computação BF16 (2500 vs. 780 TFlops) e maior HBM on-chip (192 vs. 128 GB) com maior largura de banda de memória (8 vs. 3,2 TB/s). Em outras palavras, a NVIDIA tem uma vantagem em potência bruta e no nível do chip.
Mas no nível do sistema, a eficiência do CloudMatrix CM384 é a melhor. Ele oferece 1,7x mais petaflops, tem 3,6x mais HBM, fornece 2,1x mais largura de banda de memória e integra mais de cinco vezes mais aceleradores que o GB200 NVL72. No entanto, essa escalabilidade tem um custo, já que o sistema da Huawei consome quase quatro vezes mais energia — 145 kW contra ~560 kW. O Huawei CloudMatrix 384 requer 3,9 vezes mais energia que o GB200 NVL72: 2,3 vezes mais energia por FLOP, 1,8 vezes mais energia por TB/s de largura de banda de memória e 1,1 vezes mais energia por TB de HBM.
O SCMP, citando dados da própria Huawei, relata que o CloudMatrix CM384 demonstrou desempenho no nível de 800 Pflops em cálculos BF16 sem escassez, ou 1920 tokens/s no modelo DeepSeek-R1. O superacelerador é alojado em 16 racks, quatro dos quais são reservados apenas para interconexão – um total de 6912 portas 400G. Os racks restantes contêm 32 aceleradores Ascend 910C em quatro nós (8×4) e um switch ToR.
Como observou a SemiAnalysis, seria enganoso dizer que o Ascend 910C e o CloudMatrix 384 são feitos na China: o HBM neles é da Samsung, os wafers são da TSMC e o hardware em si é dos EUA, Holanda e Japão. Embora a SMIC da China já tenha um processo de 7 nm, a grande maioria dos Ascend 910B/910C foi secretamente fabricada no processo de 7 nm da TSMC. Acredita-se que a Huawei tenha contornado as sanções dos EUA ao encomendar US$ 500 milhões em chips por meio da Sophgo. A própria TSMC parou de fornecer para a Huawei em 2020.
A empresa chinesa DeepSeek, desenvolvedora do bot de IA de mesmo nome, introduziu a rotulagem…
A famosa série de jogos de plataforma e aventura Rayman, da Ubisoft, completou 30 anos…
De acordo com um estudo realizado pela Universidade Northwestern como parte da bolsa de pesquisa…
Enquanto alguns fãs estão recriando The Elder Scrolls III: Morrowind no motor Skyrim, outros estão…
O estúdio japonês Kojima Productions, fundado no final de 2015 pelo renomado designer de jogos…
A Apple deve lançar o primeiro iPhone com tela flexível, possivelmente chamado de iPhone Fold,…