Embora os aceleradores NVIDIA sejam considerados entre os que mais consomem energia em sua classe, os supercomputadores baseados nos chips da empresa ainda dominam o ranking mundial Green500 de eficiência energética de suas respectivas máquinas. No entanto, a empresa enfrenta forte concorrência da AMD e nem sempre está pronta para competir mesmo com os seus próprios produtos, relata o The Register.

À primeira vista, a liderança dos projetos baseados em NVIDIA é inegável. Oito em cada dez supercomputadores incluídos no “Top 10” de máquinas com eficiência energética são construídos em chips NVIDIA, cinco deles em superaceleradores híbridos GH200 de 1.000 watts, que são muito populares entre os usuários de soluções HPC.

Na última classificação Green500, o primeiro e o segundo sistemas com maior eficiência energética são construídos com base neles – JEDI (EuroHPC) e Romeo-2025 (Romeo HPC Center). No benchmark Linpack de alto desempenho, eles demonstraram desempenho de 72,7 Gflops/W e 70,9 Gflops/W, respectivamente (FP64).

Fonte da imagem: Jakub Żerdzicki/unsplash.com

Os sistemas são quase idênticos e são construídos na plataforma BullSequana XH3000 da Eviden. A solução GH200 também responde pela quarta, sexta e sétima posições no ranking: Isambard-AI Fase 1 (68,8 Gflops/W), Jupiter Exascale Transition Instrument (67,9 Gflops/W) e Helios (66,9 Gflops/W). Os sistemas com NVIDIA H100 testados ocupam o quinto, oitavo e nono lugares – são Capella, Henri e HoreKa-Teal.

No entanto, há dúvidas de que as soluções NVIDIA continuarão a reinar supremas no ranking. As soluções Grace-Blackwell já estão a caminho na forma de GB200 (2,7 kW) e GB200 NVL4 (5,4 kW). Novos produtos nem sempre proporcionam desempenho máximo por watt de energia.

Do A100 em 2020 ao H100 em 2022, o desempenho (FP64) disparou cerca de 3,5x, mas comparado à plataforma de 1,2kW da Blackwell, o H100 de 700W é na verdade mais rápido no modo FP64. Na verdade, apenas a matemática vetorial melhorou no FP64, onde os novos produtos foram 32% mais produtivos.

Ou seja, embora a NVIDIA hoje ocupe uma posição elevada na classificação Green500, a solução baseada nos aceleradores AMD MI300A já ocupou o terceiro lugar (Adastra 2). O MI300A foi anunciado há pouco menos de um ano, a solução recebeu uma CPU de 24 núcleos e seis chips CDNA-3 em um único módulo APU equipado com até 128 GB de memória HBM3, além de um nível TDP personalizável de 550- 760 watts. Além disso, o sistema é 1,8 vezes mais rápido que o NVIDIA H100 (pelo menos no papel).

Desenvolvido pela HPE Cray usando servidores blade EX255a, o supercomputador Adastra 2 oferece 69 Gflops/W de desempenho. O décimo lugar também é ocupado por uma máquina baseada em MI300A – RZAdams do Livermore National Laboratory (62,8 Gflops/W).

Todos os sistemas entre os dez primeiros da classificação Green500 já excedem significativamente a meta de eficiência energética de 50 Gflops/W. Este número é necessário para alcançar a computação em exaescala e, ao mesmo tempo, limitar o consumo de energia a 20 megawatts.

O problema é que sistemas menos potentes são significativamente mais eficientes: JEDI consome apenas 67 kW, e a máquina GH200 de maior desempenho no ranking Top500 – Alps do Swiss National Supercomputing Center – fornece 434 Pflops no benchmark HPL, consumindo 7,1 MW – isso é apenas 14- Sou uma das máquinas com maior eficiência energética, com 61 Gflops/W.

O mesmo problema com o Adastra 2: o computador consome ainda menos que o JEDI – 37 kW. Se 69 Gflops/W pudessem ser mantidos em escala, seriam necessários apenas 25,2 MW para fornecer os 1.742 eflops de desempenho do El Capitan. Entretanto, este último necessita de cerca de 29,6 MW para atingir os seus valores recorde.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *