Contando por segundos: supercomputador NVIDIA EOS AI com 11 mil aceleradores H100 bate recordes nos benchmarks do MLPerf Training

Junto com a publicação dos resultados do MLPerf Traning 3.1, a NVIDIA apresentou oficialmente o novo supercomputador de IA EOS, anunciado na primavera passada. É verdade que desde aquele momento a máquina cresceu – agora inclui 10.752 aceleradores H100 de uma só vez e seu desempenho no FP8 é de 42,6 Eflops. Além disso, quase o mesmo sistema está disponível para o Microsoft Azure, e um “pedaço” dele pode ser alugado por qualquer pessoa que tenha dinheiro suficiente.

Imagens: NVIDIA

No total, a EOS possui cerca de 860 TB de memória HBM3 com uma taxa de transferência agregada de 36 PB/s. Para interconexão, esse valor é de 1,1 PB/s. Neste caso, 32 nós DGX H100 são combinados via NVLink em uma unidade SuperPOD, e uma rede 400G baseada em switches Quantum-2 (InfiniBand NDR) é responsável por todas as outras trocas de dados. No caso do Microsoft Azure, a configuração da máquina é quase idêntica, a única diferença é que o acesso à nuvem aos clusters é organizado para ela.


Como parte do treinamento MLPerf, estabeleceu seis recordes absolutos nos benchmarks GPT-3 175B, Stable Diffusion (apareceu apenas nesta rodada), DLRM-dcnv2, BERT-Large, RetinaNet e 3D U-Net. Desta vez, a NVIDIA novamente não resistiu e adicionou uma pitada de marketing aos seus gráficos – quando o tempo de execução do seu teste é calculado em dezenas de segundos, é um tanto antidesportivo comparar seus resultados com clusters que são muitas vezes menores no número de aceleradores. É curioso que desta vez tenhamos que comparar o H100 com o Habana Gaudi 2, já que a Intel não tem vergonha de mostrar resultados de testes.


A NVIDIA mais uma vez enfatizou que os recordes foram alcançados graças às otimizações de hardware (Transformer Engine) e software, inclusive em conjunto com MLPerf, bem como graças à interconexão. Este último permite obter um escalonamento eficiente próximo do linear, que ganha destaque em clusters tão grandes. O mesmo se aplica aos benchmarks do conjunto MLPerf HPC, onde o sistema EOS também estabeleceu um recorde.

avalanche

Postagens recentes

As ações da HPE disparam mais de 25% após relatório indicar forte demanda por servidores.

As ações da HPE subiram mais de 25% após a divulgação dos resultados financeiros do…

22 minutos atrás

A Foxconn agora irá montar servidores de IA não apenas para a Nvidia, mas também para a Intel.

A Foxconn, empresa taiwanesa e maior montadora de sistemas de servidores para a Nvidia, anunciou…

46 minutos atrás

Só não copie exatamente: a BYD, da China, planeja produzir robôs humanoides — assim como a Tesla.

Até agora, a gigante automotiva chinesa BYD seguiu o princípio da integração vertical em seu…

46 minutos atrás

A Galax apresentou o conceito GeForce RTX 6090 Hall of Fame, com quatro ventoinhas e cristais Swarovski.

A Galax apresentou sua nova placa de vídeo GeForce RTX edição Hall da Fama na…

46 minutos atrás

Destaques do estande da GIGABYTE na Computex 2026: Notebooks gamers de última geração e monitores OLED

O estande da GIGABYTE na Computex 2026 estava, como de costume, lotado. A empresa está…

46 minutos atrás