Contando por segundos: supercomputador NVIDIA EOS AI com 11 mil aceleradores H100 bate recordes nos benchmarks do MLPerf Training

Junto com a publicação dos resultados do MLPerf Traning 3.1, a NVIDIA apresentou oficialmente o novo supercomputador de IA EOS, anunciado na primavera passada. É verdade que desde aquele momento a máquina cresceu – agora inclui 10.752 aceleradores H100 de uma só vez e seu desempenho no FP8 é de 42,6 Eflops. Além disso, quase o mesmo sistema está disponível para o Microsoft Azure, e um “pedaço” dele pode ser alugado por qualquer pessoa que tenha dinheiro suficiente.

Imagens: NVIDIA

No total, a EOS possui cerca de 860 TB de memória HBM3 com uma taxa de transferência agregada de 36 PB/s. Para interconexão, esse valor é de 1,1 PB/s. Neste caso, 32 nós DGX H100 são combinados via NVLink em uma unidade SuperPOD, e uma rede 400G baseada em switches Quantum-2 (InfiniBand NDR) é responsável por todas as outras trocas de dados. No caso do Microsoft Azure, a configuração da máquina é quase idêntica, a única diferença é que o acesso à nuvem aos clusters é organizado para ela.


Como parte do treinamento MLPerf, estabeleceu seis recordes absolutos nos benchmarks GPT-3 175B, Stable Diffusion (apareceu apenas nesta rodada), DLRM-dcnv2, BERT-Large, RetinaNet e 3D U-Net. Desta vez, a NVIDIA novamente não resistiu e adicionou uma pitada de marketing aos seus gráficos – quando o tempo de execução do seu teste é calculado em dezenas de segundos, é um tanto antidesportivo comparar seus resultados com clusters que são muitas vezes menores no número de aceleradores. É curioso que desta vez tenhamos que comparar o H100 com o Habana Gaudi 2, já que a Intel não tem vergonha de mostrar resultados de testes.


A NVIDIA mais uma vez enfatizou que os recordes foram alcançados graças às otimizações de hardware (Transformer Engine) e software, inclusive em conjunto com MLPerf, bem como graças à interconexão. Este último permite obter um escalonamento eficiente próximo do linear, que ganha destaque em clusters tão grandes. O mesmo se aplica aos benchmarks do conjunto MLPerf HPC, onde o sistema EOS também estabeleceu um recorde.

avalanche

Postagens recentes

Musk exigiu a devolução de US$ 29 bilhões do presidente da OpenAI; o tribunal abriu um diário antigo.

Na semana passada, foram realizadas audiências judiciais nos EUA no caso OpenAI, no qual Elon…

30 minutos atrás

A Samsung apresentou uma tela para celular superbrilhante e um display com sensores de saúde.

Na SID Display Week 2026, a Samsung Display apresentou um painel OLED de alto brilho…

30 minutos atrás

Pela primeira vez em 13 anos, o novo Call of Duty não será lançado para PS4 – os consoles da geração passada são coisa do passado.

Embora tenham se passado mais de cinco anos desde o início da atual geração de…

45 minutos atrás

Os futuros iPhones e Macs poderão apresentar processadores da Intel e da Samsung.

A mudança planejada na gestão da Apple em setembro não eliminará a necessidade de aumentar…

45 minutos atrás

O CEO da Take-Two explica por que GTA VI ultrapassará a versão para PC no lançamento.

O aguardado thriller de mundo aberto e crime da Rockstar Games, GTA VI, será lançado…

1 hora atrás

Elon Musk terá que pagar multa de 1,5 milhão de dólares no caso da aquisição do Twitter.

Há quatro anos, Elon Musk anunciou sua intenção de comprar a rede social Twitter, mas…

3 horas atrás