Contando por segundos: supercomputador NVIDIA EOS AI com 11 mil aceleradores H100 bate recordes nos benchmarks do MLPerf Training

Junto com a publicação dos resultados do MLPerf Traning 3.1, a NVIDIA apresentou oficialmente o novo supercomputador de IA EOS, anunciado na primavera passada. É verdade que desde aquele momento a máquina cresceu – agora inclui 10.752 aceleradores H100 de uma só vez e seu desempenho no FP8 é de 42,6 Eflops. Além disso, quase o mesmo sistema está disponível para o Microsoft Azure, e um “pedaço” dele pode ser alugado por qualquer pessoa que tenha dinheiro suficiente.

Imagens: NVIDIA

No total, a EOS possui cerca de 860 TB de memória HBM3 com uma taxa de transferência agregada de 36 PB/s. Para interconexão, esse valor é de 1,1 PB/s. Neste caso, 32 nós DGX H100 são combinados via NVLink em uma unidade SuperPOD, e uma rede 400G baseada em switches Quantum-2 (InfiniBand NDR) é responsável por todas as outras trocas de dados. No caso do Microsoft Azure, a configuração da máquina é quase idêntica, a única diferença é que o acesso à nuvem aos clusters é organizado para ela.


Como parte do treinamento MLPerf, estabeleceu seis recordes absolutos nos benchmarks GPT-3 175B, Stable Diffusion (apareceu apenas nesta rodada), DLRM-dcnv2, BERT-Large, RetinaNet e 3D U-Net. Desta vez, a NVIDIA novamente não resistiu e adicionou uma pitada de marketing aos seus gráficos – quando o tempo de execução do seu teste é calculado em dezenas de segundos, é um tanto antidesportivo comparar seus resultados com clusters que são muitas vezes menores no número de aceleradores. É curioso que desta vez tenhamos que comparar o H100 com o Habana Gaudi 2, já que a Intel não tem vergonha de mostrar resultados de testes.


A NVIDIA mais uma vez enfatizou que os recordes foram alcançados graças às otimizações de hardware (Transformer Engine) e software, inclusive em conjunto com MLPerf, bem como graças à interconexão. Este último permite obter um escalonamento eficiente próximo do linear, que ganha destaque em clusters tão grandes. O mesmo se aplica aos benchmarks do conjunto MLPerf HPC, onde o sistema EOS também estabeleceu um recorde.

avalanche

Postagens recentes

Life is Strange: Reunion – O desespero leva ao sucesso. Análise / Jogos

Jogado no PlayStation 5 Quando Life is Strange: Double Exposure foi lançado, parecia que a…

2 horas atrás

O diretor criativo da Naughty Dog deixou os fãs curiosos com uma foto de sua viagem de negócios — a imagem parece ser uma prévia de Uncharted 5.

Lançados em 2016 e 2017, Uncharted 4: A Thief's End e Uncharted: The Lost Legacy…

4 horas atrás

O avião sem leme X-65 da Boeing está um passo mais perto de voar — ele será controlado por correntes de ar.

A Aurora Flight Sciences, subsidiária da Boeing, anunciou um marco importante no projeto da aeronave…

5 horas atrás

Atualmente, a memória representa até 30% dos custos de construção de data centers — quatro vezes mais do que em 2023.

Os analistas da SemiAnalysis estimam que a memória representará aproximadamente 30% do investimento total de…

5 horas atrás

A Terra é visível pela vigia: o comandante da missão lunar Artemis II enviou fotos deslumbrantes do nosso planeta.

Há algumas horas, a espaçonave Orion e sua tripulação concluíram com sucesso uma manobra de…

5 horas atrás

A MSI lançou o adaptador PCIe sem fio Herald BE9400 com suporte para Wi-Fi 7 e Bluetooth 5.4.

A MSI lançou o adaptador sem fio Herald BE9400 como uma placa de expansão PCIe,…

5 horas atrás