Contando por segundos: supercomputador NVIDIA EOS AI com 11 mil aceleradores H100 bate recordes nos benchmarks do MLPerf Training

Junto com a publicação dos resultados do MLPerf Traning 3.1, a NVIDIA apresentou oficialmente o novo supercomputador de IA EOS, anunciado na primavera passada. É verdade que desde aquele momento a máquina cresceu – agora inclui 10.752 aceleradores H100 de uma só vez e seu desempenho no FP8 é de 42,6 Eflops. Além disso, quase o mesmo sistema está disponível para o Microsoft Azure, e um “pedaço” dele pode ser alugado por qualquer pessoa que tenha dinheiro suficiente.

Imagens: NVIDIA

No total, a EOS possui cerca de 860 TB de memória HBM3 com uma taxa de transferência agregada de 36 PB/s. Para interconexão, esse valor é de 1,1 PB/s. Neste caso, 32 nós DGX H100 são combinados via NVLink em uma unidade SuperPOD, e uma rede 400G baseada em switches Quantum-2 (InfiniBand NDR) é responsável por todas as outras trocas de dados. No caso do Microsoft Azure, a configuração da máquina é quase idêntica, a única diferença é que o acesso à nuvem aos clusters é organizado para ela.


Como parte do treinamento MLPerf, estabeleceu seis recordes absolutos nos benchmarks GPT-3 175B, Stable Diffusion (apareceu apenas nesta rodada), DLRM-dcnv2, BERT-Large, RetinaNet e 3D U-Net. Desta vez, a NVIDIA novamente não resistiu e adicionou uma pitada de marketing aos seus gráficos – quando o tempo de execução do seu teste é calculado em dezenas de segundos, é um tanto antidesportivo comparar seus resultados com clusters que são muitas vezes menores no número de aceleradores. É curioso que desta vez tenhamos que comparar o H100 com o Habana Gaudi 2, já que a Intel não tem vergonha de mostrar resultados de testes.


A NVIDIA mais uma vez enfatizou que os recordes foram alcançados graças às otimizações de hardware (Transformer Engine) e software, inclusive em conjunto com MLPerf, bem como graças à interconexão. Este último permite obter um escalonamento eficiente próximo do linear, que ganha destaque em clusters tão grandes. O mesmo se aplica aos benchmarks do conjunto MLPerf HPC, onde o sistema EOS também estabeleceu um recorde.

avalanche

Postagens recentes

CD Projekt Red intriga fãs de Cyberpunk 2077 com teaser misterioso do presidente dos EUA

Embora o suporte de conteúdo para o RPG de ação cyberpunk em primeira pessoa Cyberpunk…

16 minutos atrás

A seleção de horas e minutos do despertador do iPhone não é um ciclo, mas uma longa lista com um final inesperado

Parece difícil imaginar algo mais elementar do ponto de vista do usuário do que escolher…

25 minutos atrás

Google Chrome Mobile recebe nova interface de usuário Material 3 Expressive

O Google anunciou sua nova linguagem de design, Material 3 Expressive, em maio deste ano.…

33 minutos atrás

O pico online de Hollow Knight atinge 71 mil jogadores simultâneos no Steam conforme Silksong se aproxima

Lançado em 2017, Metroidvania Hollow Knight, do estúdio australiano Team Cherry, continua quebrando recordes de…

2 horas atrás

Battlefield 6 Battle Royale é flagrado em novo vazamento de gameplay em teste fechado

O ambicioso jogo de tiro militar Battlefield 6, da Electronic Arts e da Battlefield Studios,…

3 horas atrás