Contando por segundos: supercomputador NVIDIA EOS AI com 11 mil aceleradores H100 bate recordes nos benchmarks do MLPerf Training

Junto com a publicação dos resultados do MLPerf Traning 3.1, a NVIDIA apresentou oficialmente o novo supercomputador de IA EOS, anunciado na primavera passada. É verdade que desde aquele momento a máquina cresceu – agora inclui 10.752 aceleradores H100 de uma só vez e seu desempenho no FP8 é de 42,6 Eflops. Além disso, quase o mesmo sistema está disponível para o Microsoft Azure, e um “pedaço” dele pode ser alugado por qualquer pessoa que tenha dinheiro suficiente.

Imagens: NVIDIA

No total, a EOS possui cerca de 860 TB de memória HBM3 com uma taxa de transferência agregada de 36 PB/s. Para interconexão, esse valor é de 1,1 PB/s. Neste caso, 32 nós DGX H100 são combinados via NVLink em uma unidade SuperPOD, e uma rede 400G baseada em switches Quantum-2 (InfiniBand NDR) é responsável por todas as outras trocas de dados. No caso do Microsoft Azure, a configuração da máquina é quase idêntica, a única diferença é que o acesso à nuvem aos clusters é organizado para ela.


Como parte do treinamento MLPerf, estabeleceu seis recordes absolutos nos benchmarks GPT-3 175B, Stable Diffusion (apareceu apenas nesta rodada), DLRM-dcnv2, BERT-Large, RetinaNet e 3D U-Net. Desta vez, a NVIDIA novamente não resistiu e adicionou uma pitada de marketing aos seus gráficos – quando o tempo de execução do seu teste é calculado em dezenas de segundos, é um tanto antidesportivo comparar seus resultados com clusters que são muitas vezes menores no número de aceleradores. É curioso que desta vez tenhamos que comparar o H100 com o Habana Gaudi 2, já que a Intel não tem vergonha de mostrar resultados de testes.


A NVIDIA mais uma vez enfatizou que os recordes foram alcançados graças às otimizações de hardware (Transformer Engine) e software, inclusive em conjunto com MLPerf, bem como graças à interconexão. Este último permite obter um escalonamento eficiente próximo do linear, que ganha destaque em clusters tão grandes. O mesmo se aplica aos benchmarks do conjunto MLPerf HPC, onde o sistema EOS também estabeleceu um recorde.

avalanche

Postagens recentes

Uma fonte confiável acredita que a grande apresentação Nintendo Direct de junho acontecerá na próxima semana.

A gigante japonesa de consoles Nintendo pode realizar uma apresentação Nintendo Direct de jogos na…

45 minutos atrás

Um fragmento de um protoplaneta desaparecido, da época da formação do sistema solar, foi encontrado no Saara.

Um meteorito encontrado no Deserto do Saara, na África, fornece a primeira evidência convincente de…

45 minutos atrás

O Sberbank anuncia o NEO, o primeiro terminal de pagamentos do mundo com inteligência artificial.

O Sberbank apresentou um novo terminal de pagamentos NEO com inteligência artificial integrada no Fórum…

1 hora atrás

Apple zomba de smartphones Android por problemas de privacidade em novo anúncio do iPhone

Em seu mais recente anúncio "Privacidade no iPhone", a Apple zombou dos problemas de privacidade…

2 horas atrás

Strauss Zelnick, CEO da Take-Two Interactive, agora é lutador – o executivo foi adicionado ao WWE 2K26.

A atualização lançada ontem para o simulador de luta livre WWE 2K26, da editora 2K…

2 horas atrás