Contando por segundos: supercomputador NVIDIA EOS AI com 11 mil aceleradores H100 bate recordes nos benchmarks do MLPerf Training

Junto com a publicação dos resultados do MLPerf Traning 3.1, a NVIDIA apresentou oficialmente o novo supercomputador de IA EOS, anunciado na primavera passada. É verdade que desde aquele momento a máquina cresceu – agora inclui 10.752 aceleradores H100 de uma só vez e seu desempenho no FP8 é de 42,6 Eflops. Além disso, quase o mesmo sistema está disponível para o Microsoft Azure, e um “pedaço” dele pode ser alugado por qualquer pessoa que tenha dinheiro suficiente.

Imagens: NVIDIA

No total, a EOS possui cerca de 860 TB de memória HBM3 com uma taxa de transferência agregada de 36 PB/s. Para interconexão, esse valor é de 1,1 PB/s. Neste caso, 32 nós DGX H100 são combinados via NVLink em uma unidade SuperPOD, e uma rede 400G baseada em switches Quantum-2 (InfiniBand NDR) é responsável por todas as outras trocas de dados. No caso do Microsoft Azure, a configuração da máquina é quase idêntica, a única diferença é que o acesso à nuvem aos clusters é organizado para ela.


Como parte do treinamento MLPerf, estabeleceu seis recordes absolutos nos benchmarks GPT-3 175B, Stable Diffusion (apareceu apenas nesta rodada), DLRM-dcnv2, BERT-Large, RetinaNet e 3D U-Net. Desta vez, a NVIDIA novamente não resistiu e adicionou uma pitada de marketing aos seus gráficos – quando o tempo de execução do seu teste é calculado em dezenas de segundos, é um tanto antidesportivo comparar seus resultados com clusters que são muitas vezes menores no número de aceleradores. É curioso que desta vez tenhamos que comparar o H100 com o Habana Gaudi 2, já que a Intel não tem vergonha de mostrar resultados de testes.


A NVIDIA mais uma vez enfatizou que os recordes foram alcançados graças às otimizações de hardware (Transformer Engine) e software, inclusive em conjunto com MLPerf, bem como graças à interconexão. Este último permite obter um escalonamento eficiente próximo do linear, que ganha destaque em clusters tão grandes. O mesmo se aplica aos benchmarks do conjunto MLPerf HPC, onde o sistema EOS também estabeleceu um recorde.

avalanche

Postagens recentes

O anúncio do GTA 6 proporcionou um forte aumento nas ações da Take-Two Interactive

As ações da Take-Two Interactive subiram até 9,4% nas negociações pré-mercado de quarta-feira. O motivo…

8 minutos atrás

Uma versão beta do patch foi lançada para Starfield com DLSS 3, a função de comer comida rapidamente e consertar os olhos dos NPCs

Os desenvolvedores da Bethesda Game Studios anunciaram o lançamento de um patch anunciado na semana…

46 minutos atrás

A AMD limitou o suporte para placas gráficas Polaris e Vega, mas ainda não as retirou

Um representante da AMD confirmou em um comentário à AnandTech que as placas de vídeo…

48 minutos atrás

Robô mata trabalhador após confundi-lo com uma caixa de legumes

Um especialista em robótica de 40 anos de uma empresa sul-coreana morreu enquanto testava sensores…

2 horas atrás

WhatsApp aprendeu a ocultar o endereço IP do usuário durante chamadas

O mensageiro do WhatsApp conta com um novo switch de proteção de endereço IP nas…

2 horas atrás