Contando por segundos: supercomputador NVIDIA EOS AI com 11 mil aceleradores H100 bate recordes nos benchmarks do MLPerf Training

Junto com a publicação dos resultados do MLPerf Traning 3.1, a NVIDIA apresentou oficialmente o novo supercomputador de IA EOS, anunciado na primavera passada. É verdade que desde aquele momento a máquina cresceu – agora inclui 10.752 aceleradores H100 de uma só vez e seu desempenho no FP8 é de 42,6 Eflops. Além disso, quase o mesmo sistema está disponível para o Microsoft Azure, e um “pedaço” dele pode ser alugado por qualquer pessoa que tenha dinheiro suficiente.

Imagens: NVIDIA

No total, a EOS possui cerca de 860 TB de memória HBM3 com uma taxa de transferência agregada de 36 PB/s. Para interconexão, esse valor é de 1,1 PB/s. Neste caso, 32 nós DGX H100 são combinados via NVLink em uma unidade SuperPOD, e uma rede 400G baseada em switches Quantum-2 (InfiniBand NDR) é responsável por todas as outras trocas de dados. No caso do Microsoft Azure, a configuração da máquina é quase idêntica, a única diferença é que o acesso à nuvem aos clusters é organizado para ela.


Como parte do treinamento MLPerf, estabeleceu seis recordes absolutos nos benchmarks GPT-3 175B, Stable Diffusion (apareceu apenas nesta rodada), DLRM-dcnv2, BERT-Large, RetinaNet e 3D U-Net. Desta vez, a NVIDIA novamente não resistiu e adicionou uma pitada de marketing aos seus gráficos – quando o tempo de execução do seu teste é calculado em dezenas de segundos, é um tanto antidesportivo comparar seus resultados com clusters que são muitas vezes menores no número de aceleradores. É curioso que desta vez tenhamos que comparar o H100 com o Habana Gaudi 2, já que a Intel não tem vergonha de mostrar resultados de testes.


A NVIDIA mais uma vez enfatizou que os recordes foram alcançados graças às otimizações de hardware (Transformer Engine) e software, inclusive em conjunto com MLPerf, bem como graças à interconexão. Este último permite obter um escalonamento eficiente próximo do linear, que ganha destaque em clusters tão grandes. O mesmo se aplica aos benchmarks do conjunto MLPerf HPC, onde o sistema EOS também estabeleceu um recorde.

avalanche

Postagens recentes

A Qualcomm espera faturar US$ 15 bilhões por ano com a venda de chips para servidores até 2029.

O relatório trimestral da Qualcomm veio acompanhado do anúncio dos processadores de servidor Dragonfly C1000,…

1 hora atrás

Uma versão reforçada do cão robô chinês Lynx M20S escalou encostas de montanhas em temperaturas de -30 graus.

A empresa chinesa DEEP Robotics demonstrou a incrível resistência e capacidade de transposição de terrenos…

6 horas atrás

O aclamado simulador de sobrevivência DayZ ganhará uma sequência – a Bohemia Interactive anunciou oficialmente DayZ 2.

Os desenvolvedores do estúdio tcheco Bohemia Interactive confirmaram o desenvolvimento de uma sequência para o…

8 horas atrás

Em busca de férmions de Majorana: cientistas questionam novamente a tecnologia de computação quântica da Microsoft.

Uma nova crítica publicada na revista científica Nature levanta questões sobre o avanço da computação…

9 horas atrás

A Zoox atualizou seu serviço de robotáxis, com o lançamento do transporte público pago previsto para o final do ano.

A Zoox, empresa pertencente à Amazon, atualizou o design de seu robotáxi especializado. A Zoox…

11 horas atrás

Warhammer 40.000: Rogue Trader atingiu um novo pico de vendas e chegará ao formato físico pela primeira vez.

Após o fracasso do Owlcat Launcher, a Owlcat Games anunciou o sucesso de seu jogo…

11 horas atrás