Nos sistemas HPC populares de hoje, os aceleradores geralmente desempenham um papel de liderança na garantia de desempenho, com enormes matrizes de núcleos de computação universais. No entanto, todos eles precisam ser “alimentados” com dados a tempo, e aqui a largura de banda da interconexão vem à tona. Ao mesmo tempo, a NVIDIA escolheu o AMD EPYC para o DGX A100, os únicos CPUs produzidos em massa na época com suporte para PCI Express 4.0.
No entanto, a Intel conseguiu finalmente alcançar a lacuna tecnológica nesta área, de modo que os processadores Xeon da geração Sapphire Rapids receberam não apenas novas extensões, mas também suporte para PCI Express 5.0/CXL. E esta é talvez uma das principais razões pelas quais a NVIDIA anunciou na conferência BofA Securities 2022 que o novo sistema DGX H100 usará Sapphire Rapids, e não AMD EPYC Genoa, embora o design da placa-mãe também tenha sido elaborado para este processador.
A novidade deve ser lançada no final deste ano, receberá dois processadores Xeon Sapphire Rapids, 2 TB de memória do sistema e 8 aceleradores NVIDIA H100 baseados na arquitetura Hopper, unidos pela quarta geração de interconexão NVLink. O pool de memória total de aceleradores HBM3 será de 640 GB, o que é suficiente para modelos de aprendizado de máquina bastante sérios; o desempenho em um modo FP8 típico para este modo será de 32 PFlops.
Para inicializar, a máquina receberá um par de drives NVMe com capacidade de 1,9 TB cada, o armazenamento de dados integrado será composto por 8 drives NVMe U.2 com volume de 3,84 TB cada. A parte de rede também é bastante curiosa: apenas para gerenciar o DGX H100 ele possui uma porta de 10GbE (50GbE é opcional), enquanto a parte de rede principal é representada por adaptadores 400G ConnectX-7 e um DPU BlueField-3.
O chefe da corporação, Jensen Huang, também observou que a NVIDIA continuará a oferecer suporte a processadores x86, inclusive para novos supercomputadores, apesar do desenvolvimento de sua própria série de processadores Grace (Hopper) Arm. Esses chips também usam NVLink 4.0 com largura de banda de 900 GB/s e são usados na plataforma HGX.
No entanto, o Intel Sapphire Rapids merece elogios especiais por seu “excelente desempenho no modo single-threaded”. Atualmente, observou Huang, o novo processador Intel está passando por testes de qualificação por hiperescaladores em todo o mundo e também está sendo testado como a CPU principal para futuros supercomputadores NVIDIA.