A NVIDIA anunciou aceleradores H200 baseados na mesma arquitetura Hopper de seus antecessores, o H100, lançados há mais de um ano e meio. O novo H200, segundo a empresa, é o primeiro acelerador do mundo a utilizar memória HMB3e. Se irá suplantar o H100 ou permanecer um elo intermediário na evolução das soluções NVIDIA, o tempo dirá – o H200 estará disponível no segundo trimestre do próximo ano, mas também em 2024 deverá surgir uma nova geração de aceleradores B100, que irá ser mais produtivo que o H100 e o H200.
HGX H200 (fonte a seguir: NVIDIA)
O H200 recebeu 141 GB de memória HBM3e com largura de banda total de 4,8 TB/s. O H100 tinha 80 GB HBM3 e a largura de banda era de 3,35 TB/s. Os aceleradores híbridos GH200, que incluem o H200, receberão até 480 GB LPDDR5x (512 GB/s) e 144 GB HBM3e (4,9 TB/s). Porém, há alguma confusão com o GH200, já que em um lugar a NVIDIA fala em 141 GB, e em outro cerca de 144 GB de HBM3e. A versão atualizada do GH200 estará amplamente disponível após o lançamento do H200, mas por enquanto a NVIDIA fornecerá a versão original de 96 GB com HBM3. Lembramos que o próximo concorrente AMD Instinct MI300X receberá 192 GB de memória HBM3 com largura de banda de 5,2 TB/s.
No momento em que este artigo foi escrito, a NVIDIA não divulgou as especificações completas do H200, mas, aparentemente, a parte computacional do H200 permanece a mesma ou quase igual à do H100. A NVIDIA cita o desempenho FP8 da plataforma HGX com oito aceleradores (também há uma opção com quatro), que é de 32 Pflops. Ou seja, para cada H200 existem 4 Pflops, e o H100 produziu exatamente a mesma quantidade. No entanto, há um benefício de uma memória mais rápida e espaçosa – em tarefas de inferência você pode obter um aumento de 1,6 a 1,9 vezes.
Ao mesmo tempo, as placas HGX H200 são totalmente compatíveis com as plataformas HGX H100 existentes no mercado, tanto mecanicamente quanto em termos de fornecimento de energia e dissipação de calor. Isso permitirá que você atualize rapidamente as ofertas para os parceiros da empresa: ASRock Rack, ASUS, Dell, Eviden, GIGABYTE, HPE, Lenovo, QCT, Supermicro, Wistron e Wiwynn. O H200 também estará disponível nas nuvens. Os primeiros a recebê-los serão AWS, Google Cloud Platform, Oracle Cloud, CoreWeave, Lambda e Vultr. Notavelmente ausente da lista está o Microsoft Azure, que já parece estar sofrendo com a falha do H100.
O GH200 já está disponível para clientes selecionados nas nuvens Lamba Labs e Vultr, e estará disponível na CoreWeave no início de 2024. Até o final deste ano, ASRock Rack, ASUS, GIGABYTE e Ingrasys começarão a enviar servidores com o GH200. Em breve, esses chips também aparecerão no serviço NVIDIA Launchpad, mas a empresa ainda não informou nada sobre a disponibilidade do H200 por lá.
Ao mesmo tempo, a NVIDIA apresentou o “bloco de construção” básico para supercomputadores do futuro próximo – a placa Quad GH200 com quatro chips GH200, onde todos os aceleradores são conectados entre si via NVLink em um esquema each-to-each. No total, a placa carrega mais de 2 TB de memória, 288 núcleos Arm e tem desempenho FP8 de 16 Pflops. Os nós HPE Cray EX254n e Eviden Bull Sequana XH3000 são baseados no Quad GH200. Até o final de 2024, o desempenho total de IA dos sistemas com o GH200, segundo estimativas da NVIDIA, chegará a 200 Eflops.