Mais caro, mas três vezes mais eficiente: NVIDIA está preparando aceleradores GB300 com 288 GB HBM3E e TDP 1,4 kW

A NVIDIA lançou os novos aceleradores GB300 e B300 apenas seis meses após o lançamento do GB200 e B200. E esta não é uma atualização menor, como pode parecer à primeira vista – o aparecimento do (G)B300 levará a uma séria transformação da indústria, especialmente dadas as melhorias significativas na inferência de modelos “reflexivos” e no treinamento, escreve SemiAnalysis . Ao mesmo tempo, com a transição para o B300, toda a cadeia de abastecimento muda, e alguém se beneficiará com isso e alguém perderá.

Projeto do chip de computação B300 (anteriormente conhecido como Blackwell Ultra), fabricado usando o processo 4NP personalizado da TSMC. Graças a isso, fornece 50% mais FLOPS em comparação com o B200 no nível geral do produto. Parte do ganho de desempenho virá do aumento do TDP, atingindo 1,4 kW e 1,2 kW para o GB300 e B300 HGX respectivamente (em comparação com 1,2 kW e 1 kW para o GB200 e B200). O restante das melhorias de desempenho vem de melhorias arquitetônicas e otimizações no nível do sistema, como distribuição dinâmica de energia entre CPU e GPU.

Fonte da imagem: NVIDIA

Além disso, o B300 usa memória HBM3E 12-Hi, e não 8-Hi, cuja capacidade aumentou para 288 GB. No entanto, a velocidade por contato permanece a mesma, portanto a largura de banda total da memória (BMB) ainda é de 8 TB/s. Módulos LPCAMM serão usados ​​como memória do sistema. A diferença de desempenho e economia devido ao aumento do volume do HBM é muito maior do que parece. Melhorias de memória são críticas para treinamento e inferência de modelo de linguagem grande (LLM) estilo OpenAI O3, já que sequências de token mais longas impactam negativamente a velocidade e a latência de processamento.

O exemplo de atualização de H100 para H200 mostra claramente como a memória afeta o desempenho do acelerador. Maior largura de banda (H200 – 4,8 TB/s, H100 – 3,35 TB/s) melhorou em geral a interatividade na inferência em 43%. E a maior capacidade de memória reduziu a quantidade de dados movidos e aumentou o tamanho permitido do KVCache, o que triplicou o número de tokens gerados por segundo. Isto tem um impacto positivo na experiência do utilizador, o que é especialmente importante para modelos cada vez mais complexos e inteligentes que podem gerar mais receitas por acelerador. A margem bruta para modelos líderes é superior a 70%, enquanto para modelos atrasados ​​em um ambiente competitivo de código aberto é inferior a 20%.

Fonte da imagem: TrendForce

Porém, um aumento em velocidade e memória, como a AMD faz no Instinct MI300X (192 GB), MI325X e MI355X (256 GB e 288 GB, respectivamente). E a questão não é que o software com bugs da empresa não permita revelar o potencial dos aceleradores e, principalmente, a comunicação dos aceleradores entre si. Somente a NVIDIA pode oferecer conectividade dial-up completa por meio do NVLink. No GB200 NVL72, todos os 72 aceleradores podem trabalhar juntos na mesma tarefa, aumentando a interatividade ao reduzir a latência de cada cadeia de pensamento enquanto aumenta seu comprimento máximo. Na prática, o NVL72 é a única maneira de aumentar a duração da inferência para mais de 100 mil tokens e também é econômico, diz SemiAnalysis.

avalanche

Postagens recentes

“As apostas são altas”: o chefe do Google pediu aos funcionários que se preparassem para um difícil 2025

Durante uma reunião com funcionários na semana passada, o CEO do Google, Sundar Pichai, disse…

51 minutos atrás

Minisforum apresentou placas-mãe em miniatura com Ryzen 9 de 16 núcleos integrado

Mesmo após o lançamento dos chips de nova geração da Intel e AMD, o chip…

4 horas atrás