A NVIDIA lançou os novos aceleradores GB300 e B300 apenas seis meses após o lançamento do GB200 e B200. E esta não é uma atualização menor, como pode parecer à primeira vista – o aparecimento do (G)B300 levará a uma séria transformação da indústria, especialmente dadas as melhorias significativas na inferência de modelos “reflexivos” e no treinamento, escreve SemiAnalysis . Ao mesmo tempo, com a transição para o B300, toda a cadeia de abastecimento muda, e alguém se beneficiará com isso e alguém perderá.
Projeto do chip de computação B300 (anteriormente conhecido como Blackwell Ultra), fabricado usando o processo 4NP personalizado da TSMC. Graças a isso, fornece 50% mais FLOPS em comparação com o B200 no nível geral do produto. Parte do ganho de desempenho virá do aumento do TDP, atingindo 1,4 kW e 1,2 kW para o GB300 e B300 HGX respectivamente (em comparação com 1,2 kW e 1 kW para o GB200 e B200). O restante das melhorias de desempenho vem de melhorias arquitetônicas e otimizações no nível do sistema, como distribuição dinâmica de energia entre CPU e GPU.
Além disso, o B300 usa memória HBM3E 12-Hi, e não 8-Hi, cuja capacidade aumentou para 288 GB. No entanto, a velocidade por contato permanece a mesma, portanto a largura de banda total da memória (BMB) ainda é de 8 TB/s. Módulos LPCAMM serão usados como memória do sistema. A diferença de desempenho e economia devido ao aumento do volume do HBM é muito maior do que parece. Melhorias de memória são críticas para treinamento e inferência de modelo de linguagem grande (LLM) estilo OpenAI O3, já que sequências de token mais longas impactam negativamente a velocidade e a latência de processamento.
O exemplo de atualização de H100 para H200 mostra claramente como a memória afeta o desempenho do acelerador. Maior largura de banda (H200 – 4,8 TB/s, H100 – 3,35 TB/s) melhorou em geral a interatividade na inferência em 43%. E a maior capacidade de memória reduziu a quantidade de dados movidos e aumentou o tamanho permitido do KVCache, o que triplicou o número de tokens gerados por segundo. Isto tem um impacto positivo na experiência do utilizador, o que é especialmente importante para modelos cada vez mais complexos e inteligentes que podem gerar mais receitas por acelerador. A margem bruta para modelos líderes é superior a 70%, enquanto para modelos atrasados em um ambiente competitivo de código aberto é inferior a 20%.
Porém, um aumento em velocidade e memória, como a AMD faz no Instinct MI300X (192 GB), MI325X e MI355X (256 GB e 288 GB, respectivamente). E a questão não é que o software com bugs da empresa não permita revelar o potencial dos aceleradores e, principalmente, a comunicação dos aceleradores entre si. Somente a NVIDIA pode oferecer conectividade dial-up completa por meio do NVLink. No GB200 NVL72, todos os 72 aceleradores podem trabalhar juntos na mesma tarefa, aumentando a interatividade ao reduzir a latência de cada cadeia de pensamento enquanto aumenta seu comprimento máximo. Na prática, o NVL72 é a única maneira de aumentar a duração da inferência para mais de 100 mil tokens e também é econômico, diz SemiAnalysis.
Samsung e Frore Systems estão preparadas para revelar um protótipo de laptop Galaxy Book4 Edge…
O fato de GTA VI ser um sucesso já está claro, mas que tipo de…
A Nvidia concluiu a aquisição da startup de IA Run:ai por US$ 700 milhões, logo…
A Intel está se preparando para apresentar os processadores Arrow Lake para desktop de 65…
No fim de semana passado, um protótipo do trem elétrico de alta velocidade CR450 foi…
Os preços da memória DRAM convencional diminuirão de 8 a 13% e, levando em consideração…