A NVIDIA lançou os novos aceleradores GB300 e B300 apenas seis meses após o lançamento do GB200 e B200. E esta não é uma atualização menor, como pode parecer à primeira vista – o aparecimento do (G)B300 levará a uma séria transformação da indústria, especialmente dadas as melhorias significativas na inferência de modelos “reflexivos” e no treinamento, escreve SemiAnalysis . Ao mesmo tempo, com a transição para o B300, toda a cadeia de abastecimento muda, e alguém se beneficiará com isso e alguém perderá.
Projeto do chip de computação B300 (anteriormente conhecido como Blackwell Ultra), fabricado usando o processo 4NP personalizado da TSMC. Graças a isso, fornece 50% mais FLOPS em comparação com o B200 no nível geral do produto. Parte do ganho de desempenho virá do aumento do TDP, atingindo 1,4 kW e 1,2 kW para o GB300 e B300 HGX respectivamente (em comparação com 1,2 kW e 1 kW para o GB200 e B200). O restante das melhorias de desempenho vem de melhorias arquitetônicas e otimizações no nível do sistema, como distribuição dinâmica de energia entre CPU e GPU.
Fonte da imagem: NVIDIA
Além disso, o B300 usa memória HBM3E 12-Hi, e não 8-Hi, cuja capacidade aumentou para 288 GB. No entanto, a velocidade por contato permanece a mesma, portanto a largura de banda total da memória (BMB) ainda é de 8 TB/s. Módulos LPCAMM serão usados como memória do sistema. A diferença de desempenho e economia devido ao aumento do volume do HBM é muito maior do que parece. Melhorias de memória são críticas para treinamento e inferência de modelo de linguagem grande (LLM) estilo OpenAI O3, já que sequências de token mais longas impactam negativamente a velocidade e a latência de processamento.
O exemplo de atualização de H100 para H200 mostra claramente como a memória afeta o desempenho do acelerador. Maior largura de banda (H200 – 4,8 TB/s, H100 – 3,35 TB/s) melhorou em geral a interatividade na inferência em 43%. E a maior capacidade de memória reduziu a quantidade de dados movidos e aumentou o tamanho permitido do KVCache, o que triplicou o número de tokens gerados por segundo. Isto tem um impacto positivo na experiência do utilizador, o que é especialmente importante para modelos cada vez mais complexos e inteligentes que podem gerar mais receitas por acelerador. A margem bruta para modelos líderes é superior a 70%, enquanto para modelos atrasados em um ambiente competitivo de código aberto é inferior a 20%.
Fonte da imagem: TrendForce
Porém, um aumento em velocidade e memória, como a AMD faz no Instinct MI300X (192 GB), MI325X e MI355X (256 GB e 288 GB, respectivamente). E a questão não é que o software com bugs da empresa não permita revelar o potencial dos aceleradores e, principalmente, a comunicação dos aceleradores entre si. Somente a NVIDIA pode oferecer conectividade dial-up completa por meio do NVLink. No GB200 NVL72, todos os 72 aceleradores podem trabalhar juntos na mesma tarefa, aumentando a interatividade ao reduzir a latência de cada cadeia de pensamento enquanto aumenta seu comprimento máximo. Na prática, o NVL72 é a única maneira de aumentar a duração da inferência para mais de 100 mil tokens e também é econômico, diz SemiAnalysis.
Este mês, o CEO e fundador da Nvidia, Jensen Huang, apresentou os aceleradores de computação…
Confirmado há mais de cinco anos, o promissor MMO ambientado no universo de League of…
Há um ano, Donald Trump tomou posse como presidente dos EUA para um segundo mandato…
Foi descoberta uma vulnerabilidade na ferramenta de segurança Web Application Firewall (WAF) da Cloudflare que…
No sábado, 17 de janeiro de 2026, a China vivenciou um evento raro nos últimos…
Foi revelado ontem que a NASA ainda não conseguiu concluir a investigação sobre um incidente…