Categorias: Mercado de tecnologia e TI. notícia

Mais caro, mas três vezes mais eficiente: NVIDIA está preparando aceleradores GB300 com 288 GB HBM3E e TDP 1,4 kW

A NVIDIA lançou os novos aceleradores GB300 e B300 apenas seis meses após o lançamento do GB200 e B200. E esta não é uma atualização menor, como pode parecer à primeira vista – o aparecimento do (G)B300 levará a uma séria transformação da indústria, especialmente dadas as melhorias significativas na inferência de modelos “reflexivos” e no treinamento, escreve SemiAnalysis . Ao mesmo tempo, com a transição para o B300, toda a cadeia de abastecimento muda, e alguém se beneficiará com isso e alguém perderá.

Projeto do chip de computação B300 (anteriormente conhecido como Blackwell Ultra), fabricado usando o processo 4NP personalizado da TSMC. Graças a isso, fornece 50% mais FLOPS em comparação com o B200 no nível geral do produto. Parte do ganho de desempenho virá do aumento do TDP, atingindo 1,4 kW e 1,2 kW para o GB300 e B300 HGX respectivamente (em comparação com 1,2 kW e 1 kW para o GB200 e B200). O restante das melhorias de desempenho vem de melhorias arquitetônicas e otimizações no nível do sistema, como distribuição dinâmica de energia entre CPU e GPU.

Fonte da imagem: NVIDIA

Além disso, o B300 usa memória HBM3E 12-Hi, e não 8-Hi, cuja capacidade aumentou para 288 GB. No entanto, a velocidade por contato permanece a mesma, portanto a largura de banda total da memória (BMB) ainda é de 8 TB/s. Módulos LPCAMM serão usados como memória do sistema. A diferença de desempenho e economia devido ao aumento do volume do HBM é muito maior do que parece. Melhorias de memória são críticas para treinamento e inferência de modelo de linguagem grande (LLM) estilo OpenAI O3, já que sequências de token mais longas impactam negativamente a velocidade e a latência de processamento.

O exemplo de atualização de H100 para H200 mostra claramente como a memória afeta o desempenho do acelerador. Maior largura de banda (H200 – 4,8 TB/s, H100 – 3,35 TB/s) melhorou em geral a interatividade na inferência em 43%. E a maior capacidade de memória reduziu a quantidade de dados movidos e aumentou o tamanho permitido do KVCache, o que triplicou o número de tokens gerados por segundo. Isto tem um impacto positivo na experiência do utilizador, o que é especialmente importante para modelos cada vez mais complexos e inteligentes que podem gerar mais receitas por acelerador. A margem bruta para modelos líderes é superior a 70%, enquanto para modelos atrasados em um ambiente competitivo de código aberto é inferior a 20%.

Fonte da imagem: TrendForce

Porém, um aumento em velocidade e memória, como a AMD faz no Instinct MI300X (192 GB), MI325X e MI355X (256 GB e 288 GB, respectivamente). E a questão não é que o software com bugs da empresa não permita revelar o potencial dos aceleradores e, principalmente, a comunicação dos aceleradores entre si. Somente a NVIDIA pode oferecer conectividade dial-up completa por meio do NVLink. No GB200 NVL72, todos os 72 aceleradores podem trabalhar juntos na mesma tarefa, aumentando a interatividade ao reduzir a latência de cada cadeia de pensamento enquanto aumenta seu comprimento máximo. Na prática, o NVL72 é a única maneira de aumentar a duração da inferência para mais de 100 mil tokens e também é econômico, diz SemiAnalysis.

avalanche

Próximo Donald Trump pede ao Supremo Tribunal que suspenda uma lei que ameaça proibir o TikTok nos EUA »

Anterior « Coreia do Sul criará a maior produção de chips do mundo

Deixar comentário

Publicado por

avalanche

2 anos atrás

Postagens recentes

Carros, motos, veículos

Os Estados Unidos permitirão que aviões supersônicos sobrevoem cidades, mas sob uma condição.

A Administração Federal de Aviação dos EUA (FAA) anunciou recentemente sua intenção de permitir que…

40 minutos atrás

Jogos

“O tempo é uma construção social”: o thriller de ficção científica Ontos, dos criadores de Amnesia e Soma, foi adiado para 2027.

O thriller de ficção científica Ontos, que despertou a curiosidade dos fãs no The Game…

1 hora atrás

Software para celular

O blogueiro que vazou informações do iOS 26 antes do anúncio oficial culpou seu cúmplice.

O YouTuber Jon Prosser apresentou uma resposta ao processo da Apple, no qual a empresa…

1 hora atrás

O mundo da robótica

Os cientistas se inspiraram no peneireiro-vulgar e desenvolverão um drone capaz de resistir a rajadas de vento.

Cientistas da Universidade RMIT (Austrália) e da Universidade de Bristol (Reino Unido) propuseram um método…

2 horas atrás

Processadores

O retorno ao DDR4 está a todo vapor: a Intel retomou a produção dos processadores Raptor Lake.

A demanda por processadores está atualmente em seu nível mais alto, com o segmento de…

2 horas atrás

Redes sociais

Ativistas americanos de direitos humanos declararam que a rede social X representa uma séria ameaça à privacidade dos americanos.

Ativistas americanos de direitos humanos alertaram a Comissão Federal de Comércio (FTC) dos EUA sobre…

2 horas atrás

Mais caro, mas três vezes mais eficiente: NVIDIA está preparando aceleradores GB300 com 288 GB HBM3E e TDP 1,4 kW

Conteúdo relacionado

Postagens recentes

Os Estados Unidos permitirão que aviões supersônicos sobrevoem cidades, mas sob uma condição.

“O tempo é uma construção social”: o thriller de ficção científica Ontos, dos criadores de Amnesia e Soma, foi adiado para 2027.

O blogueiro que vazou informações do iOS 26 antes do anúncio oficial culpou seu cúmplice.

Os cientistas se inspiraram no peneireiro-vulgar e desenvolverão um drone capaz de resistir a rajadas de vento.

O retorno ao DDR4 está a todo vapor: a Intel retomou a produção dos processadores Raptor Lake.

Ativistas americanos de direitos humanos declararam que a rede social X representa uma séria ameaça à privacidade dos americanos.