Categorias: Mercado de tecnologia e TI. notícia

NVIDIA compartilhou detalhes sobre os aceleradores H100 baseados na arquitetura Hopper

Na conferência Hot Chips 34, a NVIDIA compartilhou novos detalhes sobre os próximos aceleradores H100 baseados na arquitetura Hopper. O chip GH100 contém 80 bilhões de transistores e é fabricado com a tecnologia de processo TSMC N4, especialmente otimizada para as necessidades da NVIDIA, criada em colaboração com a NVIDIA. O acelerador será o primeiro do mundo a receber memória HBM3.

O chip tem 144 multiprocessadores de streaming (SMs) de uma só vez, o que é um pouco mais do que no A100, onde existem fisicamente 128 desses blocos. Existem apenas 132 blocos ativos, mas a NVIDIA reivindica o dobro do desempenho dos novos SMs quando comparado com o geração anterior com igual frequência. Isso se aplica aos módulos FMA FP32 e FP64. Além disso, há suporte para o formato FP8, que é cada vez mais comum em cenários de aprendizado de máquina que não exigem alta precisão computacional.

Fonte da imagem aqui e abaixo: NVIDIA via ServeTheHome

Nesse modo, a NVIDIA suportava os dois formatos FP8 mais comuns: E5M2 e E4M3, ou seja, a representação de um número na forma de 5 ou 4 bits para o expoente e 2 ou 3 bits para a mantissa, respectivamente. Cada bloco tensor FP8 fornece a multiplicação de duas matrizes no formato FP8 com maior acúmulo e transformação do resultado, mas o mais importante aqui é que devido à presença do novo bloco Transformer Engine, a seleção da variante FP8 mais adequada é realizado automaticamente. De acordo com a NVIDIA, a arquitetura avançada dos processadores tensores habilitados para FP8 oferece precisão comparável ao FP16, mas com o dobro do desempenho e metade do consumo de memória.

No total, cada bloco SM possui 128 módulos FP32, 64 módulos INT32 e FP64 e 4 núcleos tensores, além de um acelerador de memória tensorial e um cache L1 total de 256 KB. O volume do cache L2 é de até 50 MB. Na implementação atual, estão disponíveis 16896 núcleos CUDA de 18432 possíveis e 528 núcleos tensores de 576. De acordo com a NVIDIA, os novos módulos de computação tensor de quarta geração também se tornaram duas vezes mais rápidos. Implementado suporte para um novo conjunto de instruções DPX, suporte para assincronia ao mover dados, etc.

A tecnologia MIG (multi-instance GPU) cresceu para a segunda geração. Agora, cada um desses aceleradores virtuais se tornou três vezes mais poder de computação e duas vezes a largura de banda da memória. Este último foi alcançado através do uso de HBM3. Nesta versão, são utilizados conjuntos HBM3 com capacidade de 16 GB cada (barramento de 5120 bits). Cinco conjuntos fornecem 80 GB de memória local com uma largura de banda de memória de 3 TB / s. Existem seis assentos de montagem, mas um é usado apenas para nivelar a altura do chip

Ao mesmo tempo, a virtualização do GH100 é a mais completa possível: é fornecido suporte para computação confiável em nível de hardware, incluindo blocos de firewall especializados que fornecem isolamento das regiões de memória de cada vGPU, bem como blocos para verificação de integridade e manter a confidencialidade dos dados. Falamos sobre o suporte para a nova geração da interconexão NVLink 4 anteriormente – essa interface fornece até 900 GB / s para combinar vários chips e aceleradores, mas, o mais importante, oferece opções de dimensionamento flexíveis.

O GH100 também tem outra inovação importante – uma hierarquia de memória modificada. Assim, a interconexão SM-to-SM permite que cada quatro SMs se comuniquem diretamente entre si e não carreguem o barramento comum com transações desnecessárias. Isso aumenta a eficiência na virtualização e economiza seriamente a largura de banda dos “caminhos principais” do acelerador. Juntamente com o suporte para execução assíncrona e troca de dados, isso reduzirá a latência, em alguns casos até sete vezes.

Se a NVIDIA realiza todo o potencial do GH100 ainda não está claro, mas isso pode aumentar o já sério potencial da novidade. No entanto, tal potência não é dada em vão: mesmo em uma versão truncada e mesmo com o uso de um processo técnico otimizado, um acelerador baseado no GH100 no formato SXM5 (placa PG520) terá um TDP de 700 W.

Sem dúvida, o GH100 é um grande avanço em relação ao GA100, mas a concorrência será séria: por exemplo, o novo produto terá que brigar com aceleradores baseados na Intel Ponte Vecchio, e prometem uma relação FP32/FP64 de 1: 1 contra 2:1 para a solução NVIDIA. Um fato interessante: o único cluster GPC do novo chip é 20% mais poderoso que todo o chip GK110 Kepler lançado há apenas 10 anos.

avalanche

Próximo Relógios inteligentes Apple Watch Pro podem ser apresentados no evento da empresa em 7 de setembro »

Anterior « O logotipo da tarifa Amigos e Família do Xbox Game Pass apareceu na rede

Deixar comentário

Publicado por

avalanche

4 anos atrás

Postagens recentes

Módulos de RAM, cartões de memória, pen drives, leitores de cartões

O boom da IA ajudou a CXMT da China a mais que dobrar suas vendas de memória, atingindo US$ 8 bilhões.

Um estudo recente da Omdia mostrou que os fabricantes de chips de memória apresentaram o…

19 minutos atrás

A HP apresentou a estação de trabalho Z8 Fury G6i com suporte para quatro aceleradores NVIDIA RTX Pro 6000 Blackwell Max-Q Workstation Edition.

A HP anunciou a estação de trabalho desktop Z8 Fury G6i, projetada para tarefas complexas…

46 minutos atrás

O computador empresarial Dell Pro 5 Micro, em um gabinete de um litro, recebeu um chip Intel Panther Lake com desempenho de IA de 50 TOPS.

A Dell Technologies apresentou o Pro 5 Micro, um computador de formato compacto projetado para…

46 minutos atrás

Jogos

O jogo multiplayer de detetive social 4 Penny Coffins leva os jogadores à Londres vitoriana em busca de Jack, o Estripador.

Os desenvolvedores do estúdio canadense Other Ocean Interactive (Project Winter) apresentaram o jogo multiplayer de…

46 minutos atrás

Programas

A MTS Exolve apresenta um serviço para trabalho centralizado com chats de clientes.

A MTS Exolve, subsidiária integral da MTS, anunciou o lançamento de uma solução omnichannel para…

1 hora atrás

Vírus, cavalos de Troia, vulnerabilidades de software, problemas de segurança

A IA ajudará a detectar erros no código de projetos do GitHub.

O GitHub implementará a verificação de código com inteligência artificial em seu serviço de Segurança…

1 hora atrás

NVIDIA compartilhou detalhes sobre os aceleradores H100 baseados na arquitetura Hopper

Conteúdo relacionado

Postagens recentes

O boom da IA ​​ajudou a CXMT da China a mais que dobrar suas vendas de memória, atingindo US$ 8 bilhões.

A HP apresentou a estação de trabalho Z8 Fury G6i com suporte para quatro aceleradores NVIDIA RTX Pro 6000 Blackwell Max-Q Workstation Edition.

O computador empresarial Dell Pro 5 Micro, em um gabinete de um litro, recebeu um chip Intel Panther Lake com desempenho de IA de 50 TOPS.

O jogo multiplayer de detetive social 4 Penny Coffins leva os jogadores à Londres vitoriana em busca de Jack, o Estripador.

A MTS Exolve apresenta um serviço para trabalho centralizado com chats de clientes.

A IA ajudará a detectar erros no código de projetos do GitHub.

O boom da IA ajudou a CXMT da China a mais que dobrar suas vendas de memória, atingindo US$ 8 bilhões.