NVIDIA compartilhou detalhes sobre os aceleradores H100 baseados na arquitetura Hopper

Na conferência Hot Chips 34, a NVIDIA compartilhou novos detalhes sobre os próximos aceleradores H100 baseados na arquitetura Hopper. O chip GH100 contém 80 bilhões de transistores e é fabricado com a tecnologia de processo TSMC N4, especialmente otimizada para as necessidades da NVIDIA, criada em colaboração com a NVIDIA. O acelerador será o primeiro do mundo a receber memória HBM3.

O chip tem 144 multiprocessadores de streaming (SMs) de uma só vez, o que é um pouco mais do que no A100, onde existem fisicamente 128 desses blocos. Existem apenas 132 blocos ativos, mas a NVIDIA reivindica o dobro do desempenho dos novos SMs quando comparado com o geração anterior com igual frequência. Isso se aplica aos módulos FMA FP32 e FP64. Além disso, há suporte para o formato FP8, que é cada vez mais comum em cenários de aprendizado de máquina que não exigem alta precisão computacional.

Fonte da imagem aqui e abaixo: NVIDIA via ServeTheHome

Nesse modo, a NVIDIA suportava os dois formatos FP8 mais comuns: E5M2 e E4M3, ou seja, a representação de um número na forma de 5 ou 4 bits para o expoente e 2 ou 3 bits para a mantissa, respectivamente. Cada bloco tensor FP8 fornece a multiplicação de duas matrizes no formato FP8 com maior acúmulo e transformação do resultado, mas o mais importante aqui é que devido à presença do novo bloco Transformer Engine, a seleção da variante FP8 mais adequada é realizado automaticamente. De acordo com a NVIDIA, a arquitetura avançada dos processadores tensores habilitados para FP8 oferece precisão comparável ao FP16, mas com o dobro do desempenho e metade do consumo de memória.

No total, cada bloco SM possui 128 módulos FP32, 64 módulos INT32 e FP64 e 4 núcleos tensores, além de um acelerador de memória tensorial e um cache L1 total de 256 KB. O volume do cache L2 é de até 50 MB. Na implementação atual, estão disponíveis 16896 núcleos CUDA de 18432 possíveis e 528 núcleos tensores de 576. De acordo com a NVIDIA, os novos módulos de computação tensor de quarta geração também se tornaram duas vezes mais rápidos. Implementado suporte para um novo conjunto de instruções DPX, suporte para assincronia ao mover dados, etc.

A tecnologia MIG (multi-instance GPU) cresceu para a segunda geração. Agora, cada um desses aceleradores virtuais se tornou três vezes mais poder de computação e duas vezes a largura de banda da memória. Este último foi alcançado através do uso de HBM3. Nesta versão, são utilizados conjuntos HBM3 com capacidade de 16 GB cada (barramento de 5120 bits). Cinco conjuntos fornecem 80 GB de memória local com uma largura de banda de memória de 3 TB / s. Existem seis assentos de montagem, mas um é usado apenas para nivelar a altura do chip

Ao mesmo tempo, a virtualização do GH100 é a mais completa possível: é fornecido suporte para computação confiável em nível de hardware, incluindo blocos de firewall especializados que fornecem isolamento das regiões de memória de cada vGPU, bem como blocos para verificação de integridade e manter a confidencialidade dos dados. Falamos sobre o suporte para a nova geração da interconexão NVLink 4 anteriormente – essa interface fornece até 900 GB / s para combinar vários chips e aceleradores, mas, o mais importante, oferece opções de dimensionamento flexíveis.

O GH100 também tem outra inovação importante – uma hierarquia de memória modificada. Assim, a interconexão SM-to-SM permite que cada quatro SMs se comuniquem diretamente entre si e não carreguem o barramento comum com transações desnecessárias. Isso aumenta a eficiência na virtualização e economiza seriamente a largura de banda dos “caminhos principais” do acelerador. Juntamente com o suporte para execução assíncrona e troca de dados, isso reduzirá a latência, em alguns casos até sete vezes.

Se a NVIDIA realiza todo o potencial do GH100 ainda não está claro, mas isso pode aumentar o já sério potencial da novidade. No entanto, tal potência não é dada em vão: mesmo em uma versão truncada e mesmo com o uso de um processo técnico otimizado, um acelerador baseado no GH100 no formato SXM5 (placa PG520) terá um TDP de 700 W.

Sem dúvida, o GH100 é um grande avanço em relação ao GA100, mas a concorrência será séria: por exemplo, o novo produto terá que brigar com aceleradores baseados na Intel Ponte Vecchio, e prometem uma relação FP32/FP64 de 1: 1 contra 2:1 para a solução NVIDIA. Um fato interessante: o único cluster GPC do novo chip é 20% mais poderoso que todo o chip GK110 Kepler lançado há apenas 10 anos.

avalanche

Postagens recentes

Os indicadores estão caindo, mas a CD Projekt não desanima – as vendas do Cyberpunk 2077 atingiram novos patamares

A empresa polaca CD Projekt relatou resultados financeiros para o terceiro trimestre do ano civil…

52 minutos atrás

El Salvador vai alugar vulcões para mineração de bitcoin

As autoridades de El Salvador, país centro-americano rico em energia geotérmica, pretendem alugar vulcões a…

2 horas atrás