A NVIDIA compartilhou alguns detalhes sobre a estrutura dos processadores Grace Arm e dos chips híbridos Grace Hopper

No GTC 2022 desta primavera, a NVIDIA se anunciou pela primeira vez como fabricante de poderosos processadores de servidor. Estamos falando de chips Grace e assemblies híbridos Grace Hopper, combinando núcleos e aceleradores Arm v9 baseados na arquitetura Hopper, que devem começar a ser entregues no primeiro semestre do próximo ano. Muitos desenvolvedores de supercomputadores já estão interessados ​​em novos produtos. Antes da conferência Hot Chips 34, a empresa revelou vários detalhes sobre os chips.

O Grace é fabricado usando a tecnologia de processo TSMC 4N – esta é uma variante do N4 especialmente otimizada para soluções NVIDIA, que faz parte da série de processos de 5nm do fabricante taiwanês. Cada Grace die contém 72 núcleos Arm v9 que suportam extensões vetoriais escaláveis ​​SVE2 e extensões de virtualização que suportam S-EL2. Conforme relatado anteriormente, a NVIDIA escolheu o núcleo Arm Neoverse para a nova plataforma.

Fonte: NVIDIA

O processador Grace também está em conformidade com uma série de outras especificações do Arm, incluindo RAS v1.1 compatível com Generic Interrupt Controller (GIC) v4.1, System Memory Management Unit (SMMU) v3.1 e Memory Partitioning and Monitoring (MPAM). Grace tem dois cristais básicos, o que dá um total de 144 núcleos – um número recorde nos mundos Arm e x86.

Organização interna de clusters de kernel no Grace. Fonte: NVIDIA

As unidades internas Grace são conectadas através do Scalable Coherency Fabric (SCF), a variação da NVIDIA na rede CMN-700 usada nos projetos Arm Neoverse. O desempenho dessa interconexão é de 3,2 TB/s. No caso do Grace, ele assume 117 MB de cache L3 e mantém a coerência dentro de quatro soquetes (através da nova versão do NVLink).

Mas o SCF suporta dimensionamento. Até agora, em hardware, está limitado a dois blocos Grace, e já são 144 núcleos e 234 MB de cache L3. Os núcleos e partições de cache (SCC) são distribuídos pelo SCF interno da fábrica de malha. Os switches (CSNs) servem como interfaces para núcleos, partições de cache e o restante do sistema. Os blocos CSN se comunicam diretamente entre si, bem como com controladores LPDDR5X e PCIe 5.0/cNVLink/NVLink C2C.

Diagrama de blocos de cristal de graça. Fonte: NVIDIA

O chip suporta PCI Express 5.0. No total, o controlador suporta 68 linhas, 12 das quais também podem funcionar no modo cNVLink (NVLink com coerência). Uma interface x16 pode ser bifurcada em duas interfaces x8. Também no diagrama fornecido pela NVIDIA, você pode ver até 16 controladores LPDDR5x de canal duplo. Largura de banda de memória declarada de mais de 1 TB/s para montagem (até 546 GB/s por CPU).

Fonte: NVIDIA

A NVIDIA vê uma nova versão do NVLink, o NVLink-C2C, que é sete vezes mais rápido que o PCIe 5.0 e capaz de fornecer taxas de transferência de dados bidirecionais de até 900 GB/s, sendo cinco vezes mais econômico. O consumo específico da novidade é de 1,3 pJ/bit, valor inferior ao do AMD Infinity Fabric com 1,5 pJ/bit. No entanto, também existem soluções mais econômicas, por exemplo, UCIe (~0,5 pJ/bit).

A nova variante NVLink fornecerá um cluster baseado em Grace Hopper com um único espaço de memória. Fonte: NVIDIA

O NVLink-C2C permite implementar um pool de memória “plano” unificado com um espaço de endereço comum para Grace Hopper. Dentro de um nó, é possível acessar livremente a memória dos vizinhos. Mas para combinar vários nós, você precisará de um switch NVSwitch externo. Terá 1U de altura e fornecerá 128 portas NVLink 4 com largura de banda agregada de até 6,4 TB/s em duplex.

Fonte: NVIDIA

O desempenho Grace também promete ser um recorde graças a uma arquitetura otimizada e interconexão rápida. Mesmo de acordo com os números preliminares publicados pela NVIDIA, estamos falando de 370 pontos SPECrate2017_int_base para uma única matriz Grace e 740 pontos para uma montagem de matriz dupla de 144 núcleos – e isso está usando o compilador GCC usual sem otimizações sutis de plataforma. O último valor é significativamente maior do que os resultados mostrados pelo Alibaba T-Head Yitian 710 de 128 núcleos, também usando a arquitetura Arm v9, e o AMD EPYC 7773X de 64 núcleos.

avalanche

Postagens recentes

IBM perdeu a liderança no número de patentes recebidas, mas foi planejado

Em 2022, a International Business Machines (IBM) perdeu a liderança em patentes nos EUA pela…

3 horas atrás

Um insider revelou a data da próxima apresentação do jogo da Microsoft – ele conterá novidades sobre os exclusivos do Xbox e da Bethesda

O editor da publicação Windows Central Jez Corden (Jez Corden), citando suas fontes, compartilhou informações…

5 horas atrás

OBS Studio obtém suporte para codificação AV1 em novas placas gráficas AMD e Intel

Foi lançado o OBS Studio 29.0, um aplicativo popular para gravação de vídeo e organização…

5 horas atrás

Os criadores de Dishonored e Prey esclareceram um equívoco comum sobre seu jogo de tiro cooperativo Redfall

O designer sênior de jogos da Arkane Studios, Ricardo Bare, e o CEO da Arkane…

5 horas atrás