Crush é um supercomputador de aquecimento com AMD EPYC e Instinct MI250X

O Oak Ridge National Laboratory (ORNL) é frequentemente mencionado em artigos de notícias como testando e implementando ativamente novas tecnologias de supercomputação. Atualmente, o OLCF Computing Center (Oak Ridge Leadership Computing Facility) está trabalhando na instalação do primeiro supercomputador exascale Frontier dos EUA baseado em processadores e aceleradores AMD.

Vários recursos arquitetônicos da Frontier vieram à tona quando o Centro Nacional de Ciências Computacionais lançou um pequeno cluster Crusher que usa quase os mesmos nós HPE Cray que a Frontier. O sistema é utilizado como plataforma de acesso antecipado e é composto por apenas dois gabinetes. O primeiro tem 128 nós, o segundo tem 64. O desempenho máximo total é declarado em 40 PFlops.

No centro de cada nó está uma versão especial do AMD EPYC 7A53. Os 64 núcleos (com SMT2) são divididos em quatro domínios NUMA servidos por controladores de memória separados. Oito canais DDR4 (total de 512 GB por nó) fornecem 205 GB/s de largura de banda. Existem apenas quatro aceleradores no sistema, mas esses são os mais recentes chips AMD Instinct MI250X, então eles são visíveis para o sistema como oito GPUs separadas.

Cada um dos aceleradores está conectado a um domínio NUMA por meio de dois links Infinity Fabric fornecendo 36 GB/s em cada direção. Os chips dentro do MI250X são conectados entre si por um canal mais rápido, fornecendo 200 GB/s em ambas as direções. Todos os aceleradores estão interligados de acordo com o esquema “cada um com cada” canais de 50 GB/s. Ao mesmo tempo, eles são conectados diretamente à fábrica – cada um tem direito ao seu próprio adaptador HPE Slingshot (200 Gb / s).

Apenas um par de SSDs de 1,92 TB é conectado à CPU por meio de um switch PCIe (4 GB / s para gravação, 1,6 milhão de IOPS para operações aleatórias). Cada domínio NUMA é dividido em dois subdomínios L3 associados a um acelerador, o que permite uma distribuição de carga flexível. O armazenamento principal é um sistema de armazenamento externo IBM Spectrum Scale com capacidade total de 250 PB e velocidade de pico de 2,5 TB/s.

Fronteira do futuro supercomputador

O sistema também tem acesso à rede NCSS, embora não direto. No armazenamento NFS geral, cada projeto pode obter 50 GB com um período de retenção de dados de 90 dias, e 50 TB já estão disponíveis no GPFS em Spectrum Scale. Crusher vem com muitos softwares pré-instalados. O ambiente do usuário é modular, baseado no sistema Lmod escrito em Lua. Slurm é responsável pelo balanceamento de carga. A chave de token de hardware RSA SecurID é usada para autenticação.

avalanche

Postagens recentes

A Apple atualizou o Xcode introduzindo a codificação intuitiva com agentes da OpenAI e da Anthropic AI.

A Apple continua a desenvolver a plataforma Xcode, que automatiza o processo de escrita, edição…

5 horas atrás

A “data de morte” do ChromeOS foi revelada — o Google fornecerá um período razoável de suporte para o sistema operacional em fase final de desenvolvimento.

O Google planeja descontinuar completamente seu sistema operacional ChromeOS até 2034, substituindo-o por uma nova…

6 horas atrás

A Epic Games Store está ficando mais rápida e fácil de usar.

A Epic Games planeja redesenhar completamente a arquitetura principal de seu launcher e revelar os…

7 horas atrás

A Western Digital anunciou a data de lançamento de seus HDDs de 100 TB, com os modelos de 40 a 44 TB com HAMR quase prontos.

Durante sua apresentação para investidores no Innovation Day, a Western Digital revelou seus planos. A…

7 horas atrás

The Outer Worlds 2 e Avowed não corresponderam às expectativas da Microsoft, mas isso não significa o fim para a Obsidian.

O estúdio Obsidian Entertainment, pertencente à Microsoft, lançou três projetos em 2025 — o jogo…

8 horas atrás

A Snowflake agora colaborará diretamente com a OpenAI, sem passar pela Microsoft.

A Snowflake, empresa de ciência de dados com IA baseada em nuvem, anunciou uma parceria…

13 horas atrás