Crush é um supercomputador de aquecimento com AMD EPYC e Instinct MI250X

O Oak Ridge National Laboratory (ORNL) é frequentemente mencionado em artigos de notícias como testando e implementando ativamente novas tecnologias de supercomputação. Atualmente, o OLCF Computing Center (Oak Ridge Leadership Computing Facility) está trabalhando na instalação do primeiro supercomputador exascale Frontier dos EUA baseado em processadores e aceleradores AMD.

Vários recursos arquitetônicos da Frontier vieram à tona quando o Centro Nacional de Ciências Computacionais lançou um pequeno cluster Crusher que usa quase os mesmos nós HPE Cray que a Frontier. O sistema é utilizado como plataforma de acesso antecipado e é composto por apenas dois gabinetes. O primeiro tem 128 nós, o segundo tem 64. O desempenho máximo total é declarado em 40 PFlops.

No centro de cada nó está uma versão especial do AMD EPYC 7A53. Os 64 núcleos (com SMT2) são divididos em quatro domínios NUMA servidos por controladores de memória separados. Oito canais DDR4 (total de 512 GB por nó) fornecem 205 GB/s de largura de banda. Existem apenas quatro aceleradores no sistema, mas esses são os mais recentes chips AMD Instinct MI250X, então eles são visíveis para o sistema como oito GPUs separadas.

Cada um dos aceleradores está conectado a um domínio NUMA por meio de dois links Infinity Fabric fornecendo 36 GB/s em cada direção. Os chips dentro do MI250X são conectados entre si por um canal mais rápido, fornecendo 200 GB/s em ambas as direções. Todos os aceleradores estão interligados de acordo com o esquema “cada um com cada” canais de 50 GB/s. Ao mesmo tempo, eles são conectados diretamente à fábrica – cada um tem direito ao seu próprio adaptador HPE Slingshot (200 Gb / s).

Apenas um par de SSDs de 1,92 TB é conectado à CPU por meio de um switch PCIe (4 GB / s para gravação, 1,6 milhão de IOPS para operações aleatórias). Cada domínio NUMA é dividido em dois subdomínios L3 associados a um acelerador, o que permite uma distribuição de carga flexível. O armazenamento principal é um sistema de armazenamento externo IBM Spectrum Scale com capacidade total de 250 PB e velocidade de pico de 2,5 TB/s.

Fronteira do futuro supercomputador

O sistema também tem acesso à rede NCSS, embora não direto. No armazenamento NFS geral, cada projeto pode obter 50 GB com um período de retenção de dados de 90 dias, e 50 TB já estão disponíveis no GPFS em Spectrum Scale. Crusher vem com muitos softwares pré-instalados. O ambiente do usuário é modular, baseado no sistema Lmod escrito em Lua. Slurm é responsável pelo balanceamento de carga. A chave de token de hardware RSA SecurID é usada para autenticação.

avalanche

Postagens recentes

Roskomnadzor confirmou interrupções nos serviços bancários, serviços de entrega e operadoras de telecomunicações

O Centro de Monitoramento e Gestão da Rede de Comunicações Públicas (TsMU SSOP), subordinado a…

33 minutos atrás

3,5 Gbps em 35 km: Huawei e Zain KSA testaram com sucesso o Superlink Microwave

A Huawei anunciou resultados bem-sucedidos de uma prova de conceito conjunta da solução Superlink Microwave…

43 minutos atrás

Jornalistas revelaram quando serão publicadas as primeiras resenhas de Indiana Jones e do Grande Círculo

Faltam menos de duas semanas para o lançamento da ação e aventura Indiana Jones and…

2 horas atrás

S.T.A.L.K.E.R. 2: Coração de Chornobyl – o mesmo “Stalker”. Análise

Jogado no pc S.T.A.L.K.E.R. 2: Heart of Chornobyl segue em quase todos os sentidos o…

2 horas atrás

“Será melhor, maior, mais grandioso que The Witcher 3”: CD Projekt Red disse o que esperar de The Witcher 4

Funcionários da CD Projekt Red compartilharam detalhes do desenvolvimento do tão aguardado RPG de fantasia…

5 horas atrás