Crush é um supercomputador de aquecimento com AMD EPYC e Instinct MI250X

O Oak Ridge National Laboratory (ORNL) é frequentemente mencionado em artigos de notícias como testando e implementando ativamente novas tecnologias de supercomputação. Atualmente, o OLCF Computing Center (Oak Ridge Leadership Computing Facility) está trabalhando na instalação do primeiro supercomputador exascale Frontier dos EUA baseado em processadores e aceleradores AMD.

Vários recursos arquitetônicos da Frontier vieram à tona quando o Centro Nacional de Ciências Computacionais lançou um pequeno cluster Crusher que usa quase os mesmos nós HPE Cray que a Frontier. O sistema é utilizado como plataforma de acesso antecipado e é composto por apenas dois gabinetes. O primeiro tem 128 nós, o segundo tem 64. O desempenho máximo total é declarado em 40 PFlops.

No centro de cada nó está uma versão especial do AMD EPYC 7A53. Os 64 núcleos (com SMT2) são divididos em quatro domínios NUMA servidos por controladores de memória separados. Oito canais DDR4 (total de 512 GB por nó) fornecem 205 GB/s de largura de banda. Existem apenas quatro aceleradores no sistema, mas esses são os mais recentes chips AMD Instinct MI250X, então eles são visíveis para o sistema como oito GPUs separadas.

Cada um dos aceleradores está conectado a um domínio NUMA por meio de dois links Infinity Fabric fornecendo 36 GB/s em cada direção. Os chips dentro do MI250X são conectados entre si por um canal mais rápido, fornecendo 200 GB/s em ambas as direções. Todos os aceleradores estão interligados de acordo com o esquema “cada um com cada” canais de 50 GB/s. Ao mesmo tempo, eles são conectados diretamente à fábrica – cada um tem direito ao seu próprio adaptador HPE Slingshot (200 Gb / s).

Apenas um par de SSDs de 1,92 TB é conectado à CPU por meio de um switch PCIe (4 GB / s para gravação, 1,6 milhão de IOPS para operações aleatórias). Cada domínio NUMA é dividido em dois subdomínios L3 associados a um acelerador, o que permite uma distribuição de carga flexível. O armazenamento principal é um sistema de armazenamento externo IBM Spectrum Scale com capacidade total de 250 PB e velocidade de pico de 2,5 TB/s.

Fronteira do futuro supercomputador

O sistema também tem acesso à rede NCSS, embora não direto. No armazenamento NFS geral, cada projeto pode obter 50 GB com um período de retenção de dados de 90 dias, e 50 TB já estão disponíveis no GPFS em Spectrum Scale. Crusher vem com muitos softwares pré-instalados. O ambiente do usuário é modular, baseado no sistema Lmod escrito em Lua. Slurm é responsável pelo balanceamento de carga. A chave de token de hardware RSA SecurID é usada para autenticação.

avalanche

Postagens recentes

A Amazon apresenta o Proteus, um robô de armazém totalmente autônomo e controlado por voz.

A Amazon possui mais de um milhão de robôs trabalhando em armazéns, mas até agora,…

38 minutos atrás

Laufey não terá que esperar anos por God of War.

Embora a recente revelação de God of War Laufey, o jogo de ação e aventura…

55 minutos atrás

Microsoft: Os modernos centros de dados com IA consomem menos água do que um restaurante.

Os centros de dados para sistemas de inteligência artificial usam tão pouca água que seu…

1 hora atrás

A AMD não descarta a possibilidade de lançar um Ryzen 5 9600X3D de seis núcleos ainda este ano.

A AMD ainda não descartou a possibilidade de lançar um processador Ryzen 5 9600X3D de…

2 horas atrás