Crush é um supercomputador de aquecimento com AMD EPYC e Instinct MI250X

O Oak Ridge National Laboratory (ORNL) é frequentemente mencionado em artigos de notícias como testando e implementando ativamente novas tecnologias de supercomputação. Atualmente, o OLCF Computing Center (Oak Ridge Leadership Computing Facility) está trabalhando na instalação do primeiro supercomputador exascale Frontier dos EUA baseado em processadores e aceleradores AMD.

Vários recursos arquitetônicos da Frontier vieram à tona quando o Centro Nacional de Ciências Computacionais lançou um pequeno cluster Crusher que usa quase os mesmos nós HPE Cray que a Frontier. O sistema é utilizado como plataforma de acesso antecipado e é composto por apenas dois gabinetes. O primeiro tem 128 nós, o segundo tem 64. O desempenho máximo total é declarado em 40 PFlops.

No centro de cada nó está uma versão especial do AMD EPYC 7A53. Os 64 núcleos (com SMT2) são divididos em quatro domínios NUMA servidos por controladores de memória separados. Oito canais DDR4 (total de 512 GB por nó) fornecem 205 GB/s de largura de banda. Existem apenas quatro aceleradores no sistema, mas esses são os mais recentes chips AMD Instinct MI250X, então eles são visíveis para o sistema como oito GPUs separadas.

Cada um dos aceleradores está conectado a um domínio NUMA por meio de dois links Infinity Fabric fornecendo 36 GB/s em cada direção. Os chips dentro do MI250X são conectados entre si por um canal mais rápido, fornecendo 200 GB/s em ambas as direções. Todos os aceleradores estão interligados de acordo com o esquema “cada um com cada” canais de 50 GB/s. Ao mesmo tempo, eles são conectados diretamente à fábrica – cada um tem direito ao seu próprio adaptador HPE Slingshot (200 Gb / s).

Apenas um par de SSDs de 1,92 TB é conectado à CPU por meio de um switch PCIe (4 GB / s para gravação, 1,6 milhão de IOPS para operações aleatórias). Cada domínio NUMA é dividido em dois subdomínios L3 associados a um acelerador, o que permite uma distribuição de carga flexível. O armazenamento principal é um sistema de armazenamento externo IBM Spectrum Scale com capacidade total de 250 PB e velocidade de pico de 2,5 TB/s.

Fronteira do futuro supercomputador

O sistema também tem acesso à rede NCSS, embora não direto. No armazenamento NFS geral, cada projeto pode obter 50 GB com um período de retenção de dados de 90 dias, e 50 TB já estão disponíveis no GPFS em Spectrum Scale. Crusher vem com muitos softwares pré-instalados. O ambiente do usuário é modular, baseado no sistema Lmod escrito em Lua. Slurm é responsável pelo balanceamento de carga. A chave de token de hardware RSA SecurID é usada para autenticação.

avalanche

Postagens recentes

Borderlands 4 para Nintendo Switch 2 corre o risco de ser cancelado – a Take-Two suspendeu o desenvolvimento.

A versão para Nintendo Switch 2 de Borderlands 4, o jogo de tiro e saque…

37 minutos atrás

A Adobe mudou de ideia sobre o fim do suporte ao Animate.

A Adobe havia notificado anteriormente os usuários do Animate sobre o fim do suporte, mas…

37 minutos atrás

Imagens dos fones de ouvido sem fio Galaxy Buds4 e Buds4 Pro da Samsung surgiram antes do anúncio oficial.

A Samsung deverá apresentar oficialmente os fones de ouvido sem fio Galaxy Buds4 e Galaxy…

1 hora atrás

A AMD deu a entender que poderá lançar a próxima geração do Xbox – e a espera não será longa.

O crescimento da receita da AMD no segmento de jogos no último trimestre, conforme destacado…

1 hora atrás

A Qualcomm perdeu os dois criadores dos núcleos de processador Oryon, que esperava usar para conquistar uma fatia do mercado de PCs.

A Qualcomm anunciou oficialmente a saída de dois dos principais designers de processadores para PCs…

2 horas atrás