Crush é um supercomputador de aquecimento com AMD EPYC e Instinct MI250X

O Oak Ridge National Laboratory (ORNL) é frequentemente mencionado em artigos de notícias como testando e implementando ativamente novas tecnologias de supercomputação. Atualmente, o OLCF Computing Center (Oak Ridge Leadership Computing Facility) está trabalhando na instalação do primeiro supercomputador exascale Frontier dos EUA baseado em processadores e aceleradores AMD.

Vários recursos arquitetônicos da Frontier vieram à tona quando o Centro Nacional de Ciências Computacionais lançou um pequeno cluster Crusher que usa quase os mesmos nós HPE Cray que a Frontier. O sistema é utilizado como plataforma de acesso antecipado e é composto por apenas dois gabinetes. O primeiro tem 128 nós, o segundo tem 64. O desempenho máximo total é declarado em 40 PFlops.

No centro de cada nó está uma versão especial do AMD EPYC 7A53. Os 64 núcleos (com SMT2) são divididos em quatro domínios NUMA servidos por controladores de memória separados. Oito canais DDR4 (total de 512 GB por nó) fornecem 205 GB/s de largura de banda. Existem apenas quatro aceleradores no sistema, mas esses são os mais recentes chips AMD Instinct MI250X, então eles são visíveis para o sistema como oito GPUs separadas.

Cada um dos aceleradores está conectado a um domínio NUMA por meio de dois links Infinity Fabric fornecendo 36 GB/s em cada direção. Os chips dentro do MI250X são conectados entre si por um canal mais rápido, fornecendo 200 GB/s em ambas as direções. Todos os aceleradores estão interligados de acordo com o esquema “cada um com cada” canais de 50 GB/s. Ao mesmo tempo, eles são conectados diretamente à fábrica – cada um tem direito ao seu próprio adaptador HPE Slingshot (200 Gb / s).

Apenas um par de SSDs de 1,92 TB é conectado à CPU por meio de um switch PCIe (4 GB / s para gravação, 1,6 milhão de IOPS para operações aleatórias). Cada domínio NUMA é dividido em dois subdomínios L3 associados a um acelerador, o que permite uma distribuição de carga flexível. O armazenamento principal é um sistema de armazenamento externo IBM Spectrum Scale com capacidade total de 250 PB e velocidade de pico de 2,5 TB/s.

Fronteira do futuro supercomputador

O sistema também tem acesso à rede NCSS, embora não direto. No armazenamento NFS geral, cada projeto pode obter 50 GB com um período de retenção de dados de 90 dias, e 50 TB já estão disponíveis no GPFS em Spectrum Scale. Crusher vem com muitos softwares pré-instalados. O ambiente do usuário é modular, baseado no sistema Lmod escrito em Lua. Slurm é responsável pelo balanceamento de carga. A chave de token de hardware RSA SecurID é usada para autenticação.

avalanche

Postagens recentes

As ações da Apple caíram mais de 5% após aumentos acentuados nos preços de MacBooks e iPads.

Hoje, a Apple anunciou oficialmente um aumento de 15 a 20% nos preços de MacBooks…

44 minutos atrás

Evolução dos carrinhos de golfe: ex-funcionários da Apple e da Audi criam buggy elétrico de US$ 25.000

Na última década, a indústria de veículos elétricos investiu no desenvolvimento de baterias maiores, maior…

2 horas atrás

Anos de decepção com Destiny 2 levaram a demissões em massa na Bungie, mas os desenvolvedores “deveriam se orgulhar” de si mesmos.

Conforme alertaram fontes da Bloomberg, após o fim do desenvolvimento ativo do jogo de tiro…

2 horas atrás

A Adobe adquiriu a Topaz Labs, desenvolvedora de inteligência artificial para aprimoramento de imagens e vídeos.

A Adobe anunciou a aquisição da Topaz Labs, desenvolvedora de modelos de inteligência artificial para…

2 horas atrás