Detalhes do processador IBM POWER10: SMT8, OMI DDR5, PCIe 5.0 e PowerAXON 2.0

Estamos acompanhando de perto o destino e o desenvolvimento da arquitetura POWER, que, junto com o ARM, representa uma certa ameaça ao x86 no campo de servidores e supercomputadores – não é sem razão que um dos sistemas HPC mais poderosos do mundo, o supercomputador Oak Ridge National Laboratory Summit, usa processadores POWER9.

Anteriormente, esperava-se que, por uma série de razões, o lançamento da próxima arquitetura da família, POWER10, fosse adiado até 2021, embora a IBM estivesse promovendo ativamente novas soluções, como o padrão universal para memória de acesso aleatório OMI. No entanto, o anúncio oficial do IBM POWER10 ocorreu hoje, e o portal alemão Hardwareluxx postou slides da apresentação da empresa.

Conforme observado anteriormente, a empresa está se concentrando em grandes sistemas e nuvens híbridas. Com essas tendências em mente, novos processadores foram desenvolvidos. Como em grandes data centers em nuvem, o empacotamento de densidades computacionais atinge níveis sem precedentes, a questão da eficiência energética e da dissipação de calor está se tornando mais aguda. Mas é aqui, de acordo com a IBM, que o POWER10 deve mostrar seu melhor lado – os novos processadores são fabricados com uma tecnologia de processo de 7 nm e podem demonstrar uma vantagem de eficiência energética três vezes maior em relação ao POWER9.

POWER10 é o primeiro processador IBM comercial a usar padrões de fabricação de 7 nm; é curioso que agora a Intel esteja ficando para trás não apenas na AMD, que foi pioneira no uso de um processo técnico tão delicado em “grandes” processadores para servidores, mas também na IBM. Ao contrário do AMD EPYC, produzido nas instalações da TSMC, os novos produtos da IBM são “forjados” em forjas de semicondutores Samsung. A área da matriz de 18 bilhões de transistores nos novos processadores chega a 602 mm2, o que é menos do que os núcleos gráficos mais recentes, mas ainda assim o número é bastante sólido.

A tecnologia de processo POWER10 é um desenvolvimento conjunto entre a Samsung e a IBM. Ele implementa certos recursos que, presumivelmente, devem ter um efeito positivo nas características dos transistores individuais. Não esquecida é a tendência de instalar vários cristais em um pacote: POWER10 está disponível em montagens clássicas (SCM) e dual-die (DCM), então você pode escolher a opção certa para cada caso de uso. Na versão SCM, a frequência do clock central é de 4 GHz, o número de soquetes de processador no sistema pode chegar a 16. Na versão DCM, a frequência é reduzida para 3,5 GHz.

O cristal POWER10 base tem 16 núcleos de processamento, embora apenas 15 deles sejam usados, cada núcleo é suplementado com 2 MB de cache L2 e a quantidade total de cache L3 pode chegar a impressionantes 120 MB. O grau de paralelismo foi aumentado de SMT4 para SMT8, de modo que o processador pode executar até 120 threads simultaneamente, embora, é claro, tal paralelização de recursos de núcleo não será eficaz em todas as tarefas. O desempenho dos blocos SIMD foi significativamente aumentado, eles são duas vezes mais rápidos que os blocos POWER9 semelhantes e em operações de matriz são quatro vezes mais rápidos.

As interfaces PowerAXON 2.0 e PCI Express 5.0 são responsáveis ​​pela comunicação entre o processador e o “mundo externo”, no primeiro caso o padrão OpenCAPI aberto é suportado, no segundo 64 linhas são implementadas a uma velocidade de 32 GT / s por linha, conforme prescrito pelo padrão. O layout do link é diferente para DCM e SCM. No primeiro caso, pode haver apenas 4 sockets, mas a topologia “each with each” é usada, mas na versão de 16 sockets do SCM os processadores não se comunicam diretamente entre si “diagonalmente”.

A interface PowerAXON é universal, foi utilizada, entre outras coisas, para implementar o protocolo NVLink para conectar aceleradores baseados em GPUs NVIDIA. Não deve haver problemas de largura de banda, cada processador no sistema PowerAXON fornece até 1 TB / s. Além de conectar aceleradores e comunicar-se entre processadores, o PowerAXON tem outro aplicativo interessante e importante, que é discutido a seguir.

Já falamos aos nossos leitores sobre as vantagens da interface OMI unificada, que permite atualizar o subsistema de memória com pouco sangue. O novo processador aproveita ao máximo esses recursos. Cada matriz POWER10 base tem 16 links OMI x8, com uma largura de banda total de 1 TB / s. A latência, claro, aumentou, já que o controlador DDR do OMI é, na verdade, externo, mas o ganho é pequeno e é inferior a 10 nanossegundos.

E aqui estão os primeiros módulos #DDIMM do #Microchip e protótipos mecânicos da plataforma em # SC19 #OpenCAPI #GenZ #DRAM #memory # avalanche # avalancheru

Uma postagem compartilhada por 3DNews (@ avalanche_live) em 21 de novembro de 2019 às 11h18 PST

A versatilidade e a possibilidade de modernização compensam com juros esta desvantagem. Na versão atual, o pico de largura de banda chega a 410 GB / s por slot, o volume é de 4 TB por slot, porém, com a introdução de tipos de memória mais rápidos (DDR5, GDDR ou mesmo HBM), pode-se atingir 800 GB / s por slot. A possibilidade de trabalhar com SCM é mencionada separadamente, mas sem especificações. No momento, essa memória é massivamente representada apenas pelo 3D XPoint na forma de Intel Optane DCPMM.

A tecnologia de clustering de memória é interessante. Com o PowerAXON, um sistema pode acessar a RAM em outro sistema como se fosse seu. Nesse caso, a latência é de 50 – 100 ns, um pouco para sistemas NUMA. A capacidade total por sistema POWER10 pode ser de até 2 PB; levando em consideração o uso de sistemas IBM para lançar “comedores de memória” como SAP HANA, esses volumes são muito apropriados.

Em linha com a tendência atual de aprendizado de máquina, o POWER10 desenvolveu um amplo suporte para formatos de computação diferentes do FP32 / 64 tradicional. O bloco de computação flutuante no novo processador é denominado Matrix Math Accelerator. Comparado ao POWER9, ele é 10, 15 e 20 vezes mais rápido nos modos FP32, BFloat16 e INT8, respectivamente. Em outras palavras, POWER10 é uma boa escolha para sistemas de inferência.

Uma vez que a empresa vê os complexos de nuvem como uma das aplicações do POWER10, muita atenção é dada para garantir a segurança. Os novos processadores suportam criptografia total do conteúdo da RAM e, para agilizar os procedimentos criptográficos, possuem blocos de hardware correspondentes, e não apenas para o difundido padrão AES. Eles são flexíveis o suficiente para suportar criptografia segura quântica futura. Ele também suporta proteção de hardware e isolamento de contêineres. Um ataque bem-sucedido a um contêiner dentro da máquina não significa sucesso com outros contêineres.

A IBM oferece o Red Hat OpenShift como uma estrutura de software, e a arquitetura POWER10 foi otimizada de acordo para ter o melhor desempenho neste ambiente específico. Em geral, podemos dizer com segurança: os novos processadores Blue Giant revelaram-se soluções interessantes e de aparência muito decente, mesmo tendo como pano de fundo o sucesso do AMD EPYC.

O anúncio oficial ocorreu hoje, mas a implantação da produção em massa deve levar algum tempo, portanto, o surgimento dos primeiros servidores baseados no IBM POWER10 não deve ser esperado antes do início do próximo, 2021. E os planos da empresa indicam que o POWER11 já está em desenvolvimento.

avalanche

Postagens recentes

NASA convida a todos para ajudar na busca de exoplanetas: se você não tem seu próprio telescópio, basta um smartphone

A NASA anunciou o acesso gratuito para todos ao programa Exoplanet Watch (“Observação de exoplanetas”).…

9 horas atrás

Fabricante de carros elétricos Rivian perde vários executivos seniores

No início de janeiro, soube-se que a jovem montadora americana Rivian produziu 24.337 veículos elétricos…

9 horas atrás