IBM revela processadores Telum: 8 núcleos, 5+ GHz, cache L2 de 256 MB e acelerador de AI

As instituições financeiras, sistemas de reserva e outras operadoras essenciais aos negócios adoram as “grandes máquinas” da IBM por sua confiabilidade. Não é à toa que a letra z no nome dos sistemas significa Tempo de inatividade zero – tempo de inatividade zero. Na conferência Hot Chips 33, a empresa revelou uma nova geração de processadores z, que pela primeira vez na história recebeu seu próprio nome Telum (dardo em latim). O nome “arma” foi escolhido por um motivo: na nova arquitetura, a IBM também introduziu novas soluções que não eram utilizadas anteriormente no System z, projetadas, em particular, para combater a fraude.

Placa com cristais IBM Telum

Alguns dos principais clientes da IBM – grandes corporações financeiras e bancos – há muito esperam por ferramentas integradas de IA, uma vez que seus sistemas devem processar milhares e milhares de transações por segundo, e fazê-lo da forma mais confiável possível. Um dos objetivos no desenvolvimento do Telum foi a introdução de cálculos de inferência que ocorrem em tempo real logo durante o processamento de uma transação e sem enviar nenhum dado para fora do sistema.

Portanto, o acelerador de inferência em Telum está conectado diretamente ao subsistema de cache e usa todo o processador z / Architecture e mecanismos de proteção de memória. E ele próprio também carrega uma série de abordagens características de z. Assim, um “firmware” separado controla o funcionamento do acelerador, que pode ser alterado para otimizar as tarefas de um determinado cliente. Ele é executado em um dos núcleos e no próprio acelerador, que se comunica com esse núcleo e é responsável por acessar a memória e o cache, a segurança e integridade dos dados e o gerenciamento dos cálculos reais.

O acelerador inclui dois tipos de motores. O primeiro tem 128 blocos SIMD para operações MAC com dados FP16 e é necessário para multiplicação e convolução de matrizes. O segundo possui apenas 32 blocos SIMD, mas pode trabalhar com dados FP16 / FP32 e é otimizado para funções de ativação de rede e outras tarefas mais complexas. Eles são complementados por um bloco de memória ultrarrápida (scratchpad) e um motor IO “inteligente” responsável por mover e preparar os dados, que pode reformatá-los na hora.

O Scratchpad é conectado a um bloco que baixa dados do cache L2 e envia de volta os resultados dos cálculos. A IBM enfatiza separadamente que a presença de um acelerador AI dedicado permite o uso de blocos SIMD convencionais nos núcleos em paralelo, sugerindo claramente o AVX-512 VNNI. No entanto, Sapphire Rapids agora também tem uma unidade AMX separada no núcleo, que é, no entanto, mais modesta em funcionalidade.

O acelerador pode ser acessado do espaço do usuário, inclusive em um ambiente virtualizado. Para trabalhar com o novo acelerador, a empresa oferece o IBM Deep Learning Compiler, que ajudará a otimizar os modelos ONNX importados. Também há suporte pronto para uso para TensorFlow, IBM Snap ML e uma variedade de ferramentas de desenvolvimento populares. Existe um acelerador AI por processador com desempenho de mais de 6 teraflops FP16.

No modelo de teste RNN, para proteção contra fraudes, o chip pode realizar 116 mil operações de inferência com latência de até 1,1 ms, e para um sistema de 32 processadores esse número já é de 3,6 milhões de operações de inferência, enquanto a latência aumenta. a 1,2 ms. Além do acelerador AI, há também um acelerador de (des) compactação (gzip) comum para todos os núcleos + cada núcleo também tem um mecanismo para CSMP. Bem, os aceleradores para classificação e criptografia também não chegaram a lugar nenhum.

Centenas de mecanismos diferentes para verificar e rever a operabilidade são responsáveis ​​pela confiabilidade. Assim, por exemplo, os registros e o cache ficam duplicados, permitindo em caso de falha do yal fazer um reboot completo e continuar a execução das tarefas exatamente do local onde foi interrompido. E para a RAM, que é criptografada sem falhas, o modo Redundant Array of Memory (RAIM) é usado, uma espécie de RAID-array, onde uma linha de cache é “espalhada” entre oito módulos de uma vez.

Telum, herdando muito de seu predecessor z15, ainda é radicalmente diferente dele. O processador contém oito núcleos com suporte para execução fora de ordem profunda “inteligente” e SMT2, operando a uma frequência de mais de 5 GHz. Cada núcleo depende de 32 MB de cache L2, então outros processadores modernos parecem sem graça em comparação com seu fundo. Mas não é tão simples.

IBM com marcas

Os caches se comunicam entre si por meio de um barramento em anel bidirecional com uma largura de banda de mais de 320 GB / s, formando assim um cache L3 virtual com um volume de 256 MB e com uma latência média de 12 ns. Cada chip Telum pode conter um (SCM) ou dois (DCM) processadores. E em um nó pode haver até quatro chips, ou seja, até oito CPUs, combinadas de acordo com o esquema each-s-each com a mesma velocidade de 320 GB / s.

Assim, dentro da estrutura do nó, um cache L4 virtual com um volume de 2 GB é formado. A topologia plana de caches, de acordo com a IBM, fornece novos processadores com menor latência em comparação com o z15. É possível escalonar até 32 processadores, mas nós individuais são vinculados por várias conexões a “apenas” 45 GB / s em cada sentido.

No geral, a IBM está relatando uma melhoria de desempenho de 40% em relação ao z15 por soquete. Telum contém 22 bilhões de transistores e tem um TDP de 400W em operação normal. O processador será fabricado nas instalações da Samsung usando a tecnologia de processo EUV de 7 nm. Ele se tornará o mainframe para os mainframes IBM z16 e LinuxNOW. A plataforma de software ainda será z / OS e Linux tradicionais.

avalanche

Postagens recentes

NASA convida a todos para ajudar na busca de exoplanetas: se você não tem seu próprio telescópio, basta um smartphone

A NASA anunciou o acesso gratuito para todos ao programa Exoplanet Watch (“Observação de exoplanetas”).…

13 horas atrás

Fabricante de carros elétricos Rivian perde vários executivos seniores

No início de janeiro, soube-se que a jovem montadora americana Rivian produziu 24.337 veículos elétricos…

13 horas atrás