As instituições financeiras, sistemas de reserva e outras operadoras essenciais aos negócios adoram as “grandes máquinas” da IBM por sua confiabilidade. Não é à toa que a letra z no nome dos sistemas significa Tempo de inatividade zero – tempo de inatividade zero. Na conferência Hot Chips 33, a empresa revelou uma nova geração de processadores z, que pela primeira vez na história recebeu seu próprio nome Telum (dardo em latim). O nome “arma” foi escolhido por um motivo: na nova arquitetura, a IBM também introduziu novas soluções que não eram utilizadas anteriormente no System z, projetadas, em particular, para combater a fraude.

Placa com cristais IBM Telum

Alguns dos principais clientes da IBM – grandes corporações financeiras e bancos – há muito esperam por ferramentas integradas de IA, uma vez que seus sistemas devem processar milhares e milhares de transações por segundo, e fazê-lo da forma mais confiável possível. Um dos objetivos no desenvolvimento do Telum foi a introdução de cálculos de inferência que ocorrem em tempo real logo durante o processamento de uma transação e sem enviar nenhum dado para fora do sistema.

Portanto, o acelerador de inferência em Telum está conectado diretamente ao subsistema de cache e usa todo o processador z / Architecture e mecanismos de proteção de memória. E ele próprio também carrega uma série de abordagens características de z. Assim, um “firmware” separado controla o funcionamento do acelerador, que pode ser alterado para otimizar as tarefas de um determinado cliente. Ele é executado em um dos núcleos e no próprio acelerador, que se comunica com esse núcleo e é responsável por acessar a memória e o cache, a segurança e integridade dos dados e o gerenciamento dos cálculos reais.

O acelerador inclui dois tipos de motores. O primeiro tem 128 blocos SIMD para operações MAC com dados FP16 e é necessário para multiplicação e convolução de matrizes. O segundo possui apenas 32 blocos SIMD, mas pode trabalhar com dados FP16 / FP32 e é otimizado para funções de ativação de rede e outras tarefas mais complexas. Eles são complementados por um bloco de memória ultrarrápida (scratchpad) e um motor IO “inteligente” responsável por mover e preparar os dados, que pode reformatá-los na hora.

O Scratchpad é conectado a um bloco que baixa dados do cache L2 e envia de volta os resultados dos cálculos. A IBM enfatiza separadamente que a presença de um acelerador AI dedicado permite o uso de blocos SIMD convencionais nos núcleos em paralelo, sugerindo claramente o AVX-512 VNNI. No entanto, Sapphire Rapids agora também tem uma unidade AMX separada no núcleo, que é, no entanto, mais modesta em funcionalidade.

O acelerador pode ser acessado do espaço do usuário, inclusive em um ambiente virtualizado. Para trabalhar com o novo acelerador, a empresa oferece o IBM Deep Learning Compiler, que ajudará a otimizar os modelos ONNX importados. Também há suporte pronto para uso para TensorFlow, IBM Snap ML e uma variedade de ferramentas de desenvolvimento populares. Existe um acelerador AI por processador com desempenho de mais de 6 teraflops FP16.

No modelo de teste RNN, para proteção contra fraudes, o chip pode realizar 116 mil operações de inferência com latência de até 1,1 ms, e para um sistema de 32 processadores esse número já é de 3,6 milhões de operações de inferência, enquanto a latência aumenta. a 1,2 ms. Além do acelerador AI, há também um acelerador de (des) compactação (gzip) comum para todos os núcleos + cada núcleo também tem um mecanismo para CSMP. Bem, os aceleradores para classificação e criptografia também não chegaram a lugar nenhum.

Centenas de mecanismos diferentes para verificar e rever a operabilidade são responsáveis ​​pela confiabilidade. Assim, por exemplo, os registros e o cache ficam duplicados, permitindo em caso de falha do yal fazer um reboot completo e continuar a execução das tarefas exatamente do local onde foi interrompido. E para a RAM, que é criptografada sem falhas, o modo Redundant Array of Memory (RAIM) é usado, uma espécie de RAID-array, onde uma linha de cache é “espalhada” entre oito módulos de uma vez.

Telum, herdando muito de seu predecessor z15, ainda é radicalmente diferente dele. O processador contém oito núcleos com suporte para execução fora de ordem profunda “inteligente” e SMT2, operando a uma frequência de mais de 5 GHz. Cada núcleo depende de 32 MB de cache L2, então outros processadores modernos parecem sem graça em comparação com seu fundo. Mas não é tão simples.

IBM Telum

IBM com marcas

Os caches se comunicam entre si por meio de um barramento em anel bidirecional com uma largura de banda de mais de 320 GB / s, formando assim um cache L3 virtual com um volume de 256 MB e com uma latência média de 12 ns. Cada chip Telum pode conter um (SCM) ou dois (DCM) processadores. E em um nó pode haver até quatro chips, ou seja, até oito CPUs, combinadas de acordo com o esquema each-s-each com a mesma velocidade de 320 GB / s.

Assim, dentro da estrutura do nó, um cache L4 virtual com um volume de 2 GB é formado. A topologia plana de caches, de acordo com a IBM, fornece novos processadores com menor latência em comparação com o z15. É possível escalonar até 32 processadores, mas nós individuais são vinculados por várias conexões a “apenas” 45 GB / s em cada sentido.

No geral, a IBM está relatando uma melhoria de desempenho de 40% em relação ao z15 por soquete. Telum contém 22 bilhões de transistores e tem um TDP de 400W em operação normal. O processador será fabricado nas instalações da Samsung usando a tecnologia de processo EUV de 7 nm. Ele se tornará o mainframe para os mainframes IBM z16 e LinuxNOW. A plataforma de software ainda será z / OS e Linux tradicionais.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *