Categorias: Mercado de tecnologia e TI. notícia

IBM revela processadores Telum: 8 núcleos, 5+ GHz, cache L2 de 256 MB e acelerador de AI

As instituições financeiras, sistemas de reserva e outras operadoras essenciais aos negócios adoram as “grandes máquinas” da IBM por sua confiabilidade. Não é à toa que a letra z no nome dos sistemas significa Tempo de inatividade zero – tempo de inatividade zero. Na conferência Hot Chips 33, a empresa revelou uma nova geração de processadores z, que pela primeira vez na história recebeu seu próprio nome Telum (dardo em latim). O nome “arma” foi escolhido por um motivo: na nova arquitetura, a IBM também introduziu novas soluções que não eram utilizadas anteriormente no System z, projetadas, em particular, para combater a fraude.

Placa com cristais IBM Telum

Alguns dos principais clientes da IBM – grandes corporações financeiras e bancos – há muito esperam por ferramentas integradas de IA, uma vez que seus sistemas devem processar milhares e milhares de transações por segundo, e fazê-lo da forma mais confiável possível. Um dos objetivos no desenvolvimento do Telum foi a introdução de cálculos de inferência que ocorrem em tempo real logo durante o processamento de uma transação e sem enviar nenhum dado para fora do sistema.

Portanto, o acelerador de inferência em Telum está conectado diretamente ao subsistema de cache e usa todo o processador z / Architecture e mecanismos de proteção de memória. E ele próprio também carrega uma série de abordagens características de z. Assim, um “firmware” separado controla o funcionamento do acelerador, que pode ser alterado para otimizar as tarefas de um determinado cliente. Ele é executado em um dos núcleos e no próprio acelerador, que se comunica com esse núcleo e é responsável por acessar a memória e o cache, a segurança e integridade dos dados e o gerenciamento dos cálculos reais.

O acelerador inclui dois tipos de motores. O primeiro tem 128 blocos SIMD para operações MAC com dados FP16 e é necessário para multiplicação e convolução de matrizes. O segundo possui apenas 32 blocos SIMD, mas pode trabalhar com dados FP16 / FP32 e é otimizado para funções de ativação de rede e outras tarefas mais complexas. Eles são complementados por um bloco de memória ultrarrápida (scratchpad) e um motor IO “inteligente” responsável por mover e preparar os dados, que pode reformatá-los na hora.

O Scratchpad é conectado a um bloco que baixa dados do cache L2 e envia de volta os resultados dos cálculos. A IBM enfatiza separadamente que a presença de um acelerador AI dedicado permite o uso de blocos SIMD convencionais nos núcleos em paralelo, sugerindo claramente o AVX-512 VNNI. No entanto, Sapphire Rapids agora também tem uma unidade AMX separada no núcleo, que é, no entanto, mais modesta em funcionalidade.

O acelerador pode ser acessado do espaço do usuário, inclusive em um ambiente virtualizado. Para trabalhar com o novo acelerador, a empresa oferece o IBM Deep Learning Compiler, que ajudará a otimizar os modelos ONNX importados. Também há suporte pronto para uso para TensorFlow, IBM Snap ML e uma variedade de ferramentas de desenvolvimento populares. Existe um acelerador AI por processador com desempenho de mais de 6 teraflops FP16.

No modelo de teste RNN, para proteção contra fraudes, o chip pode realizar 116 mil operações de inferência com latência de até 1,1 ms, e para um sistema de 32 processadores esse número já é de 3,6 milhões de operações de inferência, enquanto a latência aumenta. a 1,2 ms. Além do acelerador AI, há também um acelerador de (des) compactação (gzip) comum para todos os núcleos + cada núcleo também tem um mecanismo para CSMP. Bem, os aceleradores para classificação e criptografia também não chegaram a lugar nenhum.

Centenas de mecanismos diferentes para verificar e rever a operabilidade são responsáveis pela confiabilidade. Assim, por exemplo, os registros e o cache ficam duplicados, permitindo em caso de falha do yal fazer um reboot completo e continuar a execução das tarefas exatamente do local onde foi interrompido. E para a RAM, que é criptografada sem falhas, o modo Redundant Array of Memory (RAIM) é usado, uma espécie de RAID-array, onde uma linha de cache é “espalhada” entre oito módulos de uma vez.

Telum, herdando muito de seu predecessor z15, ainda é radicalmente diferente dele. O processador contém oito núcleos com suporte para execução fora de ordem profunda “inteligente” e SMT2, operando a uma frequência de mais de 5 GHz. Cada núcleo depende de 32 MB de cache L2, então outros processadores modernos parecem sem graça em comparação com seu fundo. Mas não é tão simples.

IBM com marcas

Os caches se comunicam entre si por meio de um barramento em anel bidirecional com uma largura de banda de mais de 320 GB / s, formando assim um cache L3 virtual com um volume de 256 MB e com uma latência média de 12 ns. Cada chip Telum pode conter um (SCM) ou dois (DCM) processadores. E em um nó pode haver até quatro chips, ou seja, até oito CPUs, combinadas de acordo com o esquema each-s-each com a mesma velocidade de 320 GB / s.

Assim, dentro da estrutura do nó, um cache L4 virtual com um volume de 2 GB é formado. A topologia plana de caches, de acordo com a IBM, fornece novos processadores com menor latência em comparação com o z15. É possível escalonar até 32 processadores, mas nós individuais são vinculados por várias conexões a “apenas” 45 GB / s em cada sentido.

No geral, a IBM está relatando uma melhoria de desempenho de 40% em relação ao z15 por soquete. Telum contém 22 bilhões de transistores e tem um TDP de 400W em operação normal. O processador será fabricado nas instalações da Samsung usando a tecnologia de processo EUV de 7 nm. Ele se tornará o mainframe para os mainframes IBM z16 e LinuxNOW. A plataforma de software ainda será z / OS e Linux tradicionais.

avalanche

Próximo Situação epidemiológica da Malásia pode agravar os problemas de abastecimento de chips »

Anterior « O Windows XP tem 20 anos hoje - e muitas pessoas ainda o usam ativamente.

Deixar comentário

Publicado por

avalanche

4 anos atrás

Postagens recentes

Na vanguarda da ciência

Nos Estados Unidos, foi criada uma impressora 3D subaquática capaz de imprimir concreto diretamente no fundo do mar.

Pesquisadores da Universidade Cornell desenvolveram uma tecnologia para impressão 3D de estruturas de concreto diretamente…

48 minutos atrás

Jogos

“Fez por Nioh o que Elden Ring fez por Dark Souls”: Veredicto da crítica sobre Nioh 3

Nioh 3, um ambicioso RPG de ação e fantasia em mundo semiaberto da Koei Tecmo…

1 hora atrás

Telefones celulares, smartphones, comunicações celulares, comunicadores, PDAs

Um vazamento revelou os preços do Samsung Galaxy S26, S26+ e S26 Ultra — aumentos de preço estão a caminho, mas não em todos os lugares.

Informações privilegiadas sobre os possíveis preços dos próximos smartphones topo de linha Samsung Galaxy S26,…

2 horas atrás

Carros, motos, veículos

Uma balsa hidrofoil totalmente elétrica estabeleceu um recorde ao percorrer 300 km em três dias.

A incomum balsa hidrofoil totalmente elétrica P-12, fabricada pela empresa sueca Candela, estabeleceu um recorde…

2 horas atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

A Anthropic prometeu manter o Claude livre de anúncios e zombou da abordagem oposta da ChatGPT.

A Anthropic anunciou que não tem planos de adicionar anúncios ao seu chatbot de IA,…

2 horas atrás

Telefones celulares, smartphones, comunicações celulares, comunicadores, PDAs

A AnTuTu publicou um ranking dos smartphones e tablets Android mais rápidos de janeiro.

Os desenvolvedores do AnTuTu, o benchmark para dispositivos móveis, publicaram um ranking dos smartphones e…

2 horas atrás

IBM revela processadores Telum: 8 núcleos, 5+ GHz, cache L2 de 256 MB e acelerador de AI

Conteúdo relacionado

Postagens recentes

Nos Estados Unidos, foi criada uma impressora 3D subaquática capaz de imprimir concreto diretamente no fundo do mar.

“Fez por Nioh o que Elden Ring fez por Dark Souls”: Veredicto da crítica sobre Nioh 3

Um vazamento revelou os preços do Samsung Galaxy S26, S26+ e S26 Ultra — aumentos de preço estão a caminho, mas não em todos os lugares.

Uma balsa hidrofoil totalmente elétrica estabeleceu um recorde ao percorrer 300 km em três dias.

A Anthropic prometeu manter o Claude livre de anúncios e zombou da abordagem oposta da ChatGPT.

A AnTuTu publicou um ranking dos smartphones e tablets Android mais rápidos de janeiro.