A Intel apresentou o Xeon Sapphire Rapids: SoC de quatro cristais, memória HBM, novas instruções e aceleradores

Como parte do Dia da Arquitetura, a Intel falou sobre os próximos processadores de servidor Sapphire Rapids, confirmando a maioria das informações publicadas anteriormente e complementando-as com alguns detalhes. A Intel está posicionando novos produtos como uma solução para uma gama mais ampla de tarefas e cargas de trabalho do que antes, incluindo os agora populares microsserviços, conteinerização e virtualização. A empresa promete que as CPUs serão balanceadas em termos de computação, memória e E / S.

Os novos processadores finalmente obtiveram um chip, ou bloco na terminologia da Intel, layout – o SoC inclui quatro blocos de “núcleo” baseados na tecnologia de processo Intel 7 (10 nm Enhanced SuperFIN). Cada bloco é conectado ao seu vizinho via EMIB. Seus agentes de sistema, incluindo mais de 100 MB de cache L3 total, formam uma rede de malha rápida com uma latência de cerca de 4-8 ns em uma direção. Visto de fora, o processador “parecerá” monolítico.

Cada núcleo ou thread terá acesso livre a todos os recursos dos tiles vizinhos, incluindo cache, memória, aceleradores e blocos IO. Potencialmente, esta abordagem é mais lucrativa do ponto de vista da troca interna de dados do que no caso da AMD com uma unidade IO comum para todos os chips, que no futuro EPYC já será de 12. Mas como realmente será, nós saberemos apenas no próximo ano – o lançamento de Sapphire Rapids está previsto para o primeiro trimestre de 2022, com produção em massa no segundo trimestre.

Sapphire Rapids são baseados na microarquitetura Golden Cove, que é mais ampla, mais profunda e mais inteligente. Ele também será usado em núcleos Alder Lake de alto desempenho, mas existem algumas diferenças no caso de processadores de servidor. Por exemplo, o cache L2 aumentou para 2 MB por núcleo ou o novo conjunto de instruções AMX (Advanced Matrix Extension). Este último expande a funcionalidade AI da CPU e permite operações MAC em matrizes, o que é típico para este tipo de carga de trabalho.

Para AMX, existem oito registros 2D dedicados com um volume de 1 KB cada (dezesseis linhas de 64 bytes). Uma unidade de hardware separada realiza operações MAC em três registradores, e isso pode ser feito em paralelo com a execução de outras instruções no resto do kernel. O SO é responsável pela configuração dos parâmetros e conteúdos dos registros, bem como pela movimentação dos dados. Até agora, apenas o bloco MAC está representado nos processadores, mas blocos para outras operações mais complexas podem aparecer no futuro.

Em seu pico, o desempenho do AMX no INT8 é de 2.048 operações por ciclo por núcleo, o que é oito vezes mais rápido do que as instruções AVX-512 tradicionais (em duas portas FMA). No BF16, o desempenho do AMX é duas vezes menor, mas ainda é um aumento significativo em comparação com a geração anterior do Xeon – a Intel ainda está tentando criar núcleos universais que lidariam não apenas com inferência, mas também com modelos de IA de treinamento. No entanto, a empresa diz que as capacidades de CPU do AMX irão complementar as GPUs ao invés de competir diretamente com elas.

A propósito, é o Sapphire Rapids que deve finalmente tornar o BF16 mais difundido, já que Cooper Lake, onde o suporte para este formato de dados apareceu pela primeira vez nas CPUs da Intel, tem um nicho de aplicação bastante estreito. Outras atualizações arquitetônicas incluem suporte FP16 para AVX-512, instruções para adição rápida (FADD) e gerenciamento de dados mais eficiente na hierarquia de cache (CLDEMOTE), uma série de novas instruções e interrupções para trabalhar com memória e TLBs para máquinas virtuais (VM) , telemetria avançada com contagens de microssegundos e assim por diante.

Os últimos pontos, em geral, são necessários para um gerenciamento mais eficiente e inteligente de recursos e QoS para processos, contêineres e VMs – todos eles de alguma forma reduzem os custos indiretos. Aceleradores dedicados aceleram ainda mais o trabalho. Até agora, apenas dois foram mencionados. O primeiro, DSA (Data Streaming Accelerator), acelera o movimento e a transferência de dados em um único host e entre vários hosts. Isso é útil ao lidar com memória, armazenamento, tráfego de rede e virtualização.

O segundo acelerador mencionado é o QAT (Quick Assist Engine), que pode ser usado para operações ou simultaneamente uma cadeia de operações (des) compressão (até 160 Gbps em ambas as direções ao mesmo tempo), hash e criptografia (up a 400 Gbps) em algoritmos populares: AES GCM / XTS, ChaChaPoly, DH, ECC, etc. Agora, o bloco QAT tornou-se parte do próprio processador, enquanto antes estava disponível como parte de alguns chipsets ou como uma placa de expansão separada. Isso tornou possível reduzir atrasos e aumentar o desempenho do bloco.

Além disso, o QAT pode ser usado, por exemplo, para virtualização ou Intel Accelerator Interfacing Architecture (AiA). AiA é outro novo conjunto de instruções projetado para funcionar de forma mais eficiente com aceleradores integrados e discretos. AiA ajuda com controle, tempo e sinalização, o que mais uma vez reduzirá parte da sobrecarga ao interagir com aceleradores de espaço do usuário.

O subsistema de memória inclui quatro controladores DDR5 de canal duplo, um para cada bloco. Presumivelmente, haverá quatro domínios NUMA disponíveis. Além do suporte mencionado para a próxima geração do Intel Optane PMem 300 (Crow Pass), nenhum detalhe adicional foi fornecido. Mas foi confirmada oficialmente a presença de modelos com HBM a bordo, também um módulo por ladrilho. O HBM pode ser usado como um cache DRAM ou independentemente. Em alguns casos, será possível fazer tudo sem DRAM.

Não há nada a acrescentar sobre PCIe 5.0 e CXL 1.1 (CXL.io, CXL.cache, CXL.memory), embora em outro relatório a Intel tenha deixado claro que depende do CXL como uma interconexão não apenas dentro de um nó, mas também em o futuro no nível do rack. Para combinar a CPU (perfeitamente até 8S), o barramento UPI ainda será usado, mas já da segunda geração (16 GT / s por linha) – 24 linhas por bloco.

Especificamente para Sapphire Rapids, a Intel ainda não forneceu dados precisos sobre o crescimento do IPC em comparação com Ice Lake-SP, limitando-se apenas a figuras individuais em algumas tarefas e áreas. Vários outros parâmetros importantes também não foram especificados. No entanto, o AMD EPYC Genoa, de acordo com os últimos vazamentos, está visivelmente à frente do Sapphire Rapids, mesmo em características puramente quantitativas.

A Intel apresentou o Xeon Sapphire Rapids: SoC de quatro cristais, memória HBM, novas instruções e aceleradores

Byavalanche

By avalanche

Veja Mais

As montadoras estão se preparando para uma nova escassez de chips após a aquisição holandesa da Nexperia.

The Legend of Khiimori chegará ao Steam Early Access mais tarde do que o esperado – é um simulador de entrega realista ambientado na Mongólia medieval.

O Google planeja testar novos smartphones Pixel com um grupo de entusiastas antes do anúncio.

Deixe um comentário Cancelar resposta