Solução de problemas: detalhes sobre o Intel Xeon Emerald Rapids

Em dezembro, a Intel anunciou novas soluções sob a marca Xeon. A principal “estrela” do anúncio foram os processadores Emerald Rapids – Xeon Scalable de quinta geração, que estão substituindo os Sapphire Rapids de quarta geração. Em muitos aspectos, esta é uma atualização significativa, embora Emerald Rapids seja mais um “aquecimento” antes do lançamento de Granite Rapids. Ao mesmo tempo, Sapphire Rapids e Emerald Rapids têm a mesma plataforma – Eagle Stream.

A Intel em sua apresentação focou no desenvolvimento de tecnologias de IA e aceleradores específicos. Por um lado, esta abordagem não pode ser chamada de nova – tendo ficado muito tempo atrás da AMD em termos de número de núcleos no segmento de soluções de servidor, a Intel é forçada a responder de forma assimétrica, concentrando-se em uma maior expansão dos conjuntos de instruções existentes, como AVX-512, e na introdução de novos, como AMX, bem como blocos separados para tarefas restritas.

Na quinta geração do Xeon Scalable, a Intel conseguiu melhorar a situação com o número de núcleos – a série Emerald Rapids também possui modelos de 64 núcleos. Mas a AMD novamente conseguiu avançar em termos quantitativos com os processadores EPYC Genoa de 96 núcleos, lançados há mais de um ano. Ao mesmo tempo, a AMD até deu à Intel alguma vantagem, mas isso não ajudou muito a última.

Fonte: Intel

A empresa melhorou significativamente os indicadores quantitativos do novo Xeon Scalable: o aumento geral de desempenho em comparação com o Sapphire Rapids, segundo a Intel, é de 21%, e em cenários de inferência – em até 42%. Para alcançar um aumento tão significativo, o Emerald Rapids, entre outras coisas, recebeu suporte para memória DDR5-5600 e um cache de último nível (LLC) aumentado para 320 MB. Para garantir flexibilidade na configuração dos subsistemas de memória do servidor, é anunciado suporte para dispositivos CXL 1.1 Tipo 1/2/3.

Fonte: Intel via ServeTheHome

A empresa ainda utiliza diversos tipos de layout diferentes, ao contrário da AMD, que faz malabarismos com os mesmos “cubos”. Os principais modelos Emerald Rapids com até 64 núcleos usam um layout XCC de dois blocos, enquanto os modelos com até 32 núcleos usam um layout multi-tiles (MCC) mais simples. Há também um layout EE LCC de baixo núcleo, mas com baixo consumo de energia, onde o número de núcleos não excede 20. Todos os núcleos são Raptor Cove classe P. Na verdade, estes são Golden Coves ligeiramente melhorados, com uma arquitetura de cache redesenhada e um ligeiro aumento no IPC.

Fonte: Intel via ServeTheHome

Este é um avanço bastante significativo em comparação com Sapphire Rapids, onde a Intel foi forçada a usar um layout de quatro blocos para modelos mais antigos. A geometria da interconexão também foi reformulada: anteriormente quatro blocos eram conectados entre si por meio de quatro pontes EMIB, mas agora existem três pontes por dois blocos, o que em teoria deveria ter um efeito positivo no desempenho no caso de transferência ativa de dados entre clusters de núcleos em blocos diferentes.

Fonte: Intel via ServeTheHome

O desempenho da interface do interprocessador UPI também aumentou em um quarto, de 16 GT/s para 20 GT/s. Juntamente com um subsistema de memória mais rápido e um LLC aumentado, isso proporciona um efeito correspondente, mantendo totalmente a compatibilidade da plataforma: o Emerald Rapids pode ser executado em plataformas existentes projetadas para Sapphire Rapids. Você só precisa atualizar o BIOS e substituir a guia plástica da moldura.

De referir ainda que a interligação foi seriamente optimizada precisamente em termos de consumo de energia, o que permitiu alcançar uma superioridade de 1,34 vezes no desempenho específico. O complexo atualizado opera com frequências de forma mais sutil e possui vários novos modos de economia de energia, como modo inativo ativo e modo de energia otimizado. O efeito disso é mais pronunciado em modos de baixa carga (cerca de 30-40% de diferença) e permite reduzir o consumo de energia em até 110 W por processador.

Fonte: Intel via ServeTheHome

O aumento da eficiência e do desempenho não poderia ser alcançado sem retrabalhar o controle das frequências de clock nos modos turbo, dos quais existem agora cinco em vez de quatro. Novos processadores podem ajustar as frequências com mais flexibilidade ao usar AVX-512 ou AMX ativamente. Essencialmente, a Intel corrigiu um bug pelo qual as primeiras gerações do Xeon Scalable foram criticadas – uma séria queda na frequência ao usar o AVX-512, que pode consumir uma parte notável do ganho de desempenho.

No total, a Intel introduziu 32 modelos de processadores escaláveis ​​Xeon na quinta geração, mas apenas 27 deles são “verdadeiros” Emerald Rapids. Mais cinco processadores – Xeon Gold 6454S, Xeon Bronze 3508U, Xeon Silver 4509Y, Xeon Silver 4510 e Xeon Silver 4510T – pertencem tecnicamente à geração Sapphire Rapids. Todos são fabricados usando o mesmo processo Intel 7 (10nm ESF).

A faixa de preço aqui é mais modesta do que na geração anterior, mas não esqueça que estamos falando apenas de chips para sistemas de dois soquetes, enquanto a série Sapphire Rapids também apresentou opções para sistemas de quatro e oito soquetes. Ao olhar para a linha de modelos Emerald Rapids, uma séria diferenciação de modelos em termos de tamanho de cache chama a atenção: a lista contém modelos com grande volume LLC, de 160 a 320 MB, e versões equipadas com apenas 22,5–60 MB de cache , o que é mais típico das gerações anteriores do Xeon Scalable.

Os blocos aceleradores disponíveis também variam muito. A própria Intel chama essa estratégia de flexível e de dar aos consumidores a oportunidade de escolha, mas alguns dos limites estabelecidos pela empresa não parecem óbvios. Em primeiro lugar, isto aplica-se a “jogos” que suportam memória rápida. Sim, EPYC Genoa está limitado a DDR5-4800, mas, em primeiro lugar, as soluções AMD têm um controlador de 12 canais versus um controlador de 8 canais para Emerald Rapids e, em segundo lugar, esses parâmetros são os mesmos para toda a linha EPYC 9004. Com Intel , vemos exatamente a abordagem oposta.

Fonte: Intel via ServeTheHome

Embora o suporte para DDR5-5600 seja anunciado para Emerald Rapids, na verdade menos de um quarto das CPUs anunciadas suportam a memória correspondente, e nem todos os modelos Platinum têm esse suporte. Isso parece especialmente estranho nos segmentos 5G/Networked Optimized e Cloud. Os modelos Xeon Gold são geralmente limitados ao suporte DDR5-5200. Além disso, nenhum dos principais modelos Emerald Rapids que suportam DDR5-5600 possui um conjunto completo de aceleradores.

Existem pequenas alterações no esquema de nomenclatura da CPU – o Emerald Rapids recebeu um sistema de sufixos bastante harmonioso que descreve o escopo principal de um processador específico. Quanto ao pacote térmico, seu escopo é limitado principalmente a 350 W. Apenas um modelo, o Xeon Platinum 8593Q, ou seja, uma versão de 64 núcleos com frequência turbo de 3,0 GHz para todos os núcleos, destinada a funcionar em conjunto com um sistema de suporte de vida, possui TDP base de 385 W.

A Intel fornece dados oficiais sobre o desempenho e eficiência energética do Emerald Rapids, mas o faz de uma maneira um tanto estranha. O carro-chefe Xeon Platinum 8592+ de 64 núcleos fala em nome da quinta geração, mas por algum motivo é comparado com diferentes modelos da quarta geração, o que causa séria confusão.

Fonte: Intel via ServeTheHome

Nos testes de Web, Data Services e IA, é utilizado o Xeon Platinum 8480+ de 56 núcleos; no segmento HPC, o Xeon Platinum 8490H de 60 núcleos, originalmente projetado para sistemas 4S e 8S e incomparável ao Emerald Rapids de dois soquetes no preço, é escolhido. O Xeon Platinum 8592+ de 52 núcleos também participa dos testes de rede.

Fonte: Intel via ServeTheHome

É claro que, sob esse prisma, o carro-chefe de quinta geração de 64 núcleos parecerá vantajoso, dada sua memória mais rápida e grande cache LLC, mas por alguma razão a Intel não se atreveu a compará-lo com o Xeon Max com HBM2e integrado. memória. Sabe-se que a geração Emerald Rapids não terá tais processadores, mas uma variante baseada no Sapphire Rapids pode se tornar um oponente perigoso, especialmente em tarefas da classe HPC e ao trabalhar com grandes LLMs.

Fonte: Intel via ServeTheHome

Mas a atenção especial às questões de latência parece completamente justificada: graças ao novo layout, usando dois blocos com três canais EMIB versus quatro blocos no Sapphire Rapids, onde os blocos diagonais entre si tinham que se comunicar entre si através de uma “parada” extra. o atraso foi reduzido significativamente. Os modos NUMA SNC4 e Quad agora, por razões óbvias, não são suportados nem mesmo para o layout XCC, onde o modo SNC2 está habilitado por padrão.

Fonte: Intel via ServeTheHome

Uma das inovações bastante importantes no Emerald Rapids é o suporte de hardware para TDX (Trust Domain Extensions). Na verdade, este é um novo modo de operação do processador, o chamado. SEAM (Secure Arbitration Mode), no qual a máquina virtual pode ser completamente isolada de tudo o que acontece fora do domínio confiável. A criptografia do conteúdo da memória de tal domínio é realizada em hardware, portanto a penalidade de desempenho é mínima e o desempenho final da VM ainda é maior do que em processadores sem suporte TDX.

Fonte: Intel via ServeTheHome

A Intel também anuncia muito ativamente a presença de aceleradores específicos, já que seu uso, com suporte de software adequado, às vezes pode alcançar um ganho de 10 vezes em desempenho e principalmente em eficiência energética.

Fonte: Intel via ServeTheHome

É dada especial atenção aos testes em vários cenários de IA. A superioridade do Xeon Platinum 8592+ sobre o Xeon Platinum 8480+ é completamente natural: o novo produto tem mais núcleos, cache LLC três vezes maior, controla com mais precisão as frequências turbo e funciona com memória mais rápida. É improvável que o Emerald Rapids seja usado ativamente no treinamento de redes neurais, uma vez que este é o domínio dos aceleradores. Mas em sistemas de inferência, um aumento na velocidade pode ser muito útil.

Fonte: Intel via ServeTheHome

A Intel tem motivos para falar sobre o menor consumo de energia do Emerald Rapids nos modos inativo e de carga leve. Isso se deve principalmente ao novo layout de dois blocos, que deve resolver o problema do consumo extremamente alto nesses modos, característico do Sapphire Rapids. Para um servidor de processador duplo, a diferença pode chegar a 200–220 W, mas na prática, novas soluções demonstram um ganho de 160–180 W, o que, no entanto, também não é ruim.

Fonte: Phoronix

Os testes da Phoronix mostraram que uma plataforma com dois Intel Xeon Platinum 8592+ de 64 núcleos estava quase um quarto à frente de um par de Platinum 8490H de 60 núcleos e estava perto de dois AMD EPYC 9554 de 64 núcleos. no desempenho não foi muito significativo e teve uma média inferior a 2%. Claro, em certos tipos de cargas a vantagem é óbvia, mas o DDR5-5600 mais avançado ainda custa visivelmente mais que o DDR5-4800.

Também foi registrado um ganho de eficiência, embora não tão significativo quanto a Intel promete. A verificação do novo Modo de energia otimizado no BIOS mostrou que este modo não é usado por padrão, e ativá-lo realmente permite reduzir seriamente o consumo de energia do Emerald Rapids nos modos de carga média e leve. Isto proporciona um desempenho geral de 93% daquele alcançado com a otimização de energia desativada, embora os resultados variem muito dependendo da natureza da carga de trabalho específica.

Emerald Rapids é sem dúvida um avanço significativo para a Intel. Por fim, uma espécie de “barreira psicológica” na quantidade de núcleos foi superada, e embora a AMD tenha novamente conseguido avançar neste parâmetro, o surgimento dos Xeons de 64 núcleos é importante para a Intel. Especialmente considerando as sérias correções de bugs: Emerald Rapids agora tem um layout de dois blocos mais eficiente, com menor latência e maior rendimento entre blocos.

Fonte: Intel

Na verdade, nesta geração todos os principais subsistemas foram melhorados quantitativamente: UPI, DDR5, LLC. Isso permite que o Emerald Rapids concorra com os equivalentes EPYC da AMD. A compatibilidade da plataforma com Sapphire Rapids também foi preservada, embora esteja longe de ser certo que todas as plataformas tenham sido validadas para funcionar com memória mais rápida. No entanto, na geração Emerald Rapids, a Intel não vai competir de forma alguma com a AMD em número de núcleos de processador.

Fonte: Intel

Um dos principais objetivos do Emerald Rapids é uma fácil atualização dos sistemas existentes baseados em Sapphire Rapids, permitindo um aumento significativo no desempenho a um custo relativamente baixo, bem como uma redução no TCO ao atualizar infraestruturas da terceira e anteriores gerações de Xeon escalável. A Intel está promovendo ativamente o conceito de aceleradores, citando números que comparam o custo de propriedade de infraestruturas baseadas em Xeon Scalable de primeira, terceira e quinta gerações, tanto na implantação quanto na atualização.

Fonte: Intel

A economia monetária é impressionante, porém, no processo de planejamento de tal atualização ou aquisição de novos servidores para o data center, deve-se levar em consideração que o equipamento acelerador dos diferentes modelos do Emerald Rapids é muito diferente. Será necessária uma análise cuidadosa tendo em conta os cenários e cargas planeados, caso contrário as capacidades únicas do Emerald Rapids poderão ser desperdiçadas.

Fonte: Intel

Ao mesmo tempo, as soluções AMD não requerem um planejamento tão cuidadoso, pois possuem um conjunto idêntico de recursos em toda a gama de modelos e, ao mesmo tempo, podem oferecer maior densidade de computação devido a um maior número máximo de núcleos por soquete de processador.

avalanche

Postagens recentes

Nvidia se tornou a primeira empresa da história com capitalização de mercado de mais de US$ 3,6 trilhões

O surgimento da confiança na vitória de Donald Trump nas eleições presidenciais dos EUA deu…

17 minutos atrás

TSMC continuará investindo em projetos nos Estados Unidos, mas deixará tecnologias avançadas em Taiwan

Os participantes do mercado ainda estão frescos nas suas mentes com as declarações de Donald…

1 hora atrás

O número de modelos de PC com Windows equipados com processadores Qualcomm Arm triplicou desde maio

Empresas bastante influentes têm tentado quebrar a hegemonia da arquitetura compatível com x86 no segmento…

2 horas atrás

A Amazon lançou uma série Mass Effect e a BioWare adicionou armadura a Dragon Age: The Veilguard em homenagem ao N7 Day

A BioWare avisou que devido ao lançamento de Dragon Age: The Veilguard não haveria grandes…

8 horas atrás

Arcane se tornou a série animada mais cara da história por uma ampla margem.

Às vésperas do início da segunda temporada da série animada Arcane baseada em League of…

9 horas atrás