Floresta Multi-Core: Detalhes do Intel Xeon 6700E (Sierra Forest)

O atraso da Intel no número de núcleos de processador já existe há vários anos. A empresa estava perdendo irremediavelmente batalha após batalha – primeiro para a AMD com seu EPYC, que ultrapassou com sucesso a marca de 64 núcleos, e depois para desenvolvedores de processadores de servidor baseados em Arm, como Ampere Computing.

Ciente desta situação desfavorável, a empresa empreendeu o desenvolvimento da Sierra Forest. Essas CPUs foram anunciadas pela primeira vez há mais de um ano, mas só na semana passada a Intel finalmente apresentou esta solução na forma de silício acabado. Os novos processadores fazem parte da família Xeon 6, o que corresponde ao abandono da marca Scalable.

Fonte aqui e abaixo: Intel via ServeTheHome

Tecnicamente, a Intel já teve chips multi-core realmente enormes. Estamos, é claro, falando do extinto Xeon Phi, onde, graças ao SMT4, foi possível aumentar o número de threads executados simultaneamente para 244. Mas ainda eram aceleradores, não processadores de uso geral.

Curiosamente, usando ativamente arquitetura heterogênea em processadores para desktops e móveis, a Intel decidiu dividir claramente os chips de servidor pelos tipos de núcleos usados ​​​​há dois anos. Se a base do Sapphire, Emerald e Granite Rapids foi baseada exclusivamente em núcleos P de alto desempenho, mas relativamente complexos e quentes, então foi decidido tornar a base do Sierra Forest apenas núcleos E simples, mas com maior eficiência energética.

Juntamente com a transição da tecnologia de processo Intel 7 para Intel 3, isso tornou possível aumentar o número de núcleos para 144 e, no futuro, para 288, o que atende bem às necessidades dos hiperescaladores modernos e dos grandes provedores de serviços em nuvem. Eles estão interessados ​​na escalabilidade, pois lhes permite aumentar a sua base de clientes e, portanto, aumentar a sua receita com custos relativamente baixos. Além disso, os cenários que utilizam IA muitas vezes favorecem soluções multi-core, desde que apenas os formatos de computação correspondentes sejam suportados.

Sierra Forest tem tudo. Os novos núcleos P são baseados na microarquitetura Crestmont (Sierra Glenn), que implementa subsistemas front-end e backend bastante desenvolvidos com caches de instrução (64 KB) e dados (32 KB) bastante substanciais por núcleo e um cache L2 compartilhado para cada quatro. núcleos. O decodificador duplo fora de ordem é capaz de processar seis instruções e o pipeline é capaz de processar o mesmo número de microoperações por ciclo de clock. A profundidade da história do mecanismo de previsão de ramificação foi aumentada. Tudo isso nos permite falar em desempenho de até 16 FP32-Flops por clock.

Em busca de alcançar a máxima eficiência energética de novas soluções, a empresa recusou suporte AVX-512 e AMX em Sierra Forest, mas existe uma versão estendida do AVX2: os núcleos possuem duas portas de 128 bits para execução de instruções SIMD, incluindo suporte para Instruções AVX-IFMA e AVX-DOT-PROD-INT8, CMPccXADD, LAM e LASS, bem como formatos INT8, FP16 e BF16. A imagem é complementada por ferramentas de segurança avançadas – criptografia com comprimento de chave de até 2.048 bits, tecnologia de domínio confiável TDX, extensões SGX, tecnologia de virtualização segura VT-rp e proteção de hardware contra explorações CET.

O layout da Sierra Forest é, obviamente, de azulejos. O “tijolo” básico inclui até 4 núcleos, 4 MB de cache L2 e um pedaço de 3 MB de cache de último nível (LLC). A unidade de E/S é responsável por suportar interfaces PCIe 5.0 (até 88 pistas, há suporte para CXL 2.0, incluindo Tipo 3) e UPI 2.0 (4 pistas, 24 GT/s). Em sistemas de processador único, o subsistema de E/S pode ser reconfigurado para fornecer até 136 pistas PCIe. Assim como os modelos com núcleos P, os aceleradores de hardware DSA, IAA, QAT e DLB são suportados. Mas o número deles depende do modelo específico do processador.

Os controladores de memória estão localizados separadamente, o novo produto possui oito deles; Módulos DDR5-6400 são suportados, a largura de banda total é de 460 GB/s. A costura dos blocos básicos é feita por meio de uma rede de malha modular e no nível do bloco por meio de EMIB. Assim, do ponto de vista de qualquer sistema e software aplicativo, os processadores Sierra Forest são monolíticos.

As otimizações em termos de eficiência energética, aliadas à tecnologia de processo Intel 3, permitem-nos falar de 144 núcleos com um pacote térmico total de 330 W. E este é um grande avanço para a Intel, permitindo-nos falar de uma superioridade quase tripla sobre as gerações anteriores do Xeon e alcançando pelo menos alguma paridade com a AMD neste indicador. O EPYC Bergamo de 128 núcleos tem um TDP de 360 ​​W. No entanto, o mais recente Turin Dense baseado na tecnologia de processo de 3 nm ajudará a restaurar a liderança “vermelha”, certamente em termos de número de núcleos por soquete.

De acordo com o novo esquema de nomenclatura, os processadores Sierra Forest pertencem à série Xeon 6700E. Inicialmente, inclui sete modelos com 64 a 144 núcleos com frequência base na faixa de 1,8–2,4 GHz e frequência turbo na faixa de 2,6–3,2 GHz. Para as duas opções mais antigas, o tamanho do cache LLC é de 108 MB, para o restante é de 96 MB. Todos os modelos, com exceção do Xeon 6731E, são projetados para rodar em configurações de processador duplo, oferecendo até 288 núcleos por plataforma. A própria plataforma usa o novo conector LGA 4710.

Quanto à política de preços, não está totalmente clara. Os preços recomendados começam em US$ 2.749 para o modelo de 64 núcleos, mas os processadores AMD de 64 núcleos com a arquitetura atual começam em US$ 4.950 (EPYC 8534P). Na configuração máxima, os preços são semelhantes – US$ 11.350 para o modelo principal contra US$ 11.900 para o EPYC 9754. Em teoria, os processadores parecem promissores, especialmente em comparação com as tentativas anteriores da Intel de alcançar a AMD em número de núcleos. Assim, em termos de eficiência energética, o Xeon 6700 é 2,6 vezes superior ao Cascade Lake-SP, e o desempenho por rack aumentou 4,2 vezes, afirma a empresa.

No entanto, a teoria só é verificada pela prática, e os especialistas da Phoronix já conseguiram testar completamente o Xeon 6700. Eles colocaram as mãos em dois modelos de processador mais antigos, o Xeon 6766E de 144 núcleos e o Xeon 6780E. De acordo com Phoronix, o análogo mais próximo do carro-chefe Sierra Forest é o AMD EPYC 9754 de 128 núcleos com núcleos Zen 4c. Mas a solução AMD suporta SMT, que oferece até 256 threads, possui um subsistema de memória desenvolvido de 12 canais, embora apenas DDR5-4800, e um cache mais espaçoso (256 versus 108 MB). Mas o EPYC não possui aceleradores especializados. Mas as características de frequência e energia são semelhantes: 2,25–3,1 GHz com um TDP de 360 ​​W versus 330 W do carro-chefe Sierra Forest.

Fonte: Phoronix

Você pode ler a análise detalhada no site da Phoronix, mas é importante notar que em vários casos os processadores Sierra Forest tiveram melhor desempenho que seus oponentes e praticamente alcançaram o Xeon Max 9468, e na área de consumo de energia eles ficaram atrás apenas dos modelos AMD EPYC 8004 em cargas únicas, o novo produto não fica significativamente atrás até mesmo do EPYC 9684X. Em média, a plataforma 2P Xeon 6780E acabou sendo cerca de 5% mais rápida que o Xeon Platinum 8592+ com 70% de consumo de energia, mas foi visivelmente inferior ao par AMD EPYC 9754. No entanto, há um “mas” significativo -. em quase todos os casos, o Xeon 6700 apresentou melhor eficiência energética, perdendo apenas para o EPYC 8004, que a priori fica para trás no número de núcleos.

Mas isso não é tudo: os rivais realmente sérios de Sierra Forest e Bergamo são os processadores Arm multi-core. Portanto, a Phoronix comparou os novos produtos com, se não a mais nova, mas ainda relevante plataforma baseada em Ampere Altra Max M128-30: tecnologia de processo de 7 nm, 128 núcleos Armv8.2+ com 1 MB de cache L2 para cada um e um cache L3 total volume 32 MB. O subsistema de memória, embora tenha oito canais, usa apenas DDR4-3200. Mas a frequência do clock é estável de 3 GHz com um pacote térmico máximo de 250 W. Existem dois blocos de instruções vetoriais aqui, eles têm largura de 128 bits, mas ainda são NEON, embora haja suporte para formatos de cálculo com precisão reduzida, incluindo INT8.

Fonte: Phoronix

Um milagre, entretanto, não aconteceu – o sistema Ampere foi miseravelmente superado pelos CPUs modernos da AMD e da Intel em termos de desempenho médio. No entanto, em termos de eficiência energética média, perde apenas para Siena. O problema é que o aumento no consumo de energia no caso do Ampere não se traduz linearmente no mesmo aumento de desempenho. No entanto, esta solução Ampere tem outra vantagem – é quase três vezes mais barata que o carro-chefe Sierra Forest, se você olhar os preços de mercado. Ao mesmo tempo, devemos lembrar que os hiperscaladores obtêm quaisquer componentes a preços completamente diferentes dos recomendados ou de varejo. A Ampere, por sua vez, está preparando AmpereOne muito mais interessante: 3 nm, 256 núcleos, 12 canais DDR5.

Mesmo assim, o 6700E apresentou excelentes resultados para a Intel e atraiu o interesse da indústria – diversos fabricantes de equipamentos para servidores já apresentaram suas soluções baseadas em Sierra Forest em versões de processador único e duplo. No primeiro trimestre de 2025, a Intel planeja lançar uma versão de 288 núcleos do Sierra Forest (6900E) com memória de 12 canais. E no terceiro trimestre, a empresa reabastecerá seu arsenal com processadores Xeon 6900P (Granite Rapids) baseados em núcleos P Redwood Cove, cujo número está planejado para aumentar para 128. A batalha com novas soluções AMD e Arm multi-core processadores serão ainda mais interessantes.

avalanche

Postagens recentes

FTC suspeita que a Microsoft monopoliza contratos do governo dos EUA

A Comissão Federal de Comércio dos EUA (FTC) lançou uma investigação sobre a Microsoft, suspeitando…

4 horas atrás