Análise do AMD EPYC Milan: Zen Evolution Usando EPYC 7763 e EPYC 7543

ntc3ymuyntmzytfkm2m3otdmywu1nzbjyjixotblntc4mmzimtkxzdi5mdgyyzniowy2zmfhytkzztflywy2nq-7158312

EPYC Milan 7003, talvez, deva ser visto como uma evolução do EPYC Roma 7002. Uma evolução importante, mas ainda assim. Nestes chips, a AMD manteve a abordagem MCM geral, melhorando os componentes individuais, mas radicalmente, no entanto, não mudando nada. Vistos de longe, vemos os mesmos chips de 7 nm com no máximo 64 núcleos, 256 MB de cache L3, oito canais de memória DDR4 com suporte para módulos de 3200 MHz e capacidade de até 256 GB, bem como 128 Pistas PCIe 4.0, que geralmente estão disponíveis em sistemas de soquete único e soquete duplo.

AMD EPYC 7003 (Milão)

yzdlyjc0otbknmq4ogi0ytlhztvimtmzmgy3mmyyngu5ogjiyzuxntczzduymjbiy2mxmdjjytg3njk5m2fimqsm-23-800-2402293

No conjunto inicial, todos os modelos são condicionalmente divididos em três grupos: processadores com ênfase no desempenho (altas frequências e uma grande quantidade de cache L3 por núcleo), com ênfase na densidade do núcleo (núcleos / threads máximos) e simplesmente balanceados em termos de desempenho e custo de propriedade da CPU … No total, no início, a empresa oferecerá 19 modelos, dos quais quatro têm variantes de soquete único (P), quatro têm frequências aumentadas (F) e mais um está eliminado do número total de núcleos – 28 (este é o máximo que a Intel pode oferecer agora no Lago Cascade Xeon).

zdi1nwu5mwe3y2njntq2zjnmmddlowyyogrinzm2yty5ytljm2q3nwywmdi5zti1njbinzc5zgrkmmm2mjewnqsm-43-800-2600016 ytk2ntviotjmoti1ngrjztu1nzi1odi0mtnimtbkngiwzthiogizztc0zdviytdmmzmxzgexywe5zjc5otrimgsm-44-800-2412008

Além disso, duas coisas se destacam. Em primeiro lugar, o processador mais antigo 7763 em comparação com o 7742, com um aumento não tão alto nas frequências base e Boost, o nível de TDP base aumentou para 280 W (e o cTDP máximo é ainda maior). Em segundo lugar, o 7313P de 16 núcleos com um TDP básico de 155 V em vez do 7232P de 8 núcleos 120 W pode ser considerado o processador júnior. Em geral, 7003 viu um aumento nas frequências de clock e dissipação de calor. Se mesmo o modelo júnior acabar sendo muito quente para alguém, então será possível tirar algo do 7002 e / ou limitar o cTDP. As plataformas mantêm compatibilidade entre Roma e Milão (mas não com Nápoles, o que não faz sentido), mas isso permanece mais na consciência dos fornecedores, não da AMD.

ngmxymmzmgniodyxodnlzmixmmvim2izodewowmxy2mynzk0zdfiyju5yjuxmgnlntu3mgy3yjbmzjk1yzmyyqsm-24-800-2523971 yweyymm2m2rmy2eymzlkywnjyzjhndg0owjhzwq1mwvkodvimja5nwewndgwzjbkn2zjzjlinjm4nwyyytu4oqsm-25-800-6035428

Pode-se especular que a redução no conjunto inicial é pelo menos parcialmente causada por dificuldades de produção na TSMC, mas no caso de EPYC, Ryzen não é um problema tão grande, já que eles têm um bloco de construção básico – o CCX Zen de oito núcleos 3 complexos. Você pode ler mais sobre as inovações no Zen 3 em um artigo separado, mas aqui iremos observar alguns recursos principais: IPC cresceu 19% em média, proteção de hardware adicional contra ataques de canal lateral apareceu e, o mais importante, o “duplicação” do próprio complexo, em que agora 8 núcleos têm 32 MB de cache L3 compartilhado.

njblzwi2mgfkmju5mdmzmteyyjk0ogninwi0otqxzwu1ytq4mty5owiznzuwngq1zgfjmje4mdmyota3ntgzoqsm-27-800-5565998

A presença de oito CCXs em um CCD EPYC Milan permite formar facilmente novos modelos, escolhendo o número de núcleos, a quantidade de cache por núcleo, além de ajustar as frequências e o TDP. É por isso que você não deve se surpreender com o 7453 de 28 núcleos (4 CCX 7 núcleos cada, mas com o cache L3 cortado pela metade) ou o 72F3 de 8 núcleos (8 CCX 1 núcleo cada) com um fantástico cache L3 de 32 MB por núcleo e frequências 3,7 / 4,1 GHz @ 180W TDP. Isso também abre espaço para personalização adicional de chips para as necessidades de clientes específicos. Bem, em geral, um cache maior permite reduzir latências, agilizar o trabalho de aplicativos que demandam volume e melhorar a interação NUMA.

ytu3zmq2zjzhmddjytuym2y2njg1ogvhmwnlzdk2ntixyzk1mgq1nzdhnmmxnmi3mwrlmjfhywflzwy3mtqyzasm-28-800-4406454 yzc4nwfkzju4ngy1zgrinmfmode3yja3ywjhytm1zmjhztllmjjkmtk1mjm4mjc5owrkyjm4mti3mzu4otrkmgsm-29-800-8573302

O chip central IO Die também recebeu pequenas alterações, embora não tão significativas. Ele ainda contém controladores de memória emparelhados, um complexo de raiz PCI 4.0 e um controlador de barramento Infinity Fabric, cuja frequência, no caso de Milan, está ligada à frequência de memória (DDR4-3200), o que dá um ligeiro aumento na troca de dados. Além dos modos 1DPC / 2DPC tradicionais (DIMM por canal, módulos por canal) para todos os oito canais para qualquer CPU e 1DPC para quatro canais para processadores com L3 até 128 MB, o modo 1DPC / 2DPC finalmente apareceu para instalar memória em seis canais, e não oito. Isso permite que você encontre um equilíbrio entre o gasto de memória e o desempenho, resultando em melhor uniformidade de acesso à memória. Além disso, essa configuração pode ser útil para sistemas compactos ou de alta densidade. Roma, em comparação, tinha um modo 12 DIMM recomendado, que na verdade oferecia 1DPC para canais ímpares e 2DPC para canais pares. Excepcionais foram apenas o 7F72 e o 7552 com seis CCXs, dos quais seis eram canais nativos.

mzg5zmezmtjkzgmzodkyywi3njexywq0yzdhmmflnda3otiwndrlnty0zjrlzmjmody0zjjjzgi4njflm2jkygsm-30-800-4133777 mgfhnzzkm2jioweynjqxyju2odvmn2m1mdq1zdqznzu4ztyymgzhntbiodu4ndm5ote2mjzhowi5mzrmogy4yqsm-6ch-800-4311302

Os tipos de módulos suportados não mudaram: RDIMM, LRDIMM, 3DS, NVDIMM-N. Um máximo de até 4 TB de RAM por soquete pode ser acessado usando os oito módulos LRDIMM-2933 de 256 GB classificados. A AMD recomenda enfaticamente o uso do Guia de população de memória oficial para configurações corretas e balanceadas. Por exemplo, ao usar 4 ou 6 DIMMs por soquete, torna-se muito importante até mesmo em quais canais eles serão instalados.

mdc3otvlntaxndy5njyzzdk3ogrlowezndq0ztq3ztu4nmzlywmzmzvimtaynwq4odm4yjiynmm2njyyztuxmqsm-31-800-6317043 m2njyzc4mju0zdlmogqzn2y4zmuxmdm1nmi3yteyymqyn2m3ntu0mtkxnzy5ndcznwuxyjk3mzlim2iyzddmmasm-33-800-8805569

Mas, em geral, a AMD recomenda o uso de todos os oito canais de memória, uma vez que Roma e Milão expandiram significativamente os recursos para trabalhar com ECC. Com um número suficiente de canais, ao invés do padrão de 64 + 8 palavras (64 bits para dados, 8 para redundância), a leitura / escrita será realizada com palavras 128 + 16 ou mesmo 256 + 32 bits. Com esse nível de redundância, a empresa afirma que é muito mais fácil corrigir os erros. Se a implementação ECC básica fornecer apenas a detecção de erros de vários bits (a correção não é garantida), o EPYC sobreviverá até mesmo a um chip x4 completamente nocauteado em um dos módulos de memória sem perda de dados, dando tempo para transferir a carga para outro servidor e substitua o módulo defeituoso sem tempo de inatividade.

ytfjmmvizdg3zwvkmdayyjjlytlhzmyznjfjm2mwmzuzyta1n2vjntmyzmewmzfmymm0ztk1zguzndlinzdmoasm-36-800-5780135 yjgynjfhnwu0ogjizdqzmgexy2i2mji3nwi4yjg4nge2ngu0owq3ywrimwu5mju3ywmxzgi1otdhmmfintbmnqsm-37-800-8413830

As funções de proteção foram desenvolvidas posteriormente. Além da criptografia de memória completa SME, criptografia SEV (para isolar a VM e o hipervisor um do outro) e criptografia SEV-ES (para registros após a VM ser interrompida), a criptografia SEV-SNP (Secure Nested Paging) foi adicionada, que protege os convidados de adulterar sua memória já do lado do hipervisor. O número máximo de chaves permanece o mesmo em 509. Esses recursos são essenciais para realizar a computação confidencial em ambientes virtualizados e em nuvem.

mgm5yzg1nwq4mgiwzgm1odjkndqwodbkmznkmzjjmtuwnzc4ytywmmiyntrhnde2ymvmzgu2nwy1zmvmztrmngsm-sec_-800-2284010 nzljzwfhnjfhotu3ywexodc4ymnlndg5ywy2ztzmnwu3ywyxmzu5mzflzjbjzjqwnjk5ota0ywzinzrhzjgxngsm-35-800-6304781

A criptografia de acordo com o padrão AES-128 é controlada pelo mesmo Arm SoC separado integrado à CPU, que também é responsável pela segurança da cadeia de download. Os próprios núcleos já são resistentes – em qualquer caso, a AMD diz que não viu explorações na “vida selvagem” – a ataques sensacionais por meio de canais laterais. No entanto, ainda há um acréscimo à defesa – este é o Shadow Stack (shadow stacks). A ideia não é nova e ambos os fornecedores a implementaram em kernels novos, no Zen 3 e Willow Cove, respectivamente.

zgi1nze2n2vlzdnhnjq5ntyxmgzmyjzkzwy5ogizzmniytnimgrlzjcxmgm2mmnkodjlntc5yjuzymjlmtg2zgsm-spd_-800-6845047

Os materiais de marketing da AMD continuam a se concentrar em segurança, desempenho e TCO (custo) em comparação com o Intel Xeon. Em termos de desempenho, ao comparar top to top, o que, de um modo geral, pode não estar totalmente correto, a AMD, com base nos testes SPECrate 2017, indica desempenho 106% superior para cargas de nuvem (int_base) e HPC (fp_base) e 117% superior para tarefas corporativas (SPECjBB 2015). No segmento intermediário, o 75F3 (32 núcleos) é 70% mais rápido do que o 6258R (28 núcleos) (fp_base). Quanto ao TCO, vamos ter o cuidado de dizer que tudo depende de um projeto específico. Além disso, o custo dos processadores nem sempre é o maior item de despesa. E até mesmo o argumento sobre economia em licenças está gradualmente se tornando menos significativo.

nwuyyzq1zdhhmtewmmvkyju4yjy0zjjmztg5mdc4otm1odk4nteyyjfjyzg1njfjnjkyodnin2vinti4mmu5yqsm-tco_-800-7527736

De acordo com estimativas aproximadas, EPYC 7003 se tornou, em média, algumas centenas de dólares mais caro do que 7002, em lotes de 1.000 ou mais. com igual número de núcleos, em comparação com os preços do ano passado para Roma. Mas a política geral da AMD permaneceu: o preço depende dos núcleos / frequência / cache, mas em todos os outros aspectos os chips são idênticos; as versões P de um soquete são cerca de um terço mais baratas do que as versões de dois soquetes; Versões F com frequências mais altas e sempre a quantidade máxima de cache L3 (256 MB, ou seja, sempre com 8 CCX) são visivelmente mais caras do que outras modificações com o mesmo número de núcleos. Ao mesmo tempo, as plataformas de um soquete com EPYC parecem mais interessantes do que as plataformas da Intel de dois soquetes.

yjjhnge2nwi0ywi4mtvimjzjnzhjyzq5ntbimti0y2rkmzlimzq1y2mznwqyymywotk3ztllmjm5ngnjodiyoqsm-49-800-9729428 nta4y2q0mjg5ztyzotcxyzk0mzrlywrmmwjlytlmyzbjyzdiymmxytq3mgyyzjqzndm3nmm5otvhztk4mdvmngsm-50-800-7839896

No entanto, tudo isso é verdade até que vejamos Ice Lake-SP, que em uma série de parâmetros alcançará o EPYC. Se levarmos em consideração sua natureza de dois soquetes, a diferença fundamental da AMD será o suporte para AVX-512 (com DL Boost) e Optane PMem 200 – ambos os recursos não são exigidos por todos os aplicativos e cargas, embora a Intel esteja ativamente construindo o plataforma de software e hardware. E isso não se aplica apenas à CPU e à memória. A AMD, no entanto, também não ficou parada por um ano e meio desde o lançamento de Roma, ela aumentou significativamente o número de parceiros ISV e soluções validadas.

ywuzyzyzzjrhmjkyodi5zwfkoddjmmjlnwixywvmmde0ndhky2m3ndhhzmq0n2fjntyynzq3mzrmm2qzmtu5ngsm-59-800-6214827 odi3mjyymwy4ymnkzjkxnzk3nja2njq4mze0yzbhnjq4zwu1mjdlogziodkwnwnkowqwowjhy2qyyzlhzmuyzasm-60-800-6224650

A AMD ainda está atrasada em relação à Intel na preparação oportuna de ferramentas e plataformas de desenvolvimento: kernels Linux, GCC, LLVM e bibliotecas relacionadas. Os patches correspondentes entram nos ramos principais dos projetos bem tarde, o que os leva a não entrar nas próximas versões principais das distribuições principais. Para, digamos, hiperscaladores ou HPCs, isso não é um problema, uma vez que eles têm a capacidade de manter os grãos de forma independente. E o usuário médio pode obter um aumento de desempenho de 5 a 6% com a atualização do kernel Linux 5.11, que foi lançado em fevereiro, mas ainda não atingiu todas as distribuições. Ao mesmo tempo, os produtos Zen 3 estão presentes há vários meses e novos EPYCs foram enviados a partir do 4º trimestre do ano passado. Há esperança de que a situação melhore em breve.

ndlkn2u0zdq4odixyzg2y2rhyzzkmwq1nzg3nmu4zmrkzda4yti0mtewnmnjogfiytqzn2fjzmviytnlyjfhmasm-53-800-2463032 ndcwy2jmnjnjodbhnzrmnjrhode2ywm0mzyzzddkmjvloty0zwu1y2jjzdmyntljzgzinwnlnwy3zme5owq3ngsm-54-800-3839917

Mas isso ainda é uma pequena parte do que falta fazer. Porque a AMD não tem problemas com o hardware – no momento EPYC 7763, de acordo com a empresa, é o processador x86-64 mais rápido, pelo menos em termos de desempenho “puro”. Para ter certeza disso, a AMD concedeu acesso remoto à plataforma de dois soquetes de referência DAYTONA da Quanta. Este é exatamente o mesmo sistema que foi usado um ano e meio atrás para o teste EPYC de Roma. Ele só precisa de atualizações de firmware e BIOS / UEFI para funcionar com o Milan.

ngmxody2otm5zgixzdm0ztuzzdkwnjc4mjczzdi1yjdknte4mdkxnwrjnjdjn2e1mgizmjhiyze1zmqzzjzknwsm-56-800-6254712 zjzmmjkwzgnjyznlzjzkntk2ndnknjy3mjg5nmzlytqxmjg2mdi4ymrimtk4yzm0zdm3otywzjlmnwrlotazoqsm-57-800-1853869

A configuração da unidade estava um pouco pior desta vez, portanto, os testes do subsistema de disco foram excluídos. O sistema operacional usou um SSD Micron 1100 SATA de 256 GB (MTFDDAK256TBN) com ext4 e configurações padrão. A unidade principal a partir da qual todos os testes foram executados é, a julgar pelo identificador (HUSMR7632BDP3M1), Western Digital Ultrastar DC ME200: NVMe, PCIe 3.0 x4, 3 TB. Nele, o xfs foi implantado com as configurações padrão e / var foi montado, onde todos os arquivos de teste foram armazenados.

y2fmnjljnjbhmzqwmde5ytflzwexmzc1ytvknwnhnmjlmjgzyzdkmzhjmznmzdjjzdi5y2uxmtuwnje5ymi3ygsm-pts_-800-3094829

A memória foi recrutada com módulos Kingston KSM32RD4 / 32MEI: 32 GB RDIMM ECC DDR4-3200. Para todos os testes do Phoronix Test Suite 10.2.2 (PTS) para dois EPYC 7763, foi instalado um total de 1 TB, ou seja, 2DPC no modo DDR4-2933. Embora, deva ser observado, um pequeno teste de estresse adicional mostrou que ele também pode funcionar com êxito no modo DDR4-3200. Para dois 7543 e PTS: 512 GB, ou seja, 1DPC e DDR4-3200. Um par de Mellanox ConnectX-4 Lx (MT27710) “corrói” do pool total de 8 GB.

zdezztrjmmm3nmyynwe0nzc5nmrmytzkngrlnddhm2i2ywy5otg0ntm5mjlhndyxyjdmytjknzg5odjizmqzzgsm-htop_-800-2615808

Separadamente, daremos os resultados de HPL (High-Performance Linpack) 2.3 e Stream 5.10, uma vez que foram compilados manualmente por um engenheiro da AMD usando o compilador AOCC 3.0, que deve ser lançado junto com o anúncio oficial de EPYC 7003, e alguns Bibliotecas AMD (AOCL, por exemplo), bem como configurações de plataforma adicionais. Há muito espaço para otimização, mas também leva tempo. Por exemplo, o BIOS tem um parâmetro interessante chamado Determinismo de Desempenho. No modo padrão com NPS1, possui o valor Performance, ou seja, dentro do pacote térmico especificado, a CPU equilibra todos os seus 8 CCXs para aproximadamente o mesmo desempenho. No entanto, este parâmetro pode ser definido como Power e habilitar NPS4 – cada cristal funcionará em seu desempenho máximo, não se concentrando em seus vizinhos.

Para HPL, SMT foi desativado, o modo NPS4 foi usado (4 nós NUMA por soquete) e memória em 1DPC. Para dois 7763, o melhor indicador de desempenho foi 3,184 teraflops, e para dois 7543 – 2,2044 teraflops. De acordo com a própria AMD, o pico de 7763 é de 4,097 teraflops. Você consegue adivinhar com qual compilador você pode obter este resultado? Nos testes de Stream – os resultados são dados na tabela acima – a memória funcionou no modo DDR4-3200 e com NPS1. Em princípio, você pode obter mais + 10-15% de velocidade ativando o modo NPS4 e executando uma cópia separada em cada domínio. Para a tríade Stream, a AMD cita um valor de 371,5 GB / s para o EPYC 75F3.

mzk4mtdiotgxmmnmyzbjntm1nmuwndc2mgfkyzhkmtvjzmjmzgrjodizymzjymq5mjjhmdu1y2zmntc0mtfimasm-old_-800-1760551

Antes de passar para os testes principais, vamos fazer uma pequena comparação com os resultados do EPYC 7742. Deve-se ter em mente que naquela época a situação era a mesma de agora – o kernel, as bibliotecas e os compiladores não tinham a otimização adequada. Como um compromisso, tive que fazê-los no Ubuntu 20.04, pois na versão mais recente muitos testes não estão sendo coletados devido à mudança nas bibliotecas do sistema. O crescimento de geração em geração em nosso conjunto de benchmarks foi em média de 13,2% – os resultados completos são mostrados no relatório. Se der certo, alguns dias após o lançamento do material, adicionaremos 7742 testes na plataforma principal.

nme3mwu4nmvlzja0zdvhnmnhmge2zty0ogyxywywmjnkowu3zmrlm2i2ogfhmda0y2fmnzuyzwm5mwm2yzm0yqsm-bios_-800-2969967

O atual Ubuntu 20.10 Server com o kernel genérico Linux 5.8.0-44 e o compilador GCC 10.2.0 foi escolhido como tal. O parâmetro governor foi definido à força para desempenho. No lado do BIOS, ACPI Auto Configuration e SMT foram habilitados, enquanto CSM foi desabilitado. Os valores TDP não mudaram. Outros parâmetros são deixados por padrão (por exemplo, NPS1). O conjunto de testes cobre vários tipos de cargas de trabalho e inclui, se possível, as versões mais recentes dos benchmarks disponíveis no PTS.

y2rmntq3ndnhmznjnjg1mtljmwfknmyzzti2yzy1mtrlyjhindhimwmznzuwzgqzmtyyotgwm2y4njk0ngmzmasm-milan_1-800-8789650

O relatório completo dos resultados está disponível em PDF. É curioso que, em média, eles acabaram sendo aproximadamente iguais. Naturalmente, em cargas multithread, um processador de 64 núcleos é mais rápido do que um de 32 núcleos, mas em um single-threaded nem sempre fica para trás. Os resultados notáveis incluem ACES DGEMM, NAS Parallel Benchmarks, Blender, OpenSSL ou John The Ripper, que escalam quase linearmente com o número de núcleos. As anomalias óbvias são LAMMPS e Cpuminer-Opt.

mtc4nzg3mtnkntrkmdmymmu3mwq4njaxotzmyjdjn2exmznmndfjnwy1mge2mtuzzjrlmjq4odfkothkmzaynwsm-mass_-800-6174126

No entanto, esses testes em si não são tão interessantes. O mesmo conjunto está planejado para ser usado para testar o Intel Xeon Ice Lake-SP, quando (e se) tal oportunidade surgir. Enquanto isso, você pode comparar com outros resultados no OpenBenchmarking. Por exemplo, Ampere Altra ou Phoronix Big Build Test com Ubuntu 20.04, mas kernel Linux 5.8. Observe que apenas pequenos subconjuntos dos testes se sobrepõem em ambos. O primeiro conjunto é bastante pequeno, mas variado, enquanto o segundo contém principalmente aplicativos “pesados”.

mtrmn2q5zwjknzqwmzqzzgrmzjy5mzninwzhm2jmntq0mmq3ntaznjvlzgjknji1zgm4ogu4ymqwnduwzdflzqsm-amp_-800-6328643

Apesar do fato de que a transição de Roma para Milão trouxe muito menos mudanças do que de Nápoles para Roma, a Intel ainda não tem nada a se opor no lado do silício. A palavra chave aqui é “tchau” – o Ice Lake-SP está chegando, e ainda não sabemos qual é o seu desempenho. E o próximo Sapphire Rapids também terá um layout multi-chip que provou sua viabilidade, eficiência e flexibilidade. E com a norma tecnológica atual, o Milan parece estar se aproximando de um limite razoável.

zthlyzqxztvmnjkynmfkndywmwnizgm2mtm0zmm3zgyzndcyzte0nznmmzeynji1mtnhnda2ndfhnmnmztgwnqsm-amd_epyc_7003_2-800-5423564

No entanto, você não deve esquecer que o processador é uma parte importante, mas não a única parte da plataforma. E mesmo seu preço muitas vezes não é decisivo no custo final da solução. Os clientes estão cada vez mais interessados na ferramenta para resolver seus problemas e cada vez menos no que ela contém. A AMD conseguiu “vender” EPYC para ambas as marcas “brancas” de hardware e OEM / ODM, bem como muitos ISVs e está gradualmente abrindo seu caminho em um número crescente de nichos, mas é muito cedo para falar sobre uma vitória real. Se você olhar de forma mais ampla, agora a era das soluções complexas de software e hardware está chegando. AMD, NVIDIA e Intel, cada um à sua maneira, já os estão criando.

Para não perder novos materiais, siga-nos no Ya Zen, Telegram, Twitter e LinkedIn.

Análise do AMD EPYC Milan: Zen Evolution Usando EPYC 7763 e EPYC 7543

Byavalanche

By avalanche

Veja Mais

As montadoras estão se preparando para uma nova escassez de chips após a aquisição holandesa da Nexperia.

The Legend of Khiimori chegará ao Steam Early Access mais tarde do que o esperado – é um simulador de entrega realista ambientado na Mongólia medieval.

O Google planeja testar novos smartphones Pixel com um grupo de entusiastas antes do anúncio.

Deixe um comentário Cancelar resposta