Meta (Facebook) e Intel mostram um servidor protótipo com memória CXL: DDR4 sobre PCIe 5.0

No SC21, o consórcio CXL não só anunciou a aquisição de todos os empreendimentos Gen-Z, mas também apresentou várias demos de vários membros do consórcio. Um dos mais interessantes foi a demonstração de um protótipo de servidor com memória CXL da Meta (antigo Facebook). Um relatório sobre isso foi feito no OCP Global Summit, mas o vídeo de demonstração tornou-se público apenas esta semana.

Protótipo FPGA do módulo CXL com DDR4 (Foto: Intel)

Meta há muito enfrentou o desafio de aumentar a capacidade e densidade de DRAM. Além disso, a empresa, como outros hiperscaladores, tem restrições muito rígidas quanto ao tamanho físico, consumo de energia e custo dos sistemas – a criação e manutenção de um parque de milhões de servidores resulta em montantes fixos. Um porta-voz da Meta apontou vários fatores importantes que são levados em consideração ao criar novas plataformas durante sua apresentação.

Aqui e abaixo da imagem Meta

Portanto, nos últimos anos, o preço da DRAM de 1 Gbit parou de cair significativamente, de modo que a memória está se tornando um componente cada vez mais caro em um servidor. E não só do ponto de vista financeiro, mas também em termos de consumo de energia, o que afeta negativamente o custo total de propriedade (TCO). Além disso, o desempenho do processador melhorou significativamente, principalmente devido a um aumento no número de núcleos (mais de três vezes). No entanto, a largura de banda da memória por canal apenas dobrou em média e quase caiu pela metade em termos de núcleo.

No entanto, os núcleos da CPU ainda precisam ser “alimentados” de alguma forma, então você deve procurar novas maneiras de dimensionar o pool de DRAM. Um simples aumento no número de slots DIMM é indispensável – cada canal de memória “extra” custa um par de centenas de trilhas adicionais no layout da placa, o que, com um aumento no número de canais, leva a um aumento no número de camadas da placa-mãe (e literalmente sua espessura). E o aumento concomitante na velocidade da memória leva à necessidade de usar materiais mais caros e todos os mesmos problemas.

Como observam alguns analistas, as plataformas de próxima geração com suporte a DDR5 serão mais caras que as atuais, mas a questão não está na própria memória, cuja dinâmica diminuirá de preço é quase a mesma que em DDR4, ou seja, em a necessidade de aumentar o número de camadas nas placas-mãe em cerca de um terço. A solução seria mudar para interfaces seriais – a memória DDIM com buffer (OMI) já é usada nos servidores IBM E1080, mas você não pode chamá-la de compacta.

No entanto, já temos outra interface serial universal e difundida – esse é o barramento PCI Express 4.0 e, em um futuro próximo, o 5.0. Ele fornece uma taxa de transferência de dados aceitável, mas requer cerca de três quartos a menos de linhas de sinal, que podem ser mais longas do que o DDR. A rigor, já foram feitas tentativas de criar fábricas PCIe para desagregação de recursos, por exemplo, por GigaIO e Liqid. Com a chegada do CXL, isso ficará ainda mais fácil.

O CXL permitirá que você use diferentes tipos de memória com diferentes características em uma única interface. Por exemplo, você pode usar DDR5, DDR4 e SCM (PMem) com a mesma plataforma. O consórcio Gen-Z estava fazendo algo semelhante, que, estranhamente, não incluía a Intel, que se tornou uma das fundadoras e apologistas da Compute Express Link. É com ela que Meta trabalha há cerca de um ano em um protótipo de um novo servidor e uma placa de expansão com DRAM para ele.

O protótipo usa um servidor com uma amostra de engenharia Intel Xeon Sapphire Rapids e uma placa de expansão padrão para a plataforma Yosemite v3. A placa com conexão x16 PCIe 5.0 carrega a bordo uma versão de engenharia do FPGA (provavelmente algo da série Agilex) com dois controladores de memória e dois slots DIMM para DDR4 regular registrado com um volume total de 64 GB. Com base em FPGA, a interface CXL 2.0 é implementada, a qual oferece suporte para o protocolo CXL.memory e fornece recursos avançados de monitoramento e depuração.

Quando o sistema é inicializado, os dispositivos PCIe disponíveis são pesquisados ​​e as velocidades e recursos são coordenados com eles, após o que a RAM fisicamente localizada na placa de expansão torna-se disponível, e não apenas o DDR5 local, “vinculado” ao processador. Neste caso, o sistema “vê” vários domínios NUMA – dois da própria CPU e mais um “sem processador”. O protótipo passa com sucesso em todos os testes básicos, então a pilha de hardware e software já está bem desenvolvida.

avalanche

Postagens recentes

IBM perdeu a liderança no número de patentes recebidas, mas foi planejado

Em 2022, a International Business Machines (IBM) perdeu a liderança em patentes nos EUA pela…

3 horas atrás

Um insider revelou a data da próxima apresentação do jogo da Microsoft – ele conterá novidades sobre os exclusivos do Xbox e da Bethesda

O editor da publicação Windows Central Jez Corden (Jez Corden), citando suas fontes, compartilhou informações…

5 horas atrás

OBS Studio obtém suporte para codificação AV1 em novas placas gráficas AMD e Intel

Foi lançado o OBS Studio 29.0, um aplicativo popular para gravação de vídeo e organização…

5 horas atrás

Os criadores de Dishonored e Prey esclareceram um equívoco comum sobre seu jogo de tiro cooperativo Redfall

O designer sênior de jogos da Arkane Studios, Ricardo Bare, e o CEO da Arkane…

6 horas atrás