A Intel anunciou os aceleradores Xe HPC Ponte Vecchio: mais de 100 bilhões de transistores, mistura 5/7 / 10nm de tecnologia de processo Intel e TSMC e desempenho FP32 de mais de 45 teraflops

Conforme prometido há alguns anos, o principal bloco de construção para os gráficos e aceleradores da Intel serão os núcleos Xe, que podem ser combinados de forma flexível e combinados com outros blocos de hardware para atingir o desempenho e a funcionalidade desejados. A empresa já anunciou as primeiras GPUs da série Arc discretas “verdadeiras” e, no Intel Architecture Day, compartilhou detalhes sobre os aceleradores de servidor Xe HPC e Ponte Vecchio.

O principal Xe HPC é o Xe Core, que inclui oito motores vetoriais e matriciais para 512 e 4096 bits, respectivamente. Eles compartilham um cache L1 de 512 Kbyte com o qual você pode se comunicar a uma velocidade de 512 bytes / ciclo.

O desempenho declarado para o motor vetorial (antigo EU), focado na computação “clássica”, é de 256 operações / ciclo para FP32 e FP64, ou 512 – para FP16. O motor de matriz é mais necessário para cargas AI, uma vez que funciona apenas com dados TF32, FP16, BF16 e INT8 – 2048, 4096, 4096 e 8192 operações / ciclo, respectivamente. Este mecanismo funciona com instruções XMX (Xe Matrix eXtensions), que são um pouco semelhantes ao AMX no Intel Xeon Sapphire Rapids.

Os núcleos individuais são combinados em “fatias” – 16 núcleos Xe cada, que são complementados por 16 unidades de rastreamento de raio de hardware. É a fatia que é o bloco funcional básico. Ele está sendo fabricado na TSMC usando uma tecnologia de processo de 5 nm como parte da iniciativa IDM 2.0 da Intel. As fatias são combinadas em pilhas – 4 unidades. em todos.

A pilha também inclui uma base (Base) “substrato” (ou bloco), quatro controladores de memória HBM2e (a própria memória é colocada em blocos separados), um cache L2 comum de 144 MB, um mecanismo de mídia com codecs de hardware, bem como uma placa Xe Link e uma controladora PCIe 5. A placa base é Intel 7 e usa EMIB para combinar todos os blocos.

As telhas Xe Link, fabricadas com a tecnologia de processo de 7nm da TSMC, incluem 8 interfaces de pilha / acelerador acopladas a um switch de 8 portas e usam blocos SerDes de classe 90G. Tudo isso permite combinar até 8 stacks de acordo com o esquema each-to-each, que, em geral, se assemelha à abordagem da NVIDIA, embora o NVSwitch deste ainda seja (por enquanto) um componente externo.

No próprio acelerador, dependendo da configuração, pode haver uma ou duas pilhas. No caso da Ponte Vecchio, existem apenas dois deles, e a Intel fornece alguns dados sobre seu desempenho: mais de 45 teraflops nos cálculos do FP32, mais de 5 TB / s de largura de banda da malha de memória interna e mais de 2 TB / s para conexões externas. Para comparação, o NVIDIA A100 tem um desempenho FP32 declarado de 19,5 teraflops, e o AMD Instinct MI100 – 23,1 teraflops.

A Intel também mostrou os resultados do benchmark ResNet-50 em treinamento e inferência: 3400 e 43000 imagens por segundo, respectivamente. Esses resultados são preliminares, uma vez que não foram obtidos na versão final do “silício”. Mas deve-se ter em mente que a Ponte Vecchio tem outra vantagem – um Rambo-tile separado com um cache super-rápido adicional, que provavelmente pode ser considerado como um cache L3.

No geral, a Ponte Vecchio é um dos chips mais complexos até hoje. Ele combina usando EMIB e Foveros 47 tiles feitos usando cinco processos técnicos diferentes, e o orçamento total do transistor excede 100 bilhões. Esses aceleradores estarão disponíveis no formato OAM e na forma de placas prontas com quatro aceleradores a bordo (novamente , NVIDIA HGX vem à mente). E são precisamente essas placas-mãe, emparelhadas com dois processadores Sapphire, que formarão os nós do supercomputador Aurora. Outra máquina usando um monte de novas CPUs e aceleradores Intel será o SuperMUC-NG (Fase 2).

O lançamento oficial da Ponte Vecchio está previsto para 2022, mas o lançamento das próximas gerações de aceleradores AMD e NVIDIA, com os quais os novos itens precisarão ser comparados, também não estão longe. Até agora, a Intel está envolvida em um assunto igualmente importante – o desenvolvimento de um ecossistema de software baseado em oneAPI, um conjunto de ferramentas universais de desenvolvimento de aplicativos para aplicativos heterogêneos (CPU, GPU, IPU, FPGA, etc.), que é compatível com AMD e hardware NVIDIA.

avalanche

Postagens recentes

NASA convida a todos para ajudar na busca de exoplanetas: se você não tem seu próprio telescópio, basta um smartphone

A NASA anunciou o acesso gratuito para todos ao programa Exoplanet Watch (“Observação de exoplanetas”).…

2 semanas atrás

Fabricante de carros elétricos Rivian perde vários executivos seniores

No início de janeiro, soube-se que a jovem montadora americana Rivian produziu 24.337 veículos elétricos…

2 semanas atrás