Na conferência Hot Chips 33, a Samsung anunciou planos para incorporar aceleradores de computação em todos os tipos de RAM de smartphones a computadores, placas de vídeo e servidores. Isso aumentará o desempenho da plataforma e reduzirá o consumo de energia. A melhor parte é que podem ser usados ​​chips de memória com aceleradores no lugar da memória normal, e o suporte do software é bastante simples, o que já atraiu o interesse de desenvolvedores de CPU e GPU.

AXDIMM DDR4. Fonte da imagem: Samsung

A Samsung mostrou o PIM (processamento em memória) para chips HBM2 em fevereiro deste ano. Cada chip HBM2 era armado com um acelerador AI programável com desempenho de 1,2 teraflops (FP16) e podia processar dados armazenados na memória diretamente, sem ultrapassá-los para o processador central e vice-versa. Hoje, a empresa anunciou que está trabalhando para armar aceleradores de cálculo para todos os principais tipos de RAM, o que promete o aparecimento de blocos PIM nos subsistemas de laptops, placas de vídeo e assim por diante.

Чип памяти HBM-PIM. Источник изображения: Samsung

Chip de memória HBM-PIM. Fonte da imagem: Samsung

É preciso dizer que hoje o acelerador PIM ocupa cerca de metade da área do cristal da memória, o que não é muito agradável do ponto de vista de volumes crescentes. No futuro, a Samsung promete reduzir o acelerador, introduzindo cada vez mais chips de RAM densos de todos os tipos. Em particular, para chips HBM de terceira moagem, a empresa promete a mesma capacidade para PIM-HBM3 que para chips HBM3 convencionais. Pode-se supor que isso seja possível devido à estrutura de pilha dessa memória.

Camadas de HBM-PIM (agora marca Aquabolt-XL da Samsung) são inseridas diretamente na pilha HBM2 no mesmo substrato do controlador de antes. Assim, as pilhas HBM2 podem ser facilmente substituídas por pilhas habilitadas para HBM-PIM, substituindo uma por outra. Essas pilhas híbridas foram testadas pela Xilinx com produtos Alveo sem nenhuma modificação no processador ou adaptador (placa de circuito ou interposer). Segundo os parceiros, a produtividade saltou 2,5 vezes e o consumo de energia diminuiu 62%. A mesma operação, garantem a Samsung, pode ser realizada com GPU e CPU com layout semelhante, e os desenvolvedores dessas soluções já estão interessados ​​na proposta da empresa.

Слои HBM-PIM могут быть встроены в стандартный стек HBM и процессору об этом даже не нужно знать. Источник изображения: Samsung

As camadas HBM-PIM podem ser incorporadas em uma pilha HBM padrão sem que o processador precise saber. Fonte da imagem: Samsung

Para os mais impacientes, a Samsung oferece uma solução pronta para uso na forma de módulos AXDIMM DDR4 (DIMM de aceleração). Os módulos possuem um buffer que ajuda a processar os dados na memória enquanto trabalha simultaneamente com todas as classificações DRAM da barra. Esse módulo é instalado em um servidor regular em um slot de memória padrão. Todo o trabalho – processamento de dados na memória com precisão FP16 usando rotinas TensorFlow e Python padrão – é gerenciado pelo próprio módulo, e a Samsung está fazendo o possível para oferecer suporte a outras ferramentas de software.

A empresa diz que seus benchmarks (executados em uma carga de trabalho do Facebook AI) mostraram um aumento de desempenho de 1,8x, uma redução de 42,6% no consumo de energia e uma redução de 70% no lag de cauda com o kit de 2 camadas. Vamos repetir tudo isso, sem modificações em um servidor padrão, o que certamente é impressionante.

Модуль AXDIMM значительно ускоряет обработку ИИ-ориентированных данных. Источник изображения: Samsung

O AXDIMM acelera significativamente o processamento de dados acionados por IA. Fonte da imagem: Samsung

Em plataformas móveis, se falarmos sobre o uso do PIM com chips LPDDR5 e similares, o uso da computação in-memory trará o mesmo número de novas possibilidades. Até agora, a empresa está apenas simulando esses processos, mas com o tempo eles prometem aparecer em laptops e até smartphones. Por exemplo, a memória LPDDR5X-6400 aumenta o desempenho em 2,3 vezes para cargas de trabalho de reconhecimento de voz, 1,8 vezes ao converter uma tradução e 2,4 vezes ao gerar texto GPT-2. Essas melhorias de desempenho são acompanhadas por uma diminuição de 3,85, 2,17 e 4,35 vezes no consumo, respectivamente. Outra questão é quando chegará ao mercado? Afinal, essa tecnologia ainda não se tornou um padrão aprovado pela JEDEC.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *