A SK hynix propôs uma solução alternativa não original para acelerar modelos de IA – uma arquitetura de memória híbrida HBM/HBF.

A brilhante ideia de concentrar mais memória perto do processador não ocorreu apenas a uma pessoa. Há um ano, a SanDisk anunciou um conceito para substituir a memória HBM (DRAM) pela memória HBF (flash). A SK Hynix publicou recentemente um artigo sobre essa abordagem. A memória flash NAND é simplesmente mais densa que a DRAM e, da perspectiva de aumentar o espaço para tokens de IA, substituir uma pela outra traria resultados impressionantes em termos de aumento da velocidade de tomada de decisões.

Fonte da imagem: SK Hynix

Não é segredo que as plataformas modernas baseadas em CPUs, GPUs e Unidades de Processamento Tensorial (TPUs) enfrentam sérias limitações na quantidade de Memória de Alta Largura de Banda (HBM) alocada, o que frequentemente ocorre ao trabalhar com grandes modelos de linguagem. Por exemplo, modelos como o Llama 4 suportam até 10 milhões de tokens, exigindo um cache de até 5,4 TB. Soluções padrão, como o descarregamento parcial do cache para SSDs locais, levam a uma latência significativa devido à baixa largura de banda do barramento e ao acesso lento às unidades. Isso resulta em um gargalo de largura de banda que só pode ser superado aumentando o número de aceleradores, o que custa dinheiro e energia.

A hierarquia de memória híbrida proposta pela SK Hynix, ou arquitetura H³ (Hybrid³), combina HBM e um novo tipo de memória Flash de Alta Largura de Banda (HBF) em um único interposer junto ao processador, resolvendo o gargalo de memória para tokens de IA. A memória HBM continuará sendo usada como antes — para dados com altas frequências de leitura e gravação (cache gerado dinamicamente), enquanto a HBF será usada para dados com uso intensivo de leitura.

O uso da memória flash HBF proporcionará até 16 vezes mais capacidade com largura de banda próxima à da HBM, embora a latência de acesso permaneça uma ou até duas ordens de magnitude maior, a durabilidade seja menor e o consumo de energia possa ser quatro vezes maior. Ao mesmo tempo, o conjunto de memória híbrida será compartilhado com o processador e o roteamento inteligente de requisições mitigará quaisquer efeitos negativos de gargalos na memória flash.

Resultados da simulação na configuração da GPU Nvidia Blackwell com 8 stacks HBM3E e 8 stacks HBF.O Interposer demonstra melhorias impressionantes. Com 1 milhão de tokens de contexto, o desempenho em tokens por segundo aumenta 1,25 vezes, e com 10 milhões de tokens, 6,14 vezes em comparação com um sistema puramente HBM, enquanto a eficiência energética aumenta 2,69 vezes. Enquanto anteriormente eram necessárias 32 GPUs para processar consultas dessa escala, agora o trabalho pode ser realizado em apenas duas GPUs, reduzindo significativamente o consumo de energia e o custo total do sistema. A empresa acredita que isso justifica o risco e a criação de soluções comerciais.

admin

Compartilhar
Publicado por
admin

Postagens recentes

Taiwan está considerando limitar o fornecimento de chips de IA para a China como parte de sistemas já finalizados.

Embora demonstre sua lealdade política geral aos Estados Unidos, Taiwan ainda não impôs restrições proporcionais…

31 minutos atrás

Os investidores estão prontos para comprar ações da SpaceX no valor de mais de US$ 250 bilhões, quatro vezes o valor da oferta.

Até recentemente, um aumento de duas vezes no número de pessoas dispostas a comprar ações…

3 horas atrás

A Microsoft corrigiu três vulnerabilidades zero-day perigosas e outras 200 falhas em seu software.

A Microsoft lançou sua atualização de junho na terça-feira de atualizações, corrigindo 200 vulnerabilidades, incluindo…

7 horas atrás

Inteligência artificial ajuda a atualizar drivers AMD Radeon que têm quase 20 anos.

Segundo o Phoronix, a versão mais recente do driver gráfico Gallium3D R600, incluída no Mesa…

9 horas atrás

A NASA apresentou a tripulação da missão lunar Artemis 3, mas ela não chegará à Lua.

A NASA anunciou os nomes dos astronautas que irão ao espaço na missão Artemis 3…

9 horas atrás