A SK hynix propôs uma solução alternativa não original para acelerar modelos de IA – uma arquitetura de memória híbrida HBM/HBF.

A brilhante ideia de concentrar mais memória perto do processador não ocorreu apenas a uma pessoa. Há um ano, a SanDisk anunciou um conceito para substituir a memória HBM (DRAM) pela memória HBF (flash). A SK Hynix publicou recentemente um artigo sobre essa abordagem. A memória flash NAND é simplesmente mais densa que a DRAM e, da perspectiva de aumentar o espaço para tokens de IA, substituir uma pela outra traria resultados impressionantes em termos de aumento da velocidade de tomada de decisões.

Fonte da imagem: SK Hynix

Não é segredo que as plataformas modernas baseadas em CPUs, GPUs e Unidades de Processamento Tensorial (TPUs) enfrentam sérias limitações na quantidade de Memória de Alta Largura de Banda (HBM) alocada, o que frequentemente ocorre ao trabalhar com grandes modelos de linguagem. Por exemplo, modelos como o Llama 4 suportam até 10 milhões de tokens, exigindo um cache de até 5,4 TB. Soluções padrão, como o descarregamento parcial do cache para SSDs locais, levam a uma latência significativa devido à baixa largura de banda do barramento e ao acesso lento às unidades. Isso resulta em um gargalo de largura de banda que só pode ser superado aumentando o número de aceleradores, o que custa dinheiro e energia.

A hierarquia de memória híbrida proposta pela SK Hynix, ou arquitetura H³ (Hybrid³), combina HBM e um novo tipo de memória Flash de Alta Largura de Banda (HBF) em um único interposer junto ao processador, resolvendo o gargalo de memória para tokens de IA. A memória HBM continuará sendo usada como antes — para dados com altas frequências de leitura e gravação (cache gerado dinamicamente), enquanto a HBF será usada para dados com uso intensivo de leitura.

O uso da memória flash HBF proporcionará até 16 vezes mais capacidade com largura de banda próxima à da HBM, embora a latência de acesso permaneça uma ou até duas ordens de magnitude maior, a durabilidade seja menor e o consumo de energia possa ser quatro vezes maior. Ao mesmo tempo, o conjunto de memória híbrida será compartilhado com o processador e o roteamento inteligente de requisições mitigará quaisquer efeitos negativos de gargalos na memória flash.

Resultados da simulação na configuração da GPU Nvidia Blackwell com 8 stacks HBM3E e 8 stacks HBF.O Interposer demonstra melhorias impressionantes. Com 1 milhão de tokens de contexto, o desempenho em tokens por segundo aumenta 1,25 vezes, e com 10 milhões de tokens, 6,14 vezes em comparação com um sistema puramente HBM, enquanto a eficiência energética aumenta 2,69 vezes. Enquanto anteriormente eram necessárias 32 GPUs para processar consultas dessa escala, agora o trabalho pode ser realizado em apenas duas GPUs, reduzindo significativamente o consumo de energia e o custo total do sistema. A empresa acredita que isso justifica o risco e a criação de soluções comerciais.

admin

Compartilhar
Publicado por
admin

Postagens recentes

O satélite japonês OrigamiSat-2 foi implantado com sucesso em órbita e aumentou de tamanho em 25 vezes.

Em 23 de abril, a Agência de Exploração Aeroespacial do Japão (JAXA), com o apoio…

29 minutos atrás

Os Estados Unidos testaram um potente motor de foguete de detonação rotativa.

Há alguns dias, a empresa americana Astrobotic anunciou a conclusão bem-sucedida de uma série de…

29 minutos atrás

O Asus Zenbook Duo 2026 foi apresentado com duas telas OLED de 14 polegadas, processadores Panther Lake e um preço de US$ 2.500.

Após o lançamento do extremamente caro ROG Zephyrus Duo, a Asus apresentou o mais modesto…

2 horas atrás

Imagens finais do próximo smartphone Sony Xperia 1 VIII vazaram na internet.

Imagens renderizadas do próximo smartphone Sony Xperia 1 VIII surgiram online. De acordo com o…

3 horas atrás

A direção da Xbox, da Microsoft, prometeu reformar o segmento de jogos.

Os chefes da divisão Xbox, Asha Sharma e Matt Booty, publicaram um memorando interno detalhando…

3 horas atrás

A Microsoft permitirá que você adie indefinidamente as atualizações do Windows 11 por um período de 35 dias.

Os usuários do Windows não precisarão mais esperar que as atualizações automáticas da plataforma de…

3 horas atrás