A SK hynix propôs uma solução alternativa não original para acelerar modelos de IA – uma arquitetura de memória híbrida HBM/HBF.

A brilhante ideia de concentrar mais memória perto do processador não ocorreu apenas a uma pessoa. Há um ano, a SanDisk anunciou um conceito para substituir a memória HBM (DRAM) pela memória HBF (flash). A SK Hynix publicou recentemente um artigo sobre essa abordagem. A memória flash NAND é simplesmente mais densa que a DRAM e, da perspectiva de aumentar o espaço para tokens de IA, substituir uma pela outra traria resultados impressionantes em termos de aumento da velocidade de tomada de decisões.

Fonte da imagem: SK Hynix

Não é segredo que as plataformas modernas baseadas em CPUs, GPUs e Unidades de Processamento Tensorial (TPUs) enfrentam sérias limitações na quantidade de Memória de Alta Largura de Banda (HBM) alocada, o que frequentemente ocorre ao trabalhar com grandes modelos de linguagem. Por exemplo, modelos como o Llama 4 suportam até 10 milhões de tokens, exigindo um cache de até 5,4 TB. Soluções padrão, como o descarregamento parcial do cache para SSDs locais, levam a uma latência significativa devido à baixa largura de banda do barramento e ao acesso lento às unidades. Isso resulta em um gargalo de largura de banda que só pode ser superado aumentando o número de aceleradores, o que custa dinheiro e energia.

A hierarquia de memória híbrida proposta pela SK Hynix, ou arquitetura H³ (Hybrid³), combina HBM e um novo tipo de memória Flash de Alta Largura de Banda (HBF) em um único interposer junto ao processador, resolvendo o gargalo de memória para tokens de IA. A memória HBM continuará sendo usada como antes — para dados com altas frequências de leitura e gravação (cache gerado dinamicamente), enquanto a HBF será usada para dados com uso intensivo de leitura.

O uso da memória flash HBF proporcionará até 16 vezes mais capacidade com largura de banda próxima à da HBM, embora a latência de acesso permaneça uma ou até duas ordens de magnitude maior, a durabilidade seja menor e o consumo de energia possa ser quatro vezes maior. Ao mesmo tempo, o conjunto de memória híbrida será compartilhado com o processador e o roteamento inteligente de requisições mitigará quaisquer efeitos negativos de gargalos na memória flash.

Resultados da simulação na configuração da GPU Nvidia Blackwell com 8 stacks HBM3E e 8 stacks HBF.O Interposer demonstra melhorias impressionantes. Com 1 milhão de tokens de contexto, o desempenho em tokens por segundo aumenta 1,25 vezes, e com 10 milhões de tokens, 6,14 vezes em comparação com um sistema puramente HBM, enquanto a eficiência energética aumenta 2,69 vezes. Enquanto anteriormente eram necessárias 32 GPUs para processar consultas dessa escala, agora o trabalho pode ser realizado em apenas duas GPUs, reduzindo significativamente o consumo de energia e o custo total do sistema. A empresa acredita que isso justifica o risco e a criação de soluções comerciais.

admin

Compartilhar
Publicado por
admin

Postagens recentes

Astrônomos observaram, pela primeira vez, uma explosão de supernova inexplicável, o que exige uma nova teoria.

Astrônomos podem ter descoberto um novo tipo de explosão cósmica, apelidada de "superkilonova". Este evento,…

2 horas atrás

Um entusiasta de hardware modificou a VBIOS de uma placa gráfica S3 antiga para tornar o preto verdadeiramente preto.

Um criador de conteúdo do canal do YouTube Bits und Bolts descobriu uma falha em…

2 horas atrás

US$ 50 para proteger sua RTX 5090 contra burn-in: a Asus revela o preço do seu cabo ROG Equalizer.

A Asus começou a vender o cabo ROG Equalizer separadamente, que reduz a distribuição desigual…

2 horas atrás

A AMD lançou o sistema de overclocking de memória EXPO 1.2, que irá desbloquear todo o potencial do Zen 6.

A tão aguardada atualização de overclock de memória AMD EXPO 1.2 já está disponível para…

3 horas atrás

O WhatsApp para Android passará a oferecer suporte a “bolhas”, um formato de notificação do sistema pouco conhecido.

O Google Android possui um recurso integrado chamado "Bolhas" ou "Chat Heads" — um formato…

3 horas atrás