A SK hynix propôs uma solução alternativa não original para acelerar modelos de IA – uma arquitetura de memória híbrida HBM/HBF.

A brilhante ideia de concentrar mais memória perto do processador não ocorreu apenas a uma pessoa. Há um ano, a SanDisk anunciou um conceito para substituir a memória HBM (DRAM) pela memória HBF (flash). A SK Hynix publicou recentemente um artigo sobre essa abordagem. A memória flash NAND é simplesmente mais densa que a DRAM e, da perspectiva de aumentar o espaço para tokens de IA, substituir uma pela outra traria resultados impressionantes em termos de aumento da velocidade de tomada de decisões.

Fonte da imagem: SK Hynix

Não é segredo que as plataformas modernas baseadas em CPUs, GPUs e Unidades de Processamento Tensorial (TPUs) enfrentam sérias limitações na quantidade de Memória de Alta Largura de Banda (HBM) alocada, o que frequentemente ocorre ao trabalhar com grandes modelos de linguagem. Por exemplo, modelos como o Llama 4 suportam até 10 milhões de tokens, exigindo um cache de até 5,4 TB. Soluções padrão, como o descarregamento parcial do cache para SSDs locais, levam a uma latência significativa devido à baixa largura de banda do barramento e ao acesso lento às unidades. Isso resulta em um gargalo de largura de banda que só pode ser superado aumentando o número de aceleradores, o que custa dinheiro e energia.

A hierarquia de memória híbrida proposta pela SK Hynix, ou arquitetura H³ (Hybrid³), combina HBM e um novo tipo de memória Flash de Alta Largura de Banda (HBF) em um único interposer junto ao processador, resolvendo o gargalo de memória para tokens de IA. A memória HBM continuará sendo usada como antes — para dados com altas frequências de leitura e gravação (cache gerado dinamicamente), enquanto a HBF será usada para dados com uso intensivo de leitura.

O uso da memória flash HBF proporcionará até 16 vezes mais capacidade com largura de banda próxima à da HBM, embora a latência de acesso permaneça uma ou até duas ordens de magnitude maior, a durabilidade seja menor e o consumo de energia possa ser quatro vezes maior. Ao mesmo tempo, o conjunto de memória híbrida será compartilhado com o processador e o roteamento inteligente de requisições mitigará quaisquer efeitos negativos de gargalos na memória flash.

Resultados da simulação na configuração da GPU Nvidia Blackwell com 8 stacks HBM3E e 8 stacks HBF.O Interposer demonstra melhorias impressionantes. Com 1 milhão de tokens de contexto, o desempenho em tokens por segundo aumenta 1,25 vezes, e com 10 milhões de tokens, 6,14 vezes em comparação com um sistema puramente HBM, enquanto a eficiência energética aumenta 2,69 vezes. Enquanto anteriormente eram necessárias 32 GPUs para processar consultas dessa escala, agora o trabalho pode ser realizado em apenas duas GPUs, reduzindo significativamente o consumo de energia e o custo total do sistema. A empresa acredita que isso justifica o risco e a criação de soluções comerciais.

admin

Compartilhar
Publicado por
admin

Postagens recentes

Subnautica 2 – Bom no fundo do mar. Prévia / Jogos

Unknown Worlds Entertainment 14 de maio de 2026 (Acesso Antecipado) Jogado no PC O gênero…

4 horas atrás

A Samsung está preparando SSDs Nearline de petabytes — alta capacidade, mas não muito confiáveis.

A Scality, especialista em armazenamento definido por software (SDS), revelou detalhes de uma nova classe…

10 horas atrás

Os geoengenheiros da Stardust propuseram resfriar a Terra pulverizando uma “areia” refletora especial na estratosfera.

A Stardust Solutions, empresa especializada em tecnologias de geoengenharia, propôs uma solução que, segundo ela,…

10 horas atrás

Robôs humanoides da Figure AI aprenderam a separar encomendas 24 horas por dia.

A Figure AI relatou que, durante os testes, seus robôs humanoides operaram por mais de…

12 horas atrás

Os EUA suspeitam que a Arm pratique comportamento anticoncorrencial.

A Comissão Federal de Comércio dos EUA (FTC, na sigla em inglês) iniciou uma investigação…

12 horas atrás

O processador Intel Core i9-14900KF foi overclockado para 9206,34 MHz – um novo recorde mundial.

Um overclocker chinês apelidado de "Wytiwx" estabeleceu um novo recorde mundial de overclock de CPU,…

12 horas atrás