Categorias: Módulos de RAM, cartões de memória, pen drives, leitores de cartões

A SK hynix propôs uma solução alternativa não original para acelerar modelos de IA – uma arquitetura de memória híbrida HBM/HBF.

A brilhante ideia de concentrar mais memória perto do processador não ocorreu apenas a uma pessoa. Há um ano, a SanDisk anunciou um conceito para substituir a memória HBM (DRAM) pela memória HBF (flash). A SK Hynix publicou recentemente um artigo sobre essa abordagem. A memória flash NAND é simplesmente mais densa que a DRAM e, da perspectiva de aumentar o espaço para tokens de IA, substituir uma pela outra traria resultados impressionantes em termos de aumento da velocidade de tomada de decisões.

Fonte da imagem: SK Hynix

Não é segredo que as plataformas modernas baseadas em CPUs, GPUs e Unidades de Processamento Tensorial (TPUs) enfrentam sérias limitações na quantidade de Memória de Alta Largura de Banda (HBM) alocada, o que frequentemente ocorre ao trabalhar com grandes modelos de linguagem. Por exemplo, modelos como o Llama 4 suportam até 10 milhões de tokens, exigindo um cache de até 5,4 TB. Soluções padrão, como o descarregamento parcial do cache para SSDs locais, levam a uma latência significativa devido à baixa largura de banda do barramento e ao acesso lento às unidades. Isso resulta em um gargalo de largura de banda que só pode ser superado aumentando o número de aceleradores, o que custa dinheiro e energia.

A hierarquia de memória híbrida proposta pela SK Hynix, ou arquitetura H³ (Hybrid³), combina HBM e um novo tipo de memória Flash de Alta Largura de Banda (HBF) em um único interposer junto ao processador, resolvendo o gargalo de memória para tokens de IA. A memória HBM continuará sendo usada como antes — para dados com altas frequências de leitura e gravação (cache gerado dinamicamente), enquanto a HBF será usada para dados com uso intensivo de leitura.

O uso da memória flash HBF proporcionará até 16 vezes mais capacidade com largura de banda próxima à da HBM, embora a latência de acesso permaneça uma ou até duas ordens de magnitude maior, a durabilidade seja menor e o consumo de energia possa ser quatro vezes maior. Ao mesmo tempo, o conjunto de memória híbrida será compartilhado com o processador e o roteamento inteligente de requisições mitigará quaisquer efeitos negativos de gargalos na memória flash.

Resultados da simulação na configuração da GPU Nvidia Blackwell com 8 stacks HBM3E e 8 stacks HBF.O Interposer demonstra melhorias impressionantes. Com 1 milhão de tokens de contexto, o desempenho em tokens por segundo aumenta 1,25 vezes, e com 10 milhões de tokens, 6,14 vezes em comparação com um sistema puramente HBM, enquanto a eficiência energética aumenta 2,69 vezes. Enquanto anteriormente eram necessárias 32 GPUs para processar consultas dessa escala, agora o trabalho pode ser realizado em apenas duas GPUs, reduzindo significativamente o consumo de energia e o custo total do sistema. A empresa acredita que isso justifica o risco e a criação de soluções comerciais.

admin

Próximo A SK hynix propôs uma solução alternativa não original para acelerar modelos de IA – uma arquitetura de memória híbrida HBM/HBF. »

Anterior « Hackers usaram páginas CAPTCHA falsas para distribuir vírus para Windows.

Deixar comentário

Publicado por

admin

5 meses atrás

SSD de dados Nimbus de 100 TB com preço de $40,000

Postagens recentes

Notícias da rede

Apple e Epic Games convenceram o tribunal a suspender o processo na App Store

\nNo início do mês, soube-se que a Apple e a Epic Games entraram com uma…

18 minutos atrás

Servidores, clusters, supercomputadores, computadores industriais e multiprocessadores

As empresas chinesas estão dispostas a gastar até metade do seu orçamento na compra de chips de IA para produtos de fornecedores locais

\nInformações sobre a promoção ativa de aceleradores de IA chineses no mercado interno apareceram mais…

18 minutos atrás

Vírus, cavalos de Troia, vulnerabilidades de software, problemas de segurança

Autoridades dos EUA usam Mitos Antrópicos para encontrar fraquezas na infraestrutura governamental

\nNos últimos seis meses, a startup Anthropic, devido a contradições com o Pentágono, tornou-se a…

1 hora atrás

Programas

Todos os dados de backup no Android agora contam para o armazenamento da sua Conta do Google

\nO Google anunciou algumas mudanças em sua política de backup do Android, esclarecendo o que…

3 horas atrás

Software para celular

A nova versão beta do iOS 27 adicionou a capacidade de alterar a expressividade e velocidade da fala do Siri

\nNa última versão beta para desenvolvedores do iOS 27, a Apple deu uma prévia de…

3 horas atrás

Módulos de RAM, cartões de memória, pen drives, leitores de cartões

O aumento de 19 vezes no lucro operacional da Samsung não impressionou os investidores; ações caíram 6,8%

\nNas vésperas da publicação das estatísticas preliminares para o segundo trimestre, os analistas assumiram, em…

3 horas atrás

A SK hynix propôs uma solução alternativa não original para acelerar modelos de IA – uma arquitetura de memória híbrida HBM/HBF.

Conteúdo relacionado

Postagens recentes

Apple e Epic Games convenceram o tribunal a suspender o processo na App Store

As empresas chinesas estão dispostas a gastar até metade do seu orçamento na compra de chips de IA para produtos de fornecedores locais

Autoridades dos EUA usam Mitos Antrópicos para encontrar fraquezas na infraestrutura governamental

Todos os dados de backup no Android agora contam para o armazenamento da sua Conta do Google

A nova versão beta do iOS 27 adicionou a capacidade de alterar a expressividade e velocidade da fala do Siri

O aumento de 19 vezes no lucro operacional da Samsung não impressionou os investidores; ações caíram 6,8%