As LPUs da Groq são fundamentalmente diferentes dos aceleradores de IA da NVIDIA, mas são exatamente os chips que a empresa precisava para sua plataforma de próxima geração — heterogênea, desagregada e adequada para IA orientada a agentes. Exploramos os recursos do LP30 e do LPX e descobrimos por que a inferência determinística é uma boa opção.
A maior aquisição da história da NVIDIA — a compra da Groq por US$ 20 bilhões — começou a dar frutos. A empresa integrou LPUs com arquitetura distinta à sua plataforma de IA Vera Rubin para acelerar drasticamente a inferência, tornando-a desagregada e a plataforma heterogênea. As LPUs ajudarão a atender aos requisitos de baixa latência em fluxos de trabalho de IA interativos e processamento de alta velocidade de grandes contextos em sistemas orientados a agentes. Enquanto isso, a empresa optou por descartar os coaceleradores Rubin CPX anunciados anteriormente.
O sistema LPX alimenta a fábrica de IA com um mecanismo otimizado para geração rápida e previsível de tokens, enquanto o Vera Rubin NVL72 serve como um mecanismo de treinamento e inferência flexível e de propósito geral, oferecendo alto rendimento nas etapas de pré-preenchimento e decodificação, incluindo processamento de contexto longo, processamento de atenção e suporte a sistemas altamente paralelos em escala.

Fonte da imagem: NVIDIA
Essa combinação é necessária porque o futuro dos agentes exige uma nova categoria de inferência. À medida que a taxa de geração se aproxima de 1.000 tokens por segundo (TPS) por usuário, os modelos vão além da interação na velocidade de uma conversa humana, afirma a NVIDIA. Nesse ritmo, os sistemas de IA podem raciocinar, modelar e responder continuamente, permitindo que interajam menos como um bate-papo por turnos e mais como uma colaboração em tempo real. Essa mudança também eleva o padrão para sistemas multiagentes.

O processamento de novas cargas de trabalho exige uma infraestrutura capaz de fornecer tanto alta taxa de transferência de inferência quanto baixa latência. A combinação do Vera Rubin NVL72 com o Groq 3 LPX cria uma arquitetura heterogênea que une o desempenho de uma fábrica de IA em larga escala com a geração rápida de tokens. O Vera Rubin NVL72 com Groq 3 LPX oferece maior taxa de transferência em níveis mais altos de interatividade — até 35 vezes mais rápido do que os sistemas Grace Blackwell NVL72 a 400 TPS por usuário.

Com a plataforma Vera Rubin, empresas de IA podem alcançar até cinco vezes mais receita por megawatt (MW) em comparação com o GB200 NVL72, e até 10 vezes ao combinar o Vera Rubin NVL72 com LPX para cargas de trabalho interativas de alto desempenho e sensíveis à latência, como codificação baseada em agentes e sistemas multiagentes. O LPX permite que data centers implementem um canal de inferência interativo dedicado e de baixa latência junto ao Vera Rubin NVL72 em uma infraestrutura compartilhada.

O superacelerador NVIDIA Groq 3 LPX de 160 kW para montagem em rack contém 256 chips de IA Groq 3 (LP30) com 96 bilhões de transistores cada. 32 nós 1U com resfriamento líquido (LCS) combinam oito LPUs, CPUs x86, até 128 GB de RAM (expansível para mais 256 GB) e componentes de rede em um design MGX sem cabos, simplificando a implantação em rack e garantindo um acoplamento estreito entre computação e comunicação. As interconexões RealScale C2C fornecem comunicação direta entre LPUs dentro de um nó, entre nós e entre racks. Em nível de sistema, o LPX foi projetado para uso em modos de inferência, onde a sobrecarga de coordenação e a instabilidade (jitter) podem se tornar rapidamente perceptíveis para os usuários.
A LPU NVIDIA Groq 3 foi projetada para fornecer geração de tokens rápida e previsível por meio de computação, memória e troca de dados fortemente acopladas sob controle do compilador. Em vez de otimizar para o máximo desempenho aritmético, a LPU enfatiza a execução determinística, a alta largura de banda da memória on-chip e a movimentação explícita de dados. Ao tornar a movimentação de dados explícita e programável, a LPU permite a sobreposição de acessos à memória, computação e troca de dados sem depender de heurísticas de hardware e ocultar latências.

A característica definidora da LPU é o determinismo. Ao contrário dos processadores convencionais, onde o escalonamento dinâmico, o comportamento do cache e a contenção de memória introduzem variabilidade durante a execução, as LPUs operam sem variabilidade, e cada unidade funcional opera de forma síncrona. Esse determinismo é alcançado pela remoção de bloqueios de hardware e pela delegação de toda a tomada de decisões ao compilador. O compilador utiliza um protocolo C2C plesiócrono, que elimina a deriva de tempo natural e configura centenas de aceleradores da LPU para atuarem como um único sistema coordenado. Esse modelo de execução garante:
Como observado pela Storagereview, em sua essência, a LPU é um processador vetorial muito grande. A unidade fundamental tanto para computação quanto para troca de dados é um vetor de 320 elementos (320 bytes de INT8, 640 bytes de FP16). Todas as operações no chip, sejam aritméticas, de acesso à memória, transformação de dados ou transferência entre chips, são realizadas nesses vetores de tamanho fixo, simplificando o escalonamento e a sincronização.
O chip inclui unidades de execução para diferentes classes de operações:
O elemento central da LPU é a unidade MEM, com uma arquitetura de memória plana baseada em SRAM — sem caches, hierarquia ou o conceito de falha de cache propriamente dito — na qual 500 MB de SRAM servem como armazenamento de trabalho primário com uma taxa de transferência de 150 TB/s. Em vez de depender de caches gerenciados por hardware, o compilador e o ambiente de execução colocam o conjunto de trabalho ativo, incluindo pesos, ativações e estado KV, na memória on-chip e movem os dados explicitamente. Isso reduz a imprevisibilidade.A latência é minimizada e ajuda a garantir uma latência baixa e estável, mantendo os dados mais sensíveis à latência disponíveis para computação. O compilador acessa diretamente os endereços físicos dos bancos de memória, conhecendo a localização exata de todos os dados durante toda a computação.

Para escalabilidade, as LPUs utilizam links C2C de alta velocidade projetados para troca de dados determinística. Cada LPU possui 96 links RealScale C2C, cada um operando a 112 Gbps, proporcionando uma topologia de escalabilidade LPX otimizada com uma taxa de transferência bidirecional combinada de 2,5 TB/s e tempos de transferência de dados previsíveis. Isso é especialmente importante para pipelines de inferência distribuída, onde as perdas de largura de banda podem se tornar uma importante fonte de latência. Desses 96 links, cada LPU possui quatro links dedicados para comunicação entre racks (32 links por nó, 14 TB/s por rack). Os links restantes são usados para conexões ponto a ponto dentro de um nó (Dragonfly) e entre nós — mais de 20 TB/s por nó e 640 TB/s por rack.

É importante notar que o Groq RealScale é fundamentalmente diferente do NVLink. O NVLink é coerente em termos de cache e integra CPUs e GPUs, enquanto o RealScale fornece uma conexão ponto a ponto determinística e agendada por software. Os links de rede são gerenciados explicitamente pelo compilador, o que significa que não há roteamento adaptativo e os pacotes não contêm cabeçalhos de origem/destino. Os links são sincronizados por fase e operam com latência fixa. Para comunicação com outros componentes, é oferecida uma conexão 400GbE mais tradicional, bem como uma única placa ConnectX-9 SuperNIC ou DPU BlueField-4.
A NVIDIA observou que a inferência não é uma carga de trabalho uniforme. O preenchimento prévio e a decodificação dentro de uma consulta impõem diferentes requisitos de hardware, e esses requisitos variam dependendo da quantidade de dados processados simultaneamente, do comprimento do contexto e da estrutura do modelo. Algumas etapas, incluindo mecanismos de atenção e MoEs esparsos, podem se tornar muito sensíveis à largura de banda da memória e à movimentação de dados, enquanto outras escalam de forma eficiente em hardware otimizado para largura de banda com paralelismo suficiente. Durante a decodificação interativa, muitas operações são realizadas em quantidades muito pequenas de dados, tornando a latência muito mais sensível a paralisações, colisões e jitter.
Otimizar todo o pipeline para apenas um modo não faz sentido. Um sistema heterogêneo combina ambas as abordagens, oferecendo desempenho interativo de baixa latência e alta taxa de transferência da estrutura de IA. O resultado é uma arquitetura de núcleo duplo.Mecanismos: As GPUs oferecem alto desempenho para o preenchimento prévio sensível ao contexto e a decodificação com reconhecimento de atenção, enquanto as LPUs aceleram componentes de decodificação sensíveis à latência, como a execução de FFN/MoE, fornecendo um caminho especializado otimizado para a geração rápida de tokens.

A fase de pré-população concentra-se no processamento de grandes volumes de dados de entrada e na criação de um cache de chave-valor para a carga de trabalho, o que se beneficia da computação paralela densa e de grandes quantidades de memória. O Vera Rubin NVL72 tem um desempenho eficaz nessa fase, especialmente para cargas de trabalho com contextos de longa duração e modelos MoE, onde o contexto pode ser extenso e altamente variável. A decodificação, por outro lado, é um ciclo repetitivo para cada token, e diferentes fases desse ciclo podem apresentar diferentes gargalos.

As GPUs executam tarefas de decodificação que se beneficiam ao máximo da largura de banda e de grandes quantidades de memória, como o acesso ao texto completo do cache de chave-valor acumulado. O LPX, por sua vez, acelera operações de decodificação sensíveis à latência, como FFN/MoE e outras operações pontuais. Esse desacoplamento, frequentemente chamado de desagregação de decodificação de fase ou desagregação de atenção-FFN (AFD), separa o mecanismo de atenção da FFN (redes eed-forward) dentro do processo de decodificação e troca ativações intermediárias para cada token, de modo que cada mecanismo execute a parte do ciclo para a qual é mais adequado.
Na prática, isso significa que, à medida que o tamanho da janela de contexto aumenta, as GPUs “absorvem” volumes cada vez maiores de dados acumulados e cálculos cada vez mais complexos sobre eles, enquanto a carga da LPU permanece constante. Isso resolve o principal problema de todos os aceleradores de IA baseados em SRAM: sua pegada de memória fixa e muito limitada. O número de LPUs necessárias para processar operações FFN agora depende apenas da arquitetura do modelo, e não do comprimento do contexto.
A utilização prática da decodificação heterogênea requer um software capaz de classificar solicitações, distribuir o trabalho de acordo com as metas de latência, mover ativações intermediárias com sobrecarga mínima e manter a latência final estável sob tráfego intenso e variável. O NVIDIA Dynamo fornece a orquestração necessária, coordenando o atendimento de solicitações e a decodificação, segundo a NVIDIA.
O Dynamo encaminha os dados dentro do pré-carregamento da GPU para processamento.Criação de um grande contexto e cache de chave-valor. Durante a decodificação, o Dynamo gerencia o loop AFD, que processa o cache de chave-valor acumulado, passa as ativações intermediárias para a LPU para execução de FFN/MoE e retorna a saída para a GPU para geração contínua de tokens. Isso garante um caminho de serviço único e consistente, em vez de dois sistemas distintos.
O Dynamo também oferece roteamento com reconhecimento de cache de chave-valor (as solicitações são roteadas para os workers que já possuem o cache apropriado), agendamento baseado em latência (para evitar que sessões interativas fiquem presas em longas filas) e gerenciamento de transferência de dados. Isso permite que o Dynamo evite longas filas para sessões interativas, reduza a variação entre clientes e mantenha uma latência final estável à medida que o paralelismo e os padrões de solicitação mudam.
A decodificação especulativa também está se tornando um método cada vez mais importante para reduzir a latência durante a inferência LLM. Essa abordagem usa um modelo de rascunho menor para gerar vários tokens candidatos antecipadamente, enquanto um modelo de destino maior verifica esses tokens em paralelo. Quando as previsões coincidem, vários tokens finais podem ser gerados simultaneamente, aumentando significativamente o número de tokens efetivos por segundo e reduzindo a latência de resposta.
Nessa arquitetura, o LPX é ideal para trabalhar com modelos de rascunho. O modelo de execução determinístico e a alta largura de banda da memória SRAM garantem a geração rápida de tokens de rascunho, permitindo que o modelo de rascunho seja executado mais rapidamente do que o verificador, que roda em uma GPU. Essa separaçãoPermite a decodificação especulativa em processadores heterogêneos, em vez de executar a geração e verificação de rascunhos no mesmo hardware.
Se você notar um erro, selecione-o com o mouse e pressione CTRL+ENTER. | Você pode melhorar? Ficaremos felizes em receber seu feedback.
Fontes: