A NVIDIA anunciou os resultados do superacelerador GB200 NVL72 no novo benchmark independente de IA da SemiAnalysis, o InferenceMAXv1. O InferenceMAX mede os custos reais da computação de IA, quantificando o custo total de propriedade (TCO) em dólares por milhão de tokens para vários cenários, incluindo a compra e a posse de GPUs versus o aluguel delas. O InferenceMAX utiliza modelos populares em plataformas líderes, medindo seu desempenho em uma ampla gama de casos de uso, e os resultados são publicamente verificáveis, de acordo com os autores do benchmark.
O superacelerador GB200 NVL72 venceu em todas as categorias do benchmark InferenceMAX v1. Os chips NVIDIA Blackwell demonstraram o melhor retorno sobre o investimento — um investimento de US$ 5 milhões gera US$ 75 milhões em receita com tokens DeepSeek R1, proporcionando um retorno de 15x (há um ano, a NVIDIA prometia um ROI de 700%). Os aceleradores da geração Blackwell também apresentam o menor custo total de propriedade. Por exemplo, as otimizações de software do NVIDIA B200 permitiram um custo de apenas dois centavos por milhão de tokens no OpenAI gpt-oss-120b, alcançando uma redução de cinco vezes no custo por token em apenas dois meses.
O NVIDIA B200 também liderou em taxa de transferência e interatividade, entregando 60.000 tokens por segundo por acelerador e 1.000 tokens por segundo por usuário no gpt-oss com a mais recente pilha NVIDIA TensorRT-LLM. A NVIDIA informou que está continuamente aprimorando o desempenho por meio da otimização da pilha de hardware e software.O desempenho inicial do gpt-oss-120b em um sistema NVIDIA DGX Blackwell B200 executando a biblioteca NVIDIA TensorRT LLM já era líder de mercado, mas as equipes da NVIDIA e a comunidade de desenvolvedores otimizaram significativamente o TensorRT LLM para acelerar a execução de aplicativos de código aberto.grandes modelos de linguagem (LLM).
Fonte da imagem: NVIDIA
A empresa observou que o lançamento do TensorRT LLM v1.0 representou um avanço significativo no aumento da taxa de transferência de inferência do LLM, graças à paralelização e otimização das operações de E/S. O modelo gpt-oss-120b-Eagle3-v2, lançado recentemente, também utiliza decodificação especulativa, um método inteligente que permite a previsão de múltiplos tokens simultaneamente. Isso reduz a latência e fornece resultados ainda mais rápidos — a taxa de transferência triplicou para 100 tokens por segundo por usuário (TPS/usuário), enquanto o desempenho geral por acelerador aumentou de 6.000 tokens para 30.000.
Para modelos de IA densos como o Llama 3.3 70b, que exigem recursos computacionais significativos devido ao grande número de parâmetros e ao uso simultâneo de todos eles durante o processo de inferência, o NVIDIA Blackwell B200 atingiu um novo marco de desempenho no benchmark InferenceMAX v1, observou a NVIDIA. O superacelerador demonstrou mais de 10.000 tokens por segundo (TPS) por GPU a 50 TPS por usuário, representando quatro vezes a taxa de transferência por GPU em comparação com o NVIDIA H200.
A NVIDIA enfatizou que métricas como tokens por watt, custo por milhão de tokens e TPS por usuário são tão importantes quanto a taxa de transferência. De fato, para fábricas de IA com restrição de energia, os aceleradores baseados em Blackwell oferecem desempenho até 10 vezes melhor por megawatt do que a geração anterior, permitindo maior receita com tokens.
A empresa observou que o custo por token é fundamental para avaliar a eficácia de um modelo de IA e impacta diretamente os custos operacionais. A NVIDIA afirma que a arquitetura NVIDIA Blackwell reduziu o custo por milhão de tokens em 15 vezes em comparação com a geração anterior.
O InferenceMAX utiliza o método de avaliação de desempenho da fronteira de Pareto, que determina a melhor combinação (compensação) de vários fatores para avaliar o desempenho do acelerador. Isso demonstra como a Blackwell supera seus concorrentes no equilíbrio entre custo, eficiência energética, rendimento e capacidade de resposta.Os sistemas otimizados para apenas uma métrica podem demonstrar desempenho máximo no vácuo, masEssa “economia” não é escalável em ambientes de produção.
A empresa observou que a IA está migrando de projetos-piloto experimentais para fábricas de IA — infraestrutura que produz soluções inteligentes, transformando dados em tokens e decisões em tempo real. A estrutura NVIDIA Think SMART ajuda as empresas a navegar nessa transição, demonstrando como uma plataforma de inferência completa oferece ROI mensurável.
Ao prometer um ROI de 15x e ganhos contínuos de desempenho por meio de software, a NVIDIA não apenas lidera a atual corrida tecnológica de IA, mas também define as regras para a próxima fase, onde a economia determinará os vencedores do mercado, de acordo com o The Tech Buzz. Para empresas que dependem de plataformas concorrentes em suas estratégias de implantação de IA, os resultados desses benchmarks devem levá-las a reconsiderar suas escolhas de infraestrutura de IA.
O governo Donald Trump aumentou o envolvimento do governo em setores estrategicamente importantes, adquirindo participações…
A polícia sul-coreana acredita que o grande incêndio no centro de dados do Serviço Nacional…
Um aumento sem precedentes no investimento em infraestrutura de inteligência artificial tornou-se o principal impulsionador…
No início deste ano, um tribunal ordenou que a OpenAI mantivesse os registros de bate-papo…
Glenn Israel, diretor de arte da série Halo por 17 anos, deixou o Halo Studios.…
A Meta✴Platforms de Mark Zuckerberg é considerada o "vácuo de talentos" mais poderoso na área…