Invista US$ 5 milhões e receba US$ 75 milhões: a NVIDIA ostenta novos recordes no abrangente benchmark InferenceMAX v1.

A NVIDIA anunciou os resultados do superacelerador GB200 NVL72 no novo benchmark independente de IA da SemiAnalysis, o InferenceMAXv1. O InferenceMAX mede os custos reais da computação de IA, quantificando o custo total de propriedade (TCO) em dólares por milhão de tokens para vários cenários, incluindo a compra e a posse de GPUs versus o aluguel delas. O InferenceMAX utiliza modelos populares em plataformas líderes, medindo seu desempenho em uma ampla gama de casos de uso, e os resultados são publicamente verificáveis, de acordo com os autores do benchmark.

O superacelerador GB200 NVL72 venceu em todas as categorias do benchmark InferenceMAX v1. Os chips NVIDIA Blackwell demonstraram o melhor retorno sobre o investimento — um investimento de US$ 5 milhões gera US$ 75 milhões em receita com tokens DeepSeek R1, proporcionando um retorno de 15x (há um ano, a NVIDIA prometia um ROI de 700%). Os aceleradores da geração Blackwell também apresentam o menor custo total de propriedade. Por exemplo, as otimizações de software do NVIDIA B200 permitiram um custo de apenas dois centavos por milhão de tokens no OpenAI gpt-oss-120b, alcançando uma redução de cinco vezes no custo por token em apenas dois meses.

O NVIDIA B200 também liderou em taxa de transferência e interatividade, entregando 60.000 tokens por segundo por acelerador e 1.000 tokens por segundo por usuário no gpt-oss com a mais recente pilha NVIDIA TensorRT-LLM. A NVIDIA informou que está continuamente aprimorando o desempenho por meio da otimização da pilha de hardware e software.O desempenho inicial do gpt-oss-120b em um sistema NVIDIA DGX Blackwell B200 executando a biblioteca NVIDIA TensorRT LLM já era líder de mercado, mas as equipes da NVIDIA e a comunidade de desenvolvedores otimizaram significativamente o TensorRT LLM para acelerar a execução de aplicativos de código aberto.grandes modelos de linguagem (LLM).

Fonte da imagem: NVIDIA

A empresa observou que o lançamento do TensorRT LLM v1.0 representou um avanço significativo no aumento da taxa de transferência de inferência do LLM, graças à paralelização e otimização das operações de E/S. O modelo gpt-oss-120b-Eagle3-v2, lançado recentemente, também utiliza decodificação especulativa, um método inteligente que permite a previsão de múltiplos tokens simultaneamente. Isso reduz a latência e fornece resultados ainda mais rápidos — a taxa de transferência triplicou para 100 tokens por segundo por usuário (TPS/usuário), enquanto o desempenho geral por acelerador aumentou de 6.000 tokens para 30.000.

Para modelos de IA densos como o Llama 3.3 70b, que exigem recursos computacionais significativos devido ao grande número de parâmetros e ao uso simultâneo de todos eles durante o processo de inferência, o NVIDIA Blackwell B200 atingiu um novo marco de desempenho no benchmark InferenceMAX v1, observou a NVIDIA. O superacelerador demonstrou mais de 10.000 tokens por segundo (TPS) por GPU a 50 TPS por usuário, representando quatro vezes a taxa de transferência por GPU em comparação com o NVIDIA H200.

A NVIDIA enfatizou que métricas como tokens por watt, custo por milhão de tokens e TPS por usuário são tão importantes quanto a taxa de transferência. De fato, para fábricas de IA com restrição de energia, os aceleradores baseados em Blackwell oferecem desempenho até 10 vezes melhor por megawatt do que a geração anterior, permitindo maior receita com tokens.

A empresa observou que o custo por token é fundamental para avaliar a eficácia de um modelo de IA e impacta diretamente os custos operacionais. A NVIDIA afirma que a arquitetura NVIDIA Blackwell reduziu o custo por milhão de tokens em 15 vezes em comparação com a geração anterior.

O InferenceMAX utiliza o método de avaliação de desempenho da fronteira de Pareto, que determina a melhor combinação (compensação) de vários fatores para avaliar o desempenho do acelerador. Isso demonstra como a Blackwell supera seus concorrentes no equilíbrio entre custo, eficiência energética, rendimento e capacidade de resposta.Os sistemas otimizados para apenas uma métrica podem demonstrar desempenho máximo no vácuo, masEssa “economia” não é escalável em ambientes de produção.

A empresa observou que a IA está migrando de projetos-piloto experimentais para fábricas de IA — infraestrutura que produz soluções inteligentes, transformando dados em tokens e decisões em tempo real. A estrutura NVIDIA Think SMART ajuda as empresas a navegar nessa transição, demonstrando como uma plataforma de inferência completa oferece ROI mensurável.

Ao prometer um ROI de 15x e ganhos contínuos de desempenho por meio de software, a NVIDIA não apenas lidera a atual corrida tecnológica de IA, mas também define as regras para a próxima fase, onde a economia determinará os vencedores do mercado, de acordo com o The Tech Buzz. Para empresas que dependem de plataformas concorrentes em suas estratégias de implantação de IA, os resultados desses benchmarks devem levá-las a reconsiderar suas escolhas de infraestrutura de IA.

admin

Postagens recentes

Guild Wars 3 não terá um passe de batalha porque os desenvolvedores não querem manter os jogadores como reféns.

A série de MMO Guild Wars, desenvolvida pelo estúdio americano ArenaNet (pertencente à NCSoft), sempre…

39 minutos atrás

O CEO da Xpeng liderará pessoalmente o desenvolvimento de robôs humanoides da empresa.

O CEO da Xpeng, He Xiaopeng, decidiu liderar pessoalmente a divisão de robótica da empresa.…

39 minutos atrás

Em maio, os carros equipados apenas com motores de combustão interna saíram da lista dos cinco carros de passageiros mais populares na China.

Os híbridos plug-in estão evoluindo rapidamente no mercado chinês e, para muitos motoristas, oferecem uma…

39 minutos atrás

A Siri, com sua inteligência artificial, sugerirá pausas em conversas prolongadas e lembrará que ela não é humana.

Foram descobertas referências no código do iOS 27 da Apple indicando que a assistente virtual…

59 minutos atrás

A BYD vai investir €2 bilhões em sua rede de carregamento na Europa e no Reino Unido.

A BYD planeja investir € 2 bilhões na construção de uma rede de estações de…

1 hora atrás