Categorias: Mercado de tecnologia e TI. notícia

Invista US$ 5 milhões e receba US$ 75 milhões: a NVIDIA ostenta novos recordes no abrangente benchmark InferenceMAX v1.

A NVIDIA anunciou os resultados do superacelerador GB200 NVL72 no novo benchmark independente de IA da SemiAnalysis, o InferenceMAXv1. O InferenceMAX mede os custos reais da computação de IA, quantificando o custo total de propriedade (TCO) em dólares por milhão de tokens para vários cenários, incluindo a compra e a posse de GPUs versus o aluguel delas. O InferenceMAX utiliza modelos populares em plataformas líderes, medindo seu desempenho em uma ampla gama de casos de uso, e os resultados são publicamente verificáveis, de acordo com os autores do benchmark.

O superacelerador GB200 NVL72 venceu em todas as categorias do benchmark InferenceMAX v1. Os chips NVIDIA Blackwell demonstraram o melhor retorno sobre o investimento — um investimento de US$ 5 milhões gera US$ 75 milhões em receita com tokens DeepSeek R1, proporcionando um retorno de 15x (há um ano, a NVIDIA prometia um ROI de 700%). Os aceleradores da geração Blackwell também apresentam o menor custo total de propriedade. Por exemplo, as otimizações de software do NVIDIA B200 permitiram um custo de apenas dois centavos por milhão de tokens no OpenAI gpt-oss-120b, alcançando uma redução de cinco vezes no custo por token em apenas dois meses.

O NVIDIA B200 também liderou em taxa de transferência e interatividade, entregando 60.000 tokens por segundo por acelerador e 1.000 tokens por segundo por usuário no gpt-oss com a mais recente pilha NVIDIA TensorRT-LLM. A NVIDIA informou que está continuamente aprimorando o desempenho por meio da otimização da pilha de hardware e software.O desempenho inicial do gpt-oss-120b em um sistema NVIDIA DGX Blackwell B200 executando a biblioteca NVIDIA TensorRT LLM já era líder de mercado, mas as equipes da NVIDIA e a comunidade de desenvolvedores otimizaram significativamente o TensorRT LLM para acelerar a execução de aplicativos de código aberto.grandes modelos de linguagem (LLM).

Fonte da imagem: NVIDIA

A empresa observou que o lançamento do TensorRT LLM v1.0 representou um avanço significativo no aumento da taxa de transferência de inferência do LLM, graças à paralelização e otimização das operações de E/S. O modelo gpt-oss-120b-Eagle3-v2, lançado recentemente, também utiliza decodificação especulativa, um método inteligente que permite a previsão de múltiplos tokens simultaneamente. Isso reduz a latência e fornece resultados ainda mais rápidos — a taxa de transferência triplicou para 100 tokens por segundo por usuário (TPS/usuário), enquanto o desempenho geral por acelerador aumentou de 6.000 tokens para 30.000.

Para modelos de IA densos como o Llama 3.3 70b, que exigem recursos computacionais significativos devido ao grande número de parâmetros e ao uso simultâneo de todos eles durante o processo de inferência, o NVIDIA Blackwell B200 atingiu um novo marco de desempenho no benchmark InferenceMAX v1, observou a NVIDIA. O superacelerador demonstrou mais de 10.000 tokens por segundo (TPS) por GPU a 50 TPS por usuário, representando quatro vezes a taxa de transferência por GPU em comparação com o NVIDIA H200.

A NVIDIA enfatizou que métricas como tokens por watt, custo por milhão de tokens e TPS por usuário são tão importantes quanto a taxa de transferência. De fato, para fábricas de IA com restrição de energia, os aceleradores baseados em Blackwell oferecem desempenho até 10 vezes melhor por megawatt do que a geração anterior, permitindo maior receita com tokens.

A empresa observou que o custo por token é fundamental para avaliar a eficácia de um modelo de IA e impacta diretamente os custos operacionais. A NVIDIA afirma que a arquitetura NVIDIA Blackwell reduziu o custo por milhão de tokens em 15 vezes em comparação com a geração anterior.

O InferenceMAX utiliza o método de avaliação de desempenho da fronteira de Pareto, que determina a melhor combinação (compensação) de vários fatores para avaliar o desempenho do acelerador. Isso demonstra como a Blackwell supera seus concorrentes no equilíbrio entre custo, eficiência energética, rendimento e capacidade de resposta.Os sistemas otimizados para apenas uma métrica podem demonstrar desempenho máximo no vácuo, masEssa “economia” não é escalável em ambientes de produção.

A empresa observou que a IA está migrando de projetos-piloto experimentais para fábricas de IA — infraestrutura que produz soluções inteligentes, transformando dados em tokens e decisões em tempo real. A estrutura NVIDIA Think SMART ajuda as empresas a navegar nessa transição, demonstrando como uma plataforma de inferência completa oferece ROI mensurável.

Ao prometer um ROI de 15x e ganhos contínuos de desempenho por meio de software, a NVIDIA não apenas lidera a atual corrida tecnológica de IA, mas também define as regras para a próxima fase, onde a economia determinará os vencedores do mercado, de acordo com o The Tech Buzz. Para empresas que dependem de plataformas concorrentes em suas estratégias de implantação de IA, os resultados desses benchmarks devem levá-las a reconsiderar suas escolhas de infraestrutura de IA.

admin

Próximo Taiwan diz que não depende de metais de terras raras chineses. »

Anterior « Os EUA e a China seguiram caminhos semelhantes para a soberania tecnológica, mas os Estados Unidos ainda estão atrasados.

Deixar comentário

Publicado por

admin

9 meses atrás

Postagens recentes

Jogos

Os desenvolvedores de Subnautica 2 finalmente receberão os bônus em dinheiro que merecem da Krafton, e o antigo novo CEO está deixando o estúdio novamente.

O sucesso do simulador de sobrevivência Subnautica 2, da Unknown Worlds Entertainment (UW), empresa americana…

40 minutos atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

Os jogadores que usam Claude receberam o retorno de Fable 5 com uma onda de críticas devido às novas restrições.

Após um hiato de quase três semanas devido a restrições do governo dos EUA, os…

1 hora atrás

Comentários sobre eventos recentes

Funcionários da Supermicro presos em Taiwan por contrabando de chips da Nvidia para a China.

Dois funcionários da Supermicro foram detidos em Taiwan no âmbito de uma investigação sobre o…

1 hora atrás

Coisas interessantes do mundo da alta tecnologia

Os iPhones foram responsabilizados pela queda nas taxas de natalidade, alegando-se que eles “desempenharam um papel significativo” na redução das gravidezes não planejadas nos EUA.

O Escritório Nacional de Pesquisa Econômica dos EUA conduziu uma análise estatística que encontrou uma…

1 hora atrás

Programas

A Samsung encerrará seu aplicativo de mensagens em favor de um similar ao do Google ainda este mês.

Conforme anunciado no início deste ano, o Samsung Messages, o aplicativo de mensagens, deixará de…

1 hora atrás

Monitores, projetores, sintonizadores de TV, televisões

A Acer apresentou o monitor gamer Nitro XV273U F5 de 27 polegadas com overclock de até 1000 Hz por US$ 700.

A Acer apresentou o monitor gamer Nitro XV273U F5 de 27 polegadas, que suporta dois…

1 hora atrás

Invista US$ 5 milhões e receba US$ 75 milhões: a NVIDIA ostenta novos recordes no abrangente benchmark InferenceMAX v1.

Conteúdo relacionado

Postagens recentes

Os desenvolvedores de Subnautica 2 finalmente receberão os bônus em dinheiro que merecem da Krafton, e o antigo novo CEO está deixando o estúdio novamente.

Os jogadores que usam Claude receberam o retorno de Fable 5 com uma onda de críticas devido às novas restrições.

Funcionários da Supermicro presos em Taiwan por contrabando de chips da Nvidia para a China.

Os iPhones foram responsabilizados pela queda nas taxas de natalidade, alegando-se que eles “desempenharam um papel significativo” na redução das gravidezes não planejadas nos EUA.

A Samsung encerrará seu aplicativo de mensagens em favor de um similar ao do Google ainda este mês.

A Acer apresentou o monitor gamer Nitro XV273U F5 de 27 polegadas com overclock de até 1000 Hz por US$ 700.