A Nvidia afirmou que o Blackwell reduziu o custo da inferência de redes neurais em até 10 vezes — e isso não se deve apenas ao hardware.

Com a implementação de aceleradores de IA baseados na arquitetura Nvidia Blackwell, o custo de inferência — ou seja, a execução de sistemas de IA treinados — foi reduzido de 4 a 10 vezes. A própria Nvidia divulgou esses números. No entanto, tais resultados não seriam possíveis apenas com hardware.

Fonte da imagem: nvidia.com

Reduções significativas de custos foram alcançadas com a implementação de aceleradores baseados na arquitetura Nvidia Blackwell e em modelos de código aberto na infraestrutura dos provedores de nuvem Baseten, DeepInfra, Fireworks AI e Together AI para tarefas relacionadas à saúde, jogos, IA para agentes e atendimento ao cliente. A otimização das pilhas de software também foi um fator importante. A migração de hardware para Nvidia Blackwell ajudou a reduzir os custos de inferência pela metade em comparação com os aceleradores da geração anterior, e a migração de sistemas para formatos de menor precisão, como NVFP4, reduziu ainda mais os custos.

A Sully.ai alcançou uma redução de 90%, ou dez vezes, nos custos de inferência de IA na área da saúde; os tempos de resposta melhoraram em 65% com a mudança de modelos de IA proprietários para modelos de código aberto na infraestrutura da Baseten. A automatização de tarefas de codificação e registro médico economizou 30 milhões de minutos de trabalho para os especialistas. A Latitude reduziu o custo da inferência de IA em quatro vezes em sua plataforma AI Dungeon. Para alcançar esse objetivo, a empresa lançou modelos com uma configuração de Mistura de Especialistas (MoE) na DeepInfra, reduzindo o custo de 1 milhão de tokens de US$ 0,20 para US$ 0,10. A mudança do sistema para o formato de dados de baixa precisão NVFP4 ajudou a reduzir o custo para US$ 0,05.

A Sentient Foundation aumentou a eficiência de custos de sua plataforma de chat para agentes em 25 a 50% usando uma pilha de processamento de dados Fireworks AI otimizada para Blackwell. A complexa plataforma de gerenciamento de fluxo de trabalho processou 5,6 milhões de solicitações durante a semana de seu lançamento viral sem impactar a latência. A Decagon reduziu o custo por solicitação para suporte ao cliente por voz com IA em seis vezes, executando uma pilha multimodelos na infraestrutura Together AI em aceleradores Blackwell. Os tempos de resposta permaneceram abaixo de 400 ms, mesmo processando milhares de tokens por solicitação, o que é crucial para interações de voz onde os clientes podem interromper uma conversa a qualquer momento.

As características da carga de trabalho são importantes. Os aceleradores Blackwell AI se destacam com modelos de IA de raciocínio porque geram um número maior de tokens para obter respostas de maior qualidade. As plataformas lidam com eficiência com essas sequências extensas por meio de processamento desagregado — processando separadamente o pré-população do contexto e a geração de tokens. Ao avaliar os custos, esses aspectos devem ser levados em consideração: com altos volumes de geração de tokens, é possível alcançar um aumento de dez vezes na eficiência; a redução na geração de tokens em modelos de alta densidade leva a um aumento de apenas quatro vezes no desempenho. Os exemplos acima focam nos aceleradores Nvidia Blackwell, mas existem maneiras alternativas de reduzir os custos de inferência. Por exemplo, migrar sistemas para aceleradores AMD Instinct MI300, TPUs do Google e hardware especializado Groq e Cerebras. Os provedores de nuvem também estão implementando suas próprias ferramentas de otimização. Portanto,A questão não é se a arquitetura Blackwell é a única opção, mas sim se uma determinada combinação de hardware, software e modelos de IA atende aos requisitos de uma carga de trabalho específica.

admin

Compartilhar
Publicado por
admin

Postagens recentes

Um ciberataque à Tata Electronics, na Índia, provavelmente vazou segredos da Apple e da Tesla.

Ontem, a Tata Electronics reconheceu publicamente um "incidente de segurança cibernética" após o grupo de…

37 minutos atrás

THQ Nordic anuncia THQ Nordic Digital Showcase 2026 – Fãs pedem remake de Gothic 2 e Darksiders 4

A editora e desenvolvedora austríaca THQ Nordic (pertencente ao Embracer Group) anunciou o retorno do…

48 minutos atrás

A Nvidia irá resfriar servidores com líquido quente, o que reduzirá drasticamente o consumo de energia e água em data centers.

A Nvidia anunciou um novo sistema de resfriamento líquido para data centers. Segundo a empresa,…

1 hora atrás

Meta Glasses Revelado: Óculos inteligentes com inteligência artificial, sem a marca Ray-Ban, a partir de US$ 299

Uma nova linha de óculos inteligentes Meta✴Glasses com inteligência artificial foi apresentada. Segundo a empresa,…

2 horas atrás

Após anos de confusão, a CD Projekt mudará seu nome para CD Projekt Red.

Durante anos, os jogadores ficaram confusos sobre o nome correto da desenvolvedora de The Witcher…

2 horas atrás

A OpenAI integrará o modelo de voz Bidi 1 ao ChatGPT, que poderá falar e ouvir simultaneamente.

A OpenAI pretende transformar o ChatGPT em um superaplicativo, e outra grande atualização está atualmente…

3 horas atrás