Com a implementação de aceleradores de IA baseados na arquitetura Nvidia Blackwell, o custo de inferência — ou seja, a execução de sistemas de IA treinados — foi reduzido de 4 a 10 vezes. A própria Nvidia divulgou esses números. No entanto, tais resultados não seriam possíveis apenas com hardware.

Fonte da imagem: nvidia.com
Reduções significativas de custos foram alcançadas com a implementação de aceleradores baseados na arquitetura Nvidia Blackwell e em modelos de código aberto na infraestrutura dos provedores de nuvem Baseten, DeepInfra, Fireworks AI e Together AI para tarefas relacionadas à saúde, jogos, IA para agentes e atendimento ao cliente. A otimização das pilhas de software também foi um fator importante. A migração de hardware para Nvidia Blackwell ajudou a reduzir os custos de inferência pela metade em comparação com os aceleradores da geração anterior, e a migração de sistemas para formatos de menor precisão, como NVFP4, reduziu ainda mais os custos.
A Sully.ai alcançou uma redução de 90%, ou dez vezes, nos custos de inferência de IA na área da saúde; os tempos de resposta melhoraram em 65% com a mudança de modelos de IA proprietários para modelos de código aberto na infraestrutura da Baseten. A automatização de tarefas de codificação e registro médico economizou 30 milhões de minutos de trabalho para os especialistas. A Latitude reduziu o custo da inferência de IA em quatro vezes em sua plataforma AI Dungeon. Para alcançar esse objetivo, a empresa lançou modelos com uma configuração de Mistura de Especialistas (MoE) na DeepInfra, reduzindo o custo de 1 milhão de tokens de US$ 0,20 para US$ 0,10. A mudança do sistema para o formato de dados de baixa precisão NVFP4 ajudou a reduzir o custo para US$ 0,05.

A Sentient Foundation aumentou a eficiência de custos de sua plataforma de chat para agentes em 25 a 50% usando uma pilha de processamento de dados Fireworks AI otimizada para Blackwell. A complexa plataforma de gerenciamento de fluxo de trabalho processou 5,6 milhões de solicitações durante a semana de seu lançamento viral sem impactar a latência. A Decagon reduziu o custo por solicitação para suporte ao cliente por voz com IA em seis vezes, executando uma pilha multimodelos na infraestrutura Together AI em aceleradores Blackwell. Os tempos de resposta permaneceram abaixo de 400 ms, mesmo processando milhares de tokens por solicitação, o que é crucial para interações de voz onde os clientes podem interromper uma conversa a qualquer momento.
As características da carga de trabalho são importantes. Os aceleradores Blackwell AI se destacam com modelos de IA de raciocínio porque geram um número maior de tokens para obter respostas de maior qualidade. As plataformas lidam com eficiência com essas sequências extensas por meio de processamento desagregado — processando separadamente o pré-população do contexto e a geração de tokens. Ao avaliar os custos, esses aspectos devem ser levados em consideração: com altos volumes de geração de tokens, é possível alcançar um aumento de dez vezes na eficiência; a redução na geração de tokens em modelos de alta densidade leva a um aumento de apenas quatro vezes no desempenho. Os exemplos acima focam nos aceleradores Nvidia Blackwell, mas existem maneiras alternativas de reduzir os custos de inferência. Por exemplo, migrar sistemas para aceleradores AMD Instinct MI300, TPUs do Google e hardware especializado Groq e Cerebras. Os provedores de nuvem também estão implementando suas próprias ferramentas de otimização. Portanto,A questão não é se a arquitetura Blackwell é a única opção, mas sim se uma determinada combinação de hardware, software e modelos de IA atende aos requisitos de uma carga de trabalho específica.