A Nvidia afirmou que o Blackwell reduziu o custo da inferência de redes neurais em até 10 vezes — e isso não se deve apenas ao hardware.

Com a implementação de aceleradores de IA baseados na arquitetura Nvidia Blackwell, o custo de inferência — ou seja, a execução de sistemas de IA treinados — foi reduzido de 4 a 10 vezes. A própria Nvidia divulgou esses números. No entanto, tais resultados não seriam possíveis apenas com hardware.

Fonte da imagem: nvidia.com

Reduções significativas de custos foram alcançadas com a implementação de aceleradores baseados na arquitetura Nvidia Blackwell e em modelos de código aberto na infraestrutura dos provedores de nuvem Baseten, DeepInfra, Fireworks AI e Together AI para tarefas relacionadas à saúde, jogos, IA para agentes e atendimento ao cliente. A otimização das pilhas de software também foi um fator importante. A migração de hardware para Nvidia Blackwell ajudou a reduzir os custos de inferência pela metade em comparação com os aceleradores da geração anterior, e a migração de sistemas para formatos de menor precisão, como NVFP4, reduziu ainda mais os custos.

A Sully.ai alcançou uma redução de 90%, ou dez vezes, nos custos de inferência de IA na área da saúde; os tempos de resposta melhoraram em 65% com a mudança de modelos de IA proprietários para modelos de código aberto na infraestrutura da Baseten. A automatização de tarefas de codificação e registro médico economizou 30 milhões de minutos de trabalho para os especialistas. A Latitude reduziu o custo da inferência de IA em quatro vezes em sua plataforma AI Dungeon. Para alcançar esse objetivo, a empresa lançou modelos com uma configuração de Mistura de Especialistas (MoE) na DeepInfra, reduzindo o custo de 1 milhão de tokens de US$ 0,20 para US$ 0,10. A mudança do sistema para o formato de dados de baixa precisão NVFP4 ajudou a reduzir o custo para US$ 0,05.

A Sentient Foundation aumentou a eficiência de custos de sua plataforma de chat para agentes em 25 a 50% usando uma pilha de processamento de dados Fireworks AI otimizada para Blackwell. A complexa plataforma de gerenciamento de fluxo de trabalho processou 5,6 milhões de solicitações durante a semana de seu lançamento viral sem impactar a latência. A Decagon reduziu o custo por solicitação para suporte ao cliente por voz com IA em seis vezes, executando uma pilha multimodelos na infraestrutura Together AI em aceleradores Blackwell. Os tempos de resposta permaneceram abaixo de 400 ms, mesmo processando milhares de tokens por solicitação, o que é crucial para interações de voz onde os clientes podem interromper uma conversa a qualquer momento.

As características da carga de trabalho são importantes. Os aceleradores Blackwell AI se destacam com modelos de IA de raciocínio porque geram um número maior de tokens para obter respostas de maior qualidade. As plataformas lidam com eficiência com essas sequências extensas por meio de processamento desagregado — processando separadamente o pré-população do contexto e a geração de tokens. Ao avaliar os custos, esses aspectos devem ser levados em consideração: com altos volumes de geração de tokens, é possível alcançar um aumento de dez vezes na eficiência; a redução na geração de tokens em modelos de alta densidade leva a um aumento de apenas quatro vezes no desempenho. Os exemplos acima focam nos aceleradores Nvidia Blackwell, mas existem maneiras alternativas de reduzir os custos de inferência. Por exemplo, migrar sistemas para aceleradores AMD Instinct MI300, TPUs do Google e hardware especializado Groq e Cerebras. Os provedores de nuvem também estão implementando suas próprias ferramentas de otimização. Portanto,A questão não é se a arquitetura Blackwell é a única opção, mas sim se uma determinada combinação de hardware, software e modelos de IA atende aos requisitos de uma carga de trabalho específica.

admin

Compartilhar
Publicado por
admin

Postagens recentes

Darwin’s Paradox! — um jogo de plataforma com alma e tentáculos. Análise

Processador Intel ou AMD quad-core rodando a 2,5 GHz, 8 GB de RAM, placa de…

3 horas atrás

“Parece muito melhor do que antes”: Três minutos de “jogabilidade pura” de Heroes of Might & Magic: Olden Era deixam os fãs animados antes do Acesso Antecipado.

Antes do lançamento iminente do Acesso Antecipado, os desenvolvedores do estúdio cipriota com raízes russas,…

4 horas atrás

O teaser do novo companheiro na expansão Untold Museon decepcionou os fãs de Warhammer 40.000: Rogue Trader.

A Owlcat Games, um estúdio cipriota com raízes russas, lançou um novo teaser para The…

6 horas atrás

O maior parque eólico dos EUA foi inaugurado discretamente, com a operadora temendo a reação de Trump.

O portal americano Grid Status inadvertidamente divulgou informações sobre o início das operações do maior…

7 horas atrás

A Anthropic lançou o Claude Design, uma IA de design para quem não entende nada de design.

A Anthropic anunciou o lançamento do Claude Design, uma nova ferramenta experimental de design visual…

7 horas atrás

Startups europeias prometem superar os chips de IA da Nvidia em 100 vezes, mas lhes faltam fundos e fábricas.

Startups europeias que desenvolvem alternativas às GPUs da Nvidia buscam escalar seus negócios em meio…

7 horas atrás