A Nvidia afirmou que o Blackwell reduziu o custo da inferência de redes neurais em até 10 vezes — e isso não se deve apenas ao hardware.

Com a implementação de aceleradores de IA baseados na arquitetura Nvidia Blackwell, o custo de inferência — ou seja, a execução de sistemas de IA treinados — foi reduzido de 4 a 10 vezes. A própria Nvidia divulgou esses números. No entanto, tais resultados não seriam possíveis apenas com hardware.

Fonte da imagem: nvidia.com

Reduções significativas de custos foram alcançadas com a implementação de aceleradores baseados na arquitetura Nvidia Blackwell e em modelos de código aberto na infraestrutura dos provedores de nuvem Baseten, DeepInfra, Fireworks AI e Together AI para tarefas relacionadas à saúde, jogos, IA para agentes e atendimento ao cliente. A otimização das pilhas de software também foi um fator importante. A migração de hardware para Nvidia Blackwell ajudou a reduzir os custos de inferência pela metade em comparação com os aceleradores da geração anterior, e a migração de sistemas para formatos de menor precisão, como NVFP4, reduziu ainda mais os custos.

A Sully.ai alcançou uma redução de 90%, ou dez vezes, nos custos de inferência de IA na área da saúde; os tempos de resposta melhoraram em 65% com a mudança de modelos de IA proprietários para modelos de código aberto na infraestrutura da Baseten. A automatização de tarefas de codificação e registro médico economizou 30 milhões de minutos de trabalho para os especialistas. A Latitude reduziu o custo da inferência de IA em quatro vezes em sua plataforma AI Dungeon. Para alcançar esse objetivo, a empresa lançou modelos com uma configuração de Mistura de Especialistas (MoE) na DeepInfra, reduzindo o custo de 1 milhão de tokens de US$ 0,20 para US$ 0,10. A mudança do sistema para o formato de dados de baixa precisão NVFP4 ajudou a reduzir o custo para US$ 0,05.

A Sentient Foundation aumentou a eficiência de custos de sua plataforma de chat para agentes em 25 a 50% usando uma pilha de processamento de dados Fireworks AI otimizada para Blackwell. A complexa plataforma de gerenciamento de fluxo de trabalho processou 5,6 milhões de solicitações durante a semana de seu lançamento viral sem impactar a latência. A Decagon reduziu o custo por solicitação para suporte ao cliente por voz com IA em seis vezes, executando uma pilha multimodelos na infraestrutura Together AI em aceleradores Blackwell. Os tempos de resposta permaneceram abaixo de 400 ms, mesmo processando milhares de tokens por solicitação, o que é crucial para interações de voz onde os clientes podem interromper uma conversa a qualquer momento.

As características da carga de trabalho são importantes. Os aceleradores Blackwell AI se destacam com modelos de IA de raciocínio porque geram um número maior de tokens para obter respostas de maior qualidade. As plataformas lidam com eficiência com essas sequências extensas por meio de processamento desagregado — processando separadamente o pré-população do contexto e a geração de tokens. Ao avaliar os custos, esses aspectos devem ser levados em consideração: com altos volumes de geração de tokens, é possível alcançar um aumento de dez vezes na eficiência; a redução na geração de tokens em modelos de alta densidade leva a um aumento de apenas quatro vezes no desempenho. Os exemplos acima focam nos aceleradores Nvidia Blackwell, mas existem maneiras alternativas de reduzir os custos de inferência. Por exemplo, migrar sistemas para aceleradores AMD Instinct MI300, TPUs do Google e hardware especializado Groq e Cerebras. Os provedores de nuvem também estão implementando suas próprias ferramentas de otimização. Portanto,A questão não é se a arquitetura Blackwell é a única opção, mas sim se uma determinada combinação de hardware, software e modelos de IA atende aos requisitos de uma carga de trabalho específica.

admin

Compartilhar
Publicado por
admin

Postagens recentes

A BYD apresentou o carro elétrico Denza Z9 GT com uma autonomia recorde de 1.036 km.

Uma atualização recente equipou o cupê elétrico Denza Z9 GT com a mais recente bateria…

1 hora atrás

As autoridades americanas irão proibir a compra de determinados produtos semicondutores chineses para fins governamentais.

As tentativas periódicas de obter concessões para as exportações de semicondutores dos EUA para a…

2 horas atrás

O CEO do Google poderá faturar US$ 692 milhões nos próximos três anos se o serviço de táxi autônomo da Waymo decolar.

Tradicionalmente, os executivos de empresas de capital aberto recebem remuneração não apenas em dinheiro, mas…

2 horas atrás

A Anthropic lançou uma plataforma para vender aplicativos construídos com base em seus modelos, seguindo o modelo da Amazon.

A Anthropic lançou o Anthropic Marketplace, uma plataforma que permitirá que clientes corporativos comprem aplicativos…

3 horas atrás

A Samsung planeja oferecer uma ferramenta de codificação Vibe para usuários de smartphones Galaxy.

Na era do rápido desenvolvimento da inteligência artificial generativa, o desenvolvimento de software exige apenas…

4 horas atrás