Categorias: Servidores, clusters, supercomputadores, computadores industriais e multiprocessadores

A Nvidia afirmou que o Blackwell reduziu o custo da inferência de redes neurais em até 10 vezes — e isso não se deve apenas ao hardware.

Com a implementação de aceleradores de IA baseados na arquitetura Nvidia Blackwell, o custo de inferência — ou seja, a execução de sistemas de IA treinados — foi reduzido de 4 a 10 vezes. A própria Nvidia divulgou esses números. No entanto, tais resultados não seriam possíveis apenas com hardware.

Fonte da imagem: nvidia.com

Reduções significativas de custos foram alcançadas com a implementação de aceleradores baseados na arquitetura Nvidia Blackwell e em modelos de código aberto na infraestrutura dos provedores de nuvem Baseten, DeepInfra, Fireworks AI e Together AI para tarefas relacionadas à saúde, jogos, IA para agentes e atendimento ao cliente. A otimização das pilhas de software também foi um fator importante. A migração de hardware para Nvidia Blackwell ajudou a reduzir os custos de inferência pela metade em comparação com os aceleradores da geração anterior, e a migração de sistemas para formatos de menor precisão, como NVFP4, reduziu ainda mais os custos.

A Sully.ai alcançou uma redução de 90%, ou dez vezes, nos custos de inferência de IA na área da saúde; os tempos de resposta melhoraram em 65% com a mudança de modelos de IA proprietários para modelos de código aberto na infraestrutura da Baseten. A automatização de tarefas de codificação e registro médico economizou 30 milhões de minutos de trabalho para os especialistas. A Latitude reduziu o custo da inferência de IA em quatro vezes em sua plataforma AI Dungeon. Para alcançar esse objetivo, a empresa lançou modelos com uma configuração de Mistura de Especialistas (MoE) na DeepInfra, reduzindo o custo de 1 milhão de tokens de US$ 0,20 para US$ 0,10. A mudança do sistema para o formato de dados de baixa precisão NVFP4 ajudou a reduzir o custo para US$ 0,05.

A Sentient Foundation aumentou a eficiência de custos de sua plataforma de chat para agentes em 25 a 50% usando uma pilha de processamento de dados Fireworks AI otimizada para Blackwell. A complexa plataforma de gerenciamento de fluxo de trabalho processou 5,6 milhões de solicitações durante a semana de seu lançamento viral sem impactar a latência. A Decagon reduziu o custo por solicitação para suporte ao cliente por voz com IA em seis vezes, executando uma pilha multimodelos na infraestrutura Together AI em aceleradores Blackwell. Os tempos de resposta permaneceram abaixo de 400 ms, mesmo processando milhares de tokens por solicitação, o que é crucial para interações de voz onde os clientes podem interromper uma conversa a qualquer momento.

As características da carga de trabalho são importantes. Os aceleradores Blackwell AI se destacam com modelos de IA de raciocínio porque geram um número maior de tokens para obter respostas de maior qualidade. As plataformas lidam com eficiência com essas sequências extensas por meio de processamento desagregado — processando separadamente o pré-população do contexto e a geração de tokens. Ao avaliar os custos, esses aspectos devem ser levados em consideração: com altos volumes de geração de tokens, é possível alcançar um aumento de dez vezes na eficiência; a redução na geração de tokens em modelos de alta densidade leva a um aumento de apenas quatro vezes no desempenho. Os exemplos acima focam nos aceleradores Nvidia Blackwell, mas existem maneiras alternativas de reduzir os custos de inferência. Por exemplo, migrar sistemas para aceleradores AMD Instinct MI300, TPUs do Google e hardware especializado Groq e Cerebras. Os provedores de nuvem também estão implementando suas próprias ferramentas de otimização. Portanto,A questão não é se a arquitetura Blackwell é a única opção, mas sim se uma determinada combinação de hardware, software e modelos de IA atende aos requisitos de uma carga de trabalho específica.

admin

Próximo O jogo de tiro cult Unreal Tournament 2004 retornou do esquecimento digital e está oficialmente disponível gratuitamente. »

Anterior « Um alemão viajou 5.000 km até a África para recuperar um iPhone roubado.

Deixar comentário

Publicado por

admin

5 meses atrás

Postagens recentes

Jogos

“Enquanto eu assistia isso, minha placa de vídeo começou a chorar”: o primeiro gameplay de Total War: Warhammer 40.000 fez os jogadores duvidarem de seus PCs

\nO estúdio britânico Creative Assembly (de propriedade da Sega) realizou a primeira demonstração de jogabilidade…

1 hora atrás

Casos, computadores desktop

A Valve admitiu que o indicador de superaquecimento da Steam Machine está disparando muito cedo – uma atualização do BIOS resolverá o problema

\nA Valve informou que o sistema de proteção contra superaquecimento do mini-PC Steam Machine não…

1 hora atrás

Notícias da rede

A UE impôs sanções contra VK e o desenvolvedor do mensageiro Max

\nO Conselho da União Europeia ampliou a lista de sanções para incluir a empresa VK…

2 horas atrás

Placas mãe

A Gigabyte apresentou a placa compacta B850M Aorus Stealth com conectores no verso

\nA Gigabyte lançou a placa-mãe compacta B850M Aorus Stealth no formato Micro-ATX. A principal característica…

2 horas atrás

Casos, computadores desktop

Máximo de duas horas por dia: o Ministério da Educação da Federação Russa anunciou por quanto tempo as crianças podem usar os gadgets

\nO Ministério da Educação da Federação Russa estabeleceu padrões para o uso de smartphones, computadores…

4 horas atrás

Jogos

Sony enfrenta investigação antitruste por se recusar a lançar jogos em disco

\nA recente decisão da Sony de parar de lançar jogos em discos ópticos a partir…

4 horas atrás