Gaste um dólar e ganhe sete: aritmética de IA da NVIDIA

A NVIDIA afirmou que os investimentos na compra de seus aceleradores são muito lucrativos, relata o recurso HPCwire. De acordo com a NVIDIA, as empresas que constroem grandes centros de dados obterão grandes lucros dentro de quatro a cinco anos após a sua operação. Os clientes estão dispostos a pagar bilhões de dólares para acompanhar a corrida da IA.

«Cada dólar que um provedor de serviços de nuvem investe em aceleradores retornará cinco dólares em quatro anos”, disse Ian Buck, vice-presidente da divisão HPC da NVIDIA na BofA Securities 2024 Global Technology Conference. Ele observou que usar aceleradores para inferência traz ainda mais benefícios, permitindo obter sete dólares no mesmo período.

A inferência dos modelos de IA Llama, Mistral e Gemma está supostamente aumentando. Por conveniência, os pacotes da NVIDIA abrem modelos de IA em contêineres NIM otimizados e prontos para execução. A empresa observou que seus mais recentes aceleradores Blackwell são otimizados para inferência. Eles suportam notavelmente tipos de dados FP4/FP6, o que melhora a eficiência energética do hardware ao executar cargas de trabalho de IA de baixa intensidade.

Fonte da imagem: NVIDIA

Os provedores de serviços em nuvem estão planejando a construção de data centers com alguns anos de antecedência e querem ter uma ideia de como serão os aceleradores no futuro próximo. Buck observou que é importante que os provedores saibam como serão os data centers com servidores baseados em chips Blackwell e como eles serão diferentes dos data centers no Hopper. Os aceleradores Rubin substituirão em breve a Blackwell. Seu lançamento começará em 2026, então os hiperscaladores já podem se preparar para atualizar seus data centers.

Espera-se que os chips Blackwell, cujos primeiros lotes serão entregues até o final do ano, sejam escassos. “Com cada nova transição tecnológica surge… uma combinação de questões de oferta e procura”, disse Buck. Segundo ele, as operadoras de data centers estão abandonando gradativamente a infraestrutura baseada em CPU, abrindo espaço para mais aceleradores. Os aceleradores Hopper permanecem no data center por enquanto e ainda serão os principais cavalos de batalha da IA, mas soluções baseadas nas arquiteturas Ampere e Volta já estão sendo revendidas.

A Microsoft e o Google apostaram na IA e agora estão trabalhando em modelos de grandes linguagens mais capazes, com a Microsoft (e a OpenAI) dependendo fortemente dos aceleradores NVIDIA, enquanto o Google depende de suas próprias TPUs para uso em sua infraestrutura de IA. O maior modelo até agora tem cerca de 1,8 trilhão de parâmetros, mas Buck diz que isso é apenas o começo. No futuro, existirão modelos com trilhões de parâmetros, em torno dos quais serão construídos modelos menores e mais especializados. Assim, o modelo GPT mais recente (provavelmente GPT-4o) inclui 16 redes neurais separadas.

A NVIDIA já está adaptando seus aceleradores para a arquitetura Mixture of Experts (MoE, conjunto de especialistas), onde o processo de processamento de uma solicitação do usuário é dividido entre diversas redes neurais “especializadas” especializadas. O GB200 NVL72, segundo Buck, é ideal para MoE graças a vários aceleradores conectados por uma interconexão rápida, cada um dos quais pode processar parte da solicitação e compartilhar rapidamente a resposta com outros.

avalanche

Postagens recentes

Especialistas dizem que senhas simples e longas são mais seguras do que senhas complexas e mais curtas.

O uso de senhas complexas com uma combinação de diferentes tipos de caracteres e a…

48 minutos atrás

Atualização da Samsung trava smartphones Galaxy S10 e Note 10 em todo o mundo

Milhares de usuários do Samsung Galaxy experimentaram inúmeras reinicializações do telefone após atualizar o aplicativo…

53 minutos atrás

Discos rígidos de 60 TB estarão disponíveis em quatro anos graças à introdução do HAMR

De acordo com a American Engineering Association IEEE, até 2028, o volume de unidades de…

5 horas atrás

O Ministério do Desenvolvimento Digital publicou regras para registrar dez mil blogueiros no registro Roskomnadzor

O Ministério do Desenvolvimento Digital da Federação Russa e Roskomnadzor prepararam regras para verificar os…

7 horas atrás

Elecom anunciou cabos USB4 2.0 – velocidades de até 80 Gbps e até 240 W de potência

O USB Implementers Forum (USB-IF), uma organização sem fins lucrativos que apoia o desenvolvimento e…

7 horas atrás

Arctic confirmou a compatibilidade de seus sistemas de refrigeração com processadores Arrow Lake-S

A Arctic foi um dos primeiros fabricantes de sistemas de refrigeração a mencionar o soquete…

7 horas atrás