Meta apresentou sua versão do superacelerador NVIDIA GB200 NVL72

Meta✴ compartilhou suas inovações na área de infraestrutura de hardware e explicou exatamente como vê o futuro das plataformas abertas de IA. Em sua apresentação, Meta✴ falou sobre a nova plataforma de IA, novos designs de rack, incluindo opções com maior fonte de alimentação, além de inovações na área de infraestrutura de rede.

Fonte da imagem: Meta✴

A empresa utiliza atualmente a rede neural Llama 3.1 405B. A janela de contexto deste LLM atinge 128 mil tokens, mas o número total de tokens é superior a 15 trilhões. Para treinar esses modelos, são necessários recursos muito sérios e otimização profunda de toda a pilha de software e hardware. Um cluster de 16 mil aceleradores NVIDIA H100, um dos primeiros desta escala, participou do treinamento do modelo básico Llama 3.1 405B. Mas o Meta✴ já utiliza dois clusters, cada um com 24 mil aceleradores, para treinar modelos de IA.

Projetos desta escala dependem de mais do que apenas aceleradores. Problemas de fornecimento de energia, refrigeração e, mais importante, interconexão vêm à tona. Nos próximos anos, Meta✴ espera velocidades na região de 1 TB/s por acelerador. Tudo isso exigirá uma arquitetura nova e ainda mais densa, que, segundo Meta✴, deverá ser baseada em padrões de hardware abertos.

Um dos novos produtos foi a plataforma Catalina. Este é um rack Orv3, cujo coração são os processadores híbridos NVIDIA GB200. O rack pertence à classe HPR (High Power Rack) e foi projetado para 140 kW. A Microsoft e a Meta✴ estão atualmente trabalhando em um sistema de energia Mount Diablo modular e escalável. A Microsoft também possui sua própria versão do GB200 NVL72. Meta✴ também atualizou os servidores Grand Teton AI, introduzidos pela primeira vez em 2022. Esses ainda são sistemas monolíticos, mas agora suportam não apenas aceleradores NVIDIA, mas também AMD Instinct MI300X e futuro MI325X.

A interconexão das futuras plataformas será a rede DSF (Disgregated Scheduled Fabric). Ao migrar para padrões abertos, a empresa planeja evitar limitações associadas ao dimensionamento, à dependência de fornecedores de hardware e à densidade de energia. O DSF é baseado no padrão OCP-SAI e no Meta✴ FBOSS OS para switches. O hardware é baseado em uma interface Ethernet/RoCE padrão.

A Meta✴ já desenvolveu e fabricou novos switches da classe 51T baseados em silício Broadcom e Cisco, bem como adaptadores de rede FBNIC criados com o suporte da Marvell. O FBNIC pode ter até quatro portas 100GbE. A interface PCIe 5.0 é usada e pode funcionar como quatro fatias separadas. O novo produto está em conformidade com o padrão aberto OCP NIC 3.0 v1.2.0.

avalanche

Postagens recentes

“O RE3 que merecemos”: Um modder aceitou o desafio de adicionar todo o conteúdo cortado e muito mais ao remake de Resident Evil 3.

O remake de 2020 do jogo de terror Resident Evil 3 decepcionou os fãs com…

3 horas atrás

O site oficial da Highguard está fora do ar há mais de um dia, mas não porque o estúdio esteja fechando.

Menos de um mês se passou desde o lançamento de Highguard, um jogo de tiro…

4 horas atrás

O site oficial da Highguard está fora do ar há mais de um dia, mas não porque o estúdio esteja fechando.

Menos de um mês se passou desde o lançamento de Highguard, um jogo de tiro…

4 horas atrás

O Copilot está vasculhando os e-mails confidenciais dos usuários, burlando as medidas de segurança. A Microsoft chama isso de bug.

A Microsoft informou que um bug no Microsoft 365 Copilot tem feito com que seu…

4 horas atrás

Um buraco negro de massa intermediária, até então desconhecido, revelou-se ao despedaçar uma anã branca.

Em 2 de julho de 2025, o telescópio espacial de raios X Einstein Probe, da…

4 horas atrás