Meta apresentou sua versão do superacelerador NVIDIA GB200 NVL72

Meta✴ compartilhou suas inovações na área de infraestrutura de hardware e explicou exatamente como vê o futuro das plataformas abertas de IA. Em sua apresentação, Meta✴ falou sobre a nova plataforma de IA, novos designs de rack, incluindo opções com maior fonte de alimentação, além de inovações na área de infraestrutura de rede.

Fonte da imagem: Meta✴

A empresa utiliza atualmente a rede neural Llama 3.1 405B. A janela de contexto deste LLM atinge 128 mil tokens, mas o número total de tokens é superior a 15 trilhões. Para treinar esses modelos, são necessários recursos muito sérios e otimização profunda de toda a pilha de software e hardware. Um cluster de 16 mil aceleradores NVIDIA H100, um dos primeiros desta escala, participou do treinamento do modelo básico Llama 3.1 405B. Mas o Meta✴ já utiliza dois clusters, cada um com 24 mil aceleradores, para treinar modelos de IA.

Projetos desta escala dependem de mais do que apenas aceleradores. Problemas de fornecimento de energia, refrigeração e, mais importante, interconexão vêm à tona. Nos próximos anos, Meta✴ espera velocidades na região de 1 TB/s por acelerador. Tudo isso exigirá uma arquitetura nova e ainda mais densa, que, segundo Meta✴, deverá ser baseada em padrões de hardware abertos.

Um dos novos produtos foi a plataforma Catalina. Este é um rack Orv3, cujo coração são os processadores híbridos NVIDIA GB200. O rack pertence à classe HPR (High Power Rack) e foi projetado para 140 kW. A Microsoft e a Meta✴ estão atualmente trabalhando em um sistema de energia Mount Diablo modular e escalável. A Microsoft também possui sua própria versão do GB200 NVL72. Meta✴ também atualizou os servidores Grand Teton AI, introduzidos pela primeira vez em 2022. Esses ainda são sistemas monolíticos, mas agora suportam não apenas aceleradores NVIDIA, mas também AMD Instinct MI300X e futuro MI325X.

A interconexão das futuras plataformas será a rede DSF (Disgregated Scheduled Fabric). Ao migrar para padrões abertos, a empresa planeja evitar limitações associadas ao dimensionamento, à dependência de fornecedores de hardware e à densidade de energia. O DSF é baseado no padrão OCP-SAI e no Meta✴ FBOSS OS para switches. O hardware é baseado em uma interface Ethernet/RoCE padrão.

A Meta✴ já desenvolveu e fabricou novos switches da classe 51T baseados em silício Broadcom e Cisco, bem como adaptadores de rede FBNIC criados com o suporte da Marvell. O FBNIC pode ter até quatro portas 100GbE. A interface PCIe 5.0 é usada e pode funcionar como quatro fatias separadas. O novo produto está em conformidade com o padrão aberto OCP NIC 3.0 v1.2.0.

avalanche

Postagens recentes

TSMC é suspeita pelas autoridades dos EUA de colaborar com a Huawei sancionada

De acordo com dados oficiais, a empresa taiwanesa TSMC parou de fornecer componentes de sua…

9 minutos atrás

Os cientistas estão mais perto de criar o 6G, alcançando velocidades de transferência de dados 9.000 vezes mais rápidas que o 5G

Cientistas da University College London (UCL) alcançaram velocidades de transferência de dados de 938 Gbit/s.…

3 horas atrás

Unity encerra polêmico modelo pay-per-engine e lança Unity 6

A Unity introduziu uma nova versão do motor de jogo Unity 6 na tentativa de…

3 horas atrás

Google muda liderança nas divisões de busca e publicidade

O CEO do Google, Sundar Pichai, anunciou mudanças na liderança da empresa. Prabhakar Raghavan, que…

4 horas atrás