Meta apresentou sua versão do superacelerador NVIDIA GB200 NVL72

Meta✴ compartilhou suas inovações na área de infraestrutura de hardware e explicou exatamente como vê o futuro das plataformas abertas de IA. Em sua apresentação, Meta✴ falou sobre a nova plataforma de IA, novos designs de rack, incluindo opções com maior fonte de alimentação, além de inovações na área de infraestrutura de rede.

Fonte da imagem: Meta✴

A empresa utiliza atualmente a rede neural Llama 3.1 405B. A janela de contexto deste LLM atinge 128 mil tokens, mas o número total de tokens é superior a 15 trilhões. Para treinar esses modelos, são necessários recursos muito sérios e otimização profunda de toda a pilha de software e hardware. Um cluster de 16 mil aceleradores NVIDIA H100, um dos primeiros desta escala, participou do treinamento do modelo básico Llama 3.1 405B. Mas o Meta✴ já utiliza dois clusters, cada um com 24 mil aceleradores, para treinar modelos de IA.

Projetos desta escala dependem de mais do que apenas aceleradores. Problemas de fornecimento de energia, refrigeração e, mais importante, interconexão vêm à tona. Nos próximos anos, Meta✴ espera velocidades na região de 1 TB/s por acelerador. Tudo isso exigirá uma arquitetura nova e ainda mais densa, que, segundo Meta✴, deverá ser baseada em padrões de hardware abertos.

Um dos novos produtos foi a plataforma Catalina. Este é um rack Orv3, cujo coração são os processadores híbridos NVIDIA GB200. O rack pertence à classe HPR (High Power Rack) e foi projetado para 140 kW. A Microsoft e a Meta✴ estão atualmente trabalhando em um sistema de energia Mount Diablo modular e escalável. A Microsoft também possui sua própria versão do GB200 NVL72. Meta✴ também atualizou os servidores Grand Teton AI, introduzidos pela primeira vez em 2022. Esses ainda são sistemas monolíticos, mas agora suportam não apenas aceleradores NVIDIA, mas também AMD Instinct MI300X e futuro MI325X.

A interconexão das futuras plataformas será a rede DSF (Disgregated Scheduled Fabric). Ao migrar para padrões abertos, a empresa planeja evitar limitações associadas ao dimensionamento, à dependência de fornecedores de hardware e à densidade de energia. O DSF é baseado no padrão OCP-SAI e no Meta✴ FBOSS OS para switches. O hardware é baseado em uma interface Ethernet/RoCE padrão.

A Meta✴ já desenvolveu e fabricou novos switches da classe 51T baseados em silício Broadcom e Cisco, bem como adaptadores de rede FBNIC criados com o suporte da Marvell. O FBNIC pode ter até quatro portas 100GbE. A interface PCIe 5.0 é usada e pode funcionar como quatro fatias separadas. O novo produto está em conformidade com o padrão aberto OCP NIC 3.0 v1.2.0.

avalanche

Postagens recentes

“Muito feliz e ainda atônito”: Clair Obscur: As vendas de Expedition 33 ultrapassam 8 milhões de cópias em seu primeiro aniversário.

O aclamado jogo de RPG de fantasia por turnos Clair Obscur: Expedition 33, do estúdio…

21 minutos atrás

A Meta✴ implantará “dezenas de milhões” de núcleos AWS Graviton5 Arm.

A Meta✴, segundo o The Register, anunciou uma parceria ampliada com a AWS. Isso envolve…

53 minutos atrás

Os três maiores colecionadores do Steam acumularam mais de 40.000 jogos em suas contas.

No outono passado, noticiamos que o usuário chinês Sonix se tornou o primeiro usuário do…

53 minutos atrás

O Yandex começou a notificar os usuários quando golpistas ligam para seus entes queridos.

O recurso de identificação de chamadas do Yandex foi atualizado com uma nova funcionalidade: quando…

53 minutos atrás

A placa gráfica chinesa para jogos Lisuan LX 7G100 será lançada em junho e será compatível com mais de cem jogos.

A empresa chinesa Lisuan Technology confirmou seus planos de lançar a placa de vídeo LX…

53 minutos atrás

O Instagram começou a testar o Instants, um aplicativo para compartilhar fotos únicas.

O Instagram está testando um novo aplicativo chamado Instants, informou a rede social ao TechCrunch.…

2 horas atrás