Categorias: Mercado de tecnologia e TI. notíciaServidores, clusters, supercomputadores, computadores industriais e multiprocessadores

O supercomputador de IA mais poderoso de Elon Musk xAI Colossus para 100 mil Nvidia H100 foi mostrado por dentro

O novo projeto caro de Elon Musk, o supercomputador xAI Colossus para sistemas de inteligência artificial, abriu suas portas ao público pela primeira vez. Jornalistas do recurso ServeTheHome foram autorizados a entrar nas instalações. Eles falaram detalhadamente sobre o cluster nos servidores da Supermicro, cuja montagem durou 122 dias – está funcionando há quase dois meses.

Fonte da imagem: servethehome.com

Servidores com GPUs são construídos na plataforma Nvidia HGX H100. Cada um deles inclui oito aceleradores Nvidia H100 e um sistema universal de refrigeração líquida Supermicro 4U com componentes hot-swap para cada GPU individualmente. Os servidores são instalados em racks de oito, resultando em 64 aceleradores por rack. Na parte inferior de cada rack há outra unidade Supermicro 4U com sistema de bombeamento redundante e sistema de monitoramento de rack.

Os racks são agrupados em grupos de oito, totalizando 512 GPUs por array. Cada servidor possui quatro fontes de alimentação redundantes; na parte traseira dos racks você pode ver fontes de alimentação trifásicas e switches Ethernet; também existem coletores do tamanho de rack que suportam refrigeração líquida. O cluster Colossus contém mais de 1.500 racks ou cerca de 200 arrays. Os aceleradores nesses arrays foram instalados em apenas três semanas, disse o CEO da Nvidia, Jensen Huang, anteriormente.

Devido aos altos requisitos de rendimento do superaglomerado de IA, que treina modelos continuamente, os engenheiros de xAI tiveram que fazer esforços em termos de rede. Cada placa gráfica está equipada com um controlador de rede dedicado de 400 GbE com um adaptador de rede adicional de 400 GbE por servidor. Ou seja, cada servidor Nvidia HGX H100 possui Ethernet de 3,6 Tbps – sim, todo o cluster roda em Ethernet, não em InfiniBand ou outras interfaces exóticas padrão em supercomputadores.

O supercomputador requer não apenas GPUs, mas também armazenamento e CPUs para treinar modelos de IA, incluindo Grok 3, mas xAI divulgou informações apenas parcialmente sobre eles. Os vídeos censurados mostram servidores alimentados por chips x86 em gabinetes da Supermicro – eles também são equipados com refrigeração líquida e são projetados para atuar como armazenamento de dados ou cargas de trabalho centradas na CPU.

Baterias Tesla Megapack também estão instaladas no local. Quando o cluster está em operação, são possíveis mudanças bruscas no consumo de energia, por isso essas baterias, com capacidade de até 3,9 MWh cada, tiveram que ser instaladas entre a rede elétrica e o supercomputador como buffer de energia.

avalanche

Próximo Um modder transformou o clássico jogo Harry Potter e a Pedra Filosofal, adicionando rastreamento de caminho e suporte DLSS 3.5. »

Anterior « 24 TB DDR5 por servidor: placa ASRock Rack TURIN2D48G-2L+ recebeu 48 slots para módulos de memória

Deixar comentário

Publicado por

avalanche

2 anos atrás

Postagens recentes

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

A Anthropic está em negociações com a Samsung para criar seu próprio chip de IA.

Fontes informadas relataram conversas entre a Anthropic, uma desenvolvedora americana de modelos de linguagem de…

31 minutos atrás

Carros, motos, veículos

As vendas de veículos elétricos da Tesla aumentaram repentinamente no segundo trimestre.

A Tesla entregou mais de 480.000 veículos elétricos no segundo trimestre deste ano, um aumento…

1 hora atrás

Vírus, cavalos de Troia, vulnerabilidades de software, problemas de segurança

O navegador Opera recebeu proteção avançada contra comandos maliciosos inseridos através da área de transferência.

Os desenvolvedores do navegador Opera anunciaram um novo recurso de segurança chamado Paste Protect, projetado…

1 hora atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

“Se você não conseguir, nós ensinaremos; se você não quiser, nós o obrigaremos”: a Microsoft mobiliza 6.000 funcionários para ajudar os clientes a implementar IA.

As gigantes da tecnologia estão investindo tanto em inteligência artificial que continuam a alcançar seus…

1 hora atrás

Vírus, cavalos de Troia, vulnerabilidades de software, problemas de segurança

O governo dos EUA foi novamente alvo de um ataque cibernético: hackers infiltraram-se em uma plataforma federal de compartilhamento de informações.

O Departamento de Segurança Interna dos EUA está investigando uma violação da Rede de Informações…

1 hora atrás

Notícias da rede

Uma fonte confiável negou o fechamento da Obsidian Entertainment e o trabalho do estúdio em um novo Fallout.

A notícia da Game Business sobre o destino da Obsidian Entertainment alarmou os fãs do…

1 hora atrás

O supercomputador de IA mais poderoso de Elon Musk xAI Colossus para 100 mil Nvidia H100 foi mostrado por dentro

Conteúdo relacionado

Postagens recentes

A Anthropic está em negociações com a Samsung para criar seu próprio chip de IA.

As vendas de veículos elétricos da Tesla aumentaram repentinamente no segundo trimestre.

O navegador Opera recebeu proteção avançada contra comandos maliciosos inseridos através da área de transferência.

“Se você não conseguir, nós ensinaremos; se você não quiser, nós o obrigaremos”: a Microsoft mobiliza 6.000 funcionários para ajudar os clientes a implementar IA.

O governo dos EUA foi novamente alvo de um ataque cibernético: hackers infiltraram-se em uma plataforma federal de compartilhamento de informações.

Uma fonte confiável negou o fechamento da Obsidian Entertainment e o trabalho do estúdio em um novo Fallout.