15 mil aceleradores por data center: Alibaba Cloud falou sobre uma fábrica de rede usada para treinamento de IA

Alibaba Cloud divulgou uma série de informações técnicas sobre a infraestrutura de rede e o design de seus data centers que processam cargas de trabalho de IA, em particular, atendendo LLM. Um dos principais engenheiros da empresa, Ennan Zhai, publicou um relatório “Alibaba HPN: A Data Center Network for Large Language Model Training”, que será apresentado na conferência SIGCOMM em agosto deste ano.

Alibaba Cloud escolheu Ethernet como base para sua estrutura de rede, em vez de, por exemplo, InfiniBand. A nova plataforma tem sido usada em treinamento LLM em larga escala há oito meses. A escolha se deve à abertura e versatilidade da pilha de tecnologia Ethernet, que permite não ficar vinculado a um fornecedor específico. Além disso, há menos probabilidade de sofrer novas sanções dos EUA.

Observa-se que o tráfego de nuvem tradicional consiste em muitos fluxos relativamente lentos (por exemplo, menos de 10 Gbps), enquanto o tráfego de treinamento LLM inclui relativamente poucos fluxos de natureza periódica com picos de velocidade de até valores muito altos (400 Gbps ). Esta situação exige novas abordagens para a gestão do tráfego, uma vez que os algoritmos de balanceamento tradicionais tendem a sobrecarregar determinadas partes da rede.

Fonte aqui e abaixo: Alibaba Cloud

A alternativa desenvolvida pela Alibaba Cloud é chamada High Performance Network (HPN). Leva em consideração muitos aspectos do trabalho específico com LLM. Por exemplo, durante o treinamento, é importante sincronizar a operação de muitos aceleradores, o que torna a infraestrutura de rede vulnerável até mesmo a pontos únicos de falha, especialmente no nível dos switches em rack. O Alibaba Cloud usa switches emparelhados para resolver esse problema, mas não na configuração empilhada recomendada pelos fabricantes.

Padrões de tráfego durante o treinamento LLM

Cada host contém oito aceleradores de IA e nove adaptadores de rede. Cada NIC possui um par de portas de 200 GbE. O nono adaptador é necessário para a rede de serviço. Os aceleradores se comunicam entre si dentro do host via NVLink a velocidades de 400 a 900 GB/s e, para se comunicar com o mundo externo, cada um deles precisa de seu próprio canal de 400 GbE com suporte RDMA. Neste caso, as portas dos adaptadores de rede são conectadas a diferentes switches de um “par de rack”, o que reduz seriamente a probabilidade de falha.

O relatório afirma que o Alibaba Cloud usa switches de chip único de última geração com taxa de transferência de 51,2 Tbps. Essas condições são atendidas por dispositivos baseados em Broadcom Tomahawk 5 (março de 2023) ou Cisco Silicon One G200 (junho do mesmo ano). A julgar pelo uso da expressão “início de 2023”, estamos falando especificamente da ASIC Broadcom.

A empresa explica sua preferência por switches de chip único de forma simples: embora existam soluções multichip com maior largura de banda, a longo prazo elas são menos confiáveis ​​e estáveis ​​em operação. As estatísticas mostram que problemas de hardware com esses switches ocorrem 3,77 vezes mais frequentemente do que com switches de chip único.

As soluções de chip único na classe de 51,2 Tbps geram muito calor, mas nenhum fornecedor de equipamentos foi capaz de oferecer soluções prontas para uso do Alibaba Cloud capazes de manter as temperaturas ASIC dentro de 105 °C. Acima deste limite, a proteção automática é acionada. Portanto, para resfriar os interruptores, o Alibaba Cloud criou sua própria solução baseada em câmaras de evaporação.

A estrutura da rede permite criar clusters, cada um contendo 15.360 aceleradores e localizados em um prédio de data center separado. Este posicionamento de alta densidade permite o uso de cabos ópticos com menos de 100 m de comprimento e transceptores multimodo mais baratos, que são aproximadamente 70% mais baratos que os transceptores monomodo. A capacidade desse data center é de cerca de 18 MW.

Mas o HPN também tem uma desvantagem: o uso de uma topologia com dois switches em rack e outros recursos arquitetônicos complicam o subsistema de cabeamento, de modo que os engenheiros inicialmente encontraram um aumento nos erros ao conectar interfaces de rede. Atualmente, os testes são usados ​​ativamente para verificar cada conexão para garantir que os IDs da porta e do switch correspondam aos diagramas operacionais.

Observa-se que os parâmetros dos switches Ethernet dobram a cada dois anos, portanto a empresa já está desenvolvendo a arquitetura de rede de próxima geração, projetada para a utilização de futuros ASICs de 102,4 Tbit/s. De acordo com o Alibaba Cloud, treinar LLMs com centenas de bilhões de parâmetros exigirá um enorme cluster distribuído com milhões de aceleradores. E requer a infra-estrutura de rede apropriada.

avalanche

Postagens recentes

Havia mais buracos negros no Universo primitivo do que o esperado

Novos trabalhos de astrónomos lançam luz sobre o mistério da formação massiva de buracos negros…

54 minutos atrás

O segundo vôo do foguete ULA Vulcan foi acompanhado por uma anomalia – não afetou a missão

O lançamento na sexta-feira do promissor foguete pesado Vulcan da United Launch Alliance com o…

2 horas atrás

O teste beta aberto do navegador Arc para Android já começou – ele pode navegar em sites para o usuário

A startup responsável pelo navegador Arc alternativo, The Browser Company, anunciou o lançamento de um…

4 horas atrás

Astrônomos chineses ajudam a avançar nas comunicações sem fio terahertz

O Observatório Chinês da Montanha Púrpura da Academia Chinesa de Ciências (CAS) conduziu o primeiro…

5 horas atrás