NVLink para quem se preocupa com o orçamento – AMD, Intel e outros gigantes de TI se uniram para criar o UALink e enfrentar a NVIDIA

No verão passado, AMD, Arista, Broadcom, Cisco, Eviden/Atos, HPE, Intel, Meta✴ e Microsoft formaram o Ultra Ethernet Consortium (UEC), projetado para competir com a tecnologia InfiniBand, que a NVIDIA essencialmente controla apenas após a compra da Mellanox, e padronizar Ethernet- soluções para plataformas modernas de IA e HPC. E agora AMD, Broadcom, Cisco, Google, HPE, Intel, Meta✴ e Microsoft formaram a aliança Ultra Accelerator Link (UALink), que deverá competir com o NVLink.

Ao longo de um ano, mais cinquenta empresas aderiram à UEC, exceto, é claro, a NVIDIA, que, no entanto, também não se esquece da Ethernet, embora receba periodicamente críticas da Broadcom. A única alternativa na construção de fábricas para clusters mais ou menos grandes continua sendo o Omni-Path Express, desenvolvido pela Cornelis Networks, que também aderiu à UEC, mas a participação dessa tecnologia em comparação com Ethernet e InfiniBand é pequena. Além disso, nenhuma dessas tecnologias pode oferecer o que o NVIDIA NVLink pode oferecer – a capacidade de conectar diretamente centenas de aceleradores (mais precisamente, sua memória) com uma conexão ultrarrápida e de baixa latência.

Fonte da imagem: UALink via ServeTheHome

O NVLink 4 atingiu velocidades de 900 GB/s por acelerador e pela primeira vez foi além do nó, permitindo que até 256 aceleradores fossem combinados em um domínio, que a NVIDIA ofereceu como parte do DGX SuperPod H100. O NVLink 5 dobra a taxa de transferência para 1,8 TB/s e, teoricamente, permitirá que até 576 aceleradores sejam combinados em um único domínio. Foi o NVLink que possibilitou a criação dos superaceleradores de alta densidade GH200 NVL32 e GB200 NVL72. E são estes que a NVIDIA considera ser a unidade mínima efetiva de clusters num futuro próximo, oferecendo aos grandes clientes a possibilidade de não trocarem por menos.

A família Gaudi da Intel usa Ethernet (1,2 TB/s por acelerador) para escalabilidade vertical e horizontal. A AMD depende do Infinity Fabric (896 GB/s por acelerador) baseado em PCIe e xGMI, que até recentemente não ia além do nó. Porém, no final de 2023, foi anunciado que em 2025 a AMD e a Broadcom lançariam um switch baseado em PCIe 7.0 (o padrão só está previsto para ser aprovado este ano), que suportará a tecnologia, que agora se chama AFL (Accelerated Fabric Link) – esta será a saída do Infinity Fabric fora do nó.

E são os desenvolvimentos conjuntos que a AMD e a Broadcom compartilharão no âmbito do UALink. A aliança promete apresentar a primeira versão da nova interconexão no terceiro trimestre de 2024, e a versão 1.1 no quarto trimestre. Porém, ainda não está definido diretamente se o transporte principal será PCIe ou Ethernet, e qual protocolo será utilizado para trabalhar com memória. Mas já foi prometido que o UALink 1.0 permitirá combinar até 1024 aceleradores em um domínio com a possibilidade de solicitações diretas de carregamento/armazenamento para sua memória. Para maior dimensionamento de clusters, ainda é proposto o uso de Ultra Ethernet.

Ao mesmo tempo, o UALink, a rigor, não promete a possibilidade de comunicação desimpedida entre aceleradores de diferentes fornecedores, mas permite simplificar a infraestrutura e barateá-la pela abertura e concorrência. Embora fosse bom ver o UALink como base de hardware para o padrão UXL, que pretende competir com o NVIDIA CUDA. Quanto ao CXL, este padrão, que também utiliza PCIe como transporte, provavelmente permanecerá “amarrado” à CPU e às comunicações intra-nó, embora suas capacidades sejam muito mais amplas.

avalanche

Postagens recentes

Fotos espiãs da caixa GeForce RTX 5080 realizadas pelo MSI Gaming Trio confirmaram as características do novo produto

Imagens da embalagem da placa gráfica MSI GeForce RTX 5080 vazaram online, confirmando o uso…

1 minuto atrás

Estudo: O uso de 5G em áreas rurais representa riscos potenciais à saúde

Investigadores do Instituto de Saúde Global de Barcelona (ISGlobal) avaliaram o nível de exposição à…

1 minuto atrás

Samsung tentará compensar falhas nos negócios criando robôs humanóides

Num contexto de abrandamento no desenvolvimento de áreas de negócio chave, como a produção de…

10 minutos atrás