Os provedores de nuvem Microsoft, Meta✴ e OpenAI uniram-se aos desenvolvedores de hardware AMD, Broadcom e Nvidia para desenvolver uma tecnologia de interconexão escalável e independente de protocolo para clusters de IA. O novo Acordo de Múltiplas Fontes (MSA, na sigla em inglês) definirá uma infraestrutura universal de fibra óptica para interconexões escaláveis de curta distância para clusters de IA.

Fonte da imagem: unsplash.com
Na indústria de telecomunicações, o MSA (Acordo de Padrões de Manufatura) é um acordo para produtos interoperáveis entre diferentes fornecedores, servindo como um padrão de fato e criando um mercado competitivo para produtos interoperáveis. A especificação desenvolvida pelo MSA define os formatos dos dispositivos e suas interfaces de gerenciamento. Produtos compatíveis com o MSA incluem transceptores ópticos, cabos de fibra óptica e outros dispositivos de rede.
O MSA de Interconexão Óptica de Computação (OCI) visa definir uma especificação aberta de comunicações ópticas para interconexões escaláveis usadas em grandes sistemas e racks de IA, permitindo o uso de cabos ópticos em vez de cobre para conectar mais aceleradores em alta velocidade e com consumo de energia previsível. Na prática, isso significa que o consórcio desenvolverá uma Camada Física (PHY) comum e componentes unificados para suportar vários protocolos, como UALink para AMD e Broadcom, e NVLink para Nvidia.
A tecnologia OCI para enlaces ópticos de curto alcance usados em racks de IA e clusters escaláveis definirá uma camada física (PHY) comum baseada em sinalização NRZ e multiplexação por divisão de comprimento de onda (WDM), começando com quatro comprimentos de onda a 50 Gbps (200 Gbps em cada direção) e escalável para 800 Gbps por fibra. Com o tempo, espera-se que o número de comprimentos de onda aumente e a taxa de sinalização chegue a 3,2 Tbps por fibra. A tecnologia suportará módulos ópticos plugáveis, óptica integrada eÓptica integrada (Co-Packaged Optics, CPO) diretamente com chips de computação.

Uma camada física (PHY) comum permitirá que diferentes processadores e protocolos de interconexão operem na mesma infraestrutura de fibra óptica e switches de diferentes fornecedores, proporcionando flexibilidade para grandes empresas e, ao mesmo tempo, preservando as vantagens competitivas dos protocolos usados por desenvolvedores de aceleradores de IA e GPUs. O roteiro padronizado da OCI visa simplificar a integração de sistemas, reduzir os riscos de desenvolvimento e encurtar os ciclos de implantação para novas gerações de hardware de IA.
Embora o grupo OCI MSA seja liderado pela AMD, Broadcom e Microsoft, todas conhecidas defensoras de padrões abertos da indústria, ele claramente não é um órgão de padronização tradicional como os consórcios Ultra Ethernet ou UALink, o que deve impactar significativamente o desenvolvimento da tecnologia e acelerar sua adoção.

“A crescente necessidade de interconexões ópticas escaláveis para suportar sistemas de IA de grande escala ainda nesta década é evidente”, disse Brian Amick, vice-presidente sênior de tecnologia e engenharia da AMD. “A AMD é membro fundador e apoiadora ativa da OCI MSA, que estabelece uma especificação aberta para o setor, fomentando o desenvolvimento de um ecossistema robusto e com múltiplos fornecedores para interconexões ópticas escaláveis.”
“A Broadcom tem orgulho de usar sua plataforma CPO e parcerias com o setor para impulsionar a especificação OCI”, disse Near Margalit, vice-presidente e gerente geral da divisão de Sistemas Ópticos da Broadcom. “A OCI-MSA permite a integração perfeita com ASICs elétricos baseados em SerDes existentes, ao mesmo tempo que oferece um caminho claro para a integração direta de ASICs, garantindo que o ecossistema permaneça flexível e de alto desempenho.”
“A Nvidia é membro fundador da OCI MSA, que visa estabelecer um padrão óptico comum para infraestruturas globais de IA”, disse Gilad Shainer, vice-presidente sênior de redes da Nvidia. “Ao equipar o melhor poder computacional da categoria com óptica avançada, o OCI MSA pode fornecer a escalabilidade e o desempenho necessários para a próxima era da superinteligência.”