Segundo o Blocks & Files, o consórcio internacional IOWN (Innovative Optical and Wireless Network Global Forum) propôs um conceito para uma plataforma de computação geodistribuída que implantaria data centers com conjuntos de aceleradores de GPU e sistemas de armazenamento all-flash em diversas áreas geográficas. Espera-se que essa solução melhore a relação custo-benefício do treinamento de modelos de IA em larga escala.

O consórcio IOWN, fundado em janeiro de 2020 pela NTT, Intel e Sony, está desenvolvendo infraestrutura de comunicação e computação de última geração baseada em fotônica. O consórcio atualmente inclui mais de 170 empresas e organizações, entre elas Microsoft, NVIDIA, Cisco, Nokia, Samsung, Fujitsu, KDDI, Orange, Red Hat e outras.

Os membros do IOWN apontam que a escassez de energia e os altos custos em áreas urbanas limitam a viabilidade da construção de data centers de IA. No entanto, os dados necessários para o treinamento de IA são normalmente acumulados e armazenados em grandes cidades, o que torna impraticável sua transferência para áreas rurais com eletricidade acessível. Como solução, a IOWN propõe localizar centros de dados equipados com GPUs em áreas remotas, conectando-os a instalações de armazenamento em áreas urbanas por meio de uma rede totalmente fotônica (APN).

Fonte da imagem: IOWN

O conceito desenvolvido utiliza fibra monomodo (SMF) com taxa de transferência de 100 Gbps e tecnologia NFS sobre RDMA/TCP. O sistema experimental utiliza armazenamento all-flash da NetApp e o modelo de linguagem Tsuzumi (LLM), desenvolvido pela empresa japonesa de telecomunicações NTT. Graças ao acesso direto dos servidores com GPUs ao armazenamento da NetApp, o tempo de treinamento do Tsuzumi em um sistema geodistribuído baseado em APN é reduzido em menos de 1% em comparação com a infraestrutura tradicional. A distância entre locais remotos pode chegar a 3.000 km. Mais detalhes estão disponíveis no artigo “Green Computing with Remote GPU over APN (tsuzumi-7B)”.

Vale ressaltar que os provedores de hiperescala já migraram para o treinamento de modelos em múltiplos data centers distribuídos, embora isso geralmente envolva a criação de clusters de IA compactos em vez da separação geográfica do poder de armazenamento e computação. Os operadores normalmente tentam localizar data centers a uma distância de até 60 km uns dos outros, enquanto a NetApp e a NTT falam em milhares de quilômetros.

Se encontrar algum erro, selecione-o com o mouse e pressione CTRL+ENTER. | Você consegue escrever uma versão melhor? Ficaremos felizes em receber suas sugestões.

Fonte:

By admin

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *