A AWS publicou uma descrição técnica da arquitetura de rede de data center que implementará discretamente a partir do final de 2024. Essa arquitetura é baseada em três décadas de teoria matemática anteriormente considerada inadequada para uso comercial. A arquitetura, baseada em Grafos de Rede Resilientes (RNG), já se tornou padrão na maioria dos novos data centers da AWS em todo o mundo e economizará bilhões de dólares.

A Amazon afirma que a topologia Fat-Tree tradicional, com sua estrutura de múltiplas camadas, usada em data centers por décadas, é ineficiente. Quando os dados são transmitidos apenas por um número limitado de caminhos de rede, a latência aumenta em caso de congestionamento, mesmo com alta taxa de transferência geral. Além disso, essa arquitetura é frágil: a perda de um único roteador de nível superior pode interromper a conectividade de grandes segmentos de rede abaixo dele. Ademais, ela requer cabeamento complexo.

Fonte da imagem: Amazon

Como observado pelo SiliconANGLE, existem muitas maneiras de resolver esse problema, mas a maioria é cara ou difícil de implementar. Como alternativa, a Amazon propôs uma arquitetura RNG (Gerador de Números Aleatórios). Ela aumenta o número de caminhos pelos quais os dados podem trafegar entre os nós, aumentando a taxa de transferência, ao mesmo tempo que reduz pela metade o número de dispositivos de rede e melhora a confiabilidade da conexão. Se um caminho de rede usado por um nó apresentar problemas técnicos, o sistema pode simplesmente redirecionar o tráfego para um dos muitos outros caminhos disponíveis.

Mas isso não é tudo. Os engenheiros da AWS desenvolveram o que chamam de topologia quase aleatória. Alguns segmentos do data center são dispostos e conectados de acordo com um padrão específico, enquanto outros são conectados aleatoriamente. É essa aleatoriedade que torna as redes RNG mais flexíveis do que as redes Fat-Tree. Para buscar, dentre o grande número de caminhos de rede disponíveis, a rota ideal para uma determinada carga de trabalho, é utilizado um protocolo de roteamento distribuído proprietário chamado Spraypoint.

O protocolo opera em duas etapas. Primeiro, o roteador de origem distribui aleatoriamente seu tráfego de saída entre todos os seus vizinhos imediatos. Em seguida, para cada pacote, ele usa um algoritmo clássico de caminho mais curto para encontrar um ponto de passagem — um roteador pré-designado para encaminhar o tráfego para um destino específico. Esses pontos de passagem encaminham os pacotes em uma série de “anéis concêntricos” ao redor do destino, com cada anel encaminhando o tráfego para o próximo até que o destino seja alcançado.

De acordo com a Amazon, essa combinação de distribuição inicial aleatória e convergência estruturada no Spraypoint gera quase o dobro de caminhos independentes entre quaisquer dois roteadores em comparação com os métodos padrão de caminho mais curto, mantendo baixa complexidade computacional e exigindo pouca memória, ao contrário de uma rede verdadeiramente “plana”, onde todos os roteadores são pareados de forma verdadeiramente aleatória.

A diversidade adicional de rotas significa que áreas de congestionamento em uma parte da rede podem ser contornadas automaticamente sem decisões explícitas de redirecionamento. “Essencialmente, ao achatar a rede, eliminamos os gargalos que surgem nas soluções de rede tradicionais”, disse Matt Rehder, vice-presidente de Engenharia de Rede da AWS, à WIRED. “Acreditamos que somos os únicos a fazer isso nessa escala.”

No entanto, a natureza aleatória das configurações de cabos de fibra óptica RNG dificulta seu gerenciamento eficaz. A AWS desenvolveu um dispositivo de rede passivo, o ShuffleBox, que conecta fisicamente os cabos.Diversos cabos de fibra óptica. Cada ShuffleBox possui portas voltadas para roteadores e se conecta a outros ShuffleBoxes do outro lado. Os canais internos de fibra óptica, combinados de acordo com um padrão específico, e as conexões aleatórias entre os ShuffleBoxes formam uma topologia de rede geral quase aleatória em nível macro, sem a necessidade de passar cabos individuais por todo o piso do data center. Quando um novo rack é instalado, seu roteador simplesmente se conecta ao ShuffleBox mais próximo.

Curiosamente, a equipe que desenvolveu o RNG não está propondo esse conceito de rede no contexto de IA generativa. Em vez disso, está focada em melhorar a eficiência da arquitetura de data center da empresa no dia a dia. “O RNG é ótimo para nossas cargas de trabalho principais, mas os padrões para transmitir dados de treinamento para IA são muito mais coordenados e gerenciados centralmente”, afirma Reder. De acordo com a Amazon, em comparação com as arquiteturas Fat-Tree, o RNG usa 69% menos roteadores e oferece até 33% mais throughput, reduz o consumo de energia da rede em 40% e diminui os custos de infraestrutura em 9 a 45%.

A primeira rede RNG foi lançada no final de 2024 na Irlanda e começou a processar tráfego real, segundo o PPC Land. A implementação serviu como validação: os engenheiros da AWS compararam o desempenho no mundo real com previsões matemáticas, identificaram deficiências operacionais e aplicaram otimizações em duas implementações subsequentes. De acordo com o SiliconANGLE, a tecnologia já está em uso em diversos data centers na Irlanda, Alemanha e Espanha. A empresa afirmou que a maioria de seus novos data centers utiliza RNG (Gerador de Números Aleatórios).

Se você encontrar um erro, selecione-o com o mouse e pressione CTRL+ENTER. | Você pode melhorar? Ficaremos felizes em receber sugestões.

Fonte:

By admin

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *