Uma grande interrupção da AWS foi causada por um bug nas ferramentas de automação de DNS.

A Amazon publicou um relatório detalhado detalhando as causas de uma grande interrupção que afetou sua nuvem Amazon Web Services (AWS). Os problemas, que afetaram diversos serviços, foram causados ​​por um bug em seu software de automação.

A interrupção ocorreu na região us-east-1, no norte da Virgínia. Um erro de DNS foi relatado como a causa raiz. No total, mais de 110 serviços da AWS foram afetados. De acordo com o Downdetector, um site que rastreia interrupções na internet, usuários em todo o mundo receberam mais de 8,1 milhões de relatos de problemas. As plataformas afetadas incluem Signal, Snapchat, Roblox, Duolingo, Apple Music, Apple TV, Lyft, Fortnite, Disney+, Venmo, Doordash, Hulu e muitas outras.

A Amazon relata que a interrupção foi causada por problemas com o DynamoDB, que lida com centenas de milhares de registros DNS necessários para operar uma enorme frota heterogênea de balanceadores de carga em cada região. Ele utiliza ferramentas de automação para atualizar os registros DNS e resolver quaisquer problemas.

Fonte da imagem: Amazon

No entanto, em 20 de outubro, o sistema de automação de DNS do DynamoDB no data center da Amazon no norte da Virgínia apresentou uma condição de corrida, resultando no registro DNS do ponto de conexão regional do DynamoDB (dynamodb.us-east-1.amazonaws.com) vazio, apesar da redundância do sistema DNS destinada a evitar isso. O sistema de automação não conseguiu resolver o problema sozinho, então especialistas tiveram que ser chamados para resolver o problema. Enquanto isso, o DynamoDB ficou indisponível para dezenas de serviços da AWS e inúmeros serviços e aplicativos de clientes que dependem dele, levando a falhas em cascata de serviços online.

A Amazon desativou temporariamente o sistema de automação de DNS do DynamoDB em todo o mundo, prometendo corrigir os bugs e adicionar novas verificações. Balanceadores de carga de rede e serviços EC2 também receberão mecanismos de controle adicionais e novas verificações. No entanto, especialistas observam que este incidente demonstra claramente o quão vulnerável o mundo pode ser a pontos únicos de falha. Isso se aplica não apenas à AWS, mas também a outros grandes provedores de nuvem, cuja infraestrutura alimenta um grande número de serviços de internet.

Se notar algum erro, selecione-o com o mouse e pressione CTRL+ENTER. | Você pode melhorar? Teremos prazer em ouvir sua opinião.

Fonte:

admin

Compartilhar
Publicado por
admin

Postagens recentes

A AMD lançou um driver com suporte para Forza Horizon 6 e 007 First Light.

A AMD lançou a versão mais recente do driver gráfico Radeon Software Adrenalin 26.5.2 WHQL.…

19 minutos atrás

“Todos estão infelizes, exceto a gerência”: o moral na Meta atinge o nível mais baixo da história, apesar dos lucros recordes.

O moral na Meta✴ atingiu um nível historicamente baixo às vésperas da demissão de quase…

2 horas atrás

Seguindo o caminho já trilhado: a crítica deu seu veredito sobre Forza Horizon 6.

Antes de seu lançamento iminente, o ambicioso jogo de corrida arcade de mundo aberto Forza…

2 horas atrás

As placas gráficas Radeon RX 6000 e RX 7000 receberão suporte para o escalonamento AMD FSR 4.1.

A AMD atendeu aos pedidos insistentes dos jogadores para fornecer suporte à tecnologia de escalonamento…

2 horas atrás

Amazon cancela MMO de Senhor dos Anéis, mas já tem um novo jogo “emocionante”.

A pedido do Eurogamer, Jeff Grattis, chefe da divisão de jogos da Amazon, comentou sobre…

3 horas atrás

A MSI lançará uma GeForce RTX 5080 em edição muito limitada, inspirada em “The Mandalorian e Grogu”.

A MSI apresentou a placa de vídeo GeForce RTX 5080 16GB OC em uma edição…

3 horas atrás