Amazon falou sobre as razões para a falha de serviços em nuvem

A Amazon disse que a falha massiva de sua infraestrutura em nuvem foi causada pela falha de ferramentas projetadas para automatizar processos. O acidente afetou muitas empresas e serviços, desde parques de diversões da Disney e streaming da Netflix até aspiradores de pó robóticos e vendas online de ingressos para shows.

Fonte da imagem: Bethany Drouin / pixabay.com

Em nota divulgada na véspera, a empresa informou que o problema surgiu no dia 7 de dezembro, quando um dos programas destinados a melhorar a confiabilidade da rede parou de funcionar, causando comportamento imprevisível de “um grande número” de sistemas. Isso levou a um aumento na atividade na infraestrutura da Amazon e os usuários perderam o acesso a alguns recursos da nuvem. “O efeito bola de neve causou um código incorreto que foi executado automaticamente. O problema original era o desligamento dos controles internos e sistemas de monitoramento ”, comentou o analista da Forrester Brent Ellis no comunicado.

Os problemas começaram em 7 de dezembro por volta das 10h30 no horário de Nova York (18h30 no horário de Moscou), e os especialistas da empresa demoraram várias horas para resolvê-los. Houve inúmeras reclamações nas redes sociais de que os sistemas domésticos inteligentes e outros dispositivos conectados à Internet pararam de funcionar. Alguns especialistas consideraram a explicação da empresa insuficiente. “Eles não explicam o que era esse comportamento imprevisível porque não sabiam o que era. Eles estavam tentando consertá-lo aleatoriamente, e é por isso que demorou tanto ”, disse Corey Quinn, especialista em nuvem do Duckbill Group.

No geral, o serviço AWS é altamente confiável. A última vez que uma falha dessa magnitude foi observada foi em 2017, quando um funcionário da empresa desligou acidentalmente mais servidores do que o necessário ao consertar um sistema de faturamento. No entanto, um incidente nesta semana lembrou quantos produtos e serviços dependem de centros de dados centralizados operados por um pequeno número de gigantes da tecnologia, incluindo Amazon, Microsoft e Google.

E não existe uma solução simples para o problema. Alguns especialistas dizem que as empresas devem duplicar serviços nas infraestruturas de vários provedores, outros apontam que tal estratégia é impraticável e que ocorrerão falhas quando cada um dos provedores de nuvem falhar, não apenas a Amazon. “Sabemos que o incidente teve um impacto significativo em muitos clientes. Faremos o nosso melhor para aprender com ele e usá-lo para melhorar nossa disponibilidade no futuro ”, disse a empresa em um comunicado.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *