Amazon falou sobre as razões para a falha de serviços em nuvem

A Amazon disse que a falha massiva de sua infraestrutura em nuvem foi causada pela falha de ferramentas projetadas para automatizar processos. O acidente afetou muitas empresas e serviços, desde parques de diversões da Disney e streaming da Netflix até aspiradores de pó robóticos e vendas online de ingressos para shows.

Fonte da imagem: Bethany Drouin / pixabay.com

Em nota divulgada na véspera, a empresa informou que o problema surgiu no dia 7 de dezembro, quando um dos programas destinados a melhorar a confiabilidade da rede parou de funcionar, causando comportamento imprevisível de “um grande número” de sistemas. Isso levou a um aumento na atividade na infraestrutura da Amazon e os usuários perderam o acesso a alguns recursos da nuvem. “O efeito bola de neve causou um código incorreto que foi executado automaticamente. O problema original era o desligamento dos controles internos e sistemas de monitoramento ”, comentou o analista da Forrester Brent Ellis no comunicado.

Os problemas começaram em 7 de dezembro por volta das 10h30 no horário de Nova York (18h30 no horário de Moscou), e os especialistas da empresa demoraram várias horas para resolvê-los. Houve inúmeras reclamações nas redes sociais de que os sistemas domésticos inteligentes e outros dispositivos conectados à Internet pararam de funcionar. Alguns especialistas consideraram a explicação da empresa insuficiente. “Eles não explicam o que era esse comportamento imprevisível porque não sabiam o que era. Eles estavam tentando consertá-lo aleatoriamente, e é por isso que demorou tanto ”, disse Corey Quinn, especialista em nuvem do Duckbill Group.

No geral, o serviço AWS é altamente confiável. A última vez que uma falha dessa magnitude foi observada foi em 2017, quando um funcionário da empresa desligou acidentalmente mais servidores do que o necessário ao consertar um sistema de faturamento. No entanto, um incidente nesta semana lembrou quantos produtos e serviços dependem de centros de dados centralizados operados por um pequeno número de gigantes da tecnologia, incluindo Amazon, Microsoft e Google.

E não existe uma solução simples para o problema. Alguns especialistas dizem que as empresas devem duplicar serviços nas infraestruturas de vários provedores, outros apontam que tal estratégia é impraticável e que ocorrerão falhas quando cada um dos provedores de nuvem falhar, não apenas a Amazon. “Sabemos que o incidente teve um impacto significativo em muitos clientes. Faremos o nosso melhor para aprender com ele e usá-lo para melhorar nossa disponibilidade no futuro ”, disse a empresa em um comunicado.

avalanche

Postagens recentes

A Yandex está se preparando para um lançamento em massa de robotáxis e carros autônomos até 2028.

A Yandex planeja começar a comercializar veículos robóticos em 2028, tanto no setor de táxis…

17 minutos atrás

Golpistas começaram a disfarçar malware como código-fonte vazado do Anthropic Claude Code.

Esta semana, o código-fonte do serviço Claude Code da Anthropic vazou — a empresa tomou…

30 minutos atrás

A JEDEC permitirá o crescimento da memória HBM4E para simplificar a produção e reduzir custos.

A memória empilhada, chamada HBM, é considerada uma das mais rápidas do mercado, mas continua…

30 minutos atrás

Uma startup suíça transformou baterias usadas em baterias domésticas por assinatura.

A startup suíça Evolium Technologies, fundada em 2024 com o apoio da Associação Suíça de…

42 minutos atrás

Um modelo chinês do foguete reutilizável Falcon 9 da SpaceX explodiu no ar — ele era movido a querosene produzido a partir do carvão.

Hoje, às 12h17, horário de Pequim (7h17, horário de Moscou), o foguete experimental Tianlong-3, da…

2 horas atrás

A Oracle finalmente encontrou os recursos para construir outro centro de dados de IA OpenAI Stargate.

A Related Digital, investidora em data centers, está perto de fechar um acordo de US$…

2 horas atrás