No início deste mês, o Google Cloud excluiu por engano a conta do fundo de aposentadoria australiano UniSuper. Após a restauração dos sistemas da UniSuper e a conclusão de uma revisão interna, a empresa divulgou informações para esclarecer a natureza do incidente.
De acordo com o relatório, o incidente afetou apenas um cliente, apenas um de seus serviços Google Cloud VMware Engine (GCVE) e apenas uma das duas regiões de nuvem usadas pelo UniSuper. Os backups de dados de clientes armazenados no Google Cloud Storage (GCS) na mesma região não foram afetados.
De acordo com o Google, durante a implementação inicial da nuvem privada do cliente em 2023, os operadores do Google Cloud acidentalmente configuraram incorretamente o serviço GCVE, deixando um campo de parâmetro sem nome em branco. Isso levou a um resultado não intencional e imprevisível: a nuvem privada UniSuper foi excluída automaticamente após um ano (o tempo de vida padrão), sem notificar ninguém sobre o evento.
A restauração do GCVE, configuração de rede, sistemas de segurança, aplicativos e dados exigiu que a equipe do UniSuper e do Google trabalhasse 24 horas por dia, 7 dias por semana, durante vários dias. O Google Cloud tomou uma série de medidas para evitar que incidentes semelhantes ocorressem no futuro, incluindo a revisão manual das implantações do GCVE de todos os outros clientes. Além disso, o processo de criação do GCVE agora é totalmente automatizado e não requer a participação de operadores ao vivo, mesmo na criação de configurações fora do padrão.
No entanto, a recuperação do serviço invulgarmente longa e uma falha do Google Cloud que ocorreu uma semana após o incidente do UniSuper, semelhante e possivelmente relacionada com a história descrita, põem em causa a fiabilidade da plataforma cloud como um todo, e também mostram mais uma vez quão frágil e vulnerável é a infraestrutura de TI e quão importante é o fator humano.