‘Lamentamos profundamente’: Google divulga mini-relatório sobre incidente que quebrou metade da internet

O Google publicou um “mini relatório de incidente” em sua plataforma de nuvem que causou uma interrupção em vários serviços importantes, incluindo Spotify, Discord, Snapchat, OpenAI e os próprios serviços do gigante das buscas.

Fonte da imagem: BoliviaInteligente / unsplash.com

«Lamentamos profundamente o impacto que esta interrupção/interrupção causou a todos os nossos usuários e seus clientes. Empresas de grande e pequeno porte confiam suas cargas de trabalho ao Google Cloud, e faremos melhor. Nos próximos dias, publicaremos um relatório completo do incidente descrevendo a causa, cronogramas detalhados e as medidas de correção robustas que tomaremos. Dada a escala e o impacto deste incidente, gostaríamos de fornecer algumas informações abaixo”, afirmou a empresa em um comunicado.

O incidente, segundo dados oficiais, ocorreu em 12 de junho, às 10h49 (horário do Pacífico) (21h49, horário de Moscou), e todos os sistemas foram restaurados à funcionalidade exatamente três horas depois, às 13h39 (0h49, horário de Moscou, em 13 de junho). A falha afetou os sistemas do Google em todo o mundo. O principal sintoma do problema foi um aumento acentuado na resposta “erro 503” em vários produtos do Google Cloud e do Google Workspace para solicitações de API externas.

«Nossa análise inicial indicou que o problema foi causado por uma atualização automática de cota inválida em nosso sistema de gerenciamento de APIs, que foi distribuída globalmente e causou falhas em solicitações externas de API. Para a recuperação, habilitamos o bypass de verificação de cota, o que permitiu que a maioria das regiões se recuperasse em até duas horas. No entanto, o banco de dados de políticas de cota em [região] us-central1 ficou sobrecarregado, causando uma recuperação muito mais demorada naquela região. Alguns produtos tiveram impactos residuais moderados (por exemplo, tarefas com falha) por até uma hora após a resolução do problema subjacente e, em seguida, apresentaram recuperação parcial”, diz o resumo do relatório.

Para evitar que falhas semelhantes ocorram no futuro, a empresa prometeu tomar as seguintes medidas:

  • Evitar falhas na plataforma de gerenciamento de API devido a dados corrompidos;
  • Não permita a implantação global de metadados sem proteção, testes e monitoramento adequados;
  • Melhore o tratamento de erros do sistema e os testes de ponta a ponta para gerenciar dados corrompidos.
admin

Postagens recentes

Automontagem Direcionada (DSA): Não é um substituto para EUV, mas sim uma ferramenta muito útil / Offsyanka

Quando, há mais de uma década, no final de 2014, especialistas líderes da indústria de…

4 horas atrás

Meta visa centenas de gigawatts para IA: Zuckerberg lança o projeto de ponta Meta Compute

O CEO da Meta✴, Mark Zuckerberg, anunciou o lançamento de uma nova iniciativa de ponta…

4 horas atrás

O Windows 11 oculta quais drivers instala — a Microsoft promete corrigir o problema.

Usuários do Windows 11 notaram que as atualizações de drivers recebidas pelo Windows Update são…

5 horas atrás

Disco Elysium, Blue Prince, Return of the Obra Dinn e muito mais: o Festival de Detetives do Steam convida você a caçar descontos.

Conforme o cronograma apresentado no verão passado, o primeiro festival temático do modelo de 2026,…

6 horas atrás

A Apple escolheu o Gemini do Google para criar uma Siri nova e mais inteligente.

A Apple anunciou uma parceria plurianual com o Google, na qual seu modelo de IA…

7 horas atrás

“Um parque de diversões colorido, mas vazio”: Designer de Fallout 2 e roteirista de New Vegas explicam o que há de errado com o Fallout da Bethesda.

Chris Avellone, cofundador da Obsidian Entertainment, designer de Fallout 2 e roteirista de Fallout: New…

7 horas atrás