Devido a um erro cometido durante o desenvolvimento de uma atualização de firmware para alto-falantes inteligentes Yandex Station, uma carga anormalmente alta foi criada em servidores NTP (Network Time Protocol) no segmento russo da Internet – esses recursos são usados para sincronização de horário. A empresa não descobriu o erro de imediato, mas listou medidas que evitariam sua recorrência.
Fonte da imagem: Yandex
Em meados de outubro, um dos voluntários que configurou um servidor NTP em seu roteador doméstico descobriu que o canal do dispositivo estava entupido de solicitações. A atualização do firmware e a reinicialização não resolveram o problema, mas ele desapareceu após a desativação do NTP. Descobriu-se ainda que, desde meados de outubro, 120 dos 140 servidores NTP russos pararam de funcionar. O voluntário apelou à comunidade Habr para lançar servidores NTP em máquinas virtuais de fornecedores nacionais como medida temporária por uma taxa mínima – além dos usuários comuns, um grande operador de nuvem respondeu e alocou 30 máquinas virtuais de uma só vez.
O culpado acabou sendo o Yandex, que em meados de outubro começou a lançar um novo firmware para os alto-falantes inteligentes da série Station. O firmware desses dispositivos contém um cliente padrão de sincronização de horário. No modo normal, é realizado a cada cinco horas, mas se a tentativa não for bem-sucedida, é repetido após cinco segundos. Devido a um erro em um dos módulos relacionados ao cliente, todos os dispositivos com firmware atualizado passaram a sincronizar o horário a cada cinco segundos, independente do resultado da tentativa anterior – lembramos que só nos primeiros nove meses de 2024, cerca de 3 milhões de estações Yandex foram vendidas “
No estágio inicial, o Yandex implantou firmware em 10% dos dispositivos – esta é uma medida padrão para identificar erros nos estágios iniciais. Mas o esquema padrão de detecção de erros da época não tinha uma métrica para solicitações NTP e, em 24 de outubro, o firmware havia se espalhado para 100% dos dispositivos. As primeiras reclamações sobre um número excessivo de solicitações de NTP começaram a chegar no dia 10 de novembro – esse sintoma geralmente é explicado por problemas do lado do usuário e, devido ao pequeno volume de reclamações, a prioridade do problema era baixa. O erro foi descoberto apenas no dia 20 de novembro – nessa época já foi corrigido e eles começaram a preparar uma nova versão de firmware.
Mas não dava mais para ganhar tempo, pois no final de semana de 23 e 24 de novembro restavam apenas quatro servidores na Internet. Portanto, como medida temporária, Yandex lançou um hotfix – uma atualização de emergência que aumentou o período de circulação de 5 para 600 segundos. A carga nos servidores NTP foi assim reduzida em 120 vezes, mas se alguma das Estações Yandex, depois de ligada, não conseguir sincronizar a hora na primeira tentativa, nos 10 minutos seguintes as suas funções relacionadas com a hora ficarão indisponíveis. Isso ajudou a estabilizar a situação – naquela época, membros da comunidade Habr começaram a lançar servidores NTP.
Para evitar que o incidente ocorra novamente no futuro, Yandex decidiu tomar várias medidas:
O jogo de tiro tático PvP gratuito PUBG: Blindspot, da Arc Team e da PUBG…
A Ivy Road, fundada por Davey Wreden, criador de The Stanley Parable, Karla Zimonja, cocriadora…
A Basis, líder no mercado russo de software de gerenciamento de infraestrutura dinâmica, lançou uma…
Na semana passada, um tribunal federal da Califórnia decidiu a favor da Anthropic em sua…
Em março de 2017, a AMD lançou sua arquitetura Zen e os primeiros processadores Ryzen,…
A Samsung prometeu corrigir em breve os problemas com a tela do Galaxy S26 Ultra,…