Devido a um erro cometido durante o desenvolvimento de uma atualização de firmware para alto-falantes inteligentes Yandex Station, uma carga anormalmente alta foi criada em servidores NTP (Network Time Protocol) no segmento russo da Internet – esses recursos são usados ​​​​para sincronização de horário. A empresa não descobriu o erro de imediato, mas listou medidas que evitariam sua recorrência.

Fonte da imagem: Yandex

Em meados de outubro, um dos voluntários que configurou um servidor NTP em seu roteador doméstico descobriu que o canal do dispositivo estava entupido de solicitações. A atualização do firmware e a reinicialização não resolveram o problema, mas ele desapareceu após a desativação do NTP. Descobriu-se ainda que, desde meados de outubro, 120 dos 140 servidores NTP russos pararam de funcionar. O voluntário apelou à comunidade Habr para lançar servidores NTP em máquinas virtuais de fornecedores nacionais como medida temporária por uma taxa mínima – além dos usuários comuns, um grande operador de nuvem respondeu e alocou 30 máquinas virtuais de uma só vez.

O culpado acabou sendo o Yandex, que em meados de outubro começou a lançar um novo firmware para os alto-falantes inteligentes da série Station. O firmware desses dispositivos contém um cliente padrão de sincronização de horário. No modo normal, é realizado a cada cinco horas, mas se a tentativa não for bem-sucedida, é repetido após cinco segundos. Devido a um erro em um dos módulos relacionados ao cliente, todos os dispositivos com firmware atualizado passaram a sincronizar o horário a cada cinco segundos, independente do resultado da tentativa anterior – lembramos que só nos primeiros nove meses de 2024, cerca de 3 milhões de estações Yandex foram vendidas “

No estágio inicial, o Yandex implantou firmware em 10% dos dispositivos – esta é uma medida padrão para identificar erros nos estágios iniciais. Mas o esquema padrão de detecção de erros da época não tinha uma métrica para solicitações NTP e, em 24 de outubro, o firmware havia se espalhado para 100% dos dispositivos. As primeiras reclamações sobre um número excessivo de solicitações de NTP começaram a chegar no dia 10 de novembro – esse sintoma geralmente é explicado por problemas do lado do usuário e, devido ao pequeno volume de reclamações, a prioridade do problema era baixa. O erro foi descoberto apenas no dia 20 de novembro – nessa época já foi corrigido e eles começaram a preparar uma nova versão de firmware.

Mas não dava mais para ganhar tempo, pois no final de semana de 23 e 24 de novembro restavam apenas quatro servidores na Internet. Portanto, como medida temporária, Yandex lançou um hotfix – uma atualização de emergência que aumentou o período de circulação de 5 para 600 segundos. A carga nos servidores NTP foi assim reduzida em 120 vezes, mas se alguma das Estações Yandex, depois de ligada, não conseguir sincronizar a hora na primeira tentativa, nos 10 minutos seguintes as suas funções relacionadas com a hora ficarão indisponíveis. Isso ajudou a estabilizar a situação – naquela época, membros da comunidade Habr começaram a lançar servidores NTP.

Para evitar que o incidente ocorra novamente no futuro, Yandex decidiu tomar várias medidas:

  • Alocar vários recursos da empresa para um conjunto comum de servidores NTP;
  • Organize uma zona de servidor NTP separada para seus dispositivos;
  • Monitorar métricas relacionadas ao NTP ao lançar produtos novos e atualizar produtos antigos;
  • Melhorar os mecanismos de feedback dos usuários para melhor identificar tais problemas.
avalanche

Postagens recentes

A Intel apresentará placas de vídeo Battlemage no dia 3 de dezembro – as vendas começarão no dia 12 de dezembro

Na próxima semana, a Intel apresentará a primeira nova geração de placas de vídeo, codinome…

16 minutos atrás

Warhammer 40.000: Space Marine 2 atingiu um novo pico de vendas e em breve receberá um grande patch com operação Demerium e geração de quadros DLSS

A editora Focus Entertainment e os desenvolvedores do estúdio Sabre Interactive compartilharam detalhes do próximo…

16 minutos atrás

Descoberto o primeiro bootkit UEFI direcionado exclusivamente para Linux

Os pesquisadores da ESET relataram o primeiro bootkit UEFI direcionado a sistemas Linux. Anteriormente, os…

16 minutos atrás

Riot está disposta a pagar até US$ 100 mil para encontrar vulnerabilidades em anti-cheat em Valorant e League of Legends

Os desenvolvedores do estúdio Riot Games estão tão confiantes em seu anti-cheat Vanguard, que funciona…

3 horas atrás