Как строить алертинг по SLO, чтобы ловить и быстрые, и медленные деградации без «шторма»?
Алертите по скорости сжигания error budget (multi-window, multi–burn-rate, например 2%/1ч и 5%/6ч), а не по сырому error-rate; учитывайте трафик/важность, маршрутизируйте по приоритетам и проверяйте правила симуляцией инцидентов.
🐸 Библиотека собеса по DevOps
Please open Telegram to view this post
VIEW IN TELEGRAM