Ложные алерты uptime: практическая настройка для indie SaaS
Ложные срабатывания приучают игнорировать on-call: blip при деплое, cold start или 200 со страницы логина, пока API мёртв. Решение не «купить Datadog», а дизайн health URL и понимание, как StillOnline переводит проверку в DOWN.
Дополняет пробы и антибот: интервалы, debounce и разделение проверок на Pro.
Краткий ответ
StillOnline ставит DOWN после двух неудачных проб подряд — на Free интервал пять минут, до алерта roughly 10 минут от первого fail. Меньше шума: стабильный GET /api/health (не главная за WAF), 200 быстрее двух секунд, ослабленные bot-правила на health-пути. Free не меняет интервал (только 300 с); Pro — 120–300 с и до 10 URL на проект. Проверяйте редиректы через curl -L.
Реальные рычаги
| Параметр | Free | Pro / Ultimate |
|---|---|---|
| Интервал | 300 с | 60–300 с |
| Порог → DOWN | 2 подряд | То же |
| Повтор email в DOWN | throttle 15 мин | То же |
| URL на проект | 1 | 10 / 25 |
Debounce снижает пейджинг от одного сбоя сети.
Порядок настройки
1 — URL как проба
curl -sS -o /dev/null -w "%{http_code} time:%{time_total}s final:%{url_effective}\n" -L --max-redirs 5 "https://api.yourproduct.com/health"
200, время < 2 с, стабильный final:.
2 — Лёгкий /health vs тяжёлый /ready
Cold start serverless — дизайн health.
3 — Антибот и редиректы
Гайд по пробам. PROBE_LIMITED — жёлтый без инцидента.
4 — Две проверки на Pro
API health — авторитетный; маркетинг — опционально. Free — один URL.
5 — Деплой
Краткий 503 может дать DOWN — планируйте окна; snooze в v1 нет.
Когда не крутить монитор
| Ситуация | Чинить инфраструктуру |
|---|---|
| Реальные 500 после деплоя | Откат |
| Исчерпан pool БД | Health pool |
| Cert завтра | SSL |