← Блог

Ложные алерты uptime: практическая настройка для indie SaaS

Ложные срабатывания приучают игнорировать on-call: blip при деплое, cold start или 200 со страницы логина, пока API мёртв. Решение не «купить Datadog», а дизайн health URL и понимание, как StillOnline переводит проверку в DOWN.

Дополняет пробы и антибот: интервалы, debounce и разделение проверок на Pro.

Краткий ответ

StillOnline ставит DOWN после двух неудачных проб подряд — на Free интервал пять минут, до алерта roughly 10 минут от первого fail. Меньше шума: стабильный GET /api/health (не главная за WAF), 200 быстрее двух секунд, ослабленные bot-правила на health-пути. Free не меняет интервал (только 300 с); Pro120–300 с и до 10 URL на проект. Проверяйте редиректы через curl -L.

Реальные рычаги

ПараметрFreePro / Ultimate
Интервал300 с60–300 с
Порог → DOWN2 подрядТо же
Повтор email в DOWNthrottle 15 минТо же
URL на проект110 / 25

Debounce снижает пейджинг от одного сбоя сети.

Порядок настройки

1 — URL как проба

curl -sS -o /dev/null -w "%{http_code} time:%{time_total}s final:%{url_effective}\n" -L --max-redirs 5 "https://api.yourproduct.com/health"

200, время < 2 с, стабильный final:.

2 — Лёгкий /health vs тяжёлый /ready

Cold start serverless — дизайн health.

3 — Антибот и редиректы

Гайд по пробам. PROBE_LIMITED — жёлтый без инцидента.

4 — Две проверки на Pro

API health — авторитетный; маркетинг — опционально. Free — один URL.

5 — Деплой

Краткий 503 может дать DOWN — планируйте окна; snooze в v1 нет.

Когда не крутить монитор

СитуацияЧинить инфраструктуру
Реальные 500 после деплояОткат
Исчерпан pool БДHealth pool
Cert завтраSSL

Связанные материалы

FAQ

Алерт с первого fail?

Нет — две неудачи подряд.

DOWN на 30 секунд при деплое?

Два fail подряд. Легче /health или деплой в окно обслуживания.

60 с на Pro = больше ложных?

Часто да. Начните с 300 с.

Зелёный StillOnline, пользователи не входят?

Неверный URL — auth flow, антибот.