Ритм обновлений при инциденте: правило пяти минут для indie SaaS
Тишина при сбое читается как безразличие. У enterprise в runbook — первая коммуникация за минуты; у indie хватит правила: первый пост на странице статуса в течение пяти минут после подтверждения impact, дальше — по расписанию, даже если ничего не изменилось.
StillOnline даёт размещённый на платформе таймлайн stillonline.tech/s/{id}; текст инцидента пишете вы. Алерты владельцу в Telegram/Slack/email сообщают о DOWN — шаблон инцидента. Google SRE считает регулярные клиентские обновления частью incident command.
Краткий ответ
После DOWN в StillOnline (две неудачные пробы подряд — ~10 минут при интервале 5 минут на Free) опубликуйте Investigating в течение пяти минут после подтверждения влияния на клиентов. Далее — каждые 15–30 минут или пост «Новой информации нет — следующее обновление в HH:MM UTC». Подписчики публичной страницы получают email на каждое опубликованное обновление. Алерты владельца — раньше тикетов в поддержку.
От пробы до поста
| Время | Событие | Действие |
|---|---|---|
| T+0 | Первая неудачная проба | Наблюдать |
| T+~5 мин | Вторая → DOWN | Алерт владельцу |
| T+5–15 мин | Impact подтверждён | Investigating на странице |
| T+15–30 мин | Идёт работа | Обновление или «нет новостей» |
| Восстановление | Две зелёные пробы | Resolved + итог |
Автотекст инцидента StillOnline не пишет — только статус от проверок и ваши посты.
«Нет новостей» — валидное обновление
Обновление (14:30 UTC): Расследование продолжается. Новой информации нет. Следующее обновление к 15:00 UTC.
Снижает тикеты — B2B. NIST SP 800-61 — регулярные обновления стейкхолдерам, даже без root cause.
Cadence по тяжести
| Тяжесть | Первый пост | Дальше |
|---|---|---|
| Major | ≤5 мин | Каждые 15 мин |
| Degraded | ≤15 мин | 30–60 мин — метки |
| Сторонний сервис | ≤15 мин | По status вендора — third-party |
| Maintenance | До окна | Старт и конец — обслуживание |
Связанные материалы
FAQ
StillOnline сам пишет обновления инцидента?
Авто-инцидент отражает DOWN/UP; человекочитаемые записи — ваши в панели.
Пять минут от первого fail или от DOWN?
От подтверждённого impact — часто после второй пробы (~10 мин на Free).
Как часто email подписчикам?
На каждое опубликованное обновление на публичной странице.
Мелкий баг — реже обновлять?
Да — Degraded и 30–60 мин; Major outage не оставляйте без слов.