Назад

Эксплуатация · Средняя

Подготовить runbook сервиса

Описать, как деплоить, диагностировать, откатывать и поддерживать сервис.

Эксплуатация: визуальный контекст этапа
Аудиопересказ пунктаПолная версия материала для прослушивания
Прослушано 0%
Скачать

Быстро понять за 2 минуты

Описать, как деплоить, диагностировать, откатывать и поддерживать сервис.

Главная пользаRunbook снижает зависимость от одного разработчика и ускоряет реакцию на инциденты.
Первое действиеОпишите основные команды и dashboards.
Готово, когдаRunbook доступен команде.

Контекст

Сервис должен быть не только написан, но и наблюдаем, диагностируем, безопасно выкатываем и понятен тем, кто будет поддерживать его после релиза.

ЦельRunbook снижает зависимость от одного разработчика и ускоряет реакцию на инциденты.
ДействиеОпишите основные команды и dashboards.
ПроверкаRunbook доступен команде.

Что это дает

Runbook снижает зависимость от одного разработчика и ускоряет реакцию на инциденты.

Как выполнить

  1. Опишите основные команды и dashboards.
  2. Добавьте типовые симптомы и действия.
  3. Укажите владельцев и каналы эскалации.

Критерии приемки

  • Runbook доступен команде.
  • Есть инструкция rollback.
  • Новый участник может выполнить базовую диагностику.

Типичные ошибки

  • Хранить знания только в голове.
  • Не обновлять runbook после изменений.
  • Писать инструкции без проверки.

Инструменты

RunbookGrafanaSentryPagerDuty

Рабочий артефакт

Runbook

Операционная готовность сервиса

Сервис готов к эксплуатации: логи, метрики, алерты, rollback, health checks и инструкция реагирования.

  • Logs
  • Metrics
  • Alerts
  • Rollback

Контроль качества

Артефакт

Операционная готовность сервиса

Метрика проверки

Runbook доступен команде.

Когда пересматривать

После изменения контрактов, релизов, инцидентов, роста нагрузки и пересмотра архитектурных решений.

Что передать дальше

Контракт, ограничения, сценарии отказа, метрики, владельца сервиса и критерии готовности.

Перед отметкой выполнено: Runbook доступен команде.

Как применять

Начинайте с границ ответственности и пользовательского сценария, который обслуживает система. Затем проверьте контракт, данные, отказоустойчивость, безопасность и наблюдаемость. Хороший backend-пункт фиксирует, что именно меняется, как это проверить и какие метрики покажут стабильность решения.

Режим обучения

Прочитайте материал, прослушайте аудио и проверьте понимание по коротким вопросам. Ответ раскрывается после попытки сформулировать его самостоятельно.

1. Какую основную пользу должен дать этот пункт?
2. Какой первый практический шаг нужно выполнить?
3. По какому критерию можно понять, что пункт выполнен?