Эксплуатация · База

Настроить health checks

Сделать проверки состояния сервиса и зависимостей для мониторинга и оркестрации.

Быстро понять за 2 минуты

Сделать проверки состояния сервиса и зависимостей для мониторинга и оркестрации.

Главная пользаHealth checks помогают балансировщику и команде понять, жив ли сервис и готов ли он принимать трафик.

Первое действиеРазделите liveness и readiness.

Готово, когдаHealth endpoint работает.

Контекст

Сервис должен быть не только написан, но и наблюдаем, диагностируем, безопасно выкатываем и понятен тем, кто будет поддерживать его после релиза.

ЦельHealth checks помогают балансировщику и команде понять, жив ли сервис и готов ли он принимать трафик.

ДействиеРазделите liveness и readiness.

ПроверкаHealth endpoint работает.

Отметить как выполненоНажмите на блок, когда критерии приемки закрыты.

Что это дает

Health checks помогают балансировщику и команде понять, жив ли сервис и готов ли он принимать трафик.

Как выполнить

Разделите liveness и readiness.
Проверяйте критические зависимости осторожно.
Не делайте health endpoint тяжелым.

Критерии приемки

Health endpoint работает.
Readiness учитывает критические зависимости.
Мониторинг использует checks.

Типичные ошибки

Делать один health на все случаи.
Проверять внешние сервисы слишком часто.
Возвращать 200 при деградации критической зависимости.

Инструменты

Kubernetes probesLoad balancerPrometheus

Рабочий артефакт

Runbook

Операционная готовность сервиса

Сервис готов к эксплуатации: логи, метрики, алерты, rollback, health checks и инструкция реагирования.

Logs
Metrics
Alerts
Rollback

Контроль качества

Артефакт

Операционная готовность сервиса

Метрика проверки

Health endpoint работает.

Когда пересматривать

После изменения контрактов, релизов, инцидентов, роста нагрузки и пересмотра архитектурных решений.

Что передать дальше

Контракт, ограничения, сценарии отказа, метрики, владельца сервиса и критерии готовности.

Перед отметкой выполнено: Health endpoint работает.

Как применять

Начинайте с границ ответственности и пользовательского сценария, который обслуживает система. Затем проверьте контракт, данные, отказоустойчивость, безопасность и наблюдаемость. Хороший backend-пункт фиксирует, что именно меняется, как это проверить и какие метрики покажут стабильность решения.

Режим обучения

Прочитайте материал, прослушайте аудио и проверьте понимание по коротким вопросам. Ответ раскрывается после попытки сформулировать его самостоятельно.

1. Какую основную пользу должен дать этот пункт?

2. Какой первый практический шаг нужно выполнить?

3. По какому критерию можно понять, что пункт выполнен?