DevOps-специалист для решения срочных задач по инфраструктуре
Требуется оперативное вмешательство для решения критических инцидентов и настройки отказоустойчивых систем мониторинга и логирования.
Основные задачи
1. Восстановление основного кластера баз данных
- Архитектура кластера: Patroni (PostgreSQL) с репликацией 1:1.
- Произошел отказ основной базы данных.
- Резервные копии (WAL) хранятся в объектном хранилище S3.
- Необходимо выполнить восстановление работоспособности кластера из доступных бекапов.
2. Настройка системы логирования и алертинга
- Стек: FluxCD, Istio, Grafana, Prometheus, AlertManager.
- Настроить сбор и агрегацию логов приложений для разработчиков (фокус на ошибках).
- Настроить выделенные каналы алертинга и дашборды для мониторинга критических ошибок баз данных.
3. Оптимизация стратегии резервного копирования
- Проанализировать текущий объем данных и динамику их роста.
- Настроить регулярное резервное копирование с периодичностью, зависящей от объема добавляемых данных, для обеспечения надежности RPO/RTO.
Требуемый стек технологий
- Системы управления: FluxCD
- Сетевой сервис-меш: Istio
- Базы данных: PostgreSQL, Patroni
- Хранилище: S3 (для бекапов WAL)
- Мониторинг: Prometheus, Grafana, AlertManager
Ожидается четкое понимание принципов работы распределенных систем, отказоустойчивости баз данных и современных практик DevOps/SRE.