DevOps для высоконагруженной игровой платформы
Наша цель - обеспечить бесперебойную работу игровой платформы с показателем доступности 99.9%, ежедневными релизами и автоматическим масштабированием. Мы ищем эксперта, который построит и будет поддерживать отказоустойчивую и безопасную инфраструктуру, соответствующую всем необходимым требованиям.
Ключевые задачи и требования
CI/CD пайплайн
- Построить и поддерживать CI/CD процесс «от коммита до прода» длительностью менее 30 минут.
- Опыт работы со стеком: GitLab, ArgoCD, Helm, Kubernetes.
Управление инфраструктурой
- Полный цикл управления кластерами Kubernetes и bare-metal серверами: деплой, мониторинг, откаты, установка security-патчей.
- Реализация Infrastructure as Code (IaC) с использованием Terraform и Ansible для мульти-региональных стендов (облачные провайдеры и собственные дата-центры).
Наблюдаемость и мониторинг
- Настройка и поддержка системы мониторинга на базе Prometheus, Grafana, Loki, Alertmanager.
- Обеспечение и контроль выполнения SLO (Service Level Objective) на уровне 99.9% доступности.
Резервное копирование и аварийное восстановление
- Организация надежных процедур Backup и Disaster Recovery для критических компонентов: PostgreSQL, Redis и других систем.