Период реализации: 2018–2021
Цель проекта
Обеспечить стабильную, масштабируемую и отказоустойчивую ИТ-инфраструктуру для букмекерской платформы «Фаворит» в период резкого роста нагрузки, связанного с проведением Чемпионата мира по футболу FIFA 2018, и последующего роста активности пользователей в течение нескольких лет.
Задачи и вызовы
- Обеспечить бесперебойную работу системы 24/7 при высокой нагрузке во время международных спортивных мероприятий.
- Создать горизонтально масштабируемую архитектуру для обработки миллионов событий в реальном времени.
- Внедрить полноценную систему мониторинга и реагирования на инциденты.
- Автоматизировать процессы развертывания и доставки новых версий (CI/CD).
- Интегрироваться с платежными, аналитическими и рекламными системами.
- Защитить систему от DDoS-атак и высоконагруженных сценариев.
- Реализовать резервное копирование и катастрофоустойчивость.
Реализованные работы
Построение инфраструктуры
- Разработана отказоустойчивая архитектура с балансировкой нагрузки (HAProxy, Nginx).
- Организовано горизонтальное масштабирование на уровне приложений и баз данных.
- Использована виртуализация с oVirt и vSphere, распределённый сторедж через DRBD.
Контейнеризация и оркестрация
- Перевод микросервисов в Docker-контейнеры.
- Развёрнут кластер Kubernetes с управлением через Rancher.
- Внедрён Helm для управления развертываниями.
CI/CD и автоматизация
- Автоматизация конфигураций через Ansible, Puppet, Chief.
- Реализована система CI/CD на базе GitLab CI/CD и TeamCity для быстрой выкладки новых версий.
Мониторинг и логирование
- Система мониторинга и алертинга: Zabbix, Prometheus, Grafana.
- Централизованное логирование через Elasticsearch + Logstash.
Безопасность и защита
- Реализована система защиты от DDoS и других угроз.
- Настроен Vault для безопасного хранения секретов.
Интеграции
Интеграции с внешними платёжными системами, рекламными трекерами, аналитическими платформами (Apache NiFi, Kafka).
Резервное копирование и восстановление
- Система резервного копирования с регулярным тестированием восстановления.
- Реализованы планы катастрофоустойчивости (Disaster Recovery).
Результаты
- 99,99% аптайма в течение чемпионата и пиковых нагрузок;
- Обработка до 25 000 транзакций в секунду — архитектура выдерживала экстремальные пики активности без деградации производительности;
- Масштабируемость по запросу — платформа адаптировалась под нагрузку в режиме реального времени;
- Сокращение времени выкладки с часов до минут;
- Снижение количества инцидентов благодаря проактивному мониторингу и алертам;
- Увеличение отказоустойчивости за счёт резервирования и продуманной архитектуры.
Заключение
Проект стал эталонным примером построения масштабируемой и надёжной инфраструктуры для высоконагруженных цифровых продуктов. Он обеспечил «Фавориту» стабильную работу в критически важный период и задал вектор технологического развития на годы вперёд.