Разработка Backend-системы для сбора и аналитики больших данных с автомобильных площадок
Цель проекта - создание отказоустойчивого ETL-конвейера и хранилища данных (DWH) уровня крупных агрегаторов объявлений.
Основные задачи
- Высоконагруженный парсинг: Ежедневный сбор миллионов объявлений с автомобильных классифайдов. Требуется опыт работы с современными системами защиты (Cloudflare, Datadome, капчи).
- Очистка и нормализация: Приведение неструктурированных данных к единому формату.
- Алгоритм «Золотой записи»: Реализация механизма склейки дублирующихся объявлений с разных источников с использованием Fuzzy Matching.
- Проектирование и наполнение DWH: Создание схемы хранилища данных для последующей аналитики.
Стек технологий (строго)
- Язык и фреймворки: Python (Asyncio, Aiohttp, Playwright).
- Базы данных: ClickHouse (для аналитики) и PostgreSQL (для метаданных).
- Оркестрация: Apache Airflow.
- Инфраструктура: Docker.
Требования к исполнителю
- Опыт в high-load скрапинге: понимание ротации прокси, работы с TLS-fingerprinting и обхода антибот-систем.
- Умение проектировать эффективные схемы хранилищ данных (DWH).
- Готовность следовать подробному техническому заданию и согласованному техпроцессу.
- Ответственный подход к работе с большими объемами данных.