Описание задачи
Требуется разработать и внедрить автоматизированное решение для парсинга большого объема данных - до 100-200 тысяч карточек товаров в сутки. Парсинг должен выполняться с двух русскоязычных интернет-площадок (гипермаркет товаров и маркетплейс).
Основные требования
- Сбор информации о товарах с карточек: цена, название, артикул, рейтинг, описание, фото (коллажи) и другие отображаемые атрибуты.
- Обеспечение стабильной работы при длительных сессиях (неработающие прокси, капчи).
- Поддержка планировщика - ежедневные инкрементальные загрузки.
- Выходные данные - готовый датасет (желательно CSV/JSON/BingoOutput) без дублей, с приоритетом одного источника в случае конфликта.
- Настройка антидетект-окружения, контроль максимальной нагрузки (избегание блокировок).
Технические детали
Решение может быть реализовано на Python с использованием Asyncio или многопоточности. Возможна разбивка на несколько конвейеров и параллельная обработка. Предпочтителен modular архитектура с clear log и rate-limit.
Важно: Заказчик не предоставляет доступа к реальным сайтам из-за NDA; названия и контактные данные в финальном документе удалены. Упоминание «примерный список сайтов в ТЗ» заменено на обезличенные обозначения.
Критерии приемки
- 10-15 тысяч обработанных карточек в час на одном задании.
- Отсутствие полных смертей скриптов при 50+ единоразовых сессиях в капче за профиля DB проксино.
- Мониторинг успешности каждого этапа (ok/error/log).
- Своевременная поддержка форматов output по согласованию.
Ограничения общества
- Телефон/сайт/email запрещены закономерностями проекта.