Масштабный парсинг интернет-каталогов (маркетплейсы)

Описание задачи

Требуется разработать и внедрить автоматизированное решение для парсинга большого объема данных - до 100-200 тысяч карточек товаров в сутки. Парсинг должен выполняться с двух русскоязычных интернет-площадок (гипермаркет товаров и маркетплейс).

Основные требования

Сбор информации о товарах с карточек: цена, название, артикул, рейтинг, описание, фото (коллажи) и другие отображаемые атрибуты.
Обеспечение стабильной работы при длительных сессиях (неработающие прокси, капчи).
Поддержка планировщика - ежедневные инкрементальные загрузки.
Выходные данные - готовый датасет (желательно CSV/JSON/BingoOutput) без дублей, с приоритетом одного источника в случае конфликта.
Настройка антидетект-окружения, контроль максимальной нагрузки (избегание блокировок).

Технические детали

Решение может быть реализовано на Python с использованием Asyncio или многопоточности. Возможна разбивка на несколько конвейеров и параллельная обработка. Предпочтителен modular архитектура с clear log и rate-limit.

Важно: Заказчик не предоставляет доступа к реальным сайтам из-за NDA; названия и контактные данные в финальном документе удалены. Упоминание «примерный список сайтов в ТЗ» заменено на обезличенные обозначения.

Критерии приемки

10-15 тысяч обработанных карточек в час на одном задании.
Отсутствие полных смертей скриптов при 50+ единоразовых сессиях в капче за профиля DB проксино.
Мониторинг успешности каждого этапа (ok/error/log).
Своевременная поддержка форматов output по согласованию.

Ограничения общества

Телефон/сайт/email запрещены закономерностями проекта.

дизайн

Описание задачи

Основные требования

Технические детали

Критерии приемки

Ограничения общества

Разработка интернет-магазина на Tilda для профессиональных инструментов

Доработка логотипа и создание цветной версии

Создание анимаций по исходной картинке