Техническое задание: Парсер каталога товаров
Основная цель
Разработка автоматизированного парсера для сбора и актуализации данных товарного каталога с целевого сайта. Решение должно быть развернуто на VPS-сервере и выполнять плановый сбор данных с заданной периодичностью.
Требования к функционалу
1. Сбор данных с карточки товара
- Название товара
- Бренд (извлекается из скрытого поля на сайте-доноре)
- Цены: старая и новая (акционная)
- Артикул
- Полный набор изображений товара
- Характеристики товара
- Категории (из хлебных крошек, исключая корневую)
2. Обработка медиафайлов
- Файлы с расширением
.jfif необходимо автоматически переименовывать в .jpg
- Исключить из загрузки: изображения сертификатов (определяются по URL, содержащему
cert)
- Исключить видео-контент (ссылки на YouTube и другие видеохостинги)
3. Логика работы и производительность
- Реализация многопоточности для ускорения обработки
- Механизм обхода возможных блокировок сайта (использование прокси, заголовков, задержек)
- Планировщик для ежемесячного автоматического запуска
4. Инкрементальное обновление и выходные данные
- Формат выходного файла: YML (Yandex Market Language)
- Система должна вести учет уже спарсенных товаров
- При каждом новом запуске:
- Добавляются только новые товары
- Для существующих товаров обновляются только цены, если они изменились
- Повторный полный парсинг уже существующих позиций не производится
- Пример структуры выходного файла предоставлен заказчиком
5. Техническая среда
- Язык программирования: Python
- Среда выполнения: VPS-сервер (Linux)
- Парсер должен быть надежным и работать автономно
Ожидаемый результат
Готовое, протестированное решение, развернутое на сервере заказчика, с настроенным ежемесячным планировщиком задач (cron). Предоставление полной документации по установке и настройке.