Парсер товаров из интернет-магазина на CMS Bitrix

Задача

Требуется разработать парсер для сбора данных о товарах (люстры, светильники) с сайта-донора. Решение должно работать на Python и предусматривать возможность как разового запуска, так и периодического обновления (по cron, раз в неделю) для актуализации цен, остатков, акций и статусов наличия.

Бренды для парсинга

  • Список из 18 брендов (названия скрыты по условию заказчика), относящихся к категории осветительных приборов.

Что и как парсить

  • Поля товара: название, артикул, цена, остатки, статус, категория, характеристики (мощность, тип цоколя, цвет, стиль, размеры), основное изображение и дополнительные фото.
  • Исключения: текстовое описание товара парсить не требуется - оно будет создано отдельно с помощью ИИ.
  • Изображения: каждое фото должно сохраняться в отдельную подпапку, имя файла - артикул или уникальный идентификатор товара.
  • Формат выгрузки: XLSX или XML, готовые для прямого импорта в CMS Bitrix (без дополнительной обработки со стороны заказчика).

Дополнительный функционал по желанию

  • Генерация описания товара через API (Gemini): текст размером до 300-400 знаков, оформленный в HTML с инфоблоками, внутренней перелинковкой (2-3 ссылки с параметрами title, target="_blank"). Ключ API будет предоставлен.
  • Использование пула IPv4-прокси и цифровых отпечатков (fingerprints) для обхода защиты сайта. Если возможен сбор без обхода - допустимо, но нужно предусмотреть возможность подключения.

Что заказчик ожидает на выходе

  • Архив с готовыми данными: папка с изображениями (в подпапках) + файл XLSX/XML для импорта.
  • Код парсера (на Python) с детальным ТЗ внутри проекта.
  • Инструкция по запуску и настройке периодичности.

Условия передачи

Заказчик самостоятельно выполнит импорт в CMS Bitrix. Контактные данные, сайт донора и название CRM обсудим в личных сообщениях. Требуется работа строго по детальному ТЗ, которое приложено отдельным файлом ( .txt ).