Техническое задание: Парсинг и сверка ассортимента
1. Цель работы
Спарсить данные о товарах из категории Бытовая химия и всех её подкатегорий с двух указанных сайтов. Результаты оформить в виде файла Excel со столбцами для каждого поля. Выполнить сверку с основным прайс-листом (предоставляется отдельно) по штрихкоду. Совпадающие товары выделить цветом:
- в файле основного прайс-листа;
- в итоговых файлах парсинга каждого сайта.
2. Источники данных
- Первый источник: категория "Бытовая химия" на сайте satom.ru. Ссылка - прямая страница парсинга. Полная ссылка заменена на краткую для сохранения конфиденциальности. Ограничение: сбор только с разделов и подразделов данной категории.
- Второй источник: категория "Бытовая химия" на сайте gxm.su. Ссылка - прямая страница парсинга. Полная ссылка заменена на краткую для сохранения конфиденциальности. Ограничение: сбор только в пределах данной категории.
3. Перечень собираемых данных по каждому товару
Обязательные поля (если присутствуют на странице товара):
- Штрихкод
- Название товара
- Описание товара (полное)
- Картинки - ссылки на все изображения (если их несколько)
- Бренд / Производитель
- Характеристики - все доступные атрибуты и параметры товара (отобразить как один столбец со списком или отдельным разбором). При отсутствии дополнительных данных - ячейка остаётся пустой.
Если какое-либо поле не найдено на странице, в соответствующей ячейке ставится "-" или слово "Нет данных".
4. Требования к выходным данным
- Формат: Excel (.xlsx), отдельный файл для каждого сайта. Дополнительно, возможно, предоставление общего сводного файла по итогам сверки.
- Цветовая маркировка: строки совпавших штрихкодов (по основному прайсу) выделяются любым единым цветом (например, светло-зелёным). Значение цветового выделения обознаячить в легенде в первом листе файла.
5. Дополнительные условия
- Парсить только публичные страницы без нарушения правил сайтов (соблюдение robots.txt, выдержка задержки между запросами).
- Имена компаний и конкретные адреса заменены для сохранения анонимности условия (работа ведётся по шаблону ТЗ).
- Результаты проверить на дубли (один товар с одинаковым штрихкодом не может быть несколько раз в одном файле; в случае расхождений фиксируется первый вариант).