Техническое задание: Парсер цен конкурентов с системой антидублирования
Основная цель
Разработка автоматизированного решения для отслеживания ценовой политики на рынке. Система должна собирать актуальные данные с сайтов конкурентов, интеллектуально обрабатывать их и предоставлять структурированную аналитику.
Ключевые функциональные требования
- Обход страниц: Обработка списка до 500 URL-адресов товарных карточек или категорий.
- Извлечение данных: Сбор с каждой страницы:
- Цены товара
- Названия товара
- Артикула (при наличии)
- Сопоставление товаров: Реализация логики для корректного сравнения товаров-аналогов на разных площадках на основе:
- Артикулов производителя
- Нормализованных названий (приведение к единому формату)
- Хранение данных:
- Создание базы данных для хранения собранной информации
- Ведение полной истории изменения цен по каждому товару
- Система антидублирования: Алгоритм для предотвращения повторного занесения одного и того же товара в базу при различных условиях его парсинга.
- Отметки и анализ: Функционал для пометки значимых изменений (например, резкое падение или рост цены).
Технические ожидания
- Скрипт должен быть надежным и работать со стабильными интернет-соединениями.
- Код должен быть хорошо структурирован, с комментариями для ключевых модулей.
- Желательна возможность легкой настройки и добавления новых источников для парсинга.
- Формат вывода данных (CSV, JSON, база данных) обсуждается с исполнителем.