Техническое задание: Сбор данных с сайта
Цель проекта
Полностью автоматизировать сбор структурированной информации о товарах с целевого веб-ресурса для формирования единой витрины данных.
Основные задачи
- Обход всех категорий и подкатегорий товаров на сайте.
- Парсинг данных из карточек каждого товара.
- Сбор ценовой информации, включая градации и варианты упаковок.
- Извлечение технических характеристик и спецификаций.
- Скачивание и привязка к товарам связанных документов (например, паспорта безопасности SDS, инструкции, сертификаты) в формате PDF.
- Структурирование и сохранение всех собранных данных в согласованном формате.
Требования к результату
- Полнота: данные должны быть собраны по всем товарам без исключений.
- Структурированность: информация должна быть четко разбита по категориям, товарам и их атрибутам.
- Связность: каждый товар должен быть связан со своими документами и характеристиками.
- Готовность к использованию: данные должны быть представлены в удобном для дальнейшей работы формате (например, CSV, JSON, база данных).