Постановка задачи
Необходимо разработать парсер для сбора данных со всех страниц скрытых товаров на сайте интернет-магазина. На сайте существует две категории товаров: обычные (стоковые) и скрытые. Заказчику требуется спарсить исключительно скрытые позиции, так как они не видны в результатах поиска и доступны только по прямым ссылкам из браузера.
Ключевые требования
- Тип сбора: только скрытые товары (андерграунд), обычные товары обрабатывать не нужно.
- Доступ к данным: товары не находятся через внутренний поиск сайта, но доступ к ним открыт при переходе по ссылке.
- Объем данных: ориентировочно 200 000 товаров.
- Результат: Сохранение всех собранных данных в удобный формат (например, CSV, JSON, база данных). Структура полей обсуждается индивидуально.
Дополнительные пожелания
- Парсер должен работать надежно, корректно обрабатывать пагинацию скрытых категорий.
- Желательна поддержка пауз между запросами для защиты от блокировки сайта (имитация поведения человека).
- Использование популярных библиотек для парсинга (например, Python + BeautifulSoup/Scrapy или PHP + Goutte/сURL).
Что не нужно делать
- Упоминать в тексте заданий конкретные названия компаний, сайты и телефоны (заказчик их указал, но я их замаскировал).
- Собирать контактные данные клиентов или стоковые позиции.