Задача
Выполнить сбор данных (парсинг) с заданного списка страниц интернет-магазина и экспортировать их в файл формата CSV.
Формат файла
- Кодировка: UTF-8 (без BOM).
- Разделитель колонок: точка с запятой (
;). - Первая строка с заголовками не требуется (JSON не нужен).
Какие данные собрать
Каждая строка CSV должна содержать две колонки:
- Артикул товара.
- Конечная категория с путем - полный путь, где родительские категории разделены символом дроби (
/).
Пример: Электроника/Ноутбуки/Игровые.
Обработка ресурсов магазина
Конкретные названия, домены, телефоны и бренды заказчика удалены.
Бот должен парсить все доступные страницы. Повторяющиеся элементы, относящиеся к дизайну или работе сайта, игнорируются - собираются только структурные данные (артикул, вложенная в иерархию последняя категория).
Соблюдайте умеренную скорость запросов (пауза 0,5-1 сек), чтобы не создавать избыточную нагрузку на сервер.
Подведение итога исполнителю
- Без графики и стилей.
- Только чистый скрейпинг с гарантией полной выборки (охватом всех страниц указанные категории).
- Изменения/удаление мусора (лишние теги, селекторы) - не in-парсинг, а целевой сбор с загрузкой пути через сплит по
/ если путь приходит строкой. - Если возникают пагинации (страниц с товарами) - обработать все до последней.
Результат
Файл (.csv), открываемый в Excel, Numbers или другом редакторе, где чётко сопоставление артикула ; и пути конечной категории с ее иерархией.