Задача

Выполнить парсинг двух тематически близких статичных сайтов. Первый сайт - каталог мебели, второй - каталог дверей. На выходе предоставить структурированный Excel-файл с данными всех товаров (примерно по 500 позиций с каждого сайта).

Детали работы

  • Объекты парсинга: названия товаров, описание, характеристики, фотографии (загрузить или указать ссылки), возможно цены (уточнить дополнительно у заказчика).
  • Структура сайтов: это статика (отдают чистый HTML, без JavaScript-рендера, потому scraping стандартен, без headless-браузеров).
  • Выходящий файл: один (реже два) файла в формате Excel (.xlsx) со столбцами: например “Сайт”, “Название”, “Характеристики”, “Ссылка на фото” и так далее.
  • Коммуникация: по мере разбора у вас будет личная переписка с заказчиком в чате для уточнения полей.

Требования к исполнителю

  • Знание парсинга статики: BeautifulSoup, lxml, requests (Python). Дополнительные знания: автосохранение прогресса, работа с анти-спам системами (минимум - user-agent, delay между запросами).
  • Опыт работы с крупными списками ссылок и проходом по страницам, с отказоустойчивостью (запись очередной блок ретраев с тайпингом).