Описание задачи
Необходимо создать парсер (скрипт на языке программирования Python) для автоматического сбора данных с указанного веб-сайта или сервиса.
Требования к реализации
- Возможность настройки ключевых страниц для сканирования и форматов данных на выходе (CSV, Excel, JSON).
- Игнорирование блокировки со стороны сайта: сбор с задержками и случайными User-agent.
- Фильтрация спам-ссылок и дубликатов, корректная обработка изображений (сохранение с переименованием).
- Соотнесение заголовков, содержимого div/span а также сохранение даты публикации.
- Обработка контента по паттерну: ссылка, описание, число слов/объём текста. Логирование.
Пример точного запроса
Собрать с объединённых частей паджеблока:
- Заголовок опубликованного документа
- Ценовая информация (если автоматические категории)
- Тело главного html (beautifulsoup/селекторы).
Продолжительность работы
Документировать алгоритм. Весь полный отчёт должен содержать описание этапов сбора на выбор разработчика в libre office/sharp export два вида (там приложи требования). Сроки обговариваются совместно.