Задача

Разработать универсальный парсер данных с веб-сайтов, который умеет собирать товары, статьи, контакты и цены по заданным CSS или XPath селекторам. Паук должен корректно обрабатывать сайты с динамической подгрузкой контента (JavaScript). Готовые данные должны автоматически сохраняться в формате Excel или в Google Таблице.

Основные требования

  • Сбор данных по CSS и XPath селекторам (гибкая настройка под нужный сайт)
  • Поддержка сайтов на JavaScript с использованием Selenium или аналогичной технологии
  • Автоматический обход пагинации всех страниц
  • Кросс-категорийная навигация автоматических переходов между разделами
    • Автоматическое выявление и переход по всем категориям в меню сайта
    • Сбор ссылок на товары/статьи внутри категорий
  • Фильтрация собранных данных от дублей
  • Готовый результат в нескольких форматах (Excel .xlsx и Google Таблицы через API)

Критерии приемки

  • Исходный код с читаемой структурой, разделением на модули
  • Конфигурационный файл для указания URL и селекторов
  • Обработка ошибок сети и повторные попытки при сбоях гуппы запросов
  • Возможность запуска с минимальным логом в терминале

Создание инфографики про стоимость SEO-продвижения

Необходимо разработать наглядную инфографику для страницы сайта, которая визуализирует, из чего складывается цена на услуги SEO-оптимизации. Задача - сделать сложную информацию понятной и привлекательной для посетителей.