Необходимо выполнить парсинг данных по следующему алгоритму:

  1. Предоставляется список ключевых запросов (например, 'Ивановское кладбище екатеринбург').
  2. Для каждого запроса нужно найти сайт. Берется только первый результат в выдаче поиска.
  3. Проверяется соответствие: если текст в названии первой ссылки содержит часть ключевого запроса (без города, например, 'Ивановское кладбище'), то переходим по этой ссылке и парсим страницу.

Что нужно извлечь с каждой страницы:

  • Заголовок статьи
  • Основное содержимое. При этом все ссылки из текста (кроме блока с примечаниями) должны быть удалены.
  • Примечания в формате: текст + ссылка.
  • Блок с краткой информацией (справа на странице).
  • Первое изображение в статье (если есть). Для него нужно сгенерировать уникальный идентификатор, который затемтся в название файла, чтобы привязать фото к конкретной статье.
  • Ссылку на саму статью

Формат результата:

  • Файл в формате Excel, CSV.
  • Изображения отдельно, названные в соответствии с идентификатором из данных.

Остальные ссылки (межсайтовые) и все прочие фото парсить не нужно.

Предполагаемое количество страниц для обработки: ~1000 (будет уточнено позже).

Важно: Готовый набор данных, а не программа для парсинга.

Доработка сайта для повышения конверсии

Необходимо внести правки по результатам аудита конверсии. Часть правок уже выполнена в проекте, осталось внести дополнительные изменения. Прикрепил ТЗ вне площадки - стоимость указана условно.