Парсинг текстового контента с финансовых сайтов
Основная задача
Требуется разработать скрипт для автоматического сбора информации с конкретных страниц, указанных в предоставленном списке. Сбор данных должен быть выполнен в строго определённой структуре.
Источники данных
Парсинг необходимо выполнить со следующих ресурсов:
- Три финансовых информационных портала (названия скрыты по требованию заказчика).
- Конкретные URL-адреса страниц для обработки предоставлены в отдельном документе.
Требования к данным
Структура конечной таблицы
Каждая извлечённая сущность (текстовый блок) должна содержать следующие поля:
- URL - адрес страницы-источника.
- Блок - тип текстового блока согласно классификации.
- Заголовок H2 (H1) - основной заголовок секции.
- Заголовок H3 - подзаголовок секции.
- Текст - основное текстовое содержимое блока.
Обработка и формат вывода
- Итоговые данные должны быть представлены в формате Excel или текстовом файле с разделителем «точка с запятой» (CSV).
- Важно: Все символы точки с запятой, встречающиеся внутри текстов, необходимо заменить на запятую, чтобы не нарушать структуру CSV-файла.
- Необходимо спарсить полную иерархию текстовых блоков (заголовки и связанный с ними текст) с каждой указанной страницы.
Референсы и примеры
Для уточнения деталей задачи заказчик предоставил:
- Список целевых страниц в отдельном документе.
- Пояснение по классификации типов блоков в отдельном документе.
- Пример результата парсинга одной из страниц в виде таблицы.
Критерии выполнения
Задание требует оперативного выполнения. В ответе укажите сроки и стоимость работы.