Техническое задание: Парсинг текстовой информации
Цель проекта
Разработать решение для автоматического сбора и структурирования текстовых данных с целевых веб-страниц.
Источники данных
Парсинг необходимо выполнить с трёх сайтов:
Конкретные страницы для обработки указаны в отдельном предоставленном списке.
Требования к данным
Необходимо извлекать блоки с текстовой информацией согласно предоставленным типам и примерам.
Структура выходных данных
Каждая запись должна содержать следующие поля:
- URL страницы
- Тип блока (согласно классификации)
- Заголовок H2 (или H1, если H2 отсутствует)
- Заголовок H3
- Текст содержимого
Требования к формату и обработке
- Итоговые данные должны быть представлены в формате Excel или текстовом файле с разделителем точка с запятой (;).
- Все символы точки с запятой, встречающиеся в исходных текстах, необходимо заменить на запятые, чтобы не нарушать структуру файла.
- Пример ожидаемого результата парсинга предоставлен для ознакомления.
Дополнительные указания
Для уточнения деталей по типам блоков и списку страниц будут предоставлены вспомогательные материалы.