Техническое задание: Парсинг веб-сайтов
Основная цель
Необходимо разработать решение для автоматического сбора информации с предоставленных интернет-ресурсов.
Требования к результату
- Извлечение данных по каждому URL в структурированном виде.
- Для каждого обработанного сайта необходимо получить: URL-адрес, заголовок страницы и её основное текстовое содержание.
- Данные должны быть представлены в формате, аналогичном указанному в исходном запросе.
Критерии выполнения
- Решение должно быть надежным и обрабатывать различные структуры веб-страниц.
- Важно обеспечить корректное извлечение именно основного контента, исключая навигационные элементы, рекламу и футеры.
- Конфиденциальность: все конкретные упоминания названий компаний, прямые ссылки и контактные данные должны быть исключены из финального технического задания.