Техническое задание: Парсинг новостных лент
Цель проекта
Автоматизировать сбор и подготовку к публикации новостей с ряда официальных интернет-ресурсов. Собранные данные будут интегрированы на сайт заказчика для формирования актуальной новостной ленты.
Источники для парсинга
Необходимо настроить сбор информации со следующих категорий сайтов:
- Налоговые и финансовые регуляторы: Федеральная налоговая служба, Министерство финансов.
- Судебные и арбитражные органы: Конституционный суд, Верховный суд, СРО арбитражных управляющих.
- Государственное управление: Официальный портал Правительства.
Ключевые требования
- Разработка стабильного и надежного парсера, способного обрабатывать структуру указанных сайтов.
- Обеспечение корректного извлечения заголовков, дат, основного текста новостей и, при наличии, вложенных файлов.
- Структурирование полученных данных в удобном для дальнейшей публикации формате (например, JSON, XML или напрямую в базу данных).
- Реализация механизма обработки ошибок и пропусков при недоступности источников.
- Возможность настройки периодичности обхода сайтов (крон-задачи или аналоги).
Что предоставить по итогу
- Рабочий скрипт/приложение для парсинга.
- Инструкцию по развертыванию и настройке.
- Описание структуры выходных данных.