Задача: Система мониторинга уведомлений на сайтах администраций

В начале каждого года многие сайты администраций по всей России публикуют юридически значимые уведомления о начале определенных работ. Перед исполнителем стоит задача разработать решение, которое позволит:

  • Получить актуальный перечень всех сайтов органов местного самоуправления, на которых в текущем году появилось такое уведомление;
  • Обеспечить возможность периодического обновления базы (например, раз в несколько недель), так как новые уведомления могут публиковаться в течение всего первого полугодия;
  • Автоматизировать процесс сбора данных без ручного обхода сотен ресурсов.

Технические требования к исполнителю

  • Язык программирования и инструменты - произвольные (стек не регламентирован);
  • Необходим модуль парсинга html-страниц (поиск ключевых фраз и семантических конструкций);
  • Результатом является структурированный список (формат csv/json/база данных согласуется);
  • Код должен быть легко донастраиваемым: зона поиска, перечень сайтов, дата среза меняются через конфигурацию.

Ключевые условия

  • Убрать ручной перебор
  • Обеспечить адаптацию под обновленную структуру сайтов
  • Выполнять мониторинг в заданные интервалы без участия человека (крон/планировщик)
  • Обрабатывать отказ доступности любого ресурса без остановки всего процесса