Техническое задание: Парсер для публичного реестра

Требуется разработать программное решение для автоматического сбора данных с заданного публичного веб-ресурса (реестра).

Основная функциональность

  • Автоматический поиск и извлечение сообщений (записей, публикаций) на целевом сайте.
  • Фильтрация найденных сообщений по заданным критериям.

Ключевые требования к поиску

  • Критерии поиска должны задаваться через внешний словарь (список слов).
  • Словарь должен загружаться из текстового файла (TXT).
  • Необходимо реализовать поддержку шаблонов поиска с использованием специальных символов:
    • ? - заменяет один любой символ.
    • * - заменяет любое количество любых символов.
  • Программа должна искать сообщения, содержащие признаки совпадения со словами или шаблонами из словаря.

Важное примечание

В исходном описании задачи присутствовала прямая ссылка на конкретный интернет-ресурс. В рамках данного ТЗ все прямые ссылки, названия организаций, телефоны и другие идентифицирующие данные были удалены. Исполнителю будет предоставлена целевая ссылка отдельно после согласования условий.

Ожидаемый результат

Стабильно работающая программа (скрипт), способная в автоматическом или полуавтоматическом режиме выполнять парсинг данных по описанным выше правилам.