Техническое задание: Извлечение текста из нормативных актов

Требуется реализовать решение для автоматического парсинга и преобразования документов (нормативных актов) в структурированный текст.

Основные задачи

  • Настроить и запустить один из выбранных инструментов: Unstructured или Docling.
  • Обеспечить корректную обработку документов, включая распознавание текста, заголовков, списков и других элементов.
  • Реализовать вывод итогового содержимого в удобном текстовом формате.

Требования к результату

  • Рабочий скрипт или конфигурация для выбранного инструмента.
  • Документация по запуску и настройке процесса.
  • Примеры обработанных документов в текстовом виде.

Цель проекта

Автоматизация извлечения текстовой информации из PDF-файлов и сканов нормативных документов для последующего анализа или интеграции в другие системы.