Техническое задание: Извлечение текста из нормативных актов
Требуется реализовать решение для автоматического парсинга и преобразования документов (нормативных актов) в структурированный текст.
Основные задачи
- Настроить и запустить один из выбранных инструментов: Unstructured или Docling.
- Обеспечить корректную обработку документов, включая распознавание текста, заголовков, списков и других элементов.
- Реализовать вывод итогового содержимого в удобном текстовом формате.
Требования к результату
- Рабочий скрипт или конфигурация для выбранного инструмента.
- Документация по запуску и настройке процесса.
- Примеры обработанных документов в текстовом виде.
Цель проекта
Автоматизация извлечения текстовой информации из PDF-файлов и сканов нормативных документов для последующего анализа или интеграции в другие системы.