Техническое задание: Автоматизация переноса данных из PDF в Excel
Цель проекта
Разработать стабильное и многоразовое программное решение для автоматизации рутинной задачи по переносу данных из проектной документации в структурированный шаблон.
Исходные данные
- Входной формат: Документы в формате PDF (строительная проектная документация).
- Источник данных: Раздел "Спецификация" в конце документа, содержащий табличный перечень материалов.
- Извлекаемые данные: Наименование товара (материала), единица измерения, количество.
- Объем данных: От 20 до 300 позиций в одном документе.
Требования к решению
- Использовать технологии на основе нейросетей или машинного обучения для надежного распознавания и извлечения текста и таблиц из PDF.
- Решение должно корректно работать с документами разной структуры, но имеющими итоговую спецификацию.
- Реализовать точный перенос извлеченных данных в заранее подготовленный шаблон-файл в формате Microsoft Excel.
- Решение должно быть пригодно для постоянного использования, устойчиво к небольшим изменениям в формате исходных PDF-документов.
- Обеспечить удобный интерфейс для пользователя (например, скрипт с указанием путей к файлам или простой графический интерфейс).
Ожидаемый результат
Готовое к использованию решение (скрипт, программа или сервис), которое принимает PDF-файл со спецификацией и автоматически заполняет данными заданный Excel-шаблон, избавляя от необходимости ручного копирования.