Техническое задание: Извлечение и конвертация текста из PDF
Цель проекта
Преобразовать коллекцию из более чем 100 PDF-документов на английском языке в редактируемые файлы форматов Microsoft Word и Microsoft Excel с максимальным сохранением исходной структуры и точности текста.
Исходные данные
- Объем: свыше 100 PDF-файлов.
- Типы документов: смешанные (отсканированные изображения и структурированные цифровые PDF).
- Язык содержимого: простой английский.
Требования к результату
1. Форматы выходных файлов:
- Основной массив документов - в формате Microsoft Word (.docx или .doc).
- Небольшая часть документов (по согласованию) - в формате Microsoft Excel (.xlsx или .xls).
2. Ключевые критерии качества:
- Точность текста: Минимальное количество ошибок распознавания или искажений.
- Сохранение структуры: Перенос абзацев, списков, таблиц (если применимо), заголовков и общего форматирования, соответствующего исходным PDF.
- Читаемость: Текст должен быть готов к дальнейшему использованию и редактированию.
Ожидаемый процесс работы
- Анализ предоставленного пакета PDF-файлов.
- Извлечение текста с помощью подходящих инструментов OCR (для отсканированных) и прямого копирования (для цифровых).
- Ручная или полуавтоматическая проверка и корректировка для обеспечения точности.
- Структурирование текста в файлах Word и Excel в соответствии с исходниками.
- Предоставление итоговых файлов в согласованной структуре папок.