Техническое задание: Извлечение и конвертация текста из PDF
Суть проекта
Необходимо обработать партию из более чем 100 PDF-документов. Файлы представляют собой смесь отсканированных изображений с текстом и структурированных электронных документов. Основная цель - точное извлечение простого английского текста и его аккуратное размещение в файлах Microsoft Office.
Основные требования
- Источники: Более 100 PDF-файлов (отсканированные и текстовые).
- Язык текста: Английский.
- Точность: Извлеченный текст должен полностью соответствовать структуре и содержанию исходных PDF. Требуется внимательность к деталям.
- Выходные форматы:
- Word (.docx): Для большей части документов.
- Excel (.xlsx): Для небольшой части документов, требующих табличного представления.
- Организация файлов: По умолчанию - один файл Word/Excel на один исходный PDF-документ. Возможна группировка по согласованию.
Условия и сроки
- Срок выполнения: 3-5 дней с момента начала работы.
- Дополнительно: Исполнитель готов оперативно ответить на вопросы и приступить к работе немедленно после подтверждения заказа. Примеры выполненных работ доступны по запросу.