Техническое задание: Извлечение и конвертация текста из PDF
Суть проекта
Необходимо аккуратно извлечь простой английский текст из большого массива PDF-документов (более 100 файлов) и перенести его в редактируемые форматы с сохранением исходной структуры и логики.
Исходные материалы
- Более 100 PDF-документов.
- Документы двух типов: отсканированные (сканы) и структурированные (текстовые).
Требования к результату
1. Форматы и распределение:
- Основная часть документов должна быть преобразована в файлы Microsoft Word (.docx).
- Небольшая часть документов (по согласованию) должна быть преобразована в файлы Microsoft Excel (.xlsx).
2. Ключевые критерии качества:
- Внимательность и точность: извлеченный текст должен полностью соответствовать оригиналу в PDF по содержанию, структуре и последовательности.
- Сохранение структуры: необходимо аккуратно перенести все элементы текста (заголовки, абзацы, списки, таблицы).
3. Организация файлов:
- По умолчанию: один исходный PDF = один файл результата (Word или Excel).
- Возможна группировка файлов по согласованию.
Сроки
Выполнение работы требуется в течение 3-5 дней.
Дополнительная информация
Исполнитель с опытом в подобных задачах может предоставить примеры выполненных работ по запросу. Готовность приступить к работе - сразу после подтверждения заказа.