Техническое задание: Извлечение и конвертация текста из PDF
Суть проекта
Необходимо аккуратно извлечь простой английский текст из большого массива PDF-документов (более 100 файлов) и преобразовать его в редактируемые форматы Microsoft Office.
Исходные материалы
- Более 100 PDF-файлов.
- Документы двух типов: отсканированные (сканы) и структурированные (с текстовым слоем).
Требования к результату
Формат файлов:
- Основная часть документов - должна быть перенесена в файлы формата Microsoft Word (.docx).
- Небольшая часть документов - должна быть перенесена в таблицы Microsoft Excel (.xlsx).
Ключевые критерии качества:
- Внимательность и точность: извлечённый текст должен полностью соответствовать структуре и содержанию исходных PDF-документов.
- Сохранение структуры: необходимо аккуратно перенести все элементы текста, включая абзацы, списки, таблицы (где это уместно).
Организация работы
- Формат сдачи: файлы .docx и .xlsx. По умолчанию - один файл на один исходный документ, но возможны другие варианты по согласованию.
- Срок выполнения: 3-5 дней с момента начала работы.