Техническое задание: Извлечение текста из сканированных PDF

Суть проекта

Необходимо выполнить высокоточное извлечение текстовой информации из коллекции сканированных документов в формате PDF. Общий объем работы - более 180 файлов.

Основные требования

  • Исходные данные: Более 180 сканированных PDF-документов на английском языке.
  • Задача: Точное распознавание и перепечатка текста без искажений.
  • Формат результата: Текст должен быть представлен в редактируемых файлах Microsoft Word и Microsoft Excel, структурировано, согласно исходным документам.
  • Качество: Обеспечить максимальную точность и вычитку текста. Допустимый процент ошибок должен быть минимальным.
  • Сроки: Выполнение работы в течение 1-2 недель. Возможно обсуждение и корректировка дедлайна.

Ожидаемый результат

Полный комплект файлов (Word и Excel) с извлеченным и проверенным текстом из всей предоставленной коллекции PDF-документов.