Техническое задание: Извлечение и конвертация текста из PDF

Цель проекта

Преобразовать коллекцию из более чем 100 PDF-документов на английском языке в редактируемые файлы форматов Microsoft Word и Microsoft Excel с максимальным сохранением исходной структуры и точности текста.

Исходные данные

  • Объем: свыше 100 PDF-файлов.
  • Типы документов: смешанные (отсканированные изображения и структурированные цифровые PDF).
  • Язык содержимого: простой английский.

Требования к результату

1. Форматы выходных файлов:

  • Основной массив документов - в формате Microsoft Word (.docx или .doc).
  • Небольшая часть документов (по согласованию) - в формате Microsoft Excel (.xlsx или .xls).

2. Ключевые критерии качества:

  • Точность текста: Минимальное количество ошибок распознавания или искажений.
  • Сохранение структуры: Перенос абзацев, списков, таблиц (если применимо), заголовков и общего форматирования, соответствующего исходным PDF.
  • Читаемость: Текст должен быть готов к дальнейшему использованию и редактированию.

Ожидаемый процесс работы

  1. Анализ предоставленного пакета PDF-файлов.
  2. Извлечение текста с помощью подходящих инструментов OCR (для отсканированных) и прямого копирования (для цифровых).
  3. Ручная или полуавтоматическая проверка и корректировка для обеспечения точности.
  4. Структурирование текста в файлах Word и Excel в соответствии с исходниками.
  5. Предоставление итоговых файлов в согласованной структуре папок.

Разработка функции автоподбора ячеек для перемещения запасов в 1С УНФ

Необходимо доработать документ "Перемещение запасов между складами" в конфигурации 1С УНФ. Требуется реализовать автоматическое заполнение полей "Ячейка" для номенклатуры, добавляемой в табличную часть документа, на основе заданных правил или данных системы.