Техническое задание: Извлечение и структурирование текста из PDF

Суть проекта

Необходимо обработать партию из более чем 100 PDF-документов. Часть документов является отсканированными изображениями (требуется распознавание текста), часть - структурированными электронными файлами. Основная цель - аккуратное извлечение простого английского текста и его перенос в офисные форматы с полным сохранением логики и структуры исходных материалов.

Требования к работе

1. Исходные данные:

  • Более 100 PDF-файлов.
  • Два типа документов: отсканированные (сканы) и структурированные (текстовые).
  • Язык контента: английский.

2. Результат работы:

  • Основной формат: Большая часть документов должна быть преобразована в файлы Microsoft Word (.docx).
  • Дополнительный формат: Небольшая часть документов, исходя из их содержания (таблицы, списки данных), должна быть перенесена в Microsoft Excel (.xlsx).
  • Структура файлов: По умолчанию - один исходный PDF соответствует одному файлу Word/Excel. Возможна группировка по согласованию.

3. Ключевые критерии качества:

  • Внимательность и точность: Извлечённый текст должен полностью соответствовать оригиналу по содержанию.
  • Сохранение структуры: Необходимо аккуратно перенести логику документа: заголовки, абзацы, списки, таблицы.
  • Для отсканированных документов важно качественное распознавание текста (OCR).

Условия и сроки

  • Формат сдачи: Готовые файлы .docx и .xlsx.
  • Срок выполнения: 3-5 дней с момента начала работы и предоставления всех материалов.
  • Готовность к оперативному старту после согласования деталей.

Перенос готовой верстки на CMS с интеграцией 1С

Требуется установить готовую HTML-верстку на систему управления сайтом (CMS) и реализовать интеграцию для автоматической выгрузки товаров из 1С. Необходимо обеспечить полную работоспособность сайта.

Оптимизация и развитие backend-инфраструктуры

Требуется разработчик для оптимизации backend-сервисов на Go и Python, улучшения производительности, снижения затрат и внедрения CI/CD. Задачи включают работу с API, микросервисами, мониторингом и инфраструктурой.