Техническое задание: Извлечение и конвертация текста из PDF

Суть проекта

Необходимо аккуратно извлечь простой английский текст из большого массива PDF-документов (более 100 файлов) и преобразовать его в редактируемые форматы Microsoft Office.

Исходные материалы

  • Более 100 PDF-файлов.
  • Документы двух типов: отсканированные (сканы) и структурированные (с текстовым слоем).

Требования к результату

Формат файлов:

  • Основная часть документов - должна быть перенесена в файлы формата Microsoft Word (.docx).
  • Небольшая часть документов - должна быть перенесена в таблицы Microsoft Excel (.xlsx).

Ключевые критерии качества:

  • Внимательность и точность: извлечённый текст должен полностью соответствовать структуре и содержанию исходных PDF-документов.
  • Сохранение структуры: необходимо аккуратно перенести все элементы текста, включая абзацы, списки, таблицы (где это уместно).

Организация работы

  • Формат сдачи: файлы .docx и .xlsx. По умолчанию - один файл на один исходный документ, но возможны другие варианты по согласованию.
  • Срок выполнения: 3-5 дней с момента начала работы.

Разработка модуля синхронизации товаров между Avito и OpenCart

Требуется создать решение для автоматической передачи товаров из Avito в интернет-магазин на OpenCart при публикации объявлений. Необходимо проанализировать существующие аналоги и предложить оптимальную архитектуру интеграции.

Выполнение и оформление лабораторных работ по информатике

Требуется специалист с техническим или инженерным образованием для выполнения комплекса лабораторных работ по информатике и грамотного оформления отчетов по ним. Важно понимание предмета и умение структурировать информацию.