Описание задачи

Исходный PDF-файл содержит 3216 страниц, на каждой из которых находится таблица из 15 столбцов. Заказчику требуется программная обработка файла для создания единого документа формата XLSX. Ключевые требования: данные должны располагаться в одной таблице, а не быть разбитыми по страницам. Первая строка с номером на каждом листе должна быть удалена.

Технические требования

  • Формат результата: XLSX (Excel).
  • Результирующая таблица должна быть цельной (одна рабочая таблица без разделения на несколько листов).
  • Необходима поддержка сортировки данных.
  • Каждая страница имеет фиксированную структуру: 15 столбцов и 1 лишняя строка, удаляемая перед объединением.
  • Желательное решение: скрипт на Python (с использованием библиотек pdfplumber или tabula-py) для автоматического распознавания таблиц с каждой страницы и формирования итогового файла.

От исполнителя ожидается описание подхода, используемых библиотек (например, NumPy и Pandas), возможность работы с большими объемами данных, а также учёт того, что в результате получается файл примерно в 3216 × `rows_per_page` строк данных. Все тестовые данные предоставляются заказчиком по запросу.

Дополнительно

В случае, если PDF сгенерирован из «плохой вёрстки» (со сдвигами или без единообразных параметров столбцов), необходимо предусмотреть проверку и исправление таких фрагментов. Итоговый код должен быть прокомментирован и легко модифицируем.

Постоянная работа по линкбилдингу в сфере финансов и блокчейна

Требуется специалист для постоянного наращивания ссылочной массы для двух сайтов в тематике финансов и блокчейна. Работа ведется по задачам от SEO-аналитика, оплата за результат. Перед началом требуется подписание NDA.

Автоматизация с n8n для отслеживания лидов

Разработка автоматического алгоритма в n8n, который подключается к чатам, семантически анализирует сообщения с помощью LLM и релевантные отправляет в служебный чат-бот менеджерам.