Конвертация PDF в Excel с многостраничной таблицей

Описание задачи

Исходный PDF-файл содержит 3216 страниц, на каждой из которых находится таблица из 15 столбцов. Заказчику требуется программная обработка файла для создания единого документа формата XLSX. Ключевые требования: данные должны располагаться в одной таблице, а не быть разбитыми по страницам. Первая строка с номером на каждом листе должна быть удалена.

Технические требования

Формат результата: XLSX (Excel).
Результирующая таблица должна быть цельной (одна рабочая таблица без разделения на несколько листов).
Необходима поддержка сортировки данных.
Каждая страница имеет фиксированную структуру: 15 столбцов и 1 лишняя строка, удаляемая перед объединением.
Желательное решение: скрипт на Python (с использованием библиотек pdfplumber или tabula-py) для автоматического распознавания таблиц с каждой страницы и формирования итогового файла.

От исполнителя ожидается описание подхода, используемых библиотек (например, NumPy и Pandas), возможность работы с большими объемами данных, а также учёт того, что в результате получается файл примерно в 3216 × `rows_per_page` строк данных. Все тестовые данные предоставляются заказчиком по запросу.

Дополнительно

В случае, если PDF сгенерирован из «плохой вёрстки» (со сдвигами или без единообразных параметров столбцов), необходимо предусмотреть проверку и исправление таких фрагментов. Итоговый код должен быть прокомментирован и легко модифицируем.

продвижение сайтов

Описание задачи

Технические требования

Дополнительно

Постоянная работа по линкбилдингу в сфере финансов и блокчейна

Диагностика и донастройка сайта для полноценной работы

Автоматизация с n8n для отслеживания лидов