Описание задачи
Исходный PDF-файл содержит 3216 страниц, на каждой из которых находится таблица из 15 столбцов. Заказчику требуется программная обработка файла для создания единого документа формата XLSX. Ключевые требования: данные должны располагаться в одной таблице, а не быть разбитыми по страницам. Первая строка с номером на каждом листе должна быть удалена.
Технические требования
- Формат результата: XLSX (Excel).
- Результирующая таблица должна быть цельной (одна рабочая таблица без разделения на несколько листов).
- Необходима поддержка сортировки данных.
- Каждая страница имеет фиксированную структуру: 15 столбцов и 1 лишняя строка, удаляемая перед объединением.
- Желательное решение: скрипт на Python (с использованием библиотек pdfplumber или tabula-py) для автоматического распознавания таблиц с каждой страницы и формирования итогового файла.
От исполнителя ожидается описание подхода, используемых библиотек (например, NumPy и Pandas), возможность работы с большими объемами данных, а также учёт того, что в результате получается файл примерно в 3216 × `rows_per_page` строк данных. Все тестовые данные предоставляются заказчиком по запросу.
Дополнительно
В случае, если PDF сгенерирован из «плохой вёрстки» (со сдвигами или без единообразных параметров столбцов), необходимо предусмотреть проверку и исправление таких фрагментов. Итоговый код должен быть прокомментирован и легко модифицируем.