Контекст
Разрабатывается сервис для кредитных брокеров, который автоматизирует анализ объемных PDF-отчетов. Проект нацелен на извлечение структурированных данных с помощью Python и LLM для формирования удобных отчетов.
Что уже реализовано
Текущая кодовая база включает:
- Таблицу параметров - описание "что и откуда" извлекать из отчета.
- Рабочий парсер для одного типа отчета (но точность всего 70-80%).
- Парсер написан на Python, для обработки текста и данных используется LLM через OpenAI-совместимый API (название облачного провайдера скрыто).
Этапы работы
Этап 0 (платный, аудит)
- Развернуть проект и мигрировать кодовую базу в GitHub.
- Провести внутренний аудит: сверить таблицу параметров с кодом парсинга.
- Подготовить список расхождений: отсутствующие / неверно спарсенные поля для итоговой материальной оценки объема Этапа 1.
Этап 1. Повышение точности и доработка базовой архитектуры
- Довести точность существующего модуля парсинга до уровня >95%.
- Выявить и добавить отсутствующие параметры, которые сейчас не извлекаются.
- Провести тестовый прогон (3-5 файлов), отладить скрипт. Устранить ошибки.
Этапы 2-3. Масштабирование на другие форматы
- Реализовать парсинг для 2 (двух) дополнительных типов PDF-отчетов в соответствии с предоставленной спецификацией.
- Обеспечить обратную совместимость архитектуры: новый функционал не должен сломать старый парсер, формат выдачи данных должен быть единообразным для всех форматов отчетов.
Общие требования к результату работы (почему выбираем фрилансера)
- Чистота кода: читабельный и поддерживаемый Python-код.
- Прозрачность работы: подробные и понятные логи для дебаггинга.
- Качество внедрения: минималистичная (1-2 кратких файла) документация по run-хау проекта.
- Анонимность: все данные и тесты будут переданы только в обезличенном виде.
От исполнителя требуется в отклике
- Примеры релевантных проектов (парсинг PDF, работа с LLM).
- Четкий перечень метрик и современных инструментов, которые обеспечивают >95% + вариант оценки качества (KPI).
- Подтверждение готовности: исполнитель начинает работу с Этапа 0 (полная приёмка и боевая готовность).