Задача

Разработать механизмы для автоматического извлечения реквизитов из поступающих счетов на оплату. Форматы документов: PDF (в том числе сканированные), изображения (JPG/PNG), XLS. В текущий момент база шаблонов включает около 70 различных видов счетов.

Что нужно сделать

  • Создать обработчик для каждого типа счета (всего около 70 штук), который затем парсит структурированные стороны, ИНН, суммы, даты, назначение платежа и т.д.
  • Результат записивать в базу данных / API заказчика (данные уточняются с исполнителем в чате или доке).
  • Обеспечить гибкость - чтобы можно было добавлять новые шаблоны по мере расширения ассортимента счетов.

Требования к решению

  • Желательно использовать Python (OCR, регулярки, OpenCV/Camelot) либо готовую no-code/подход (инструмент для RPA) - обсуждается.
  • Критерий ошибки усредненный - участки дробные или с переворотом изображения обрабатывать устойчиво.
  • Минимизировать ручную настройку новых шаблонов.

Подробные тестовые примеры предоставятся кандидатам после предварительного интервью.