Разработка сервиса OCR для банковских документов
Требуется создать программный сервис, который будет автоматически извлекать текстовую информацию из документов типа "Банковская гарантия".
Основная задача
Сервис должен обрабатывать входные файлы в формате PDF, которые могут быть как текстовыми документами, так и сканированными изображениями (в том числе низкого качества). На выходе система должна предоставлять распознанный текст.
Ключевые требования
- Использование стека технологий: Python, Tesseract OCR, OpenCV.
- Обработка PDF-документов без единого фиксированного шаблона (разметка и качество могут сильно различаться).
- Достижение целевого показателя точности распознавания текста - 99%.
- Сервис должен быть готов к работе с документами, представленными в виде простых изображений (сканов).
Ожидаемый результат
Готовое решение в виде сервиса или модуля, который принимает документ и возвращает распознанный текст с заданной точностью.