Техническое задание: Автоматизация обработки счетов из почты
Цель проекта
Разработать скрипт или приложение, которое автоматически извлекает файлы счетов в формате PDF из входящих писем в Gmail, обрабатывает их с помощью технологии оптического распознавания символов (OCR) и сохраняет в удобном виде.
Основные требования
- Интеграция с почтовым сервисом Gmail для мониторинга входящих писем.
- Определение и настройка триггера для запуска процесса обработки. Это может быть:
- Присвоение письму определенной метки.
- Нажатие кнопки в интерфейсе.
- Другой удобный и надежный механизм.
- Извлечение вложенных PDF-файлов из писем, сработавших по триггеру.
- Применение OCR (например, Tesseract или аналог) для распознавания текста в PDF-файлах, особенно если они представляют собой сканированные изображения.
- Сохранение обработанных файлов и/или извлеченных данных (текст, ключевые поля: номер счета, сумма, дата) в заданную структуру папок или базу данных.
- Обеспечение надежности и обработки возможных ошибок (например, отсутствие файла, ошибка распознавания).
Ожидаемый результат
Готовое рабочее решение, которое по заданному триггеру автоматически находит счета в почте, преобразует их в машиночитаемый текст и организует их хранение, избавляя от необходимости ручной обработки.