Разработка локального приложения по обработке старых газет
Ищу программиста или ML-инженера. Требуется создать полностью локальное (без облаков) десктоп-приложение для автоматической подготовки сканов старых газет к типографской печати. Система должна использовать весь потенциал видеокарты Nvidia и библиотек Computer Vision.
Входные данные
- Форматы: PDF, JPG, PNG.
- Особенности: часто в одном файле содержатся две (2x1) или четыре (2x2) скрепленные страницы.
Ключевой функционал
- Импорт: загрузка PDF и изображений с конвертацией PDF в высокое разрешение (300-600 DPI).
- Сегментация: автоматическое разделение разворотов на отдельные страницы без потери текста.
- Сортировка: корректное определение порядка страниц (через OCR по номерам или с помощью логики для страниц без нумерации).
- Коррекция: выравнивание сканов, исправление перекоса и перспективных искажений.
- Приведение к формату: автоматическая подгонка страниц под размеры A4/A3/A2 с сохранением DPI.
- Очистка: удаление пятен, пыли, полос и других артефактов.
- Восстановление: реставрация поврежденных участков текста без искажения и добавления вымышленного содержания.
- Интерфейс: простое оконное приложение с функцией выбора папки для сохранения результата.
Технические требования (Tech Stack)
- Python, OpenCV, PyTorch.
- OCR (Tesseract или PaddleOCR).
- Код должен быть модульным и легко расширяемым.
- Результат на выходе: строгий черный текст на белом фоне, готовый к типографской печати.
Кого ищем
Опытного специалиста с навыками в компьютерном зрении, ML, сегментации и улучшении изображений.
Условия работы
- Проектная занятость, возможна долгосрочная работа.
- Приветствуется поэтапная оплата.
- При отклике прошу указать опыт, примеры аналогичных реализованных проектов, свою предполагаемую архитектуру решения и примерные сроки выполнения.