Разработка OCR-модели для старославянских текстов
В рамках проекта требуется создать и обучить кастомную модель оптического распознавания символов (OCR), адаптированную под специфику старославянских печатных текстов XVI-XVII веков.
Ключевая проблема
Стандартные OCR-движки не справляются с рядом особенностей исторических документов, что требует разработки специализированного решения.
Основные задачи и требования
- Обработка и распознавание 10-15 типов надстрочных знаков (титлов, ударений и других диакритических знаков), характерных для старославянской печати.
- Работа с исторической типографской вёрсткой и шрифтами.
- Настройка или обучение модели на основе фреймворков Kraken или Calamari (или аналогичных).
- Обеспечение высокой точности распознавания для дальнейшей цифровой обработки и анализа текстов.
- Предпочтение отдаётся специалистам с опытом работы в области компьютерной лингвистики, Digital Humanities или исторической информатики.
Ожидаемый результат
Готовая, протестированная и документированная модель OCR, способная корректно преобразовывать изображения страниц старославянских книг в машиночитаемый текст с сохранением всех надстрочных элементов.