Разработка OCR-модели для старославянских текстов

В рамках проекта требуется создать и обучить кастомную модель оптического распознавания символов (OCR), адаптированную под специфику старославянских печатных текстов XVI-XVII веков.

Ключевая проблема

Стандартные OCR-движки не справляются с рядом особенностей исторических документов, что требует разработки специализированного решения.

Основные задачи и требования

  • Обработка и распознавание 10-15 типов надстрочных знаков (титлов, ударений и других диакритических знаков), характерных для старославянской печати.
  • Работа с исторической типографской вёрсткой и шрифтами.
  • Настройка или обучение модели на основе фреймворков Kraken или Calamari (или аналогичных).
  • Обеспечение высокой точности распознавания для дальнейшей цифровой обработки и анализа текстов.
  • Предпочтение отдаётся специалистам с опытом работы в области компьютерной лингвистики, Digital Humanities или исторической информатики.

Ожидаемый результат

Готовая, протестированная и документированная модель OCR, способная корректно преобразовывать изображения страниц старославянских книг в машиночитаемый текст с сохранением всех надстрочных элементов.

Перенос интернет-магазина с конструктора на платформу WooCommerce

Требуется выполнить полный перенос действующего интернет-магазина с конструктора сайтов на движок WordPress с плагином WooCommerce. Необходимо сохранить все данные, функционал и обеспечить корректную работу магазина на новой платформе. Все детали и технические требования указаны в приложенном файле.