Техническое задание: Разработка OCR-модели для старославянских печатных текстов XVI-XVII веков

Проект направлен на создание специализированной системы оптического распознавания символов для исторических документов. Стандартные OCR-движки не справляются с уникальными особенностями шрифта этого периода, что требует разработки кастомного решения.

Ключевые проблемы для решения

  • Сложная типографика: Наличие 10-15 типов надстрочных знаков (диакритики), которые стандартные движки интерпретируют некорректно.
  • Особенности набора: Нестандартная раскладка символов и редкие кириллические/греческие графемы.
  • Проблемы сегментации: Надстрочные знаки часто определяются системой как отдельная текстовая строка, что ломает логику распознавания.

Обязанности и задачи специалиста

  1. Подготовка данных: Полуавтоматическая и ручная разметка строк в сканированных изображениях.
  2. Формирование датасета: Создание и структурирование набора пар «изображение - текстовый эталон» для обучения модели.
  3. Разработка и тестирование модели: Обучение, валидация и тестирование кастомной OCR-модели с использованием современных фреймворков.
  4. Оптимизация: Решение проблем, связанных с точной привязкой диакритических знаков к базовым символам.

Требования к экспертизе

Необходим практический опыт в решении аналогичных задач компьютерного зрения и обработки исторических документов. Приветствуется понимание принципов работы современных OCR-движков и опыт адаптации их под нестандартные шрифты и символы.

Разработка адаптивного веб-опросника с системой подсчета баллов

Требуется создать интерактивный опросник для выявления потребностей клиентов в сфере автомобильной помощи. Опросник должен быть адаптивным и включать систему автоматического подсчета баллов по категориям продуктов.

Разработка PHP парсера для извлечения и отправки содержимого файлов

Требуется создать скрипт, который по предоставленной ссылке откроет PHP-файл, извлечет его содержимое и отправит его в виде обычного документа. Все конфиденциальные данные из исходного запроса должны быть скрыты.