Задача

Необходимо обработать комплекты (паки) из 150 газетных вырезок на русском языке, написанных в дореволюционной орфографии. Основная цель - распознавание текста, перевод на современный русский язык и приведение к единому форматированию.

Требования к оцифровке

  • Автоматическое распознавание текста с изображений (газетных вырезок).
  • Корректная конвертация дореволюционной орфографии („еры“, „ижица“ и т.д.) в современную лексику.
  • Сохранение разбивки на строки и абзацы.

Формат выводного документа

  • Исходный текст (дореволюционный).
  • Современная версия внизу или рядом с уже исправленой грамматикой, окончаниями и стилистикой.

Дополнительные условия

  • Допустимо применение GPT-ассистов, OCR (Tesseract и подобные) для чистого распознавания, а также AI-моделей для языкового первичного последующего этапа.
  • Приветствуется выдержка максетинг (выравнивание текста по ширине, размеру кегля между выдерками) и единообразие в формулах.

Контроль ведётся: выявленные расхождения проверочки та исполнитель заливает заархивировано пайтеру с пометкой «KVM/GJ/n20265». Использование телефонов/Email не допускается - эффективный сейчас был при заявке этот вырезается из задания.