Разработка системы чтения речи по губам
Требуется создать программное решение, способное анализировать видеозапись человека и определять, что он говорит, на основе движения его губ (визуальная фонетика).
Основные задачи
- Разработка или настройка алгоритма/модели машинного обучения для анализа видеопотока.
- Создание функционала для обработки входного видео (файла или потока).
- Реализация возможности выделения области лица и губ на кадре.
- Создание системы, которая преобразует визуальные паттерны движения губ в текстовую транскрипцию.
- Обеспечение приемлемой точности распознавания.
Технические требования и ожидания
- Решение может быть реализовано с использованием библиотек компьютерного зрения (например, OpenCV) и фреймворков для глубокого обучения (TensorFlow, PyTorch).
- Приветствуется опыт работы с задачами компьютерного зрения и распознавания образов.
- Необходимо предоставить работающий прототип или скрипт с инструкцией по запуску.
- Обсуждение архитектуры решения, выбора предобученных моделей (если применимо) и метрик качества - с исполнителем.
Результат работы
Готовое программное обеспечение или код, который принимает на вход видеофайл и выдает текстовую расшифровку речи говорящего, полученную путем анализа движения губ.