Разработка системы диаризации и идентификации голосов
Необходимо создать программное решение, которое автоматически обрабатывает аудиозаписи совещаний, преобразует речь в текст с привязкой к конкретным участникам.
Основные функции системы
- Транскрибация: Преобразование аудиопотока (русская речь) в текстовый формат с высокой точностью.
- Диаризация: Автоматическое разделение записи на речевые сегменты по разным говорящим.
- Идентификация спикеров: Сопоставление каждого речевого сегмента с голосовым профилем сотрудника из предварительно сформированной базы (до 60 человек).
- Управление голосовой базой: Возможность регистрации сотрудников путем записи образца их голоса (несколько секунд/минут).
- Формирование отчета: Предоставление итогового текста с временной разметкой и указанием имени спикера. Неопознанные голоса должны маркироваться как "Неизвестный".
Ключевые требования
- Экономичность: Архитектура и выбор инструментов должны минимизировать ежемесячные эксплуатационные расходы.
- Обработка наложений: Система должна корректно работать в ситуациях, когда несколько человек говорят одновременно (overlapping speech).
- Гибкость реализации: Допускается использование облачных API, полностью open-source решений или их гибрида.
Ожидаемый результат от исполнителя
В отклике необходимо предоставить:
- Предлагаемый технологический стек (модели, сервисы, библиотеки).
- Примерную оценку ежемесячной стоимости эксплуатации.
- Сроки выполнения проекта.
- Описание релевантного опыта работы с аудио, машинным обучением и распознаванием речи (желательно с примерами проектов).
Итоговый продукт: Исполнитель предоставляет исходный код проекта. Разработка сложного пользовательского интерфейса или API не требуется - решение будет интегрировано в существующую инфраструктуру заказчика.