Общее описание проекта
Необходимо разработать законченное Telegram-приложение, состоящее из бота и WebApp для обучения навыкам речи и работы с голосом. Пользователь отправляет голосовое сообщение, backend анализирует его с помощью ИИ-моделей и выдает структурированный результат с рекомендациями.
Основной функционал
Анализ речи
- Telegram-бот принимает голосовые сообщения длительностью от 30 до 60 секунд.
- Backend обрабатывает запись с помощью ASR (распознавание речи) и других инструментов для оценки темпа, частоты пауз, уровня громкости и выявления слов-паразитов.
- Пользователь получает краткий анализ (3-5 пунктов) и персональные рекомендации.
Обучение и упражнения
- Контент (упражнения и уроки) хранится в базе данных в виде текста, аудио- или видеофайлов с четким заданием.
- Система автоматически подбирает 1-3 упражнения на основе результатов анализа пользователя.
- Уроки делятся на 4 категории: дикция, дыхание, голос, интонация.
Практическое задание
- После прохождения не менее 3 уроков пользователю показывается подготовленный текст.
- Пользователь записывает его озвучку.
- Backend генерирует ИИ-озвучку текста с помощью TTS, затем склеивает аудио пользователя и синтезированное аудио в один файл.
- Результирующий файл возвращается пользователю для сравнения и прослушивания.
Напоминания и теория
- Пользователь получает ежедневные напоминания в Telegram о необходимости выполнить речевую разминку.
- В приложении доступна отдельная страница с разбором теоретических материалов о речевых разминках (контент предоставляется заказчиком).
Технические требования
- Backend c REST API (язык и фреймворк согласуются с исполнителем).
- Интеграция с сервисами для ASR (распознавание речи).
- Интеграция с сервисами для TTS (синтез речи).
- Обработка аудио: нормализация и склейка файлов.
- Хранение аудио-файлов и прогресса пользователей в базе данных.
- Webapp, встроенный в Telegram, должен отображать интерфейс для просмотра результатов, уроков и теорий.