Общее описание проекта

Необходимо разработать законченное Telegram-приложение, состоящее из бота и WebApp для обучения навыкам речи и работы с голосом. Пользователь отправляет голосовое сообщение, backend анализирует его с помощью ИИ-моделей и выдает структурированный результат с рекомендациями.

Основной функционал

Анализ речи

  • Telegram-бот принимает голосовые сообщения длительностью от 30 до 60 секунд.
  • Backend обрабатывает запись с помощью ASR (распознавание речи) и других инструментов для оценки темпа, частоты пауз, уровня громкости и выявления слов-паразитов.
  • Пользователь получает краткий анализ (3-5 пунктов) и персональные рекомендации.

Обучение и упражнения

  • Контент (упражнения и уроки) хранится в базе данных в виде текста, аудио- или видеофайлов с четким заданием.
  • Система автоматически подбирает 1-3 упражнения на основе результатов анализа пользователя.
  • Уроки делятся на 4 категории: дикция, дыхание, голос, интонация.

Практическое задание

  • После прохождения не менее 3 уроков пользователю показывается подготовленный текст.
  • Пользователь записывает его озвучку.
  • Backend генерирует ИИ-озвучку текста с помощью TTS, затем склеивает аудио пользователя и синтезированное аудио в один файл.
  • Результирующий файл возвращается пользователю для сравнения и прослушивания.

Напоминания и теория

  • Пользователь получает ежедневные напоминания в Telegram о необходимости выполнить речевую разминку.
  • В приложении доступна отдельная страница с разбором теоретических материалов о речевых разминках (контент предоставляется заказчиком).

Технические требования

  • Backend c REST API (язык и фреймворк согласуются с исполнителем).
  • Интеграция с сервисами для ASR (распознавание речи).
  • Интеграция с сервисами для TTS (синтез речи).
  • Обработка аудио: нормализация и склейка файлов.
  • Хранение аудио-файлов и прогресса пользователей в базе данных.
  • Webapp, встроенный в Telegram, должен отображать интерфейс для просмотра результатов, уроков и теорий.