Разработка голосового ассистента с искусственным интеллектом

Необходимо реализовать программное решение - голосового агента, который взаимодействует с пользователем через речь, поддерживает диалог и адаптируется к контексту разговора.

Ключевые функциональные требования

  • Распознавание речи (STT): Агент должен преобразовывать голос пользователя в текст с высокой точностью.
  • Синтез речи (TTS): Обратное преобразование текстовых ответов агента в естественную человеческую речь.
  • Ведение диалога: Способность поддерживать многоуровневый разговор по заранее подготовленным сценариям и инструкциям.
  • Анализ контекста: Интеграция с GPT или аналогичной LLM-моделью для понимания контекста беседы, учета истории сообщений и генерации релевантных ответов.
  • Сценарное управление: Возможность гибкой настройки и загрузки различных диалоговых сценариев.

Технические и архитектурные ожидания

  • Решение должно быть модульным и масштабируемым.
  • Приветствуется описание предлагаемого стека технологий (язык программирования, библиотеки для STT/TTS, способы интеграции с AI-моделью).
  • Важна стабильность работы и низкая задержка при обработке аудио.
  • Необходима документация по развертыванию и настройке.

Результат работы

Готовое к использованию приложение (или прототип) голосового агента, способного принимать аудиовход, обрабатывать запрос, генерировать ответ на основе контекста и сценария и воспроизводить его голосом.