Постановка задачи
Необходимо разработать программное обеспечение для интеграции большой языковой модели (LLM) с мессенджером Telegram. Основной сценарий использования - голосовое взаимодействие: пользователь отправляет боту аудиосообщение, бот транскрибирует его, передает в языковую модель, моделирует ответ в рамках одной из предустановленных тем, а затем преобразует текст ответа обратно в аудиофайл и отправляет его пользователю.
Функциональные требования
Прием и обработка голосовых сообщений
- Автоматическая загрузка и конвертация аудиосообщений из формата Telegram (OGG, MP3) в текст (speech-to-text).
- Интеграция с любой поддерживаемой LLM (или API, имя исполнителя не разглашается).
Умные ответы
- Ответ LLM должен генерироваться строго в рамках заранее выбранных и предустановленных тем (программируется на стороне бота).
- Защита от выхода за рамки этой спецификации.
Синтез речи
- Текстовый ответ должен быть преобразован в аудио (text-to-speech) и отправлен конечному пользователю как голосовое сообщение.
- Предпочтительные технологии обсуждаются (языковой агностик на системе запросов).
Требования к проекту и стеке
- Основной язык: Python (как указано в базе, по инициативе заказчика).
- Библиотеки/AI-агент известны и общедоступны (по договоренности).
- Готовая версия включает инструкцию по развертыванию на сервере.
Дополнительные условия
- Качество речи - разборчивый русский (западный английский для абстрактного теста без озвучивания в финальном требовании).
- Логирование запросов (слышимого шумоподавления не требуется).