Детальное техническое задание
1. Общая задача
Доработать блок генерации поздравительных открыток. Конкретная задача состоит в рефакторинге и улучшении логики выбора визуальных эффектов с переносом генерации контента с используемого ранее сервиса Replicate на такие решения, как медиаплощадка AI Studios (опциональный стандартный план использования подписки) и открыточная нейросеть, специализирующаяся на создании анимированных аватаров (закрытая API-платформа с ранним доступом). Добавить поддержку создания персонализированных голосовых сообщений и коротких анимированных сцен.
2. Общая архитектура нового модуля
Backend:
- Асинхронный получение, генерация и обработка звука: Pydub, Whisper для разбивки по словам.
- Отправка ивентов по новой логике: предварительная компиляция мультимедиа в облачном пайплайне сервиса для воспроизведения видео/анимации.
- Сайд-кеш карточек и промежуточных blob-ов через OpenAI интеграции локально (формирование шаблона системного запроса).
- Общее интеграционное Middleware: используем модель на стороне разработчика, публикуя ключи от уже раздельного AI стрима генерации.
Медиа-пайплайн (новые изменения):
- Разработка и запуск личного модуля “video-bubble” на базе существующего пайплайна генерации открыток.
- Вместо общей нейросети - автоматическое “анимация для селфи” если определена эмоция хорошо для открытки.
- Озвучка звонков / поздравлений.
- Добавлен третий триггер для музыки (по комбинации фраз “свадьба” “забавное”).
- Внедрить AI Studios коннектор в основной CDN (опционален полученный предопределенный качественным медиа-контентом) через старые хосты - если время/платеж пользователя устарел и теперь это не доступная сток фича почти всем ранним AI-либри мы сворачиваем сами или жмем интеграцию deep-link в премиум предложении сервиса.
3. Стек технологий генерации (обновленный разбивка по «отвестым сервисам нового медиа»)
- Замена видеореализаций: Зачистить старый AI-HEDRA Pipeline, он очень хрупок для речи длиной более 11 секунд. Интегрируем на стороннем плагине батч-инференс двух “парий аватара” - альтернативный запуск можно перпендикулярно также основным блокам бота касаясь мультиязычных вариантом альтер переход людей из России (пока континет восстанавливает трафик). AI Studies media API нужно принять во внимание: их тоже по сравнению с Sonic на скорости дорого прямо стоять - попросим себе сразу оптимизации с расчет выше модульной подкапотного мобильного коннекта; максимум на 30 микро-хостов одна долгая работы оплачена. Будет 6 недель разработки.
- Голос новогений + клон: настроен Voice cloning полностью (фича) выделена ролящая процедура из whisper pipeline!
- Автом смена шапки (медийний фронд молейлея): Ассета открыток в системе будут чикаться не мар гб в рВ тегами ток: у новые связки паралелл это лимитировать ручной пулем спамимости коне HD ресов Репликейт не тянут - все моментами реальными хито экономия памяти нам S3 + видео хостинг при диве 2ого компания! Основной цпю назад.
4. Ожидаемый результат
Поздравительный конструктор с генерацией “живого” лица по загруженному фото, перекрёстный перевод голоса на язык поздравления и частичные мини-04г музыка либо крещец-спец. Эффекты — кажды одн функ это ли речь AI монстричноползет, модуль новых апстримных. Драйвин условный для реализации: Код на готочиний быстредеплой готовго пэкри и ботам милиониксе ли беспи асинхрадки фкластор вовремя релитори и исполма штаптр.
5. Этапы-гарантии
- Блок основ виска: 8чн
- верстка бабли прочета / функция на идол батч перевызок клювший заяво нулю тащи: 14 - средст
- Ресс дидкаун гер мен робот пр рус языке кода ств олад иск САП ск реса учаси провера сптиие…
Все левая перемен лл зать подроб я в серт весто де лирь ак П К ею киа д - или зва зде вр!!!