Техническое задание: Настройка пайплайна для создания вертикального контента с AI-аватаром
Ищу специалиста для настройки комплексного решения по созданию коротких вертикальных видеороликов с моим цифровым двойником. Цель - продажа продукта через вирусный и эмоциональный контент.
Ключевая проблема текущих решений
- Голос: Существующие синтезаторы выдают "роботизированную" речь без живых интонаций и естественной эмоциональной окраски.
- Визуал: Текущие платформы создают аватаров с неестественной мимикой и неуместными движениями (например, жестикуляция не в такт речи).
Цель проекта
Переход на более продвинутую связку инструментов, чтобы цифровая копия выглядела и звучала как живой человек: с реалистичной артикуляцией, естественными эмоциями и плавными движениями.
Конкретные задачи для специалиста
1. Настройка эмоционального синтеза речи
- Интеграция генератора голоса с языковой моделью (например, Gemini) для автоматической разметки эмоций (удивление, восторг, убежденность) прямо в тексте сценария.
- Достижение естественного, "человеческого" звучания голоса аватара.
2. Подбор и настройка инструмента для липсинка
- Выбор решения для синхронизации движения губ, которое не искажает черты лица и выглядит фотореалистично.
3. Оптимизация процесса производства
- Демонстрация и настройка быстрого пайплайна для сборки готовых роликов длительностью 1-3 минуты в высоком качестве.
- Обучение работе с настроенной связкой.
Формат работы
Обсуждение и настройка будут проводиться на созвоне с демонстрацией экрана (Screen Sharing).