Описание задачи
Требуется разработать дипфейк-аватар (или генеративный ИИ-аватар), который работает в реальном времени через Zoom-видеозвонки. Основная цель - создать реалистичную маску лица пользователя с голосовым выводом, чтобы плагин или приложение не лагало и не вызывало заметных задержек (дёрганий).
Ключевые требования
- Интеграция с популярными платформами видеоконференций (Zoom, Skype, Telegram, Discord).
- Нейросетевая маска, имитирующая внешность реального человека с мимикой и артикуляцией.
- Встроенный речевой синтез (TTTS + Lip sync), чтобы голос совпадал по времени с движением губ.
- Минимальные задержки (sub-second latency) и отсутствие видимых артефактов (дёрганий, размытий).
- Поддержка накладывания на собственное видео или замена полностью (голова + голос).
- Исправление артефактов в реальном времени (глаза, контуры лица, синхронизация звука и видео).
Дополнительные пожелания
- Желательно использование предобученных моделей на основе StyleGAN, Wav2Lip или DeepFacelive.
- Возможность легкой кастомизации: изменить лицо или голос через загрузку данных.
- Работа на обычных ноутбуках (50-100 Мбайт ОЗУ, необязательно топ GPU).
- На готовом решении не должно быть упоминаний сторонних брендов или ссылок на техникуп.
Критерии приёмы
- При тесте звонка в Zoom маска следует за лицом и мои движения, губы синхронизированы с голосом.
- Запись не требует постобработки.
- Отсутствие заметной задержки (артефакты не мешают общению).