Нейросеть для перевода видео и генерации изображений

Общее описание задачи

Необходима нейросеть (или набор инструментов), которая позволяет загружать готовый видеофайл на русском языке, обрабатывать его и получать на выходе видеофайл на английском языке (американский вариант). Дополнительно требуется функция генерации уникальных картинок/фотографий на основе запросов пользователя. Ключевое условие: решение не должно быть известным и дорогим релизом (как Sora, Midjourney Enterprise, Google Veo), предлагаются только бюджетные или самодельные варианты.

Основные функции

Перевод голоса/субтитров в видео с русского на американский английский (сохранение звуковой дорожки или создание наложенных субтитров).
Генерация оригинальных фотоизображений (без плагиата, по текстовому описанию или англоязычным фрагментам).
Возможность загрузить собственное видео (.mp4) и скачать итоговый переведенный файл без внешних водяных знаков.
Работа с длинным видео (по 10 - 20 минут) без критических ошибок и высоких затрат.

Требования к исполнителю

Объяснить перечень конкретных сервисов, библиотек (например, Whisper + RVC + API перевода, Stable Diffusion для картинок), предоставить веб-интерфейс или NLP бота в цепочке загрузка ↔ обработка ↔ выдача результата. От исполнителя ожидается:

Помощь в подборе стека технологий, совместимых с несложным интерфейсом (TG бот / local web-апп).
Настройка конвейера обработки: распознавание речи → перевод → синтез или наложение субтитров на полное видео.
Функция паковой генерации дополнительного фото-контента по заданным запросам.

Инструменты классифицируются с указанием открытого кода и умерением бюджета - приоритет бесплатным или одноразово низким по оплате библиотекам

общая

Общее описание задачи

Основные функции

Требования к исполнителю

Обработка вокала для песни ведьмы в кукольном спектакле

Привлечение аудитории в Telegram и соцсеть на основе авторского контента

Уникальный дизайн многостраничного сайта для зарядных станций