Общее описание задачи
Необходима нейросеть (или набор инструментов), которая позволяет загружать готовый видеофайл на русском языке, обрабатывать его и получать на выходе видеофайл на английском языке (американский вариант). Дополнительно требуется функция генерации уникальных картинок/фотографий на основе запросов пользователя. Ключевое условие: решение не должно быть известным и дорогим релизом (как Sora, Midjourney Enterprise, Google Veo), предлагаются только бюджетные или самодельные варианты.
Основные функции
- Перевод голоса/субтитров в видео с русского на американский английский (сохранение звуковой дорожки или создание наложенных субтитров).
- Генерация оригинальных фотоизображений (без плагиата, по текстовому описанию или англоязычным фрагментам).
- Возможность загрузить собственное видео (.mp4) и скачать итоговый переведенный файл без внешних водяных знаков.
- Работа с длинным видео (по 10 - 20 минут) без критических ошибок и высоких затрат.
Требования к исполнителю
Объяснить перечень конкретных сервисов, библиотек (например, Whisper + RVC + API перевода, Stable Diffusion для картинок), предоставить веб-интерфейс или NLP бота в цепочке загрузка ↔ обработка ↔ выдача результата. От исполнителя ожидается:
- Помощь в подборе стека технологий, совместимых с несложным интерфейсом (TG бот / local web-апп).
- Настройка конвейера обработки: распознавание речи → перевод → синтез или наложение субтитров на полное видео.
- Функция паковой генерации дополнительного фото-контента по заданным запросам.
Инструменты классифицируются с указанием открытого кода и умерением бюджета - приоритет бесплатным или одноразово низким по оплате библиотекам