Общее описание проекта
Необходимо создать систему (инструмент), которая автоматически обрабатывает набор готовых изображений (слайдов) и превращает каждый слайд в серию кадров для анимации. Основные этапы задачи:
1. Входные данные
- Набор готовых графических слайдов (изображения формата PNG/JPG).
- Слайды могут содержать: фон, заголовки, подписи, графику, фотографии, стрелки, метки (штампы) и другие элементы.
2. Функциональные требования
- Анализ структуры. AI должен распознать все элементы слайда, их тип (контейнер, текст, изображение, декоративный элемент).
- Логичная очередность. На основе последовательности презентации AI предполагает естественный порядок появления элементов (например: сначала фон, затем заголовок, затем вставка изображения, потом текстовые блоки).
- Разбивка на кадры-этапы. Для каждого слайда строится последовательность кадров (шагов анимации). Первый кадр содержит только фон (восстановленный/изолированный), следующие кадры добавляют по одному или группе элементов.
- Восстановление фона. Инструмент использует технологию генерации фона (например, AI для дорисовывания/чистки - упоминается как возможная используемая система). Цель - получить «пустой» слайд без элементов, на основе которого собирается первый кадр.
- Формат на выходе. Для каждого слайда возвращается тот же первый (чистый фон) и последний (полный слайд) кадры. Также можно формировать полную последовательность, если в дальнейшем потребуется покадровая анимация.
3. Бюджетные и технические рамки
- Все решения принимаются разработчиком исходя из требований эффективности/дешевизны.
- Необходимо предложить оптимальный состав инструментов и сервисов AI - отдать предпочтение недорогим API с оплатой за токены или количество обращений.
- В проект не обязана входить конечная видеогенерация - требуется отдавать кадры (изображения) для последующей передачи в анимационный рендер от других систем.
- Интеграция, выбор стека (язык/фреймворк/База/облачные сервисы/- свободна для реализации.
4. Практическая ценность выдачи
Задача реализуема при условии корректного подбора библиотек компьютерного зрения (OpenCV/Detection libraries), AI для классификации слоев (RAG/DL модели) и модуля маски фона. Важной частью проработки является предложение стабильного точного способа очистки/восстановления фона до 100% - основной риск и сложность.