Техническое задание на разработку системы контентного клонирования и допиллинга
Исходные данные
У нас есть основной проект и похожий на него проект, который планируется наполнить переработанным контентом с первого ресурса.
Ключевая задача
Создать программный пайплайн, который полностью автоматизирует перенос и трансформацию данных, сведя участие человека к минимальному контролю.
Этапы работы
- Парсинг донорского сайта - сбор заголовков, описаний и отзывов (структурированный обход страниц).
- AI-обработка данных - рерайт и реструктуризация по новой схеме: выделение автора курса, описание программы, состава и других сущностей.
- Автоматический первичный постинг на сателлит - загрузка готового контента в нужном формате (например, через API или CSV/XML).
Пример трансформации
- Исходная страница донора содержит инфобабл с названием, текстом и отзывами.
- На сателлите та же информация превращается в разлог по темам (автор, программа курса, отзывы студента и т.д.) - например, переключение между представлениями через обычные ссылки.
Важные требования
Не указывать в задании конкретные названия фирм, сайтов или телефонов.
Предпочтительные инструменты: Python / PHP / n8n / make.com + LLM API (например, ChatGPT или свой фронтенд).
Вся логика должна работать как единый конвейер: (1) фильтрация сырого HTML → (2) преобразование через нейросеть → (3) складирование в формат для заливки.