Техническое задание: Парсер статей для WordPress
Цель проекта
Разработать автономный PHP-скрипт, который автоматически собирает контент с указанных источников, обрабатывает его и публикует в качестве постов в WordPress, минимизируя ручной труд.
Основные функции и требования
1. Парсинг контента
- Скрипт должен принимать URL статьи с внешнего сайта.
- Извлекать заголовок (тег title или h1).
- Извлекать основной текстовый контент статьи, очищая его от рекламы, навигационных элементов, комментариев и другого лишнего HTML-мусора.
- Находить и извлекать URL главного (основного) изображения статьи.
2. Работа с WordPress
- Публикация поста через REST API WordPress (wp-json/wp/v2/posts).
- Загрузка извлеченного главного изображения в медиабиблиотеку WordPress через API.
- Установка этого изображения как обложки (featured image) для созданного поста.
- Реализация проверки на дубликаты (например, по заголовку или URL исходной статьи), чтобы избежать повторной публикации одного и того же материала.
3. Технические детали реализации
- Скрипт должен быть представлен в виде одного готового PHP-файла.
- Код должен быть написан просто и без излишних усложнений архитектуры.
- Необходимо предусмотреть возможность автоматического запуска по расписанию (например, с помощью cron на сервере).
- В коде должны быть четко выделены места для подстановки данных авторизации WordPress (логин, пароль приложения, URL сайта).
4. Результат работы
- Готовый к использованию PHP-файл.
- Краткая инструкция по настройке (где прописать учетные данные, как добавить задание в cron).
Ожидаемый результат
Заказчик получает рабочее решение "под ключ", которое после минимальной настройки автоматически наполняет сайт контентом из заданных источников.