Суть задачи
Заказчик использует два WordPress-плагина, которые, по сути, преобразуют контент сайта в статический формат (чистый HTML или PHP).
Основные проблемы в выгруженном коде
- При генерации статики в финальном коде остаются ссылки на некое изначальное доменное имя (системные URL оЕmbed). Пример: <link>, ведущий на домен стороннего бота или проекта, к которому идёт прямое обращение.
- По умолчанию или маске плагины добавляют служебный мета-тег: <meta name="robots" content="noindex, nofollow">. Он критичен, поэтому его якорное присутствие в сгенерированных файлах недопустимо.
Требования к доработке
- Полная фильтрация всех URL, указывающих на сторонний вредоносный или арендуемый домен в выгрузке (особенно в блоке тегов <link="alternate"> в wp-json-. Данный адрес не фигурирует ни в одном файле после обработки).
- Принудительное удаление тега robots="noindex, follow|nofollow" из итоговой разметки всего контента. Либо сделать так, чтобы динамические ссылки и мета-настройки экранировались автоматически.
- Сгенерированные файлы не должны содержать символьные отсылки к оригиналу бота/ресурса указывающего не на основной основной проекта.