Задача: Миграция каталога из PDF в WooCommerce
Имеется подробный каталог продукции на 227 страницах в формате PDF. На каждой странице указаны артикулы, названия, описания, характеристики и изображения товаров. Необходимо собрать все данные, локализовать их (перевести на русский), разложить по рубрикам и создать единый файл импорта для плагина WooCommerce.
Что должен сделать файл импорта
Извлечение данных: парсинг всех страниц PDF с сохранением ключевых полей: артикул (SKU), наименование товара, описание (многоязычное), характеристики, количество, ссылки на изображения.
Перевод на русский: минимум наименования, описания и текстовые характеристики. Машинный перевод допустим, но с вычисткой артефактов средствами Python/helpers.
Структурирование по категориям: товары должны повторять иерархию оригинального каталога. Количество и названия уровней уточнить в процессе согласования.
Подготовка к импорту: генерация единого файла в одном из форматов - XML , CSV для AllImport, или WordPress WXR. Формат согласуем.
Примечания к исполнителю
- Веc PDF ~30 Mb
- Цены, пол, срок фактической доставки производитель не указывает.
- Названия компаний, сайт поставщика, номера телефонов должны быть удалены, чтобы избежать коллизий авторских прав.
Важные условия
- После обработки все информационные контакты (юридический адрес, идентификаторы производителя и т.п.) необходимо заменить или ставить плэйсхолдер (004).
- Дедлайн уточняется, приоритет - аккуратность и релевант товарного ассортимента.