Парсинг и систематизация данных по запчастям
У нас есть обширная база данных (около 17 000 товарных позиций) с артикулами и наименованиями запчастей для спецтехники. Основная задача - дополнить таблицу недостающей информацией.
Техническое задание
Исходные данные
- Таблица (формат: Excel/CSV) с колонками: Артикул запчасти, Название запчасти;
- Количество строк: 17 000.
Что нужно получить на выходе
- Такая же таблица, но с двумя новыми колонками: Бренд техники (например, производитель трактора или экскаватора) и Модель техники, к которой данная запчасть подходит.
- Данные ожидаются максимально структурированные и доработанные для загрузки в каталог (ЦА - технические специалисты и ремонтные службы).
Методы сбора данных
Разрешено использовать:
- Парсинг крупных специализированных маркетплейсов или агрегаторов запчастей;
- Готовые коммерческие или открытые базы данных (скрипты, API);
- Собственные алгоритмы на базе ИИ (например, языка-схожести для определения бренда по косвенным данным).
Ограничения и пожелания
- Формат итогового файла: Excel/ CSV (в виде сводной таблицы);
- Каждая запчасть должна быть однозначно идентифицирована хотя бы одним брендом и моделью техники.
- Сложные моменты из списка нестандартных артикулов игнорировать (главное - обеспечить покрытие для ~90-95% массива).
Процесс коммуникации и бюджет
Примерный бюджет и срок готовности уточняются с исполнителем. Предисловие не требуется. Просьба откликнуться с указанием предполагаемой структуры парсинга (источники, используемые инструменты).