Техническое задание: Очистка дубликатов товаров

Суть проблемы

На сайт были загружены тысячи товаров, полученных путем парсинга внешнего источника. Примененный метод проверки на дубли оказался неэффективным - значительная часть товаров осталась с дубликатами. Необходимо разработать и реализовать надежное решение для их выявления и очистки.

Ключевые требования

  • Разработать эффективный алгоритм для точного определения дублирующихся товарных позиций среди нескольких тысяч записей.
  • Критерий удаления: при обнаружении дубля необходимо удалять новосозданную карточку (дата создания: октябрь, ноябрь, декабрь), оставляя оригинальный (старый) товар.
  • Алгоритм должен учитывать возможные незначительные различия в названиях, артикулах или описаниях, характерные для парсинга.
  • Предоставить отчет о проделанной работе: количество найденных и удаленных дубликатов.

Желаемый результат

Чистая база товаров без повторяющихся позиций, где для каждого уникального продукта сохранена только одна, самая ранняя карточка.