Техническое задание: Очистка семантического ядра

Имеется исходный файл, содержащий около 2 000 000 строк с ключевыми словами и поисковыми фразами. Необходимо выполнить его комплексную обработку для последующего использования в SEO-оптимизации.

Основные задачи

  • Удаление дубликатов: Необходимо найти и удалить все повторяющиеся ключевые фразы. Дубликатами считаются не только точные совпадения, но и фразы, являющиеся перестановками одних и тех же слов (например, "купить телефон недорого" и "недорого купить телефон").
  • Очистка от мусора: Требуется отфильтровать и удалить невостребованные, нерелевантные или бессмысленные ключевые запросы, которые не несут ценности для продвижения.

Требования к результату

  • На выходе должен быть предоставлен файл с уникальным, очищенным списком ключевых слов.
  • Алгоритм обработки должен корректно работать с большим объемом данных.
  • Желательно краткое описание примененных методов фильтрации.