Техническое задание: Обработка данных каталога автозапчастей
Исходные данные
- 15 текстовых файлов с информацией об автомобильных запчастях.
- Общий объем данных составляет приблизительно 1.5 ГБ.
Требуемые действия по обработке данных
1. Очистка и дедупликация
- Удалить строки с дублирующимися номерами (артикулами) запчастей, оставив уникальные позиции.
2. Фильтрация по производителям
- Исключить из данных всех неизвестных производителей.
- Оставить в результате только оригинальных (OEM) производителей.
3. Фильтрация по габаритам
- Удалить крупногабаритный товар. Критерий отбора - сортировка по объему товара (логистическому объему).
4. Фильтрация по ценовому диапазону
- Убрать все позиции, цена которых ниже 20 000 рублей.
- Убрать все позиции, цена которых превышает 200 000 рублей.
5. Фильтрация по наименованиям
- Исключить позиции по определенному списку наименований или ключевых слов (список будет предоставлен отдельно).
6. Преобразование и разделение выходных данных
- Преобразовать итоговые отфильтрованные данные в формат Excel (XLSX).
- Разделить общий массив данных на несколько файлов, чтобы в каждом было не более 450 000 строк.
7. Финальная сортировка
- В каждом итоговом Excel-файле отсортировать данные по цене в порядке убывания (от большей к меньшей).
Результат работы
Набор Excel-файлов, каждый до 450 тыс. строк, содержащих очищенные, отфильтрованные и отсортированные данные об автозапчастях, готовые для дальнейшего анализа или использования.