Техническое задание: Очистка и подготовка базы вопросов
Цель проекта
Необходимо обработать, очистить и привести к единому структурированному виду базу данных, содержащую вопросы и сопутствующие изображения. Данные были собраны из нескольких независимых источников и требуют консолидации и валидации.
Исходные данные и объём работ
- Общий объём базы: приблизительно 37 500 вопросов.
- Часть вопросов содержит прикреплённые изображения.
- Данные получены из 4 различных источников (сайтов).
Основные задачи
1. Очистка и нормализация данных
- Проверка целостности текстовых записей (вопросов).
- Удаление дубликатов, пустых и некорректных записей.
- Приведение форматов и кодировок к единому стандарту.
2. Работа с медиафайлами (изображениями)
- Анализ имеющихся графических файлов.
- Корректное сопоставление каждого изображения с соответствующей записью в базе вопросов.
- Валидация связок «вопрос - изображение» (проверка на релевантность, отсутствие битых ссылок или файлов).
3. Формирование итоговой структуры
- Создание чистой, упорядоченной и готовой к использованию базы данных.
- Обеспечение чёткой и однозначной связи между всеми элементами данных.
Требования к результату
На выходе должна быть предоставлена полностью обработанная база, в которой каждый вопрос корректно отформатирован, а все связанные изображения правильно ассоциированы с соответствующими записями. Целостность данных должна быть гарантирована.