Техническое задание: Подготовка датасета для обучения LLM
Необходимо выполнить комплексную очистку и подготовку предоставленного набора данных, который будет использоваться для тонкой настройки (Supervised Fine-Tuning - SFT), обучения с извлечением и генерацией (Retrieval-Augmented Generation - RAG) и инструктивного обучения (Instruct-tuning) крупной языковой модели (Large Language Model - LLM).
Основные задачи по очистке данных
- Удаление навигационных элементов, меню, подвалов (футеров) и повторяющихся блоков.
- Очистка от всех HTML-тегов, скриптов и служебных метаданных.
- Удаление подписей, технического мусора и любого контента, не несущего смысловой нагрузки для обучения модели.
- Сокрытие или анонимизация любой чувствительной информации (названия организаций, контактные данные, адреса сайтов).
- Структурирование оставшегося чистого текстового контента в пригодный для обучения формат.
Требуемый результат
На выходе должен быть получен чистый, структурированный датасет, состоящий исключительно из качественного текстового материала, готового к использованию в конвейерах обучения современных языковых моделей.