Разработка скрипта для подготовки обучающих данных
Цель проекта
Создать инструмент для автоматической обработки неструктурированных текстовых данных и формирования готового датасета в формате CSV, который можно напрямую использовать для дообучения языковой модели.
Основные требования
- Разработка Python-скрипта, принимающего на вход текстовые файлы с диалогами
- Преобразование данных в структурированный CSV-файл с четко определенными колонками
- Обеспечение корректного формата данных для последующего использования в тренировочных пайплайнах
- Скрипт должен быть документирован и готов к интеграции в процесс обработки данных
Технические детали
Формат выходного файла должен соответствовать стандартам, принятым для обучения современных языковых моделей. Важно предусмотреть обработку различных сценариев входных данных и возможных ошибок формата.