Дообучение NLP-модели на данных транскрибации звонков
Требуется выполнить дообучение модели анализа текста на основе предоставленного датасета. Данные представляют собой текстовые расшифровки телефонных разговоров, собранные за один год.
Основные задачи
- Анализ предоставленного корпуса текстов (транскриптов).
- Подготовка данных для дообучения модели.
- Настройка и дообучение существующей модели машинного обучения для задач анализа текста (например, классификация интентов, тональный анализ, извлечение сущностей или иная, согласованная с заказчиком, задача).
- Тестирование и оценка качества дообученной модели.
- Предоставление отчета о проделанной работе и результатах.
Требования к данным
Исходные данные: текстовые файлы с расшифровками аудиозаписей телефонных разговоров. Объем данных - архив за 12 месяцев.
Ожидаемый результат
- Дообученная модель, готовая к использованию.
- Документация по использованию модели.
- Метрики, подтверждающие улучшение/адаптацию модели под целевую задачу.