Выгрузка стенограмм с образовательных видео
Описание задачи
Имеется серия из 12 лекционных роликов на одной из видеоплатформ. Для каждого видео в интерфейсе есть готовая расшифровка (транскрипция), но она не копируется целиком, а автоперевota вручную, с разделением на небольшие фрагменты с временными метками. Задача облегчить подготовку текстов для последующей отправки в нейросети.
Что нужно сделать:
- Качественно скопировать транскрипции из каждого из 12 видео;
- Удалить все временные отметки (тайм-коды) чтобы получить чистый текст;
- Систематизировать файл по строгому принципу: 1 лекция = 1 полная транскрипция;
- Прислать файлы формате .doc или .txt для текстовых моделей;
Дополнительные указания:
- С правами доступа к видео проблем нет, весь контент уже доступен подписчикам.
- Инструменты и подход не ограничивается чем-то одним: дозволяется использование ботов, автоматических экспортёров или даже ручного копирования. Главное результат - текст без меток и форматирования.
- Если технически нет возможности скачивать скриптами - подходит режим ручной обработки.
Ожидаемый результат на выходе
- 12 отдельных или 1 общий файл с четким разделением на лекции.
- Отсутствие времени, дат, ID видео любого типа.
- Исходник загружается без вмешательства в html-код платформ. Ничего менять и грузить через api не надо, если это нарушает права доступа.