Разработка скрипта для подготовки обучающих данных

Цель проекта

Создать инструмент для автоматической обработки неструктурированных текстовых данных и формирования готового датасета в формате CSV, который можно напрямую использовать для дообучения языковой модели.

Основные требования

  • Разработка Python-скрипта, принимающего на вход текстовые файлы с диалогами
  • Преобразование данных в структурированный CSV-файл с четко определенными колонками
  • Обеспечение корректного формата данных для последующего использования в тренировочных пайплайнах
  • Скрипт должен быть документирован и готов к интеграции в процесс обработки данных

Технические детали

Формат выходного файла должен соответствовать стандартам, принятым для обучения современных языковых моделей. Важно предусмотреть обработку различных сценариев входных данных и возможных ошибок формата.

Разработка Telegram-бота автоюриста с использованием G4F

Требуется создать интеллектуального Telegram-бота для консультаций в области автомобильного права. Бот должен работать на базе фреймворка Aiogram и использовать модель G4F для генерации ответов. Основные темы: ДТП, административные нарушения, споры со страховыми компаниями.

Динамичный монтаж видео с персонажами для караоке-колонки

Требуется смонтировать 5-секундный динамичный ролик. В основной видеоролик о товаре необходимо вставить пять коротких клипов с поющими персонажами, создав эффект их быстрой смены и "вылета" из колонки. Нужно удалить белый фон с клипов и добавить текстовую подпись.