Техническое задание: Подготовка датасета для обучения LLM

Необходимо выполнить комплексную очистку и подготовку предоставленного набора данных, который будет использоваться для тонкой настройки (Supervised Fine-Tuning - SFT), обучения с извлечением и генерацией (Retrieval-Augmented Generation - RAG) и инструктивного обучения (Instruct-tuning) крупной языковой модели (Large Language Model - LLM).

Основные задачи по очистке данных

  • Удаление навигационных элементов, меню, подвалов (футеров) и повторяющихся блоков.
  • Очистка от всех HTML-тегов, скриптов и служебных метаданных.
  • Удаление подписей, технического мусора и любого контента, не несущего смысловой нагрузки для обучения модели.
  • Сокрытие или анонимизация любой чувствительной информации (названия организаций, контактные данные, адреса сайтов).
  • Структурирование оставшегося чистого текстового контента в пригодный для обучения формат.

Требуемый результат

На выходе должен быть получен чистый, структурированный датасет, состоящий исключительно из качественного текстового материала, готового к использованию в конвейерах обучения современных языковых моделей.

Разработка архитектурного проекта и 3D-визуализации коммерческого здания для ритейла

Требуется создать проект двухэтажного здания площадью 1100 м² для продуктового магазина и офисов, включая планировку и 3D-визуализацию на основе предоставленного участка и примеров.

Создание англоязычной версии песни через SUNO

Требуется профессиональная помощь в настройке генерации англоязычной версии уже готовой песни. Ищу специалиста, который возьмет на себя коммуникацию с сервисом SUNO для получения качественного дубляжа.

3D рендер кромок для столешниц из камня

Требуется создать набор 3D рендеров для 10 различных типов кромок каменных столешниц. Работа должна быть выполнена в едином ракурсе с четким выделением формы кромки. Использование нейросетей не гарантирует прием результата.