Разработка AutoML-системы с использованием Python, ClickHouse и AutoGluon

Требуется опытный разработчик для реализации комплексного решения, объединяющего проектирование высокопроизводительного хранилища данных и создание автоматизированного конвейера машинного обучения.

Основные задачи проекта

  • Проектирование и реализация базы данных ClickHouse: разработка оптимальной схемы данных, настройка кластера (при необходимости), обеспечение эффективности запросов для работы с большими объемами информации, которые будут использоваться для обучения моделей.
  • Внедрение AutoGluon: настройка и адаптация фреймворка AutoGluon для автоматического построения, обучения и оценки моделей машинного обучения на основе данных из ClickHouse.
  • Интеграция компонентов: создание единого пайплайна, который будет забирать данные из ClickHouse, передавать их в AutoGluon для обучения и валидации моделей, а также сохранять результаты (метрики, артефакты моделей) обратно в базу или в выделенное хранилище.
  • Документирование и сопровождение: предоставление документации по архитектуре базы данных и работе ML-пайплайна.

Требования к исполнителю

  • Опыт работы с СУБД ClickHouse (проектирование схем, оптимизация запросов, администрирование).
  • Глубокие знания Python и опыт работы с библиотеками для Data Science (pandas, numpy, scikit-learn).
  • Практический опыт использования фреймворков автоматизированного машинного обучения (AutoGluon, TPOT, H2O AutoML и т.п.). Приоритет - AutoGluon.
  • Понимание полного цикла ML-проектов: от подготовки данных до развертывания модели.
  • Умение проектировать отказоустойчивые и масштабируемые ETL-процессы.

Ожидаемый результат

  • Работающая и настроенная база данных ClickHouse, готовая к приему данных для ML.
  • Реализованный и протестированный конвейер AutoML на базе AutoGluon, интегрированный с базой данных.
  • Примеры обучения моделей на тестовых данных и документация по использованию системы.