Техническое задание: Разработка гибридной поисковой системы

Мы ищем специалиста с опытом работы от 5 лет в области информационного поиска для реализации сложного проекта.

Основная задача

Построить высокоэффективную гибридную поисковую систему для работы с корпусом документов объемом приблизительно 80 000 единиц. Система должна комбинировать два метода:

  • Классический BM25 для эффективного ранжирования по ключевым словам.
  • Нейросетевые эмбеддинги (векторные представления) для семантического поиска и учета контекста.

Ключевые требования и цели

  • Релевантность результатов - это главный приоритет проекта. Поиск должен точно находить документы, соответствующие как букве, так и смыслу запроса пользователя.
  • Опыт работы с поисковыми движками (например, Elasticsearch, OpenSearch, Solr) и библиотеками для работы с эмбеддингами (sentence-transformers, etc.).
  • Умение настраивать и балансировать веса между двумя методами (BM25 и нейросетевым поиском) для получения оптимального итогового ранжирования.
  • Понимание принципов оценки качества поиска (метрики типа NDCG, Precision@K).
  • Готовность работать с большим объемом текстовых данных.

Что мы ожидаем от кандидата

Профессиональный подход, глубокие знания в области IR (Information Retrieval), способность предложить и обосновать архитектурные решения для гибридного поиска. Проект представляет собой интересную и нетривиальную задачу для эксперта в своей области.