Техническое задание: Разработка гибридной поисковой системы
Мы ищем специалиста с опытом работы от 5 лет в области информационного поиска для реализации сложного проекта.
Основная задача
Построить высокоэффективную гибридную поисковую систему для работы с корпусом документов объемом приблизительно 80 000 единиц. Система должна комбинировать два метода:
- Классический BM25 для эффективного ранжирования по ключевым словам.
- Нейросетевые эмбеддинги (векторные представления) для семантического поиска и учета контекста.
Ключевые требования и цели
- Релевантность результатов - это главный приоритет проекта. Поиск должен точно находить документы, соответствующие как букве, так и смыслу запроса пользователя.
- Опыт работы с поисковыми движками (например, Elasticsearch, OpenSearch, Solr) и библиотеками для работы с эмбеддингами (sentence-transformers, etc.).
- Умение настраивать и балансировать веса между двумя методами (BM25 и нейросетевым поиском) для получения оптимального итогового ранжирования.
- Понимание принципов оценки качества поиска (метрики типа NDCG, Precision@K).
- Готовность работать с большим объемом текстовых данных.
Что мы ожидаем от кандидата
Профессиональный подход, глубокие знания в области IR (Information Retrieval), способность предложить и обосновать архитектурные решения для гибридного поиска. Проект представляет собой интересную и нетривиальную задачу для эксперта в своей области.