Общее описание проекта

Необходимо разработать интеллектуального Telegram-бота для работы с корпоративными документами. Система должна сочетать в себе методы Retrieval-Augmented Generation (RAG) и классическую реляционную базу данных для управления пользователями.

Стек и архитектура базы данных

Векторная база данных

  • Тип: Система на основе векторных эмбеддингов.
  • Масштабируемость: Использование концепции multi-tenancy (или тегирование) для единой работы с чанками от 10 различных источников. Каждый чанк должен быть помечен тегом source_id.

Реляционная база данных

  • Назначение: Хранение профилей пользователей, логов запросов и системы управления правами доступа (RBAC).

Обработка данных и обновления

  • Периодичность: Ежедневная загрузка (инжект) новых данных через API.
  • Модель: Использование нейросетевых моделей для генерации эмбеддингов из текстовой информации.
  • Актуализация: Автоматическая архивация неактуальных записей на основе даты или внутреннего статуса ID источника.

Интерфейс и логика бота в Telegram

  • Тип поиска: Семантический поиск по векторному пространству.
  • Формат ответа:
    • Если найдено 3 или менее пункта → выдача списком в чате.
    • Если найдено более 3 пунктов → генерация веб-страницы через Telegraph API или создание микро-лендинга с полным списком результатов.

Администрирование и система ролей

  • Роли пользователей: Администратор (Admin) и Обычный пользователь (User).
  • Интерфейс администратора:
    • CRUD операции с пользователями (включение/отключение аккаунтов).
    • Просмотр статистики: дата создания профиля, активность, распределение срабатываний по источникам.
    • Панель мониторинга: текущая нагрузка и объем занятого пространства в векторной базе.