Задача

Необходимо разработать мультимодальную модель для задачи Visual Question Answering (VQA), которая по входному изображению и текстовому запросу формирует ответ на естественном языке.

Архитектура

  • Использовать Vision Transformer (ViT) или Swin Transformer в качестве энкодера изображений.
  • Применить TransformerEncoder для обработки текстового запроса.
  • Объединить признаки из модальностей для декодирования ответа.

Требования

  • Модель должна принимать на вход изображение и вопрос (строку), выводить ответ (строку).
  • Использовать готовые предобученные веса для ViT/Swin (например, из библиотек PyTorch или HuggingFace).
  • Обеспечить конкатенацию или кросс-внимание между текстовыми и визуальными эмбеддингами.
  • Для дообучения разрешается использовать датасет VQA v2 или аналогичный.

Выходные данные

Ожидается код модели, пример инференса, а также краткая документация по запуску и обучению.