Разработка мультимодальной модели VQA

Задача

Необходимо разработать мультимодальную модель для задачи Visual Question Answering (VQA), которая по входному изображению и текстовому запросу формирует ответ на естественном языке.

Архитектура

Использовать Vision Transformer (ViT) или Swin Transformer в качестве энкодера изображений.
Применить TransformerEncoder для обработки текстового запроса.
Объединить признаки из модальностей для декодирования ответа.

Требования

Модель должна принимать на вход изображение и вопрос (строку), выводить ответ (строку).
Использовать готовые предобученные веса для ViT/Swin (например, из библиотек PyTorch или HuggingFace).
Обеспечить конкатенацию или кросс-внимание между текстовыми и визуальными эмбеддингами.
Для дообучения разрешается использовать датасет VQA v2 или аналогичный.

Выходные данные

Ожидается код модели, пример инференса, а также краткая документация по запуску и обучению.

продвижение сайтов

Настройка Яндекс Директ для компании по секционным воротам

Требуется специалист по контекстной рекламе с опытом работы в нише секционных ворот. Необходимо настроить и вести рекламную кампанию с пониманием специфики рынка и целевой стоимости заявки.

код на питоне

Разработка телеграм-бота для кофейни на Python

Требуется создать функционального Telegram-бота для автоматизации заказов в кофейне. Бот должен быть написан на чистом Python и включать админ-панель для управления меню и отслеживания заказов.

код

Настройка аудио-видеозвонков между клиентами Element

Требуется устранить ошибку соединения при звонках между веб-версией и мобильным клиентом Element, связанную с RTC focus (missing_matrix_RTC_FOCUS). Решение должно быть реализовано в существующей локальной Docker-среде.