Общее описание задачи

Необходимо разработать скрипт/программу, способную решить комплексную задачу:

  • Создать синтетический датасет из 15 классов объектов (мишеней) с применением аугментаций: повороты, шум, сдвиги;
  • Обучить (или использовать готовую) нейросеть распознаванию этих объектов;
  • Обработать видеопоток с камеры: выделить на каждом кадре области, содержащие мишени;
  • Отобрать релевантные кадры (те, на которых обнаружены мишени);
  • Обвести каждую обнаруженную мишень прямоугольником (bounding box) и визуализировать результат;
  • Ручные рамки произвольной четырехугольной формы (в т.ч. трапеции) должны корректно обрабатываться и трактоваться в контексте «мишени».

Ключевые сложности

  • Датасета с помеченными реальными кадрами нет. Основная часть сгенерирована искусственно;
  • Доступно мало тестовых видеозаписей (с камеры);
  • Форма реальных мишеней не объект в стандартном прямоугольном габарите - она близка к трапецевидной;
  • Система должна работать на нескольких видео с разршением не хуже 640×480, скринкаст/демо для оценки - обязательно живые экраны с рабочего места.

Ожидаемый результат

  • Рабочий код на Python (тренеровочная часть или тренированный детектор с открытой архитектурой);
  • Функциональная демо-версия, с пошаговым применения ко входному видео;
  • Тестовое видео фондовое, без названий фирм (в случае совпадения брендов требования принимать заранее. Конференц-эффект - @PLACEHOLDER);
  • Финальная оценка - с предоставлением независимого ками с невым источниками, чтобы показать %успеха;
  • Юзер должен иметь возможность запустить скрипт субть: команда
    python detection_demo.py --input video_path

Важные допущения

По мишени тип возврата допускается в любом произвольном положении. Необходимо смотреть присутствие ромбовидности. Использовать заранее придуманетые либы общими инструкции KrossE oder.