ENIGMA AI
ENIGMA AI

Что такое одностадийные архитектуры в контексте компьютерного зрения и как они устроены?

встречается 1× middle architecture

Как ответить

Одностадийные архитектуры (one-stage detectors) — это семейство детекторов объектов, которые предсказывают bounding boxes и классы за один проход через нейросеть, без отдельного этапа генерации регионов-кандидатов. В отличие от двухстадийных подходов (Faster R-CNN, Mask R-CNN), здесь нет Region Proposal Network (RPN) и последующей классификации каждого предложенного региона. Основные представители: YOLO (You Only Look Once), SSD (Single Shot MultiBox Detector) и RetinaNet.

Устройство типичной одностадийной архитектуры:

  • Backbone — свёрточная сеть (ResNet, VGG, DarkNet) для извлечения признаков из входного изображения. На выходе получаем карту признаков уменьшенного разрешения.
  • Detection head — набор свёрточных слоёв, который для каждой пространственной ячейки карты признаков (или для нескольких масштабов) предсказывает набор предопределённых anchor boxes. Для каждого anchor вычисляются смещения (dx, dy, dw, dh) и вероятности классов.
  • Постобработка — Non-Maximum Suppression (NMS) для удаления дублирующих предсказаний.

В SSD карта признаков берётся на нескольких разрешениях (multiscale), чтобы детектировать объекты разных размеров. YOLO (начиная с v3) использует три масштаба с различными anchor-боксами, подобранными на обучающей выборке. RetinaNet вводит Focal Loss — модификацию кросс-энтропии, которая уменьшает вес хорошо классифицированных примеров и фокусируется на сложных объектах (дисбаланс классов: много фона — мало объектов).

Основной компромисс: одностадийные детекторы быстрее и легче оптимизируются (один loss вместо двух), но исторически уступали в точности на мелких и перекрывающихся объектах. RetinaNet с Focal Loss впервые достигла точности двухстадийных методов при сохранении высокой скорости инференса.

На практике для реального времени (30+ fps) чаще используют YOLO (особенно nano/P5 версии) или EfficientDet, для максимальной точности — двухстадийные архитектуры или современные трансформеры (DETR).

Ключевые тезисы

  • Одностадийность — предсказание bounding boxes и классов за один проход без RPN
  • Типичная структура: backbone + detection head (свёрточные слои, anchor boxes)
  • Multiscale подходы (SSD, YOLO) и Focal Loss (RetinaNet) для борьбы с дисбалансом классов
  • Компромисс: скорость vs точность; RetinaNet выравнивает точность с двухстадийными
  • Примеры: YOLO (единая свёртка, три масштаба), SSD (карты нескольких разрешений), RetinaNet (Feature Pyramid Network + Focal Loss)

Что спросят дальше

  • — Как в YOLO обрабатываются объекты разных размеров и как выбираются anchor boxes?
  • — В чём ключевое различие между SSD и RetinaNet кроме функции потерь?
  • — Какие ограничения у одностадийных архитектур по сравнению с трансформерными детекторами (DETR)?

Готовьтесь к собеседованию с ENIGMA AI

AI-суфлёр подсказывает ответы прямо на собеседовании в реальном времени — незаметно для интервьюера.

Скачать приложение