Что такое одностадийные архитектуры в контексте компьютерного зрения и как они устроены?

Question

ENIGMA AI · Accepted Answer

Одностадийные архитектуры (one-stage detectors) — это семейство детекторов объектов, которые предсказывают bounding boxes и классы за один проход через нейросеть, без отдельного этапа генерации регионов-кандидатов. В отличие от двухстадийных подходов (Faster R-CNN, Mask R-CNN), здесь нет Region Proposal Network (RPN) и последующей классификации каждого предложенного региона. Основные представители: YOLO (You Only Look Once), SSD (Single Shot MultiBox Detector) и RetinaNet.

Устройство типичной одностадийной архитектуры:

Backbone — свёрточная сеть (ResNet, VGG, DarkNet) для извлечения признаков из входного изображения. На выходе получаем карту признаков уменьшенного разрешения.
Detection head — набор свёрточных слоёв, который для каждой пространственной ячейки карты признаков (или для нескольких масштабов) предсказывает набор предопределённых anchor boxes. Для каждого anchor вычисляются смещения (dx, dy, dw, dh) и вероятности классов.
Постобработка — Non-Maximum Suppression (NMS) для удаления дублирующих предсказаний.

В SSD карта признаков берётся на нескольких разрешениях (multiscale), чтобы детектировать объекты разных размеров. YOLO (начиная с v3) использует три масштаба с различными anchor-боксами, подобранными на обучающей выборке. RetinaNet вводит Focal Loss — модификацию кросс-энтропии, которая уменьшает вес хорошо классифицированных примеров и фокусируется на сложных объектах (дисбаланс классов: много фона — мало объектов).

Основной компромисс: одностадийные детекторы быстрее и легче оптимизируются (один loss вместо двух), но исторически уступали в точности на мелких и перекрывающихся объектах. RetinaNet с Focal Loss впервые достигла точности двухстадийных методов при сохранении высокой скорости инференса.

На практике для реального времени (30+ fps) чаще используют YOLO (особенно nano/P5 версии) или EfficientDet, для максимальной точности — двухстадийные архитектуры или современные трансформеры (DETR).

Что такое одностадийные архитектуры в контексте компьютерного зрения и как они устроены?

Как ответить

Ключевые тезисы

Что спросят дальше

Похожие вопросы — ML-инженер

Готовьтесь к собеседованию с ENIGMA AI

Навигация

Поддержка

Правовое