Когда произошёл переход на использование функции активации ReLU в глубоком обучении и в какой период она стала стандартом?

Question

ENIGMA AI · Accepted Answer

ReLU стала стандартом в глубоком обучении примерно с 2012 года, после выхода AlexNet. До этого доминировали сигмоида и tanh, которые страдали от проблемы исчезающего градиента. ReLU (f(x)=max(0,x)) была предложена ещё в 2000 году в нейробиологии, но её практическое применение в глубоких нейросетях началось с работ Глорота и др. в 2011 году, а затем широкую известность получила благодаря успеху AlexNet в 2012 году. С тех пор она стала стандартной функцией активации для скрытых слоёв свёрточных и полносвязных сетей.

2000 год — Hahnloser et al. ввели ReLU в модели биологических нейронов.
2011 год — Glorot, Bordes, Bengio опубликовали «Deep Sparse Rectifier Neural Networks»: показали, что ReLU даёт разреженные активации и лучше обучает глубокие сети по сравнению с сигмоидой.
2012 год — Krizhevsky, Sutskever, Hinton использовали ReLU в AlexNet; топ-5 ошибка на ImageNet упала до 15.3% против 26.2% у второй команды. Это стало переломным моментом.
После 2012 года ReLU стала стандартом де-факто в большинстве архитектур (VGG, ResNet, и др.). Позже появились Leaky ReLU, PReLU, ELU, Swish, но ReLU остаётся самой распространённой.

Почему ReLU вытеснила сигмоиду? Главная причина — она не насыщается при положительных значениях: градиент всегда равен 1, что смягчает проблему исчезающего градиента. ReLU проще вычислять (максимум), и она даёт разреженные активации (нулевые ответы для отрицательных входов), что улучшает обобщение. Около 2015–2016 годов ReLU уже считалась стандартом, хотя исследования альтернатив продолжались.

Когда произошёл переход на использование функции активации ReLU в глубоком обучении и в какой период она стала стандартом?

Как ответить

Ключевые тезисы

Что спросят дальше

Похожие вопросы — ML-инженер

Готовьтесь к собеседованию с ENIGMA AI

Навигация

Поддержка

Правовое