ENIGMA AI
ENIGMA AI

Когда произошёл переход на использование функции активации ReLU в глубоком обучении и в какой период она стала стандартом?

встречается 1× Machine Learning middle algorithms

Как ответить

ReLU стала стандартом в глубоком обучении примерно с 2012 года, после выхода AlexNet. До этого доминировали сигмоида и tanh, которые страдали от проблемы исчезающего градиента. ReLU (f(x)=max(0,x)) была предложена ещё в 2000 году в нейробиологии, но её практическое применение в глубоких нейросетях началось с работ Глорота и др. в 2011 году, а затем широкую известность получила благодаря успеху AlexNet в 2012 году. С тех пор она стала стандартной функцией активации для скрытых слоёв свёрточных и полносвязных сетей.

  • 2000 год — Hahnloser et al. ввели ReLU в модели биологических нейронов.
  • 2011 год — Glorot, Bordes, Bengio опубликовали «Deep Sparse Rectifier Neural Networks»: показали, что ReLU даёт разреженные активации и лучше обучает глубокие сети по сравнению с сигмоидой.
  • 2012 год — Krizhevsky, Sutskever, Hinton использовали ReLU в AlexNet; топ-5 ошибка на ImageNet упала до 15.3% против 26.2% у второй команды. Это стало переломным моментом.
  • После 2012 года ReLU стала стандартом де-факто в большинстве архитектур (VGG, ResNet, и др.). Позже появились Leaky ReLU, PReLU, ELU, Swish, но ReLU остаётся самой распространённой.

Почему ReLU вытеснила сигмоиду? Главная причина — она не насыщается при положительных значениях: градиент всегда равен 1, что смягчает проблему исчезающего градиента. ReLU проще вычислять (максимум), и она даёт разреженные активации (нулевые ответы для отрицательных входов), что улучшает обобщение. Около 2015–2016 годов ReLU уже считалась стандартом, хотя исследования альтернатив продолжались.

Ключевые тезисы

  • ReLU была известна с 2000 года, но стала стандартом только после 2012 года благодаря AlexNet.
  • Ключевая работа Glorot et al. (2011) показала преимущества ReLU для глубоких сетей перед сигмоидой.
  • Основное преимущество ReLU — отсутствие насыщения градиента при положительных входных значениях, что борется с проблемой исчезающего градиента.
  • Простота вычисления и разреженность активаций сделали ReLU индустриальным стандартом для сверточных и полносвязных слоёв.

Что спросят дальше

  • — Какие у ReLU есть недостатки (например, «умирающий ReLU») и как их решают с помощью Leaky ReLU или ELU?
  • — Почему в современных архитектурах (Transformer, BERT) часто используют GELU или Swish вместо ReLU?
  • — Как разреженность активаций ReLU влияет на скорость обучения и обобщающую способность модели?

Готовьтесь к собеседованию с ENIGMA AI

AI-суфлёр подсказывает ответы прямо на собеседовании в реальном времени — незаметно для интервьюера.

Скачать приложение