Как ответить
ReLU стала стандартом в глубоком обучении примерно с 2012 года, после выхода AlexNet. До этого доминировали сигмоида и tanh, которые страдали от проблемы исчезающего градиента. ReLU (f(x)=max(0,x)) была предложена ещё в 2000 году в нейробиологии, но её практическое применение в глубоких нейросетях началось с работ Глорота и др. в 2011 году, а затем широкую известность получила благодаря успеху AlexNet в 2012 году. С тех пор она стала стандартной функцией активации для скрытых слоёв свёрточных и полносвязных сетей.
- 2000 год — Hahnloser et al. ввели ReLU в модели биологических нейронов.
- 2011 год — Glorot, Bordes, Bengio опубликовали «Deep Sparse Rectifier Neural Networks»: показали, что ReLU даёт разреженные активации и лучше обучает глубокие сети по сравнению с сигмоидой.
- 2012 год — Krizhevsky, Sutskever, Hinton использовали ReLU в AlexNet; топ-5 ошибка на ImageNet упала до 15.3% против 26.2% у второй команды. Это стало переломным моментом.
- После 2012 года ReLU стала стандартом де-факто в большинстве архитектур (VGG, ResNet, и др.). Позже появились Leaky ReLU, PReLU, ELU, Swish, но ReLU остаётся самой распространённой.
Почему ReLU вытеснила сигмоиду? Главная причина — она не насыщается при положительных значениях: градиент всегда равен 1, что смягчает проблему исчезающего градиента. ReLU проще вычислять (максимум), и она даёт разреженные активации (нулевые ответы для отрицательных входов), что улучшает обобщение. Около 2015–2016 годов ReLU уже считалась стандартом, хотя исследования альтернатив продолжались.