Какие формулы описывают процесс обучения в градиентном бустинге и какой функционал потерь при этом используется?

Question

ENIGMA AI · Accepted Answer

Градиентный бустинг — это итеративный алгоритм, который строит ансамбль из слабых моделей (обычно деревьев решений), где каждая следующая модель исправляет ошибки предыдущей. Формально процесс обучения описывается через минимизацию эмпирического риска с помощью градиентного спуска в функциональном пространстве.

На каждом шаге m мы имеем текущую модель F_m-1(x). Чтобы получить F_m(x), мы:

Вычисляем псевдо-остатки (отрицательный градиент функции потерь по предсказаниям):
```
r_im = - [∂L(y_i, F(x_i)) / ∂F(x_i)] при F(x) = F_{m-1}(x)
```
Обучаем базовую модель (дерево) h_m(x) предсказывать эти остатки r_im.
Находим оптимальный шаг (коэффициент сжатия) γ_m через line search:
```
γ_m = argmin_γ Σ L(y_i, F_{m-1}(x_i) + γ * h_m(x_i))
```
Обновляем модель:
```
F_m(x) = F_{m-1}(x) + ν * γ_m * h_m(x)
```
где ν — learning rate (обычно 0.01–0.3).

Выбор функции потерь зависит от задачи:

Регрессия: MSE (L2-loss) — L(y, F) = (y - F)². Псевдо-остатки = y - F. Если данные с выбросами — MAE (L1-loss) или Huber loss.
Бинарная классификация: Log-loss (binary cross-entropy) — L(y, F) = -y * log(p) - (1-y) * log(1-p), где p = 1 / (1 + e^{-F}). Псевдо-остатки = y - p.
Многоклассовая классификация: Categorical cross-entropy. Для каждого класса k строится своя модель F_k, остатки считаются как y_ik - p_ik.

На практике в XGBoost/LightGBM используют аппроксимацию второго порядка (гессиан) для ускорения сходимости — это даёт формулу w_j = - Σ g_i / (Σ h_i + λ) для весов листьев, где g_i — градиент, h_i — гессиан, λ — L2-регуляризация.

Какие формулы описывают процесс обучения в градиентном бустинге и какой функционал потерь при этом используется?

Как ответить

Ключевые тезисы

Что спросят дальше

Похожие вопросы — ML-инженер

Готовьтесь к собеседованию с ENIGMA AI

Навигация

Поддержка

Правовое