ENIGMA AI
ENIGMA AI

Какие формулы описывают процесс обучения в градиентном бустинге и какой функционал потерь при этом используется?

встречается 1× Machine Learning middle algorithms

Как ответить

Градиентный бустинг — это итеративный алгоритм, который строит ансамбль из слабых моделей (обычно деревьев решений), где каждая следующая модель исправляет ошибки предыдущей. Формально процесс обучения описывается через минимизацию эмпирического риска с помощью градиентного спуска в функциональном пространстве.

На каждом шаге m мы имеем текущую модель Fm-1(x). Чтобы получить Fm(x), мы:

  1. Вычисляем псевдо-остатки (отрицательный градиент функции потерь по предсказаниям):
    r_im = - [∂L(y_i, F(x_i)) / ∂F(x_i)] при F(x) = F_{m-1}(x)
  2. Обучаем базовую модель (дерево) hm(x) предсказывать эти остатки rim.
  3. Находим оптимальный шаг (коэффициент сжатия) γm через line search:
    γ_m = argmin_γ Σ L(y_i, F_{m-1}(x_i) + γ * h_m(x_i))
  4. Обновляем модель:
    F_m(x) = F_{m-1}(x) + ν * γ_m * h_m(x)
    где ν — learning rate (обычно 0.01–0.3).

Выбор функции потерь зависит от задачи:

  • Регрессия: MSE (L2-loss) — L(y, F) = (y - F)². Псевдо-остатки = y - F. Если данные с выбросами — MAE (L1-loss) или Huber loss.
  • Бинарная классификация: Log-loss (binary cross-entropy) — L(y, F) = -y * log(p) - (1-y) * log(1-p), где p = 1 / (1 + e^{-F}). Псевдо-остатки = y - p.
  • Многоклассовая классификация: Categorical cross-entropy. Для каждого класса k строится своя модель Fk, остатки считаются как yik - pik.

На практике в XGBoost/LightGBM используют аппроксимацию второго порядка (гессиан) для ускорения сходимости — это даёт формулу wj = - Σ gi / (Σ hi + λ) для весов листьев, где gi — градиент, hi — гессиан, λ — L2-регуляризация.

Ключевые тезисы

  • Градиентный бустинг минимизирует функцию потерь через градиентный спуск в функциональном пространстве, а не в пространстве параметров.
  • Псевдо-остатки — это отрицательный градиент функции потерь по текущим предсказаниям модели.
  • Выбор функции потерь (MSE, Log-loss, Huber) определяет, какие остатки мы предсказываем на каждом шаге.
  • Learning rate (ν) контролирует вклад каждой новой модели и является ключевым гиперпараметром для борьбы с переобучением.
  • Современные реализации (XGBoost, LightGBM) используют аппроксимацию второго порядка (гессиан) для более точного обновления весов листьев.

Что спросят дальше

  • — Чем отличается градиентный бустинг от стохастического градиентного бустинга (SGB) и зачем вводят subsample?
  • — Как функция потерь влияет на чувствительность модели к выбросам? Приведи пример, когда MAE лучше MSE.
  • — Почему в XGBoost используется аппроксимация второго порядка, а не только градиент? Как это влияет на скорость сходимости?

Готовьтесь к собеседованию с ENIGMA AI

AI-суфлёр подсказывает ответы прямо на собеседовании в реальном времени — незаметно для интервьюера.

Скачать приложение