В чем разница между параметрами модели и гиперпараметрами? Приведите 2–3 примера гиперпараметров для обучения трансформера.

Question

ENIGMA AI · Accepted Answer

Параметры модели — это то, что модель изучает сама в процессе обучения: веса и смещения нейронной сети. Гиперпараметры — это настройки, которые мы задаём до обучения и которые управляют процессом обучения и архитектурой модели. Грубо говоря, параметры — это результат обучения, гиперпараметры — это его условия.

Для трансформера три ключевых гиперпараметра: количество голов внимания (num_heads), размер скрытого слоя (d_model) и количество слоёв энкодера/декодера (num_layers).

Количество голов внимания (num_heads) — определяет, на сколько параллельных «взглядов» модель разбивает входную последовательность. Например, в BERT-base используется 12 голов, в BERT-large — 16. Больше голов — выше способность улавливать разные типы зависимостей (синтаксические, семантические), но растёт вычислительная сложность и память.
Размер скрытого слоя (d_model) — размер векторных представлений токенов (embedding’ов) на всех этапах модели. В GPT-2 это 768, в GPT-3 — 12288. Этот параметр напрямую влияет на ёмкость модели: чем больше d_model, тем больше параметров (и памяти), но выше риск переобучения на малых данных.
Количество слоёв (num_layers) — глубина стека трансформера. Для небольших задач достаточно 2–4 слоёв, для языковых моделей — 6–12 (BERT-base — 12, GPT-3 — 96). Больше слоёв — глубже иерархия признаков, но растёт задержка инференса и сложность backpropagation.

Также стоит упомянуть learning rate (шаг градиентного спуска) — классический гиперпараметр, который не относится к архитектуре, но критичен для сходимости: для трансформеров часто используют warmup-стратегию и learning rate порядка 1e-4 — 1e-5. И размер батча (batch_size) — типичные значения 16–1024, влияет на стабильность градиентов и использование памяти GPU.

В чем разница между параметрами модели и гиперпараметрами? Приведите 2–3 примера гиперпараметров для обучения трансформера.

Как ответить

Ключевые тезисы

Что спросят дальше

Похожие вопросы — ML-инженер

Готовьтесь к собеседованию с ENIGMA AI

Навигация

Поддержка

Правовое