Как ответить
Параметры модели — это то, что модель изучает сама в процессе обучения: веса и смещения нейронной сети. Гиперпараметры — это настройки, которые мы задаём до обучения и которые управляют процессом обучения и архитектурой модели. Грубо говоря, параметры — это результат обучения, гиперпараметры — это его условия.
Для трансформера три ключевых гиперпараметра: количество голов внимания (num_heads), размер скрытого слоя (d_model) и количество слоёв энкодера/декодера (num_layers).
- Количество голов внимания (num_heads) — определяет, на сколько параллельных «взглядов» модель разбивает входную последовательность. Например, в BERT-base используется 12 голов, в BERT-large — 16. Больше голов — выше способность улавливать разные типы зависимостей (синтаксические, семантические), но растёт вычислительная сложность и память.
- Размер скрытого слоя (d_model) — размер векторных представлений токенов (embedding’ов) на всех этапах модели. В GPT-2 это 768, в GPT-3 — 12288. Этот параметр напрямую влияет на ёмкость модели: чем больше d_model, тем больше параметров (и памяти), но выше риск переобучения на малых данных.
- Количество слоёв (num_layers) — глубина стека трансформера. Для небольших задач достаточно 2–4 слоёв, для языковых моделей — 6–12 (BERT-base — 12, GPT-3 — 96). Больше слоёв — глубже иерархия признаков, но растёт задержка инференса и сложность backpropagation.
Также стоит упомянуть learning rate (шаг градиентного спуска) — классический гиперпараметр, который не относится к архитектуре, но критичен для сходимости: для трансформеров часто используют warmup-стратегию и learning rate порядка 1e-4 — 1e-5. И размер батча (batch_size) — типичные значения 16–1024, влияет на стабильность градиентов и использование памяти GPU.