Техническое интервью по Data Science и Machine Learning

Q: Почему в Self-Attention используется масштабирование на корень из d_k?

Это предотвращает попадание значений в области градиентного плато функции Softmax. При больших значениях d_k скалярное произведение QK^T растет, что приводит к очень маленьким градиентам, замедляя обучение.

Q: В чем разница между L1 и L2 регуляризацией с точки зрения весов?

L1 (Lasso) зануляет веса, создавая разреженные модели, что полезно для отбора признаков. L2 (Ridge) равномерно уменьшает веса, не доводя их до нуля, что лучше работает при мультиколлинеарности.

Q: Что такое Catastrophic Forgetting в нейросетях?

Это явление, когда модель при обучении на новых данных полностью теряет знания о предыдущих задачах. Решается методами Continual Learning, использованием фиксированных весов (EWC) или replay-буферов.

Q: Как бороться с галлюцинациями в LLM на этапе инференса?

Основной метод — RAG (Retrieval Augmented Generation). Также используют Chain of Thought prompting, верификацию через внешние API и снижение температуры генерации до 0.1-0.2.

Q: Зачем нужен слой LayerNorm в трансформерах?

Он нормализует активации внутри каждого примера в батче. В отличие от BatchNorm, LayerNorm не зависит от размера батча, что критично для NLP-задач, где батчи часто маленькие из-за размера моделей.

Вопросы по технологиям

Разбор сложных вопросов по ML и DS для Middle/Senior. Архитектуры трансформеров, LLM-инженерия и оценка смещения моделей в 2026 году.

В 2026 году фокус интервью сместился с классического обучения с учителем на архитектуры трансформеров, инженерию LLM и работу с данными в реальном времени. На позициях Senior ожидают глубокого понимания механик внимания и методов оптимизации весов. Средняя зарплата ML-инженера в РФ выросла до 350-550к рублей, а спрос на специалистов по внедрению локальных моделей увеличился на 40% за последний год.

Тренды интервью в 2026 году

Классические вопросы про переобучение и регуляризацию L1/L2 теперь считаются базой уровня Junior. На собеседованиях уровня Middle+ интервьюеры проверяют, понимает ли кандидат, что происходит «под капотом» современных библиотек. Основные темы сместились в сторону LLMOps, квантования моделей и эффективного Fine-tuning (LoRA, QLoRA).

Нюансы архитектуры Transformer

Один из самых частых вопросов касается механизма Self-Attention. Кандидат должен не просто назвать формулу Softmax(QK^T/√d_k)V, но и объяснить, зачем нужно деление на корень из размерности ключа. В 2026 году важно знать альтернативы: например, FlashAttention-3 и как он оптимизирует работу с памятью GPU за счет уменьшения обращений к HBM.

Различия между Encoder-only и Decoder-only

Часто просят сравнить BERT и GPT в контексте конкретных бизнес-задач. Если нужно классифицировать 10 миллионов отзывов, использование огромной Decoder-only модели будет экономически неоправданным. Здесь проверяют знание дистилляции моделей — как перенести знания из тяжелой модели в легкий энкодер без потери точности более чем на 2-3%.

Оценка моделей и метрики

Вместо простых Accuracy и F1-score сейчас спрашивают про калибровку вероятностей. Если модель предсказывает вероятность дефолта 0.8, соответствует ли это реальности в 80% случаев? Для проверки используют диаграммы надежности (reliability diagrams) и метрику Brier Score.

Проблема Data Drift и Concept Drift

На Senior-позициях обязателен блок про мониторинг. Нужно уметь объяснить разницу между изменением распределения входных признаков (Data Drift) и изменением связи между признаками и целевой переменной (Concept Drift). Например, если в 2025 году пользователи покупали одни товары, а в 2026 из-за инфляции перешли на другие, модель может «протухнуть», даже если качество входных данных осталось прежним.

Масштабирование и инференс

Вопросы по системному дизайну в ML теперь включают выбор стратегии квантования. Интервьюеры просят сравнить FP16, INT8 и новые форматы типа FP4. Нужно понимать, как квантование влияет на перплексию модели и какой выигрыш в задержке (latency) это дает на конкретном железе типа NVIDIA H200 или отечественных ускорителях.

Глубинные вопросы по градиентному спуску

Часто просят разобрать работу адаптивных оптимизаторов (Adam, Lion). Почему Adam может не сходиться на некоторых задачах и как помогает Weight Decay (AdamW)? Ожидается понимание концепции моментов и того, как они сглаживают траекторию спуска в овражистых функциях потерь.

Работа с несбалансированными данными

Вместо стандартного SMOTE в 2026 году лучше предлагать использование Focal Loss или специализированных архитектур. Нужно уметь обосновать, почему в задачах фрод-мониторинга Precision-Recall кривая важнее, чем ROC-AUC, особенно когда целевой класс составляет менее 0.1% выборки.