Data Science и ML Разбор 30 мин чтения

Вопросы на собеседовании по Machine Learning: от теории до продакшна в 2026 году

Q: Нужно ли в 2026 году знать классический ML (SVM, KNN)?

Для большинства позиций достаточно понимать общие принципы. Глубокое знание SVM требуется редко, но градиентный бустинг (XGBoost, CatBoost) по-прежнему остается стандартом для табличных данных.

Q: Как подготовиться к секции Live Coding по ML?

Обычно просят реализовать простой слой нейросети (например, Linear или Dropout) на чистом NumPy или написать функцию для расчета метрики (например, AUC-ROC) за O(n log n).

Q: Какие библиотеки сейчас самые востребованные?

PyTorch остается лидером для исследований и обучения. Для инференса критично знание TensorRT, vLLM и ONNX. Для работы с LLM — Hugging Face Transformers и библиотеки для квантования (bitsandbytes).

Q: Важно ли для ML-инженера знание Kubernetes?

Да, понимание контейнеризации и основ оркестрации (KServe, Kubeflow) в 2026 году является обязательным требованием для Middle+ уровней.

Подробный гид по ML-собеседованиям в 2026 году. Разбор LLM, диффузионных моделей, специфических метрик и вывода в продакшн.

ENIGMA AI - 09.02.2026

Machine Learning вопросы на собеседовании: модели, метрики, продакшн в 2026 году

В 2026 году требования к ML-инженерам сместились от классических алгоритмов к глубокому пониманию архитектур трансформеров, методам эффективного тюнинга (PEFT) и развертыванию высоконагруженных систем. В этой статье мы разберем актуальные вопросы, которые задают в BigTech компаниях на позициях Middle и Senior ML Engineer.

Введение: почему классика больше не спасает на интервью

К началу 2026 года рынок Machine Learning окончательно разделился на две ветви: классический ML для табличных данных и генеративный AI (GenAI) для всего остального. Если пять лет назад на собеседовании достаточно было объяснить принцип работы Random Forest или градиентного бустинга, то сегодня интервьюеры ожидают, что кандидат с ходу объяснит разницу между FlashAttention-2 и PagedAttention или предложит стратегию квантования модели для запуска на мобильных устройствах.

Эта статья написана для тех, кто уже имеет базовый опыт и хочет систематизировать знания перед собеседованием в компании уровня Яндекс, Сбер или зарубежные стартапы. Мы не будем тратить время на определение линейной регрессии. Вместо этого мы сосредоточимся на вещах, которые реально проверяют на «белых досках» и в секциях системного дизайна ML в 2026 году.

Для кого этот материал

Текст ориентирован на инженеров, которые претендуют на роли, связанные с разработкой и внедрением моделей. Мы разберем три ключевых блока: архитектурные особенности современных моделей, выбор метрик в условиях несбалансированных данных и специфику MLOps, без которой сегодня не обходится ни один проект. Вы узнаете, как отвечать на каверзные вопросы про галлюцинации моделей, дрейф данных и оптимизацию инференса.

1. Архитектуры трансформеров и механизмы внимания

Трансформеры стали стандартом де-факто не только в NLP, но и в Computer Vision (ViT) и временных рядах. На интервью часто просят воспроизвести архитектуру Encoder-Decoder или объяснить, почему Multi-Head Attention эффективнее, чем одиночный механизм внимания. В 2026 году акцент сместился на оптимизацию этих механизмов.

Механизмы разреженного внимания (Sparse Attention)

С ростом длины контекста в LLM до миллионов токенов, квадратичная сложность стандартного Self-Attention стала узким местом. Вас могут спросить: «Как уменьшить вычислительные затраты при работе с длинными текстами?». Хороший ответ должен включать упоминание Sliding Window Attention или использование линейных аппроксимаций внимания. Важно понимать, что в 2026 году активно применяются гибридные архитектуры, сочетающие трансформеры с государственными пространствами (State Space Models, SSM), такими как Mamba.

RoPE и позиционное кодирование

Вопрос о том, как модель понимает порядок слов, перестал быть тривиальным. Вместо классических синусоидальных эмбеддингов сейчас повсеместно используют Rotary Positional Embeddings (RoPE). На собеседовании могут попросить объяснить, почему RoPE лучше масштабируется на длину контекста, превышающую ту, на которой модель обучалась (extrapolation). Ключевой момент здесь — сохранение относительных расстояний между токенами через вращение в комплексной плоскости.

Метод	Сложность	Основное преимущество
Full Self-Attention	O(n²)	Максимальная точность связей
FlashAttention	O(n²)	Оптимизация работы с памятью GPU (IO-aware)
Mamba (SSM)	O(n)	Линейное масштабирование контекста

2. Обучение и дообучение: SFT, RLHF и DPO

Просто обучить модель «с нуля» — задача для единиц компаний в мире. Большинство инженеров занимаются адаптацией предобученных весов. Вопросы по Fine-tuning — обязательная часть программы. В 2026 году классический Fine-tuning всех весов считается моветоном из-за дороговизны.

Методы PEFT (Parameter-Efficient Fine-Tuning)

Ожидайте вопросов про LoRA (Low-Rank Adaptation) и его производные (QLoRA, DoRA). Вам нужно уметь объяснить математическую суть: почему мы представляем изменение весов матрицы как произведение двух матриц низкого ранга. Это позволяет обучать менее 1% параметров модели, сохраняя при этом качество, сопоставимое с полным дообучением. В 2026 году QLoRA является стандартом для запуска обучения на потребительских GPU.

Alignment: от RLHF к DPO

Как сделать модель безопасной и полезной? Раньше ответом был только RLHF (Reinforcement Learning from Human Feedback), который сложен в настройке из-за необходимости обучения отдельной Reward-модели. Сейчас на интервью часто спрашивают про DPO (Direct Preference Optimization). Основное отличие — DPO позволяет оптимизировать политику напрямую по данным предпочтений пользователей без использования обучения с подкреплением, что делает процесс стабильнее и быстрее.

3. Метрики классификации и регрессии в сложных условиях

Метрики — это то, на чем валятся кандидаты, привыкшие к Kaggle. В реальном бизнесе Accuracy почти никогда не является целевой метрикой. На собеседовании вам дадут кейс: «Мы строим систему детекции фрода, где 0.1% транзакций — мошеннические. Какие метрики выберете?».

Precision-Recall Trade-off и F-мера

Важно не просто назвать формулы, а объяснить бизнес-смысл. Если мы ловим террористов, нам важен Recall (лучше проверить лишнего, чем пропустить опасного). Если мы блокируем счета обычных пользователей, нам важен Precision (нельзя злить лояльных клиентов ложными срабатываниями). В 2026 году также модно обсуждать MCC (Matthews Correlation Coefficient) как более устойчивую метрику для несбалансированных классов, чем F1-score.

Calibration и Expected Calibration Error (ECE)

Современный вопрос: «Ваша модель выдает вероятность 0.9, но на практике в этих случаях событие происходит лишь в 70% случаев. В чем проблема?». Ответ кроется в калибровке уверенности модели. Для бизнеса критично, чтобы предсказанная вероятность соответствовала реальной частоте событий (особенно в медицине или финтехе). Для решения используют изотоническую регрессию или калибровку по Платту.

4. Специфические метрики для генеративных моделей

Как оценить качество перевода или сгенерированного кода? Традиционные BLEU и ROUGE в 2026 году подвергаются жесткой критике, так как они оценивают лишь совпадение слов, а не смысл. На интервью стоит упомянуть семантические метрики, такие как BERTScore или использование «LLM-as-a-judge».

Методология LLM-as-a-judge

Суть подхода: мы просим более мощную модель (например, GPT-5 или актуальную Llama 4) оценить ответы меньшей модели по заданной шкале. Здесь важно обсудить проблемы такого подхода: предвзятость позиции (модель предпочитает первый вариант ответа) и склонность к длинным ответам (verbosity bias). Навык проектирования промптов для оценки — ключевой для ML-инженера сегодня.

Перплексия (Perplexity)

Этот вопрос часто задают, чтобы проверить понимание того, как обучаются языковые модели. Перплексия показывает, насколько модель «удивлена» новыми данными. Чем она ниже, тем лучше модель предсказывает следующий токен. Однако важно помнить: низкая перплексия не всегда означает высокое качество ответов для пользователя, она лишь подтверждает, что модель хорошо выучила распределение данных.

5. Обработка данных и Feature Engineering 2.0

В эпоху Deep Learning многие думают, что Feature Engineering умер. Это не так. Для табличных данных (скоринг, рекомендации) правильная подготовка признаков дает больше, чем выбор алгоритма. В 2026 году акцент сместился на автоматизированные Feature Stores и динамические признаки.

Работа с пропусками и выбросами

Стандартный вопрос: «Что делать, если в данных 30% пропусков?». Плохой ответ: «Удалить строки». Хороший ответ зависит от природы пропусков: MCAR, MAR или MNAR. В 2026 году для заполнения пропусков часто используют нейросетевые импьютеры (например, на базе вариационных автокодировщиков), которые сохраняют распределение данных лучше, чем простое заполнение средним или медианой.

Обработка высококардинальных признаков

Если у вас есть признак «City ID» с 50 000 значений, One-Hot Encoding убьет память. Интервьюер ждет упоминания Target Encoding с регуляризацией (чтобы избежать переобучения) или Entity Embeddings, где каждое значение категории отображается в вектор небольшого размера. Это позволяет нейросетям улавливать сходство между категориями (например, Москва и Санкт-Петербург будут близки в пространстве эмбеддингов).

6. Проблема переобучения и методы регуляризации

Переобучение (Overfitting) — вечная тема. Но в 2026 году акцент сместился с L1/L2 регуляризации на специфические методы для глубокого обучения. Вас могут спросить: «Почему Dropout не всегда эффективен в сверточных сетях?» или «Как работает Early Stopping в распределенном обучении?».

Dropout и его вариации

В современных архитектурах часто используют Stochastic Depth (выключение целых слоев) вместо выключения отдельных нейронов. Это особенно актуально для очень глубоких сетей (ResNet, Vision Transformers). Также стоит упомянуть Label Smoothing — технику, которая не дает модели становиться «слишком уверенной» в своих предсказаниях, что помогает при обучении на шумных данных.

Weight Decay vs L2 Regularization

Тонкий вопрос для Senior-позиций. В большинстве библиотек они реализованы одинаково, но для оптимизаторов типа AdamW есть принципиальная разница. AdamW отделяет Weight Decay от расчета градиентов, что позволяет избежать затухания обновлений для весов с большими градиентами. Понимание таких нюансов показывает, что вы не просто копируете код из StackOverflow, а понимаете работу оптимизатора.

7. Системный дизайн ML: от ноутбука к продакшну

Это самая важная часть интервью для опытных разработчиков. Вам предложат спроектировать систему, например, «Рекомендательную систему видео в реальном времени». Здесь нужно говорить не о моделях, а об архитектуре системы.

Двухуровневая архитектура рекомендаций

Стандарт 2026 года: Candidate Retrieval (отбор кандидатов) и Ranking (ранжирование). На первом этапе мы быстро отбираем 100-500 релевантных объектов из миллионов с помощью векторного поиска (HNSW, FAISS). На втором этапе тяжелая модель (например, трансформер или глубокий бустинг) детально ранжирует этих кандидатов. Вы должны уметь объяснить, почему нельзя сразу ранжировать всё.

Real-time vs Batch Inference

Когда считать предсказания? Если рекомендации должны меняться после каждого клика пользователя, нужен Real-time инференс через API. Если мы считаем рассылку писем, достаточно Batch-обработки раз в сутки. В 2026 году популярны гибридные подходы: признаки считаются в реальном времени (Streaming Features через Flink), а модель вызывается по запросу.

# Пример упрощенного пайплайна инференса в 2026
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

def generate_response(prompt, model_id="meta-llama/Llama-4-8b"):
    # Используем квантование 4-bit для экономии VRAM
    model = AutoModelForCausalLM.from_pretrained(model_id, load_in_4bit=True)
    tokenizer = AutoTokenizer.from_pretrained(model_id)
    
    inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
    # Настройка параметров генерации для борьбы с галлюцинациями
    outputs = model.generate(
        **inputs, 
        max_new_tokens=256, 
        temperature=0.7, 
        top_p=0.9,
        repetition_penalty=1.1
    )
    return tokenizer.decode(outputs[0], skip_special_tokens=True)

8. Оптимизация моделей: Квантование и Дистилляция

В 2026 году запуск моделей «как есть» — это непозволительная роскошь. ML-инженер должен уметь сжимать модели без потери качества. Вопросы по оптимизации часто встречаются в секциях по High-load ML.

Квантование (Quantization)

Разберитесь в разнице между PTQ (Post-Training Quantization) и QAT (Quantization-Aware Training). PTQ проще: берем готовую модель и переводим веса из FP32 в INT8 или даже NF4 (NormalFloat4). QAT сложнее: мы имитируем ошибки квантования во время обучения, что позволяет сохранить точность. В 2026 году активно обсуждается 1-битное квантование (BitNet), которое обещает революцию в энергоэффективности.

Знаниевая дистилляция (Knowledge Distillation)

Суть: обучаем маленькую модель («ученик») повторять логиты или внутренние представления большой модели («учитель»). Это позволяет получить компактную модель, которая работает в разы быстрее, но сохраняет «мудрость» гиганта. На интервью могут спросить, как выбрать функцию потерь для дистилляции (обычно это комбинация классической Cross-Entropy и KL-divergence).

9. MLOps: мониторинг и поддержка в 2026 году

Модель в продакшне — это живой организм. Она начинает деградировать сразу после деплоя. Вопросы по MLOps проверяют вашу готовность нести ответственность за результат, а не просто «выкидывать код через забор» в сторону DevOps-инженеров.

Data Drift и Concept Drift

Вам нужно четко разделять эти понятия. Data Drift — это когда изменились входные данные (например, в приложение пришла новая аудитория с другими паттернами поведения). Concept Drift — это когда изменилась сама связь между данными и целевой переменной (например, из-за инфляции старые модели кредитного скоринга перестали работать). Мониторинг этих явлений в 2026 году строится на статистических тестах (Колмогорова-Смирнова) и анализе распределения эмбеддингов.

A/B тестирование и Shadow Deployment

Как проверить, что новая модель лучше? Просто заменить старую на новую нельзя. На интервью обсудите Shadow Deployment: новая модель получает реальный трафик, считает предсказания, но они не показываются пользователю. Мы просто сравниваем их с реальностью. Если всё хорошо, переходим к Canary Release или классическому A/B тесту.

10. Этические вопросы и объяснимость (XAI)

В 2026 году регуляторы (особенно в ЕС и США) требуют, чтобы автоматические решения были объяснимы. Если банк отказал в кредите на основе ML, он должен объяснить почему. Вопросы по Explainable AI становятся обязательными.

SHAP и LIME

Это стандартные библиотеки для объяснения предсказаний «черных ящиков». Вам нужно понимать, что SHAP базируется на теории игр (векторы Шепли) и дает математически обоснованное распределение вклада каждого признака в итоговый результат. LIME же строит локальную линейную модель вокруг конкретного примера. Знание ограничений этих методов (например, высокая вычислительная сложность SHAP) — признак Senior-уровня.

Борьба с предвзятостью (Bias Detection)

Модели часто копируют человеческие предрассудки из обучающих данных. Как это проверить? Обсудите метрики Demographic Parity и Equalized Odds. В 2026 году важно не только обучить модель, но и провести аудит на справедливость (fairness) по отношению к защищенным группам (пол, возраст, раса).

11. Векторные базы данных и RAG

В 2026 году почти любая задача с LLM решается через RAG (Retrieval-Augmented Generation). Это альтернатива бесконечному дообучению моделей на новых данных.

Архитектура RAG-системы

Вопрос: «Как заставить LLM отвечать по базе знаний компании?». Ответ: индексируем документы, переводим их в векторы с помощью Embedding-модели, сохраняем в векторную БД (Pinecone, Chroma, Weaviate). При запросе ищем топ-K похожих кусков текста и вставляем их в промпт. На интервью обязательно спросят про проблемы: «Что если поиск нашел нерелевантный кусок?» или «Как бороться с галлюцинациями, если в базе нет ответа?».

Advanced RAG: Re-ranking и Query Transformation

Для улучшения качества RAG в 2026 году используют второй этап — Cross-Encoder для переранжирования результатов поиска. Также полезно обсудить Query Expansion: когда модель перефразирует вопрос пользователя на несколько ладов, чтобы найти больше полезной информации в базе знаний.

12. Будущее ML: Мультимодальность и Агенты

В завершение интервью часто задают вопросы «на подумать» о трендах. В 2026 году это мультимодальные модели и автономные агенты.

Мультимодальные архитектуры

Понимание того, как объединить зрение и текст в одной модели (например, через проекцию визуальных токенов в пространство текстовых эмбеддингов). Это база для современных ассистентов, которые могут «видеть» экран пользователя или анализировать видео в реальном времени.

AI-агенты и планирование

Вопрос: «В чем разница между чат-ботом и AI-агентом?». Агент не просто генерирует текст, он может пользоваться инструментами (API, браузер, калькулятор) для достижения цели. Здесь важно упомянуть фреймворки типа LangChain или AutoGPT, а также методы цепочки рассуждений (Chain of Thought), которые позволяют моделям решать сложные многоходовые задачи.

Заключение: чек-лист подготовки

Подготовка к ML-интервью в 2026 году требует баланса между глубокой математической базой и пониманием современных инструментов. Не пытайтесь выучить всё, сфокусируйтесь на тех областях, которые заявлены в вакансии, но всегда имейте в запасе понимание того, как работает «под капотом» Attention и как развернуть модель в облаке.

План действий:

Повторите основы: линейная алгебра, теория вероятностей, методы оптимизации.
Разберитесь в архитектуре Transformer: прямо по слоям, с формулами.
Изучите 2-3 метода PEFT (LoRA обязательно).
Подготовьте рассказ о своем самом сложном проекте в продакшне: какие были метрики, как боролись с дрейфом данных.
Попрактикуйтесь в System Design: рисуйте схемы взаимодействия компонентов (БД, кэш, модель, очередь).

Удачи на собеседовании! Помните, что интервьюеру важно увидеть ваш ход мыслей и умение признавать ограничения выбранных методов, а не только знание модных терминов.

Часто задаваемые вопросы

Нужно ли в 2026 году знать классический ML (SVM, KNN)?

Как подготовиться к секции Live Coding по ML?

Какие библиотеки сейчас самые востребованные?

Важно ли для ML-инженера знание Kubernetes?

#machine learning #собеседование #data science #LLM #MLOps #карьера

Поделиться статьей