Data Science вопросы на собеседовании: глубокий разбор статистики, Python и SQL
Полный разбор вопросов для DS Junior в 2026 году. Практические задачи по статистике, продвинутый SQL и Python для ML-инженеров.
Введение: Ландшафт Data Science интервью в 2026 году
Рынок труда в области работы с данными прошел стадию хайпа и стабилизировался. Если в 2020-х годах было достаточно пройти курсы и знать основы синтаксиса, то сегодня работодатели ищут инженеров, которые понимают «подкапотную» часть алгоритмов. Основной фокус сместился на три столпа: математическая статистика (фундамент принятия решений), Python (инструмент реализации и деплоя) и SQL (основной канал получения качественных данных). Подготовка к собеседованию на позицию Junior DS теперь занимает от 3 до 6 месяцев интенсивной практики.
Для кого эта статья
Этот материал ориентирован на начинающих специалистов, которые уже освоили базовый стек, но сталкиваются с трудностями на технических секциях. Мы разберем не просто список вопросов, а логику ответов, которую ожидают интервьюеры в 2026 году. Здесь вы найдете разбор кейсов, которые встречаются в компаниях уровня BigTech, где важна не только точность модели, но и стоимость ее вычисления, а также статистическая значимость полученных результатов.
Что вы узнаете
Мы последовательно пройдем через блоки теории вероятностей и статистики, затронем нюансы асинхронного Python и типизации в ML-проектах, а также погрузимся в сложные оконные функции и оптимизацию запросов в SQL. В конце статьи представлен чек-лист для самопроверки перед выходом на интервью.
Секция 1. Статистика: Основы и проверка гипотез
Статистика — это то, что отличает Data Scientist от обычного программиста. В 2026 году акцент в вопросах сместился с простого определения p-value на понимание мощности теста и работу с ложноположительными результатами в условиях множественного тестирования. Интервьюеры часто дают бизнес-кейс, например: «Мы изменили цвет кнопки и конверсия выросла на 0.5%. Как понять, что это не случайность?». Ответ должен включать описание дизайна эксперимента, выбор метрики и расчет необходимого размера выборки.
Центральная предельная теорема (ЦПТ)
Один из самых частых вопросов. Компании хотят видеть, понимаете ли вы, почему мы можем использовать нормальное распределение для оценки среднего значения, даже если исходные данные распределены иначе (например, по закону Парето или Пуассона). Важно упомянуть условия применимости ЦПТ: независимость наблюдений и конечная дисперсия. В современных задачах обработки логов это критично, так как данные часто имеют «тяжелые хвосты».
Статистические тесты и P-value
Забудьте про заученное определение «вероятность получить такие же или более экстремальные значения». В 2026 году вас спросят: «Почему p-value < 0.05 не гарантирует успех продукта?». Вам нужно будет рассказать про ошибку первого и второго рода (Alpha и Beta), а также про эффект подглядывания (peeking effect). Хороший кандидат упомянет поправку Бонферрони или метод Холма при проверке нескольких гипотез одновременно.
| Понятие | Описание | Применение в DS |
|---|---|---|
| Ошибка I рода | Ложноположительный результат | Принятие неэффективной фичи в продукт |
| Ошибка II рода | Ложноотрицательный результат | Пропуск важного инсайта или полезного изменения |
| Мощность (Power) | 1 - Beta | Способность теста обнаружить эффект, если он есть |
| MDE | Minimum Detectable Effect | Минимальное изменение, которое мы хотим заметить |
Секция 2. Байесовская статистика в современном ML
В последние годы байесовские методы стали стандартом для задач с малым количеством данных или высокой неопределенностью. На интервью могут спросить про разницу между частотным (frequentist) и байесовским подходами. Частотники рассматривают параметры как фиксированные величины, а байесовцы — как случайные переменные с априорным распределением. Это позволяет обновлять наши знания о модели по мере поступления новых данных.
Теорема Байеса на практике
Классическая задача про медицинские тесты («вероятность болезни при положительном тесте, если болезнь редкая») все еще актуальна. Однако теперь ее могут завернуть в контекст кибербезопасности: «Какова вероятность, что транзакция мошенническая, если сработал антифрод-алгоритм?». Вы должны уметь быстро набросать формулу и объяснить влияние априорной вероятности (prior) на итоговый результат (posterior).
MCMC и вероятностное программирование
Для уровня Junior+ могут задать вопрос о том, как оцениваются сложные распределения, для которых нельзя вывести формулу аналитически. Упоминание методов Монте-Карло по схеме марковских цепей (MCMC) станет огромным плюсом. В 2026 году библиотеки вроде PyMC или Pyro активно используются в продакшене для оценки рисков, и понимание принципа их работы выделяет сильного кандидата.
Секция 3. Python: Эффективность и типизация
Python в 2026 году — это не только скрипты в Jupyter Notebook, но и полноценный production-ready код. На собеседованиях перестали спрашивать «что такое список», теперь фокус на управлении памятью и типизации. Использование `mypy` и `pydantic` стало стандартом де-факто в ML-пайплайнах. Если вы пишете код без аннотаций типов, для многих компаний это маркер низкого качества подготовки.
Управление памятью и декораторы
Вопросы про GIL (Global Interpreter Lock) все еще встречаются, но теперь они дополняются вопросами о том, как обходить ограничения в многопоточных вычислениях (библиотеки `multiprocessing` или использование `Ray`). Декораторы часто просят написать прямо на доске, например, декоратор для замера времени выполнения функции или для логирования параметров модели перед обучением.
from typing import Callable, Any
import time
import functools
def log_execution_time(func: Callable[..., Any]) -> Callable[..., Any]:
@functools.wraps(func)
def wrapper(*args, **kwargs):
start_time = time.perf_counter()
result = func(*args, **kwargs)
end_time = time.perf_counter()
print(f"Функция {func.__name__} выполнена за {end_time - start_time:.4f} сек")
return result
return wrapper
@log_execution_time
def train_model(data: list) -> str:
# Имитация обучения
time.sleep(1.2)
return "Model trained"
Генераторы и итераторы
При работе с Big Data невозможно загрузить все данные в RAM. Поэтому понимание генераторов (yield) критически важно. Интервьюер может попросить реализовать кастомный DataLoader, который читает гигабайты логов построчно, не переполняя память. Это базовый навык для инженера данных в 2026 году.
Секция 4. SQL: Оконные функции и оптимизация
SQL для Data Scientist — это инструмент подготовки фичей. В 2026 году от кандидата ждут не просто `SELECT *`, а умения писать сложные аналитические запросы. Оконные функции (`RANK`, `LEAD`, `LAG`, `NTILE`) — это база, без которой не пройти первый этап. Часто дают задачу на расчет LTV (Lifetime Value) или построение когортного анализа прямо в SQL-запросе.
Сложные джойны и подзапросы
Вас обязательно спросят про разницу между `LEFT JOIN` и `INNER JOIN` на данных с пропусками. Но более продвинутый вопрос — это использование `Common Table Expressions (CTE)`. CTE делают код читаемым и поддерживаемым, что ценится в командной разработке. Также стоит повторить разницу между `WHERE` и `HAVING`, особенно в контексте агрегатных функций.
Оптимизация производительности запросов
В 2026 году данные хранятся в облачных хранилищах (Snowflake, ClickHouse, BigQuery), где каждый запрос стоит денег. Интервьюер может спросить: «Как ускорить запрос, который сканирует 10 ТБ данных?». Правильные ответы: использование партиционирования (partitioning), кластеризации, выбор только нужных колонок (отказ от `SELECT *`) и использование материализованных представлений.
-- Пример расчета скользящего среднего продаж за 7 дней
WITH DailySales AS (
SELECT
sale_date,
SUM(amount) as daily_sum
FROM sales
GROUP BY 1
)
SELECT
sale_date,
daily_sum,
AVG(daily_sum) OVER (
ORDER BY sale_date
ROWS BETWEEN 6 PRECEDING AND CURRENT ROW
) as moving_avg_7d
FROM DailySales;
Секция 5. Алгоритмы машинного обучения: Под капотом
В 2026 году недостаточно знать, что Random Forest — это ансамбль деревьев. Вас спросят, как именно выбирается признак для сплита (Gini Impurity vs Entropy) и почему градиентный бустинг (XGBoost, LightGBM, CatBoost) обычно работает лучше на табличных данных. Важно понимать разницу между смещением (Bias) и разбросом (Variance) и уметь объяснять это на примере переобучения модели.
Регуляризация L1 и L2
Зачем нужна регуляризация? Как L1 (Lasso) помогает в отборе признаков, зануляя веса? Почему L2 (Ridge) делает веса маленькими, но не нулевыми? Эти вопросы направлены на проверку математической интуиции. В контексте нейросетей могут спросить про Dropout как форму регуляризации. Кандидат должен понимать, что регуляризация — это способ борьбы с высокой дисперсией модели.
Метрики классификации и регрессии
Выбор метрики зависит от бизнес-задачи. Если мы диагностируем редкую болезнь, нам важен Recall (полнота), чтобы не пропустить больного. Если мы блокируем пользователей в соцсети, нам важен Precision (точность), чтобы не забанить невиновного. В 2026 году популярны вопросы про `F1-Score`, `ROC-AUC` и `PR-Curve`. Особое внимание уделяется `Log-Loss`, так как он штрафует за уверенность в неверном ответе.
Секция 6. Deep Learning и Трансформеры
Даже если вакансия не про NLP, базовое понимание архитектуры Transformer в 2026 году обязательно. Вас могут спросить про механизм Attention (внимание): как модель понимает контекст слова в предложении. Для Junior позиции достаточно понимать верхнеуровнево, как работают слои и почему трансформеры вытеснили рекуррентные нейронные сети (RNN) за счет параллелизации вычислений.
Оптимизаторы и функции активации
Почему `ReLU` лучше, чем `Sigmoid` в глубоких сетях? Ответ кроется в проблеме затухающих градиентов (vanishing gradient). Какие оптимизаторы вы знаете? `Adam`, `RMSprop`, `SGD`. Интервьюер может попросить объяснить, как `Adam` адаптирует шаг обучения для каждого параметра. Это показывает, что вы не просто копируете код из туториалов, а понимаете физику процесса обучения.
Секция 7. Работа с пропусками и признаками (Feature Engineering)
Данные в реальности всегда «грязные». Вопросы про обработку пропусков (Imputation) — классика. Можно ли заполнять пропуски средним? Да, но это убьет дисперсию. Лучше использовать медиану или предсказывать пропущенные значения другой моделью (Iterative Imputer). В 2026 году также ценятся знания о Target Encoding и о том, как избежать утечки данных (Data Leakage) при его использовании.
Масштабирование признаков
Разница между `StandardScaler` и `MinMaxScaler`. Когда какой применять? Если алгоритм основан на расстояниях (k-NN, SVM) или использует градиентный спуск, масштабирование обязательно. Если вы используете деревья решений, оно не требуется. Этот вопрос проверяет понимание внутреннего устройства алгоритмов.
Секция 8. Оценка моделей и валидация
Как вы будете валидировать модель на временных рядах? Обычная кросс-валидация не подойдет, так как мы не можем заглядывать в будущее. Нужно использовать `TimeSeriesSplit`. Этот нюанс часто упускают новички. Также важно понимать разницу между валидационной и тестовой выборкой: тест используется только один раз, в самом конце, для финальной оценки.
A/B тестирование моделей
В 2026 году модели редко выкатывают на 100% трафика сразу. Спрашивают про Shadow Mode (модель работает, но ее предсказания не используются) и Canary Deployment. Вы должны уметь объяснить, как сравнить работу старой и новой модели в реальном времени, используя статистические критерии, которые мы обсуждали в первой секции.
Секция 9. Продуктовое мышление и метрики
Data Scientist — это не только про код, но и про пользу для бизнеса. «Метрика модели выросла на 2%, но выручка упала. Почему?». Это типичный вопрос на проверку продуктового чутья. Возможно, модель стала предлагать только дешевые товары, или увеличила время загрузки страницы. Вы должны уметь связывать технические метрики (RMSE, Accuracy) с бизнес-метриками (ARPU, Churn Rate, Retention).
Секция 10. Системный дизайн ML-систем
Даже от Junior ждут понимания того, как модель живет в продакшене. Что такое Feature Store? Зачем нужен мониторинг дрейфа данных (Data Drift)? Если распределение входящих данных изменилось по сравнению с обучающей выборкой, точность модели упадет. Вы должны знать, как это отследить и когда инициировать переобучение (Retraining).
Заключение: План подготовки
Подготовка к Data Science интервью в 2026 году требует комплексного подхода. Не пытайтесь выучить все вопросы, старайтесь понять логику. Статистика — это ваш фундамент для принятия решений. Python — ваш инструмент для быстрой и надежной реализации. SQL — ваш способ дотянуться до данных.
Чек-лист для самопроверки:
- Я могу объяснить ЦПТ и p-value бабушке.
- Я знаю, как написать декоратор и генератор на Python.
- Я умею считать Retention и скользящее среднее на SQL.
- Я понимаю разницу между Bias и Variance.
- Я могу выбрать метрику для любой бизнес-задачи.
Помните, что интервью — это диалог двух коллег. Если вы не знаете ответа, рассуждайте вслух. Интервьюеру важно увидеть ваш ход мыслей и то, как вы подходите к решению неопределенных задач.
Часто задаваемые вопросы
Похожие статьи
Data Scientist vs Data Analyst в 2026 году: разница в зарплатах, стеке и задачах
Подробное сравнение Data Scientist и Data Analyst в 2026 году. Глубокий разбор зарплат, требований к ML и аналитике, перспектив рынка и AI-инструментария.
Зарплата Data Scientist в 2026 году: детальный обзор рынка ML и AI
Актуальное исследование зарплат Data Scientist в 2026 году. Уровни Junior, Middle, Senior, влияние LLM и агентских систем на доход в РФ и мире.
Зарплата Python разработчика по грейдам в 2026 году: Junior, Middle, Senior
Подробный разбор рынка Python-разработки в 2026 году. Статистика зарплат по грейдам, влияние AI на стек и требования работодателей.
Зарплата Python разработчика в 2026 году: Москва, Санкт-Петербург и регионы
Подробный обзор зарплат Python-программистов в 2026 году. Статистика по городам России, грейдам и стеку технологий.
Красные флаги на HR-скрининге: что насторожит рекрутера в 2026 году
Разбор 12 критических ошибок на первичном интервью. Статистика отказов, психология рекрутинга и чек-листы для подготовки в 2026 году.