ENIGMA AI
ENIGMA AI
Собеседование в Wildberries Руководство 28 мин чтения

Как пройти собеседование на Data Scientist в Wildberries в 2026 году

Подробный разбор собеседования в WB: алгоритмы, SQL, ML-дизайн и специфика e-commerce. Активные вопросы и задачи 2026 года.

ENIGMA AI -
Собеседование на Data Scientist в Wildberries: вопросы и подготовка в 2026 году
В 2026 году Wildberries обрабатывает более 15 миллионов заказов в сутки, используя ИИ для динамического ценообразования, оптимизации магистральной логистики и персонализации выдачи. Процесс найма Data Scientist в WB стал максимально прикладным: здесь не спрашивают теорию ради теории, а проверяют умение строить модели, которые приносят прибыль в условиях высокой нагрузки.

Введение: Особенности Data Science в Wildberries в 2026 году

К 2026 году Wildberries окончательно трансформировался из маркетплейса в экосистему, где Data Science пронизывает каждый этап: от автоматической приемки товаров на складах с помощью компьютерного зрения до прогнозирования спроса на уровне конкретного ПВЗ. Работа здесь отличается огромными объемами данных (десятки петабайт в ClickHouse и Hadoop) и необходимостью учитывать сотни факторов в реальном времени.

Для кандидата это означает, что стандартной подготовки по курсам будет недостаточно. В WB ценят инженеров, которые понимают бизнес-метрики. Если вы строите рекомендательную систему, вы должны знать, как она повлияет на конверсию в корзину (CR) и средний чек (AOV), а не только на Recall@K. В этой статье мы разберем структуру интервью, типовые задачи и специфические требования, актуальные на текущий год.

Для кого эта статья

Материал ориентирован на DS уровней Middle и Senior, планирующих переход в департаменты ранжирования, логистики или рекламы. Мы отойдем от базовых вопросов про градиентный спуск и сосредоточимся на архитектуре систем и оптимизации бизнес-процессов. Вы узнаете, какие изменения произошли в найме за последний год и на чем делают акцент тимлиды при отборе в команды финтеха и логистики.

Что изменилось в 2026 году

Основной тренд — переход от классических ML-моделей к LLM-агентам и графовым нейросетям для анализа связей между пользователями и товарами. Теперь на собеседовании часто просят спроектировать систему, которая работает не в батч-режиме, а в онлайн-потоке. Также усилились требования к знанию MLOps: кандидат должен понимать, как его модель будет деплоиться и мониториться в Kubernetes.

НаправлениеКлючевой стек 2026Основные задачи
Search & RankingTransformers, PyTorch, Vector DBПерсонализация поиска, LTR
Supply ChainCausal Inference, Optuna, GNNПрогноз остатков, маршрутизация
AdTechReinforcement Learning, SparkRTB, аукцион первой цены

Секция 1: Структура найма и этапы отбора

Процесс найма в Wildberries в 2026 году стандартизирован, но гибко адаптируется под конкретный юнит. Обычно он занимает от 2 до 4 недель. Важно понимать, что каждый этап — это отсекающий фильтр. Если вы блестяще знаете математику, но не можете написать эффективный SQL-запрос для выгрузки данных из Greenplum, до финального интервью с руководителем департамента вы не дойдете.

Первичный скрининг и HR-интервью

На этом этапе (30-40 минут) проверяется общая адекватность и соответствие бэкграунда. HR будет спрашивать про опыт работы с высоконагруженными системами и причины интереса к e-commerce. Будьте готовы ответить на вопрос: «Почему вы хотите оптимизировать именно логистику, а не поиск?». В 2026 году Wildberries активно ищет людей с предметной экспертизой, а не просто «универсальных солдат».

Технический скрининг (Live Coding)

Это первая серьезная проверка. Вам предложат решить 1-2 задачи на Python и 1 сложную задачу на SQL. В отличие от банковского сектора, в WB задачи на алгоритмы часто имеют прикладной характер. Например, реализовать функцию для обработки стриминговых данных о кликах или написать алгоритм кластеризации заказов по координатам ПВЗ. Основной упор делается на чистоту кода и знание стандартных библиотек (pandas, numpy, scipy).

Чек-лист подготовки к скринингу:

  • Сложность алгоритмов (Big O) и работа с памятью.
  • Многопоточность и асинхронность в Python для DS-задач.
  • Оконные функции SQL и оптимизация запросов в ClickHouse.
  • Реализация базовых метрик (Precision, Recall, F1) с нуля.

Секция 2: Алгоритмы и структуры данных в контексте DS

Несмотря на то, что Data Scientist редко пишет низкоуровневый код, в Wildberries на этапе техскрининга требуют уверенного владения алгоритмами. Это обусловлено тем, что модели часто интегрируются в критические сервисы, где задержка в 10 мс недопустима. Вас не заставят переворачивать бинарное дерево, но попросят оптимизировать поиск по огромному каталогу товаров.

Типовые задачи на Python

Часто встречаются задачи на Sliding Window (скользящее окно) для анализа временных рядов продаж или задачи на хеш-таблицы для быстрого поиска дубликатов в карточках товаров. Важно уметь оценивать не только временную, но и пространственную сложность. В 2026 году популярны задачи на обработку графов, так как WB активно внедряет Graph Neural Networks для борьбы с фродом и анализа связей «покупатель-бренд».

# Пример задачи: Найти максимальную сумму продаж в окне k дней
def max_sales_window(sales, k):
    if not sales or k <= 0:
        return 0
    curr_sum = sum(sales[:k])
    max_sum = curr_sum
    for i in range(len(sales) - k):
        curr_sum = curr_sum - sales[i] + sales[i + k]
        max_sum = max(max_sum, curr_sum)
    return max_sum

Работа с векторами и матрицами

Ожидайте вопросы по реализации матричных операций без использования готовых библиотек. Это проверяет понимание того, как работают нейросети «под капотом». Также могут спросить про эффективное хранение разреженных матриц, что критично для рекомендательных систем, где матрица «пользователь-товар» заполнена менее чем на 0.1%.

Секция 3: SQL и работа с Big Data

Wildberries — это прежде всего данные. В 2026 году основным хранилищем остается ClickHouse для аналитики в реальном времени и Hadoop/Spark для тяжелых батч-процессов. На собеседовании вам дадут доступ к песочнице и попросят написать запрос, который вычисляет, например, LTV пользователя за последние 12 месяцев с учетом возвратов и скидок.

Сложные оконные функции

Вам нужно не просто знать ROW_NUMBER(), а уметь использовать RANGE BETWEEN для расчета скользящих средних или находить сессии пользователей по логам кликов. В WB данные грязные: заказы могут отменяться, товары — возвращаться через месяц, а цены — меняться 10 раз в день. Ваш SQL должен учитывать эти нюансы.

Оптимизация запросов

Интервьюер может показать «медленный» запрос и спросить, как его ускорить. Ответы должны включать понимание партиционирования, использования индексов (в контексте ClickHouse — разреженных индексов) и минимизации Shuffle в Spark. В 2026 году также актуальны вопросы по работе с векторными типами данных в SQL для поиска похожих товаров.

Тип операцииИнструмент в WBНа что смотрят
Ad-hoc аналитикаClickHouseСкорость выполнения, агрегации
ETL-процессыApache Spark / AirflowУстойчивость к падениям, лимиты памяти
Хранение признаковFeature Store (внутренний)Latency при чтении, консистентность

Секция 4: Машинное обучение — Теория и практика

В этой секции акцент смещается с «как работает случайный лес» на «почему в данной задаче мы используем именно этот лосс». В 2026 году в Wildberries практически не используют ванильные алгоритмы. Почти везде — кастомные реализации градиентного бустинга (CatBoost, LightGBM) с доработанными функциями потерь под специфику бизнеса.

Классика и бустинги

Будьте готовы глубоко обсуждать регуляризацию. Как бороться с переобучением, если у вас есть признаки с очень высокой кардинальностью (например, ID товара)? Как CatBoost обрабатывает категориальные признаки внутри? Вас могут попросить сравнить методы обработки пропусков в данных: от простого заполнения медианой до использования MICE или обучения отдельной модели для предсказания пропусков.

Метрики и валидация

Это самый важный блок. Ошибка многих кандидатов — предлагать обычную кросс-валидацию для временных рядов. В WB данные имеют жесткую временную структуру. Вы должны уметь объяснять, как настроить TimeSeriesSplit и почему нельзя допускать «заглядывания в будущее». Также важно различать офлайн-метрики (NDCG, MAP) и онлайн-метрики (CTR, Conversion Rate), и понимать, почему они могут не коррелировать.

Deep Learning в e-commerce

Если вы идете в команду компьютерного зрения или поиска, готовьтесь к вопросам по архитектурам Transformers. В 2026 году Wildberries использует мультимодальные модели, которые одновременно анализируют текст описания товара и его изображение для формирования единого эмбеддинга. Вас спросят про Contrastive Learning и архитектуры типа CLIP.

Секция 5: Machine Learning System Design

Это ключевой этап для Senior-позиций. Вам дают открытую бизнес-задачу, например: «Спроектируйте систему динамического ценообразования для категории Электроника». У вас есть 45-60 минут, чтобы разрисовать архитектуру от сбора логов до деплоя модели.

Этапы проектирования системы

Хороший ответ должен включать:

  • Формулировка задачи: что мы оптимизируем? (например, максимизируем маржу при сохранении объема продаж).
  • Выбор данных: какие фичи нужны? (цены конкурентов, остатки на складах, эластичность спроса, время суток).
  • Выбор модели: почему бустинг или RL? В ценообразовании часто используют Reinforcement Learning для поиска оптимальной стратегии в динамике.
  • Инфраструктура: как часто переобучаем модель? Как доставляем предсказания в ритейл-движок?

Масштабируемость и отказоустойчивость

Wildberries работает под огромной нагрузкой. Ваша система не должна «ложиться», если сервис цен недоступен. Нужно предусмотреть fallback-стратегии (например, использование последних стабильных цен). Также в 2026 году важно упоминать мониторинг дрифта данных (Data Drift) и концепцию «Shadow Deployment», когда новая модель работает параллельно со старой, но ее ответы не видны пользователю.

Секция 6: Специфика рекомендательных систем в WB

Рекомендации в Wildberries — это не только блок «С этим товаром покупают». Это и главная страница, и персональные подборки в пуш-уведомлениях. В 2026 году компания перешла на двухстадийные (и даже трехстадийные) модели ранжирования.

Двухстадийное ранжирование

На первой стадии (Candidate Retrieval) мы выбираем из миллионов товаров несколько тысяч потенциально интересных. Здесь используются быстрые методы: ANN (Approximate Nearest Neighbors), HNSW или простые эвристики. На второй стадии (Ranking) работает тяжелая модель (Transformer или CatBoost), которая учитывает сотни признаков для финальной сортировки. Вы должны понимать компромисс между точностью и скоростью на каждом этапе.

Проблема холодного старта

Ежедневно на WB появляются тысячи новых товаров. Как рекомендовать товар, у которого нет истории кликов и покупок? Кандидат должен предложить методы использования контентных признаков (текст, фото) и механизмы Exploration (например, Multi-Armed Bandits), чтобы давать новым товарам шанс «показаться» пользователям.

ПроблемаРешение 2026Метрика
Холодный стартContent-based фильтрация + Thompson SamplingCoverage
Эффект эхо-камерыДобавление случайного шума (Exploration)Diversity / Serendipity
Огромный каталогВекторный поиск (Milvus/Qdrant)Latency (ms)

Секция 7: Прогнозирование временных рядов (Time Series)

Логистика WB — это гигантская задача по прогнозированию. Нужно знать, сколько машин отправить со склада в Коледино в Казань завтра утром. Ошибка в прогнозе стоит миллионы рублей: либо товар не доедет вовремя, либо фуры будут стоять пустыми.

Методы прогнозирования

В 2026 году классические ARIMA и ETS используются редко, разве что как бейзлайны. Основной стек — Prophet, NeuralProphet и специализированные нейросети типа TFT (Temporal Fusion Transformers). Вас могут спросить, как учитывать внешние факторы: праздники, распродажи типа «11.11», погодные условия и даже маркетинговые акции конкурентов.

Иерархические временные ряды

Прогнозы в WB строятся на разных уровнях: страна, регион, склад, категория товара. Эти прогнозы должны быть согласованы между собой (Top-Down или Bottom-Up подходы). Кандидат должен понимать, как работает сверка прогнозов (Reconciliation) и почему сумма прогнозов по ПВЗ должна совпадать с прогнозом по городу.

Секция 8: Прикладная математика и статистика

Без крепкой базы в Wildberries делать нечего. Статистика нужна для интерпретации A/B тестов, которые в компании запускаются сотнями ежедневно. Вы должны понимать, чем t-test отличается от теста Манна-Уитни и когда стоит использовать Bootstrap.

Дизайн A/B тестов

Вам могут дать кейс: «Мы изменили алгоритм сортировки в поиске. Как проверить, что он стал лучше?». Ожидаемый ответ включает: определение целевой метрики, расчет размера выборки (Sample Size), выбор метода разбиения пользователей (чтобы избежать сетевых эффектов) и анализ чувствительности метрик. В 2026 году в WB активно применяют Cuped для снижения дисперсии и ускорения тестов.

Causal Inference

Часто бизнес хочет знать не просто корреляцию, а причинно-следственную связь. Например: «Правда ли, что бесплатная доставка увеличивает LTV, или эти люди и так бы купили?». Здесь пригодятся знания Matching, Diff-in-Diff и инструментальных переменных. Для Senior DS это обязательный навык.

Секция 9: NLP и работа с LLM

К 2026 году Wildberries интегрировал большие языковые модели во многие процессы: генерация описаний товаров, автоматические ответы на отзывы, классификация обращений в поддержку. Даже если вы не NLP-специалист, вы должны понимать основы работы с современными стеками.

Fine-tuning и RAG

Вас могут спросить, как дообучить модель (например, Llama 4 или аналоги) на специфическом сленге маркетплейса. Что такое LoRA и QLoRA? Как построить RAG-систему (Retrieval-Augmented Generation) для базы знаний службы поддержки, чтобы бот не галлюцинировал, а давал точные ссылки на регламенты?

Модерация контента

WB борется с фейковыми отзывами и запрещенными товарами. Как построить систему классификации, которая работает в реальном времени и устойчива к попыткам обхода (например, замена букв на похожие символы)? Здесь проверяют знание BERT-подобных моделей и методов борьбы с состязательными атаками (Adversarial Attacks).

Секция 10: MLOps и инженерная культура

В Wildberries Data Scientist сам отвечает за то, чтобы его модель работала в продакшене. Эпоха «я отдал jupyter-ноутбук разработчикам» прошла. Вы должны уметь упаковать модель в Docker-контейнер и понимать, как устроены CI/CD пайплайны.

Мониторинг моделей

Что делать, если точность модели упала через неделю после деплоя? Кандидат должен рассказать про мониторинг: сбор метрик в Prometheus, визуализация в Grafana, настройка алертов на Performance Decay. Важно понимать разницу между техническим мониторингом (загрузка CPU/RAM) и функциональным (распределение предсказаний модели).

Feature Store

В крупных компаниях типа WB используется Feature Store для того, чтобы одни и те же признаки использовались и при обучении, и при инференсе. Это решает проблему Training-Serving Skew. Будьте готовы обсудить, как эффективно обновлять признаки в реальном времени и как версионировать данные.

Секция 11: Soft Skills и культурный код Wildberries

Wildberries известен своей динамичной и иногда жесткой культурой. Здесь ценят самостоятельность и умение аргументированно защищать свои решения. На поведенческом интервью (Behavioral Interview) вас будут проверять на соответствие ценностям компании.

Решение конфликтов и приоритезация

Типичный вопрос: «Что вы будете делать, если бизнес требует задеплоить модель завтра, а вы понимаете, что она еще не прошла финальную валидацию?». В WB приветствуется подход, ориентированный на результат, но с четким осознанием рисков. Также важно уметь объяснять сложные технические вещи простым языком для менеджеров.

Опыт неудач

Расскажите про проект, который «не взлетел». В WB ценят людей, которые умеют делать выводы из ошибок. Если ваша модель провалила A/B тест — это нормально, если вы поняли почему и что нужно изменить в следующей итерации.

Секция 12: Подготовка к финальному собеседованию (Bar Raising)

Финальный этап обычно проходит с кем-то из топ-менеджмента техблока или Head of DS. Здесь вопросы становятся максимально стратегическими. Вас могут спросить о будущем e-commerce, о том, как изменятся покупки через 5 лет и какую роль в этом сыграет ИИ.

Ваши вопросы компании

Не упускайте возможность задать встречные вопросы. Это показывает вашу вовлеченность. Спросите про технический долг, про то, как принимаются решения о внедрении новых технологий, или про планы по международной экспансии. В 2026 году WB активно растет в сторону Китая и стран СНГ, и работа в таких проектах требует особого подхода к данным.

Заключение: План подготовки

Собеседование в Wildberries в 2026 году — это комплексный экзамен на знание математики, программирования и бизнеса. Чтобы получить оффер, вам нужно не просто «знать ML», а быть инженером, который понимает, как его код влияет на логистические цепочки и кошелек покупателя.

Краткий чек-лист для кандидата:

  • Освежите SQL: оконные функции, оптимизация под ClickHouse.
  • Потренируйте System Design: проектируйте системы рекомендаций и ценообразования.
  • Повторите статистику: дизайн и анализ A/B тестов, Causal Inference.
  • Изучите специфику WB: как работает логистика, какие есть категории товаров, как устроена выдача.
  • Подготовьте примеры реализованных проектов: с цифрами, метриками и описанием вашего вклада.

Удачи на собеседовании! Wildberries — это место, где ваши модели будут влиять на миллионы людей каждый день, и это отличный вызов для любого Data Scientist.

Часто задаваемые вопросы

Поделиться статьей

Похожие статьи