ML System Design: Обновления 2025-2026¶
~5 минут чтения
Предварительно: Материалы MLSD | Подготовка к интервью MLSD
За 2025 год ML System Design сместился от "как обучить модель" к "как её выкатить и не сломать". Три ключевых сдвига: vLLM + PagedAttention стал стандартом LLM-inference (24x throughput), real-time ML-пайплайны с sub-100ms SLA вытесняют batch-предсказания, и multi-armed bandits заменяют классические A/B-тесты для быстрой итерации. На интервью 2026 года вопросы по inference optimization и LLM guardrails стали обязательными.
Что изменилось в ML System Design за 2025-2026 Обновлено: 2026-02-11
Критические тренды¶
1. Inference Optimization (Ключевой тренд 2025-2026)¶
Что изменилось: - vLLM стал стандартом для LLM serving - PagedAttention — новая парадигма KV-cache - Continuous batching — вместо static batching - Speculative decoding — 2-3x speedup
Новые инструменты: - SGLang — structured output optimization - TensorRT-LLM — NVIDIA inference - llama.cpp — CPU/edge deployment
2. Real-time ML Pipelines¶
Тренд 2025-2026: - Streaming inference с Kafka + Flink - Sub-100ms latency requirements - Feature stores для real-time features
3. Drift Detection Evolution¶
Что изменилось: - Automated retraining triggers - Multi-metric monitoring (не только PSI) - Business metric correlation
4. A/B Testing для ML¶
Новые паттерны 2025-2026: - Multi-armed bandits вместо fixed A/B - Interleaving experiments (faster results) - Counterfactual evaluation
Model Serving Updates¶
Latency Targets 2026¶
| Use Case | P99 Target |
|---|---|
| Interactive apps | < 50ms |
| Real-time bidding | < 10ms |
| Search ranking | < 100ms |
| Batch predictions | No strict |
Inference Runtimes Comparison¶
| Runtime | Latency | Throughput | Best For |
|---|---|---|---|
| vLLM | Low | Very High | LLM serving |
| TensorRT | Very Low | High | GPU inference |
| ONNX Runtime | Low | Medium | Cross-platform |
| TorchServe | Medium | Medium | PyTorch native |
Drift Detection Updates¶
PSI Thresholds (Updated 2026)¶
Стандартные пороги (общепринятые):
PSI < 0.1: No change
PSI 0.1-0.25: Moderate change
PSI > 0.25: Significant change (ACTION REQUIRED)
Строгие пороги (company-specific, e.g. финтех):
PSI < 0.05: No change
PSI 0.05-0.15: Moderate
PSI > 0.15: Significant
Note: Стандартные пороги PSI (< 0.1 / 0.1-0.25 / > 0.25) остаются общепринятыми в литературе и на собесах. Строгие пороги (0.05/0.15) — company-specific практика, особенно в финтехе (fraud detection, credit scoring).
New Drift Metrics¶
Wasserstein Distance: Более robust чем KS Jensen-Shannon Divergence: Symmetric, bounded [0, 1]
RecSys Updates¶
Two-Tower Evolution 2025-2026¶
Новые паттерны: - Multi-task two-tower (shared embeddings) - Sequential two-tower (session-based) - Graph-enhanced two-tower
Cold Start Solutions 2026¶
- LLM for Cold Start: Generate preferences from onboarding
- Graph Neural Networks: Knowledge graphs for items
- Meta-learning: Learn to learn from few examples
LLM Production Updates¶
OWASP Top 10 LLM (2025)¶
- Prompt Injection
- Insecure Output Handling
- Training Data Poisoning
- Model DoS
- Supply Chain
- Sensitive Information Disclosure
- Insecure Plugin Design
- Excessive Agency
- Overreliance
- Model Theft
Guardrails Tools 2026¶
| Tool | Type | Focus |
|---|---|---|
| NeMo Guardrails | Open-source | Programmable |
| Lakera Guard | API | Security-focused |
| Guardrails AI | Open-source | Type-safe |
| LLM Guard | Open-source | Security toolkit |
Что спрашивают в 2025-2026¶
| Тема | Частота |
|---|---|
| vLLM/PagedAttention | HIGH |
| Real-time ML pipelines | HIGH |
| Two-Tower architecture | HIGH |
| Drift detection | MEDIUM |
| LLM guardrails | HIGH |
| A/B testing | MEDIUM |
Заблуждение: PSI > 0.25 всегда означает необходимость переобучения
PSI -- это мера СДВИГА распределения, а не падения качества. Drift в X не обязательно означает drift в P(Y|X). Пример: сезонность в e-commerce увеличивает PSI, но модель может работать отлично. Правильный подход: (1) зафиксировать drift, (2) проверить prediction quality на свежих данных, (3) переобучить только если quality упала. Автоматический retrain по PSI без проверки quality -- частая ошибка в production.
Заблуждение: vLLM решает все проблемы LLM inference
vLLM оптимизирует KV-cache memory через PagedAttention, но НЕ решает: (1) latency первого токена (TTFT) -- это вопрос model size и prefill computation, (2) speculative decoding нужен отдельный draft model, (3) structured output constraints (JSON schema) требуют дополнительной логики (SGLang). vLLM -- must-have, но это один слой в stack'е inference optimizations.
Вопросы с оценкой ответов¶
Что такое continuous batching и почему это лучше static batching?
"Continuous batching просто объединяет больше запросов в один батч" -- не объясняет ключевое отличие
"Static batching ждёт завершения ВСЕХ запросов в батче перед обработкой новых -- если один запрос генерирует 200 токенов, а остальные 10, GPU простаивает. Continuous batching вставляет новые запросы сразу как освобождается слот, утилизируя GPU на 90%+ вместо 30-50%. В vLLM это реализовано через iteration-level scheduling: каждый iteration проверяет готовые/новые запросы."
Как провести A/B тест ML-модели с network effects (соцсеть, маркетплейс)?
"Просто случайно разделить пользователей на группы" -- игнорирует SUTVA violation
"Network effects нарушают SUTVA (Stable Unit Treatment Value Assumption) -- поведение user A влияет на user B. Решения по возрастанию сложности: (1) Cluster-based randomization -- рандомизация по сообществам/городам, минимизируя cross-cluster interaction; (2) Ego-network randomization -- рандомизация вместе с ближайшими соседями; (3) Switchback experiments -- чередование control/treatment по времени. Для маркетплейсов: geo-based split + Difference-in-Differences анализ."
Drift detected, PSI > 0.3 на 5 из 20 фичей. Ваш action plan?
"Переобучить модель на свежих данных" -- skip critical diagnostic steps
"Пошагово: (1) Определить root cause -- data pipeline bug, business change, seasonality? Проверить upstream data quality. (2) Проверить correlated drift -- 5 фичей могут зависеть от одного источника. (3) Оценить impact на model quality -- если AUC не упала, drift может быть безвредным. (4) Если quality упала: retrain на окне последних N дней с мониторингом. (5) Если root cause -- pipeline bug, починить source, не маскировать retraining'ом. (6) Обновить alerting thresholds если drift оказался нормой."
Источники¶
- Designing Machine Learning Systems -- Chip Huyen, O'Reilly (inference, monitoring, deployment)
- vLLM Paper -- Kwon et al., 2023 (PagedAttention)
- OWASP Top 10 for LLM Applications -- security best practices
Обновлено: 2026-02-11