Пробелы в покрытии MLOps & Infrastructure¶
~3 минуты чтения
Предварительно: Подготовка MLOps | Подготовка Data Engineering | Подготовка AI Agents
Раздел покрывает 3 направления (MLOps, Data Engineering, AI Agents) через 6 файлов. Анализ 30+ MLOps/MLE собеседований 2025-2026 показал, что текущие 3 подготовки покрывают ~70% вопросов, но 30% gaps -- именно те, которые отличают Mid от Senior: GPU infrastructure (спрашивают в 55% интервью), experiment tracking beyond MLflow (40%), cost optimization (45%), и observability для ML (50%).
Обновлено: 2026-02-13
Текущее покрытие¶
| Файл | Тем | Покрытие | Сильные стороны |
|---|---|---|---|
| подготовка-mlops.md | 8 | Хорошее | Model serving, CI/CD, мониторинг |
| подготовка-дата-инженерия.md | 7 | Хорошее | Leakage, Spark, Feature stores |
| подготовка-ai-агенты.md | 6 | Хорошее | ReAct, multi-agent, memory |
| материалы-mlops.md | - | Ссылки | Курсы, книги, блоги |
| материалы-дата-инженерия.md | - | Ссылки | Курсы, книги |
| материалы-ai-агенты.md | - | Ссылки | Курсы, papers |
КРИТИЧЕСКИЕ GAPS¶
1. GPU Infrastructure & Distributed Training¶
Что спрашивают (55% интервью Senior MLE): - GPU memory management (gradient checkpointing, mixed precision) - Multi-GPU training (DDP, FSDP, DeepSpeed ZeRO) - GPU cluster management (SLURM, Kubernetes + GPU operator) - Cost optimization (spot instances, preemptible VMs)
Пример вопроса:
"У вас 8x A100 80GB. Модель 70B параметров. Как обучить?"
Текущий статус: Частично покрыто в подготовка-mlops.md (compression), но НЕТ distributed training.
Рекомендация: Добавить секцию "Distributed Training" в подготовка-mlops.md или standalone файл.
2. Experiment Tracking & Model Registry¶
Что спрашивают (40%): - MLflow vs Weights & Biases vs Neptune - Experiment reproducibility (code + data + env + config) - Model lineage tracking - Automated hyperparameter optimization (Optuna, Ray Tune)
Пример вопроса:
"Как обеспечить reproducibility ML-эксперимента через 6 месяцев?"
Текущий статус: Упоминается в CI/CD, но нет deep dive.
3. ML Observability & Production Monitoring¶
Что спрашивают (50%): - Data drift detection (PSI, KS-test, Wasserstein distance) - Model performance degradation (online vs offline metrics gap) - Feature store monitoring (freshness, completeness) - Alert fatigue management
Пример вопроса:
"Метрики модели упали на 3% за неделю. Как диагностировать причину?"
Текущий статус: Базово покрыто в подготовка-mlops.md (мониторинг), но нет diagnostics workflow.
4. Cost Optimization for ML¶
Что спрашивают (45%): - Training cost: spot instances, checkpointing, early stopping - Inference cost: batching, caching, model distillation, quantization - Storage cost: data lifecycle, tiered storage - Cloud provider comparison (AWS vs GCP vs Azure for ML)
Пример вопроса:
"Как сократить inference costs на 50% без потери качества?"
Текущий статус: НЕ покрыто.
MEDIUM GAPS¶
5. Feature Engineering Pipelines¶
Частично покрыто в Data Engineering, но не хватает: - Real-time feature computation (Flink, Kafka Streams) - Feature store architecture patterns (Feast, Tecton) - Feature freshness vs cost tradeoffs
6. Data Quality & Testing¶
Не покрыто: - Great Expectations, Soda, dbt tests - Data contracts between teams - Schema evolution strategies
7. ML Security¶
Не покрыто: - Model extraction attacks - Adversarial examples in production - Data poisoning detection - Privacy (differential privacy, federated learning)
Связь с другими разделами¶
| Gap | Пересечение | Файл |
|---|---|---|
| Distributed Training | 03-DL: Training Techniques | обновления DL |
| Model Compression | 04-LLM: Inference Optimization | квантизация |
| ML Security | 04-LLM: Safety | безопасность |
| Feature Stores | 05-MLSD: Case studies | рекомендации |
Приоритеты заполнения¶
| # | Gap | Приоритет | Effort | Impact |
|---|---|---|---|---|
| 1 | GPU Infrastructure & Distributed Training | P1 | High | High |
| 2 | ML Observability (diagnostics workflow) | P1 | Medium | High |
| 3 | Cost Optimization | P2 | Medium | High |
| 4 | Experiment Tracking deep dive | P2 | Medium | Medium |
| 5 | Feature Engineering Pipelines | P2 | Medium | Medium |
| 6 | Data Quality & Testing | P3 | Low | Medium |
| 7 | ML Security | P3 | Low | Medium |