Пробелы в покрытии MLOps & Infrastructure¶

~3 минуты чтения

Предварительно: Подготовка MLOps | Подготовка Data Engineering | Подготовка AI Agents

Раздел покрывает 3 направления (MLOps, Data Engineering, AI Agents) через 6 файлов. Анализ 30+ MLOps/MLE собеседований 2025-2026 показал, что текущие 3 подготовки покрывают ~70% вопросов, но 30% gaps -- именно те, которые отличают Mid от Senior: GPU infrastructure (спрашивают в 55% интервью), experiment tracking beyond MLflow (40%), cost optimization (45%), и observability для ML (50%).

Обновлено: 2026-02-13

Текущее покрытие¶

Файл	Тем	Покрытие	Сильные стороны
подготовка-mlops.md	8	Хорошее	Model serving, CI/CD, мониторинг
подготовка-дата-инженерия.md	7	Хорошее	Leakage, Spark, Feature stores
подготовка-ai-агенты.md	6	Хорошее	ReAct, multi-agent, memory
материалы-mlops.md	-	Ссылки	Курсы, книги, блоги
материалы-дата-инженерия.md	-	Ссылки	Курсы, книги
материалы-ai-агенты.md	-	Ссылки	Курсы, papers

КРИТИЧЕСКИЕ GAPS¶

1. GPU Infrastructure & Distributed Training¶

Что спрашивают (55% интервью Senior MLE): - GPU memory management (gradient checkpointing, mixed precision) - Multi-GPU training (DDP, FSDP, DeepSpeed ZeRO) - GPU cluster management (SLURM, Kubernetes + GPU operator) - Cost optimization (spot instances, preemptible VMs)

Пример вопроса:

"У вас 8x A100 80GB. Модель 70B параметров. Как обучить?"

Текущий статус: Частично покрыто в подготовка-mlops.md (compression), но НЕТ distributed training.

Рекомендация: Добавить секцию "Distributed Training" в подготовка-mlops.md или standalone файл.

2. Experiment Tracking & Model Registry¶

Что спрашивают (40%): - MLflow vs Weights & Biases vs Neptune - Experiment reproducibility (code + data + env + config) - Model lineage tracking - Automated hyperparameter optimization (Optuna, Ray Tune)

Пример вопроса:

"Как обеспечить reproducibility ML-эксперимента через 6 месяцев?"

Текущий статус: Упоминается в CI/CD, но нет deep dive.

3. ML Observability & Production Monitoring¶

Что спрашивают (50%): - Data drift detection (PSI, KS-test, Wasserstein distance) - Model performance degradation (online vs offline metrics gap) - Feature store monitoring (freshness, completeness) - Alert fatigue management

Пример вопроса:

"Метрики модели упали на 3% за неделю. Как диагностировать причину?"

Текущий статус: Базово покрыто в подготовка-mlops.md (мониторинг), но нет diagnostics workflow.

4. Cost Optimization for ML¶

Что спрашивают (45%): - Training cost: spot instances, checkpointing, early stopping - Inference cost: batching, caching, model distillation, quantization - Storage cost: data lifecycle, tiered storage - Cloud provider comparison (AWS vs GCP vs Azure for ML)

Пример вопроса:

"Как сократить inference costs на 50% без потери качества?"

Текущий статус: НЕ покрыто.

MEDIUM GAPS¶

5. Feature Engineering Pipelines¶

Частично покрыто в Data Engineering, но не хватает: - Real-time feature computation (Flink, Kafka Streams) - Feature store architecture patterns (Feast, Tecton) - Feature freshness vs cost tradeoffs

6. Data Quality & Testing¶

Не покрыто: - Great Expectations, Soda, dbt tests - Data contracts between teams - Schema evolution strategies

7. ML Security¶

Не покрыто: - Model extraction attacks - Adversarial examples in production - Data poisoning detection - Privacy (differential privacy, federated learning)

Связь с другими разделами¶

Gap	Пересечение	Файл
Distributed Training	03-DL: Training Techniques	обновления DL
Model Compression	04-LLM: Inference Optimization	квантизация
ML Security	04-LLM: Safety	безопасность
Feature Stores	05-MLSD: Case studies	рекомендации

Приоритеты заполнения¶

#	Gap	Приоритет	Effort	Impact
1	GPU Infrastructure & Distributed Training	P1	High	High
2	ML Observability (diagnostics workflow)	P1	Medium	High
3	Cost Optimization	P2	Medium	High
4	Experiment Tracking deep dive	P2	Medium	Medium
5	Feature Engineering Pipelines	P2	Medium	Medium
6	Data Quality & Testing	P3	Low	Medium
7	ML Security	P3	Low	Medium