Перейти к содержанию

Пробелы в покрытии MLOps & Infrastructure

~3 минуты чтения

Предварительно: Подготовка MLOps | Подготовка Data Engineering | Подготовка AI Agents

Раздел покрывает 3 направления (MLOps, Data Engineering, AI Agents) через 6 файлов. Анализ 30+ MLOps/MLE собеседований 2025-2026 показал, что текущие 3 подготовки покрывают ~70% вопросов, но 30% gaps -- именно те, которые отличают Mid от Senior: GPU infrastructure (спрашивают в 55% интервью), experiment tracking beyond MLflow (40%), cost optimization (45%), и observability для ML (50%).

Обновлено: 2026-02-13


Текущее покрытие

Файл Тем Покрытие Сильные стороны
подготовка-mlops.md 8 Хорошее Model serving, CI/CD, мониторинг
подготовка-дата-инженерия.md 7 Хорошее Leakage, Spark, Feature stores
подготовка-ai-агенты.md 6 Хорошее ReAct, multi-agent, memory
материалы-mlops.md - Ссылки Курсы, книги, блоги
материалы-дата-инженерия.md - Ссылки Курсы, книги
материалы-ai-агенты.md - Ссылки Курсы, papers

КРИТИЧЕСКИЕ GAPS

1. GPU Infrastructure & Distributed Training

Что спрашивают (55% интервью Senior MLE): - GPU memory management (gradient checkpointing, mixed precision) - Multi-GPU training (DDP, FSDP, DeepSpeed ZeRO) - GPU cluster management (SLURM, Kubernetes + GPU operator) - Cost optimization (spot instances, preemptible VMs)

Пример вопроса:

"У вас 8x A100 80GB. Модель 70B параметров. Как обучить?"

Текущий статус: Частично покрыто в подготовка-mlops.md (compression), но НЕТ distributed training.

Рекомендация: Добавить секцию "Distributed Training" в подготовка-mlops.md или standalone файл.

2. Experiment Tracking & Model Registry

Что спрашивают (40%): - MLflow vs Weights & Biases vs Neptune - Experiment reproducibility (code + data + env + config) - Model lineage tracking - Automated hyperparameter optimization (Optuna, Ray Tune)

Пример вопроса:

"Как обеспечить reproducibility ML-эксперимента через 6 месяцев?"

Текущий статус: Упоминается в CI/CD, но нет deep dive.

3. ML Observability & Production Monitoring

Что спрашивают (50%): - Data drift detection (PSI, KS-test, Wasserstein distance) - Model performance degradation (online vs offline metrics gap) - Feature store monitoring (freshness, completeness) - Alert fatigue management

Пример вопроса:

"Метрики модели упали на 3% за неделю. Как диагностировать причину?"

Текущий статус: Базово покрыто в подготовка-mlops.md (мониторинг), но нет diagnostics workflow.

4. Cost Optimization for ML

Что спрашивают (45%): - Training cost: spot instances, checkpointing, early stopping - Inference cost: batching, caching, model distillation, quantization - Storage cost: data lifecycle, tiered storage - Cloud provider comparison (AWS vs GCP vs Azure for ML)

Пример вопроса:

"Как сократить inference costs на 50% без потери качества?"

Текущий статус: НЕ покрыто.


MEDIUM GAPS

5. Feature Engineering Pipelines

Частично покрыто в Data Engineering, но не хватает: - Real-time feature computation (Flink, Kafka Streams) - Feature store architecture patterns (Feast, Tecton) - Feature freshness vs cost tradeoffs

6. Data Quality & Testing

Не покрыто: - Great Expectations, Soda, dbt tests - Data contracts between teams - Schema evolution strategies

7. ML Security

Не покрыто: - Model extraction attacks - Adversarial examples in production - Data poisoning detection - Privacy (differential privacy, federated learning)


Связь с другими разделами

Gap Пересечение Файл
Distributed Training 03-DL: Training Techniques обновления DL
Model Compression 04-LLM: Inference Optimization квантизация
ML Security 04-LLM: Safety безопасность
Feature Stores 05-MLSD: Case studies рекомендации

Приоритеты заполнения

# Gap Приоритет Effort Impact
1 GPU Infrastructure & Distributed Training P1 High High
2 ML Observability (diagnostics workflow) P1 Medium High
3 Cost Optimization P2 Medium High
4 Experiment Tracking deep dive P2 Medium Medium
5 Feature Engineering Pipelines P2 Medium Medium
6 Data Quality & Testing P3 Low Medium
7 ML Security P3 Low Medium