Аудит: Секции 01-03, 05-08¶
~5 минут чтения
Дата: 2026-02-13 Scope: 71 .md файлов, 7 секций (01-математика, 02-классический-ml, 03-глубокое-обучение, 05-системный-дизайн, 06-mlops, 07-python, 08-справочник) Метод: ручной аудит, каждый claim верифицирован чтением файлов
Критические проблемы (MUST FIX)¶
1. 03-глубокое-обучение/подготовка-к-интервью.md -- дублированные секции внутри файла¶
Путь: 03-глубокое-обучение/подготовка-к-интервью.md (5584 строки, 41 секция)
Два раза встречаются одни и те же темы:
| Секция (первая) | Строка | Секция (дубль) | Строка |
|---|---|---|---|
| 28. Dimensionality Reduction (t-SNE, UMAP) | 3086 | 30. Dimensionality Reduction for Visualization (t-SNE, UMAP) | 3383 |
| 22. Mixed Precision Training | 2419 | 32. Mixed Precision Training (FP16/BF16) | 3682 |
Вторые версии содержат source URLs и более детальный контент. Первые -- старые, без источников.
Рекомендация: Удалить секции 28 и 22 (старые), оставить 30 и 32 (новые, с источниками). Перенумеровать TOC.
2. 02-классический-ml/подготовка-к-интервью.md -- двойная нумерация TOC¶
Путь: 02-классический-ml/подготовка-к-интервью.md, строки 39-47
21. [16. Missing Data Handling]
22. [17. Model Debugging]
23. [18. AutoML Theory]
24. [19. Federated Learning]
25. [20. TabPFN]
26. [21. Production ML Deployment Patterns]
27. [22. Data Drift Detection]
28. [23. Hyperparameter Interactions]
29. [24. Cross-Validation Edge Cases]
Внешняя нумерация (21-29) конфликтует с внутренней (16-24). Секции добавлялись позже с сохранением старых номеров.
Рекомендация: Убрать внутреннюю нумерацию, оставить только последовательную (21-29).
3. 04-LLM/техники-файнтюнинга-llm.md:110 -- фактическая ошибка (из предыдущего аудита, не исправлено)¶
LoRA работает с FP16/BF16, не 8-bit.
Fix: vs full-precision (FP16/BF16) in standard LoRA
Серьёзные проблемы (SHOULD FIX)¶
4. Кросс-секционная дупликация: 01-математика и 03-глубокое-обучение обновления-2026.md¶
5 тем дублируются между файлами:
| Тема | 01-математика (строки) | 03-глубокое-обучение (строки) | Overlap |
|---|---|---|---|
| RMSNorm vs LayerNorm | 105-124 | 52-72 | ~70% |
| Dynamic Tanh (DyT) | 116-124 | 66-72 | ~90% (copy-paste) |
| SOAP optimizer | 17-33 | 132-137 | ~50% (тематический) |
| Schedule-Free methods | 35-42 | 124-131 | ~40% (тематический) |
| AlphaEvolve activations | 62-68 | 106-111 | ~35% (тематический) |
Разница: 01-математика даёт математический фокус (формулы нормализации, code snippet для SOAP), 03-DL -- инженерный (hardware, SwiGLU). DyT -- единственный настоящий copy-paste (идентичная формула, те же выводы). SOAP/Schedule-Free/AlphaEvolve -- одна тема, но разный текст и глубина.
Рекомендация: Каждую тему покрывать в ОДНОЙ секции с cross-reference. Нормализация и активации -- в 03-DL. Оптимизаторы с формулами -- в 01-математика. Дублирование удалить, оставить ссылки.
5. пробелы.md в секциях 01-03: inconsistent naming¶
| Секция | materials.md refs |
interview-qa.md refs |
|---|---|---|
| 01-математика | 15 | 0 |
| 02-классический-ml | 7 | 11 |
| 03-глубокое-обучение | 6 | 10 |
Реальные имена файлов: материалы.md и подготовка-к-интервью.md. Контент СУЩЕСТВУЕТ (verified). Naming confusion при maintainability.
Рекомендация: Заменить materials.md на материалы.md (все 3 секции), interview-qa.md на подготовка-к-интервью.md (02 и 03).
ОТЛИЧИЕ от 04-LLM: В 04-LLM interview-qa.md ссылался на файл которого нет совсем. В 01-03 контент есть в подготовка-к-интервью.md -- это naming bug, не broken reference.
6. 05-системный-дизайн/кейсы/ -- inconsistent structure¶
| Кейс | Файлов | Есть метрики | Есть масштабирование | Есть требования-к-данным |
|---|---|---|---|---|
| обнаружение-мошенничества | 6 | да | да | да |
| рекомендательная-система | 6 | да | да | да |
| ранжирование-поиска | 4 | нет | нет | да |
| предсказание-кликов-рекламы | 3 | нет | нет | нет |
| детекция-спама | 3 | нет | нет | нет |
| ранжирование-ленты-новостей | 3 | нет | нет | нет |
| модерация-контента | 3 | нет | нет | нет |
4 из 7 кейсов -- минимальные (только определение + компоненты + прохождение). Нет файлов по метрикам и масштабированию.
Рекомендация: Приоритет: добавить метрики + масштабирование к предсказание-кликов-рекламы и детекция-спама (самые частые на интервью).
7. 06-mlops -- нет пробелы.md и обновления-2026.md¶
Единственная секция без gap tracking и updates файла. 6 файлов разделены на 3 подтемы (AI агенты, MLOps, Дата-инженерия), каждая с материалы + подготовка. Качество контента хорошее, но нет систематического отслеживания пробелов.
Рекомендация: Добавить пробелы.md с текущим coverage assessment.
Качество по секциям¶
| Секция | Файлов | Строк | Оценка | Обоснование |
|---|---|---|---|---|
| 01-математика | 9 | 4,798 | 9.0/10 | 16 gaps tracked, формулы, код, gotchas. Обновления clean (293 строки). Отличная структура |
| 02-классический-ml | 10 | 8,620 | 8.5/10 | 17 gaps tracked, 6 шпаргалок. Минус: двойная нумерация TOC |
| 03-глубокое-обучение | 7 | 9,260 | 7.5/10 | Монолит подготовка (5584 строк), 2 пары дупликатов внутри файла. Контент хороший |
| 05-системный-дизайн | 32 | 16,586 | 8.0/10 | 7 case studies (но 4 неполные), хорошие пробелы/обновления |
| 06-mlops | 6 | 3,460 | 7.5/10 | Чистая 3-topic структура, хороший контент. Минус: нет gap tracking |
| 07-python | 5 | 4,324 | 9.0/10 | 19 категорий gotchas (2395 строк), 100+ источников, livecoding tasks |
| 08-справочник | 2 | 739 | 8.0/10 | Solid формулы (ML алгоритмы + нейросети), gotchas, Q&A |
Средняя по 7 секциям: 8.2/10 Средняя с 04-LLM (7.8): 8.1/10
Приоритизированные рекомендации¶
P1 (MUST)¶
- Удалить дубли в
03-DL/подготовка-к-интервью.md-- секции 28 и 22 (старые), оставить 30 и 32 (новые с источниками) - Исправить TOC в
02-CML/подготовка-к-интервью.md-- убрать двойную нумерацию - Исправить
04-LLM/техники-файнтюнинга-llm.md:110-- "vs 8-bit" на "vs FP16/BF16" (перенесено из аудита 04-LLM)
P2 (SHOULD)¶
- Устранить кросс-дупликацию 01 vs 03 обновления -- каждую тему в одном месте + cross-ref
- Исправить naming в пробелы.md -- materials.md -> материалы.md (01, 02, 03), interview-qa.md -> подготовка-к-интервью.md (02, 03; в 01 не используется)
- Доработать 4 минимальных кейса в 05-MLSD -- добавить метрики/масштабирование
- Добавить пробелы.md в 06-mlops
P3 (NICE TO HAVE)¶
- Разбить
03-DL/подготовка-к-интервью.md(5584 строки) на тематические файлы - Унифицировать структуру case studies в 05-MLSD (template: определение + компоненты + метрики + масштабирование + прохождение)
Что хорошо¶
- 01-математика: Лучшая секция. Формулы, код, 16 tracked gaps, отличные обновления.
- 07-python: 19 категорий gotchas -- исключительно полезно для интервью.
- 02-CML шпаргалки/: 6 cheatsheets (метрики, отладка, гиперпараметры, выбор-модели, интервью, sklearn) -- готовы к использованию.
- 05-MLSD кейсы обнаружение-мошенничества и рекомендательная-система: Полные, 6 файлов каждый, production-quality.
- Все пробелы.md: Систематический tracking с coverage % и приоритетами.
Статистика¶
| Метрика | Значение |
|---|---|
| Секций проаудитировано | 7 (+ 04-LLM ранее = 8 total) |
| Файлов проверено | 71 (+ 125 из 04-LLM = 196 total) |
| Критических проблем | 3 |
| Серьёзных проблем | 4 |
| Ложных claims от предыдущих аудитов | 0 (ручной аудит, каждый claim verified) |