Аудит: Секции 01-03, 05-08¶

~5 минут чтения

Дата: 2026-02-13 Scope: 71 .md файлов, 7 секций (01-математика, 02-классический-ml, 03-глубокое-обучение, 05-системный-дизайн, 06-mlops, 07-python, 08-справочник) Метод: ручной аудит, каждый claim верифицирован чтением файлов

Критические проблемы (MUST FIX)¶

1. `03-глубокое-обучение/подготовка-к-интервью.md` -- дублированные секции внутри файла¶

Путь: 03-глубокое-обучение/подготовка-к-интервью.md (5584 строки, 41 секция)

Два раза встречаются одни и те же темы:

Секция (первая)	Строка	Секция (дубль)	Строка
28. Dimensionality Reduction (t-SNE, UMAP)	3086	30. Dimensionality Reduction for Visualization (t-SNE, UMAP)	3383
22. Mixed Precision Training	2419	32. Mixed Precision Training (FP16/BF16)	3682

Вторые версии содержат source URLs и более детальный контент. Первые -- старые, без источников.

Рекомендация: Удалить секции 28 и 22 (старые), оставить 30 и 32 (новые, с источниками). Перенумеровать TOC.

2. `02-классический-ml/подготовка-к-интервью.md` -- двойная нумерация TOC¶

Путь: 02-классический-ml/подготовка-к-интервью.md, строки 39-47

21. [16. Missing Data Handling]
22. [17. Model Debugging]
23. [18. AutoML Theory]
24. [19. Federated Learning]
25. [20. TabPFN]
26. [21. Production ML Deployment Patterns]
27. [22. Data Drift Detection]
28. [23. Hyperparameter Interactions]
29. [24. Cross-Validation Edge Cases]

Внешняя нумерация (21-29) конфликтует с внутренней (16-24). Секции добавлялись позже с сохранением старых номеров.

Рекомендация: Убрать внутреннюю нумерацию, оставить только последовательную (21-29).

3. `04-LLM/техники-файнтюнинга-llm.md:110` -- фактическая ошибка (из предыдущего аудита, не исправлено)¶

Difference: Loads pre-trained model as 4-bit weights vs 8-bit in LoRA

LoRA работает с FP16/BF16, не 8-bit.

Fix: vs full-precision (FP16/BF16) in standard LoRA

Серьёзные проблемы (SHOULD FIX)¶

4. Кросс-секционная дупликация: 01-математика и 03-глубокое-обучение обновления-2026.md¶

5 тем дублируются между файлами:

Тема	01-математика (строки)	03-глубокое-обучение (строки)	Overlap
RMSNorm vs LayerNorm	105-124	52-72	~70%
Dynamic Tanh (DyT)	116-124	66-72	~90% (copy-paste)
SOAP optimizer	17-33	132-137	~50% (тематический)
Schedule-Free methods	35-42	124-131	~40% (тематический)
AlphaEvolve activations	62-68	106-111	~35% (тематический)

Разница: 01-математика даёт математический фокус (формулы нормализации, code snippet для SOAP), 03-DL -- инженерный (hardware, SwiGLU). DyT -- единственный настоящий copy-paste (идентичная формула, те же выводы). SOAP/Schedule-Free/AlphaEvolve -- одна тема, но разный текст и глубина.

Рекомендация: Каждую тему покрывать в ОДНОЙ секции с cross-reference. Нормализация и активации -- в 03-DL. Оптимизаторы с формулами -- в 01-математика. Дублирование удалить, оставить ссылки.

5. `пробелы.md` в секциях 01-03: inconsistent naming¶

Секция	`materials.md` refs	`interview-qa.md` refs
01-математика	15	0
02-классический-ml	7	11
03-глубокое-обучение	6	10

Реальные имена файлов: материалы.md и подготовка-к-интервью.md. Контент СУЩЕСТВУЕТ (verified). Naming confusion при maintainability.

Рекомендация: Заменить materials.md на материалы.md (все 3 секции), interview-qa.md на подготовка-к-интервью.md (02 и 03).

ОТЛИЧИЕ от 04-LLM: В 04-LLM interview-qa.md ссылался на файл которого нет совсем. В 01-03 контент есть в подготовка-к-интервью.md -- это naming bug, не broken reference.

6. `05-системный-дизайн/кейсы/` -- inconsistent structure¶

Кейс	Файлов	Есть метрики	Есть масштабирование	Есть требования-к-данным
обнаружение-мошенничества	6	да	да	да
рекомендательная-система	6	да	да	да
ранжирование-поиска	4	нет	нет	да
предсказание-кликов-рекламы	3	нет	нет	нет
детекция-спама	3	нет	нет	нет
ранжирование-ленты-новостей	3	нет	нет	нет
модерация-контента	3	нет	нет	нет

4 из 7 кейсов -- минимальные (только определение + компоненты + прохождение). Нет файлов по метрикам и масштабированию.

Рекомендация: Приоритет: добавить метрики + масштабирование к предсказание-кликов-рекламы и детекция-спама (самые частые на интервью).

7. 06-mlops -- нет пробелы.md и обновления-2026.md¶

Единственная секция без gap tracking и updates файла. 6 файлов разделены на 3 подтемы (AI агенты, MLOps, Дата-инженерия), каждая с материалы + подготовка. Качество контента хорошее, но нет систематического отслеживания пробелов.

Рекомендация: Добавить пробелы.md с текущим coverage assessment.

Качество по секциям¶

Секция	Файлов	Строк	Оценка	Обоснование
01-математика	9	4,798	9.0/10	16 gaps tracked, формулы, код, gotchas. Обновления clean (293 строки). Отличная структура
02-классический-ml	10	8,620	8.5/10	17 gaps tracked, 6 шпаргалок. Минус: двойная нумерация TOC
03-глубокое-обучение	7	9,260	7.5/10	Монолит подготовка (5584 строк), 2 пары дупликатов внутри файла. Контент хороший
05-системный-дизайн	32	16,586	8.0/10	7 case studies (но 4 неполные), хорошие пробелы/обновления
06-mlops	6	3,460	7.5/10	Чистая 3-topic структура, хороший контент. Минус: нет gap tracking
07-python	5	4,324	9.0/10	19 категорий gotchas (2395 строк), 100+ источников, livecoding tasks
08-справочник	2	739	8.0/10	Solid формулы (ML алгоритмы + нейросети), gotchas, Q&A

Средняя по 7 секциям: 8.2/10 Средняя с 04-LLM (7.8): 8.1/10

Приоритизированные рекомендации¶

P1 (MUST)¶

Удалить дубли в 03-DL/подготовка-к-интервью.md -- секции 28 и 22 (старые), оставить 30 и 32 (новые с источниками)
Исправить TOC в 02-CML/подготовка-к-интервью.md -- убрать двойную нумерацию
Исправить 04-LLM/техники-файнтюнинга-llm.md:110 -- "vs 8-bit" на "vs FP16/BF16" (перенесено из аудита 04-LLM)

P2 (SHOULD)¶

Устранить кросс-дупликацию 01 vs 03 обновления -- каждую тему в одном месте + cross-ref
Исправить naming в пробелы.md -- materials.md -> материалы.md (01, 02, 03), interview-qa.md -> подготовка-к-интервью.md (02, 03; в 01 не используется)
Доработать 4 минимальных кейса в 05-MLSD -- добавить метрики/масштабирование
Добавить пробелы.md в 06-mlops

P3 (NICE TO HAVE)¶

Разбить 03-DL/подготовка-к-интервью.md (5584 строки) на тематические файлы
Унифицировать структуру case studies в 05-MLSD (template: определение + компоненты + метрики + масштабирование + прохождение)

Что хорошо¶

01-математика: Лучшая секция. Формулы, код, 16 tracked gaps, отличные обновления.
07-python: 19 категорий gotchas -- исключительно полезно для интервью.
02-CML шпаргалки/: 6 cheatsheets (метрики, отладка, гиперпараметры, выбор-модели, интервью, sklearn) -- готовы к использованию.
05-MLSD кейсы обнаружение-мошенничества и рекомендательная-система: Полные, 6 файлов каждый, production-quality.
Все пробелы.md: Систематический tracking с coverage % и приоритетами.

Статистика¶

Метрика	Значение
Секций проаудитировано	7 (+ 04-LLM ранее = 8 total)
Файлов проверено	71 (+ 125 из 04-LLM = 196 total)
Критических проблем	3
Серьёзных проблем	4
Ложных claims от предыдущих аудитов	0 (ручной аудит, каждый claim verified)