Перейти к содержанию

Аудит: Секции 01-03, 05-08

~5 минут чтения

Дата: 2026-02-13 Scope: 71 .md файлов, 7 секций (01-математика, 02-классический-ml, 03-глубокое-обучение, 05-системный-дизайн, 06-mlops, 07-python, 08-справочник) Метод: ручной аудит, каждый claim верифицирован чтением файлов


Критические проблемы (MUST FIX)

1. 03-глубокое-обучение/подготовка-к-интервью.md -- дублированные секции внутри файла

Путь: 03-глубокое-обучение/подготовка-к-интервью.md (5584 строки, 41 секция)

Два раза встречаются одни и те же темы:

Секция (первая) Строка Секция (дубль) Строка
28. Dimensionality Reduction (t-SNE, UMAP) 3086 30. Dimensionality Reduction for Visualization (t-SNE, UMAP) 3383
22. Mixed Precision Training 2419 32. Mixed Precision Training (FP16/BF16) 3682

Вторые версии содержат source URLs и более детальный контент. Первые -- старые, без источников.

Рекомендация: Удалить секции 28 и 22 (старые), оставить 30 и 32 (новые, с источниками). Перенумеровать TOC.


2. 02-классический-ml/подготовка-к-интервью.md -- двойная нумерация TOC

Путь: 02-классический-ml/подготовка-к-интервью.md, строки 39-47

21. [16. Missing Data Handling]
22. [17. Model Debugging]
23. [18. AutoML Theory]
24. [19. Federated Learning]
25. [20. TabPFN]
26. [21. Production ML Deployment Patterns]
27. [22. Data Drift Detection]
28. [23. Hyperparameter Interactions]
29. [24. Cross-Validation Edge Cases]

Внешняя нумерация (21-29) конфликтует с внутренней (16-24). Секции добавлялись позже с сохранением старых номеров.

Рекомендация: Убрать внутреннюю нумерацию, оставить только последовательную (21-29).


3. 04-LLM/техники-файнтюнинга-llm.md:110 -- фактическая ошибка (из предыдущего аудита, не исправлено)

Difference: Loads pre-trained model as 4-bit weights vs 8-bit in LoRA

LoRA работает с FP16/BF16, не 8-bit.

Fix: vs full-precision (FP16/BF16) in standard LoRA


Серьёзные проблемы (SHOULD FIX)

4. Кросс-секционная дупликация: 01-математика и 03-глубокое-обучение обновления-2026.md

5 тем дублируются между файлами:

Тема 01-математика (строки) 03-глубокое-обучение (строки) Overlap
RMSNorm vs LayerNorm 105-124 52-72 ~70%
Dynamic Tanh (DyT) 116-124 66-72 ~90% (copy-paste)
SOAP optimizer 17-33 132-137 ~50% (тематический)
Schedule-Free methods 35-42 124-131 ~40% (тематический)
AlphaEvolve activations 62-68 106-111 ~35% (тематический)

Разница: 01-математика даёт математический фокус (формулы нормализации, code snippet для SOAP), 03-DL -- инженерный (hardware, SwiGLU). DyT -- единственный настоящий copy-paste (идентичная формула, те же выводы). SOAP/Schedule-Free/AlphaEvolve -- одна тема, но разный текст и глубина.

Рекомендация: Каждую тему покрывать в ОДНОЙ секции с cross-reference. Нормализация и активации -- в 03-DL. Оптимизаторы с формулами -- в 01-математика. Дублирование удалить, оставить ссылки.


5. пробелы.md в секциях 01-03: inconsistent naming

Секция materials.md refs interview-qa.md refs
01-математика 15 0
02-классический-ml 7 11
03-глубокое-обучение 6 10

Реальные имена файлов: материалы.md и подготовка-к-интервью.md. Контент СУЩЕСТВУЕТ (verified). Naming confusion при maintainability.

Рекомендация: Заменить materials.md на материалы.md (все 3 секции), interview-qa.md на подготовка-к-интервью.md (02 и 03).

ОТЛИЧИЕ от 04-LLM: В 04-LLM interview-qa.md ссылался на файл которого нет совсем. В 01-03 контент есть в подготовка-к-интервью.md -- это naming bug, не broken reference.


6. 05-системный-дизайн/кейсы/ -- inconsistent structure

Кейс Файлов Есть метрики Есть масштабирование Есть требования-к-данным
обнаружение-мошенничества 6 да да да
рекомендательная-система 6 да да да
ранжирование-поиска 4 нет нет да
предсказание-кликов-рекламы 3 нет нет нет
детекция-спама 3 нет нет нет
ранжирование-ленты-новостей 3 нет нет нет
модерация-контента 3 нет нет нет

4 из 7 кейсов -- минимальные (только определение + компоненты + прохождение). Нет файлов по метрикам и масштабированию.

Рекомендация: Приоритет: добавить метрики + масштабирование к предсказание-кликов-рекламы и детекция-спама (самые частые на интервью).


7. 06-mlops -- нет пробелы.md и обновления-2026.md

Единственная секция без gap tracking и updates файла. 6 файлов разделены на 3 подтемы (AI агенты, MLOps, Дата-инженерия), каждая с материалы + подготовка. Качество контента хорошее, но нет систематического отслеживания пробелов.

Рекомендация: Добавить пробелы.md с текущим coverage assessment.


Качество по секциям

Секция Файлов Строк Оценка Обоснование
01-математика 9 4,798 9.0/10 16 gaps tracked, формулы, код, gotchas. Обновления clean (293 строки). Отличная структура
02-классический-ml 10 8,620 8.5/10 17 gaps tracked, 6 шпаргалок. Минус: двойная нумерация TOC
03-глубокое-обучение 7 9,260 7.5/10 Монолит подготовка (5584 строк), 2 пары дупликатов внутри файла. Контент хороший
05-системный-дизайн 32 16,586 8.0/10 7 case studies (но 4 неполные), хорошие пробелы/обновления
06-mlops 6 3,460 7.5/10 Чистая 3-topic структура, хороший контент. Минус: нет gap tracking
07-python 5 4,324 9.0/10 19 категорий gotchas (2395 строк), 100+ источников, livecoding tasks
08-справочник 2 739 8.0/10 Solid формулы (ML алгоритмы + нейросети), gotchas, Q&A

Средняя по 7 секциям: 8.2/10 Средняя с 04-LLM (7.8): 8.1/10


Приоритизированные рекомендации

P1 (MUST)

  1. Удалить дубли в 03-DL/подготовка-к-интервью.md -- секции 28 и 22 (старые), оставить 30 и 32 (новые с источниками)
  2. Исправить TOC в 02-CML/подготовка-к-интервью.md -- убрать двойную нумерацию
  3. Исправить 04-LLM/техники-файнтюнинга-llm.md:110 -- "vs 8-bit" на "vs FP16/BF16" (перенесено из аудита 04-LLM)

P2 (SHOULD)

  1. Устранить кросс-дупликацию 01 vs 03 обновления -- каждую тему в одном месте + cross-ref
  2. Исправить naming в пробелы.md -- materials.md -> материалы.md (01, 02, 03), interview-qa.md -> подготовка-к-интервью.md (02, 03; в 01 не используется)
  3. Доработать 4 минимальных кейса в 05-MLSD -- добавить метрики/масштабирование
  4. Добавить пробелы.md в 06-mlops

P3 (NICE TO HAVE)

  1. Разбить 03-DL/подготовка-к-интервью.md (5584 строки) на тематические файлы
  2. Унифицировать структуру case studies в 05-MLSD (template: определение + компоненты + метрики + масштабирование + прохождение)

Что хорошо

  • 01-математика: Лучшая секция. Формулы, код, 16 tracked gaps, отличные обновления.
  • 07-python: 19 категорий gotchas -- исключительно полезно для интервью.
  • 02-CML шпаргалки/: 6 cheatsheets (метрики, отладка, гиперпараметры, выбор-модели, интервью, sklearn) -- готовы к использованию.
  • 05-MLSD кейсы обнаружение-мошенничества и рекомендательная-система: Полные, 6 файлов каждый, production-quality.
  • Все пробелы.md: Систематический tracking с coverage % и приоритетами.

Статистика

Метрика Значение
Секций проаудитировано 7 (+ 04-LLM ранее = 8 total)
Файлов проверено 71 (+ 125 из 04-LLM = 196 total)
Критических проблем 3
Серьёзных проблем 4
Ложных claims от предыдущих аудитов 0 (ручной аудит, каждый claim verified)