Аудит: 04-LLM-инженерия¶
~6 минут чтения
Дата: 2026-02-13 Scope: 125 .md файлов, 11 подкаталогов Метод: автоматический аудит + 2 раунда ручной верификации каждого claim
Критические проблемы (MUST FIX)¶
1. обновления-2026.md -- монолит 7913 строк, 67 секций¶
Путь: 04-llm-инженерия/обновления-2026.md
67 H2-секций "Emerging 2026". Массовая дупликация с файлами подкаталогов:
| Секция в обновления-2026 | Дублирует файл |
|---|---|
| Speculative Decoding | 02-инференс-оптимизация/спекулятивное-декодирование.md |
| KV Cache Optimization | 01-архитектура/kv-кэш-оптимизация.md |
| MoE Expert Parallelism | 07-модели-фреймворки/сравнение-moe-моделей.md |
| LLM Quantization | 02-инференс-оптимизация/квантизация-llm.md |
| Model Routing | 08-операции-llmops/каскадная-маршрутизация-llm.md |
| Semantic Caching | 08-операции-llmops/оптимизация-расходов-llmops.md |
| Vision Language Models | 01-архитектура/vision-language-модели.md + 07-модели-фреймворки/мультимодальные-модели.md |
| State Space Models | 01-архитектура/ssm-mamba-архитектура.md |
| Constitutional AI | 05-безопасность-alignment/методы-alignment.md |
Уникальный контент (нет дублирования, нужно вынести в подкаталоги): - Attention Sinks / StreamingLLM - Model Merging (TIES, DARE, Task Arithmetic)
Баг нумерации TOC (строки 79-81):
62. [52. Long-Term Memory Systems for LLM Agents]
63. [53. LLM Model Routing]
64. [54. Attention Sinks & Streaming LLM]
Рекомендация: Разбить на краткий index (200-300 строк со ссылками на подкаталоги) + перенести уникальный контент в подкаталоги + удалить дублированные секции.
2. пробелы.md ссылается на несуществующий interview-qa.md¶
Путь: 04-llm-инженерия/пробелы.md
12 ссылок вида "Добавлено в interview-qa.md section 22/23/24/25/26/27/28/29". Файл interview-qa.md не существует в дереве 04-llm-инженерия/. Весь tracking пробелов невалиден.
Рекомендация: Обновить пробелы.md -- заменить ссылки на реальное расположение контента (он уже есть в подкаталогах) или пометить пробелы как открытые.
3. Emoji в обновления-2026.md¶
Правило проекта: "Никогда не используй ЭМОДЗИ -- крашат runtime на Windows."
10 unicode emoji найдено (таблицы с результатами бенчмарков).
Рекомендация: Заменить на текст или MkDocs aliases (:x:, :white_check_mark:).
Фактические ошибки¶
1. техники-файнтюнинга-llm.md:110 -- LoRA не использует 8-bit¶
Стандартный LoRA работает с FP16/BF16 base model, не 8-bit. QLoRA добавляет 4-bit NF4 квантизацию. Формулировка "vs 8-bit in LoRA" вводит в заблуждение.
Fix: vs full-precision (FP16/BF16) in standard LoRA
2. непрерывное-обучение-llm.md:299-301 -- двойной горизонтальный разделитель¶
Опечатка при редактировании.
Серьёзные пробелы (SHOULD ADD)¶
1. Model Merging -- нет standalone файла¶
TIES, DARE, Task Arithmetic, Model Soups, SLERP. Тема hot для 2026 (DeepSeek-V3, model ensembling без compute overhead). Контент частично в обновления-2026.md секция 42, но без выделенного файла.
Рекомендация: Вынести в 09-специализированные-темы/слияние-моделей.md или 02-инференс-оптимизация/.
2. GraphRAG -- покрыт, но без standalone файла¶
Тема хорошо покрыта в двух местах:
- 04-rag/продвинутые-техники-rag.md -- Section 8 "Graph RAG" (сравнительные таблицы, бенчмарки, Q&A, gotchas)
- 04-rag/проектирование-rag-систем.md -- Section 2 "GraphRAG" (архитектура, TreeRAG + GraphRAG)
Не нуждается в отдельном файле -- покрытие достаточное. Но если в будущем тема расширится (Microsoft GraphRAG v2, LightRAG), имеет смысл выделить.
Дупликация между файлами¶
Тематическая дупликация (25-40% overlap, но разный контент)¶
| Файл A | Файл B | Общая тема | Разница |
|---|---|---|---|
07/мультимодальные-модели.md (307 строк) |
01/vision-language-модели.md (390 строк) |
VLM 3-stage architecture, CLIP | 07: model comparison, InfoNCE formula, SigLIP. 01: engineering depth, deployment, fine-tuning, evaluation, leaderboard |
08/каскадная-маршрутизация-llm.md (413 строк) |
08/оптимизация-расходов-llmops.md (375 строк) |
Semantic caching, model routing | каскадная: routing strategies (StR, taxonomy, feedback), fallback, gateway tools. оптимизация: Redis implementation, cost projection, batch processing |
INCONSISTENCY: Cost reduction semantic caching: каскадная = "40-86%", оптимизация = "up to 73%". Разные числа в двух файлах -- нужно reconcile.
обновления-2026.md vs подкаталоги¶
Не "массовая дупликация" как заявлено ранее. При spot-check выявлено:
- KV Cache секция: в основном подмножество kv-кэш-оптимизация.md -- можно удалить
- Speculative Decoding секция: ~30% overlap (EAGLE-3), но содержит уникальный контент (VSD, Draft Model Selection table)
Паттерн: каждая секция обновления-2026 содержит mix дублированного (30-50%) и уникального (50-70%) контента. Рекомендация та же: уникальный контент вынести в подкаталоги, дублированный удалить.
Существенная дупликация (20-40%)¶
| Файл A | Файл B | Overlap |
|---|---|---|
09-специализированные-темы/ml-на-устройствах.md |
02-инференс-оптимизация/квантизация-llm.md |
GPTQ, AWQ, GGUF форматы |
01-архитектура/kv-кэш-оптимизация.md |
01-архитектура/vllm-paged-attention.md |
PagedAttention mechanism |
01-архитектура/позиционное-кодирование.md |
01-архитектура/rope-длинный-контекст.md |
RoPE formulation |
01-архитектура/нормализация-глубокий-разбор.md |
01-архитектура/сравнение-нормализаций.md |
LayerNorm vs RMSNorm |
01-архитектура/токенизация-llm.md |
01-архитектура/сравнение-токенизаций.md |
BPE, WordPiece, Unigram |
02-инференс-оптимизация/оптимизация-инференса.md |
02-инференс-оптимизация/сравнение-движков-инференса.md |
Inference engine features |
02-инференс-оптимизация/техники-файнтюнинга-llm.md |
02-инференс-оптимизация/lora-варианты-файнтюнинга.md |
Базовый LoRA mechanism |
Рекомендация: Принять паттерн "base + deep-dive": base-файл = обзор 2-3 абзаца + ссылка на deep-dive. Сейчас оба файла пытаются быть самодостаточными.
Устаревшее¶
| Что | Где | Проблема |
|---|---|---|
| GPU pricing | техники-файнтюнинга-llm.md:278-283 |
H100 $3.39/hr -- spot prices Feb 2026 = $1.50-2.50/hr |
| API pricing | 08-операции-llmops/ценообразование-api-llm.md |
Цены меняются ежемесячно, o3 price drop 80% |
| "2025 стандарт" vs "2026 emerging" | обновления-2026.md |
vLLM, PagedAttention, DPO уже стандарт 2025, не emerging |
Рекомендация: Добавить дисклеймер "Цены актуальны на YYYY-MM" во все файлы с ценами.
Качество по подкаталогам¶
| Подкаталог | Файлов | Оценка | Обоснование |
|---|---|---|---|
| 01-архитектура | 22 | 8.5/10 | Глубокие формулы, код, gotchas, interview Q&A. Минус: дупликация обзор/сравнение |
| 02-инференс-оптимизация | 14 | 8.0/10 | Comprehensive: квантизация, speculative decoding, LoRA. Минус: overlap внутри подкаталога |
| 03-агенты-рассуждения | 19 | 9.0/10 | MCP, structured output, memory, multi-agent, tool use, coding agents -- все покрыто |
| 04-rag | 7 | 8.5/10 | GraphRAG, Agentic RAG, chunking, vector DBs, metrics. Solid coverage |
| 05-безопасность-alignment | 11 | 8.5/10 | RLHF/GRPO (выделенный файл 419 строк), DPO, red teaming, guardrails |
| 06-бенчмарки-оценка | 10 | 7.5/10 | Benchmarks, embeddings, ML SD patterns |
| 07-модели-фреймворки | 6 | 7.5/10 | Open-source LLM, MoE, diffusion. Минус: дупликация VLM с 01 |
| 08-операции-llmops | 6 | 7.0/10 | LLMOps, observability, cost. Минус: внутренняя дупликация |
| 09-специализированные-темы | 9 | 7.5/10 | NAS, synthetic data, drift, feature stores. Минус: SDI слишком niche |
| 10-ресурсы-интервью | 7 | 7.0/10 | Company-specific prep |
| синтез | 10 | 8.0/10 | Шпаргалки, мастер-гайд |
| Корневые файлы | 4 | 5.0/10 | обновления-2026 монолит, пробелы.md с битыми ссылками |
Общая оценка: 7.8/10
Приоритизированные рекомендации¶
P1 (MUST)¶
- Разбить
обновления-2026.md(7913 строк) -- вынести уникальный контент (Attention Sinks, Model Merging) в подкаталоги, дублированные секции удалить, оставить краткий index - Исправить
пробелы.md-- убрать 12 ссылок на несуществующий interview-qa.md, указать реальное расположение контента - Убрать emoji из обновления-2026.md
- Исправить
техники-файнтюнинга-llm.md:110-- "vs 8-bit" на "vs FP16/BF16"
P2 (SHOULD)¶
- Объединить или разделить responsibility между
мультимодальные-модели.md(07) иvision-language-модели.md(01) - Объединить
каскадная-маршрутизация-llm.mdиоптимизация-расходов-llmops.md - Добавить standalone файл по Model Merging (TIES, DARE, Task Arithmetic)
- Добавить дисклеймер по ценам в файлы с pricing tables
P3 (NICE TO HAVE)¶
- Принять паттерн "base + deep-dive" для пар обзор/сравнение (нормализация, токенизация, PE, inference engines)
- Расширить
step-decomposed-influence.mdдо "Data Attribution Methods" или пометить как optional
Ошибки предыдущего аудита (агент a6e5ab0)¶
Агент заявил "прочитал ВСЕ 60 файлов" (121K tokens), но 4 из 7 "серьёзных пробелов" оказались ложными:
| Ложное утверждение | Реальность |
|---|---|
| "Нет файла по Structured Output" | структурированный-вывод.md EXISTS (474 строки) |
| "Нет файла по MCP Protocol" | mcp-vs-function-calling.md (466) + протокол-памяти-mcp.md (414) |
| "Нет файла по Agent Memory Systems" | системы-памяти-агентов.md EXISTS (403 строки) |
| "GRPO покрыт одним словом" | 111 упоминаний в 11 файлах, прогресс-rlhf.md (419 строк) с GRPO в заголовке |
| "PEFT table -- противоречие" | Корректная агрегация: PEFT 80-95% = LoRA 90-95% + QLoRA 80-90% |
| "GraphRAG нет файла" | Нет standalone, но Section 8 в продвинутые-техники-rag.md + Section 2 в проектирование-rag-систем.md |
Root cause: Context overflow (121K tokens). Агент потерял track прочитанных файлов и фабриковал claims о "отсутствующем" контенте.