Аудит: 04-LLM-инженерия¶

~6 минут чтения

Дата: 2026-02-13 Scope: 125 .md файлов, 11 подкаталогов Метод: автоматический аудит + 2 раунда ручной верификации каждого claim

Критические проблемы (MUST FIX)¶

1. `обновления-2026.md` -- монолит 7913 строк, 67 секций¶

Путь: 04-llm-инженерия/обновления-2026.md

67 H2-секций "Emerging 2026". Массовая дупликация с файлами подкаталогов:

Секция в обновления-2026	Дублирует файл
Speculative Decoding	`02-инференс-оптимизация/спекулятивное-декодирование.md`
KV Cache Optimization	`01-архитектура/kv-кэш-оптимизация.md`
MoE Expert Parallelism	`07-модели-фреймворки/сравнение-moe-моделей.md`
LLM Quantization	`02-инференс-оптимизация/квантизация-llm.md`
Model Routing	`08-операции-llmops/каскадная-маршрутизация-llm.md`
Semantic Caching	`08-операции-llmops/оптимизация-расходов-llmops.md`
Vision Language Models	`01-архитектура/vision-language-модели.md` + `07-модели-фреймворки/мультимодальные-модели.md`
State Space Models	`01-архитектура/ssm-mamba-архитектура.md`
Constitutional AI	`05-безопасность-alignment/методы-alignment.md`

Уникальный контент (нет дублирования, нужно вынести в подкаталоги): - Attention Sinks / StreamingLLM - Model Merging (TIES, DARE, Task Arithmetic)

Баг нумерации TOC (строки 79-81):

62. [52. Long-Term Memory Systems for LLM Agents]
63. [53. LLM Model Routing]
64. [54. Attention Sinks & Streaming LLM]

Двойная нумерация (62 vs 52, 63 vs 53, 64 vs 54).

Рекомендация: Разбить на краткий index (200-300 строк со ссылками на подкаталоги) + перенести уникальный контент в подкаталоги + удалить дублированные секции.

2. `пробелы.md` ссылается на несуществующий `interview-qa.md`¶

Путь: 04-llm-инженерия/пробелы.md

12 ссылок вида "Добавлено в interview-qa.md section 22/23/24/25/26/27/28/29". Файл interview-qa.md не существует в дереве 04-llm-инженерия/. Весь tracking пробелов невалиден.

Рекомендация: Обновить пробелы.md -- заменить ссылки на реальное расположение контента (он уже есть в подкаталогах) или пометить пробелы как открытые.

3. Emoji в `обновления-2026.md`¶

Правило проекта: "Никогда не используй ЭМОДЗИ -- крашат runtime на Windows."

10 unicode emoji найдено (таблицы с результатами бенчмарков).

Рекомендация: Заменить на текст или MkDocs aliases (:x:, :white_check_mark:).

Фактические ошибки¶

1. `техники-файнтюнинга-llm.md:110` -- LoRA не использует 8-bit¶

Difference: Loads pre-trained model as 4-bit weights vs 8-bit in LoRA

Стандартный LoRA работает с FP16/BF16 base model, не 8-bit. QLoRA добавляет 4-bit NF4 квантизацию. Формулировка "vs 8-bit in LoRA" вводит в заблуждение.

Fix: vs full-precision (FP16/BF16) in standard LoRA

2. `непрерывное-обучение-llm.md:299-301` -- двойной горизонтальный разделитель¶

---

---

Опечатка при редактировании.

Серьёзные пробелы (SHOULD ADD)¶

1. Model Merging -- нет standalone файла¶

TIES, DARE, Task Arithmetic, Model Soups, SLERP. Тема hot для 2026 (DeepSeek-V3, model ensembling без compute overhead). Контент частично в обновления-2026.md секция 42, но без выделенного файла.

Рекомендация: Вынести в 09-специализированные-темы/слияние-моделей.md или 02-инференс-оптимизация/.

2. GraphRAG -- покрыт, но без standalone файла¶

Тема хорошо покрыта в двух местах: - 04-rag/продвинутые-техники-rag.md -- Section 8 "Graph RAG" (сравнительные таблицы, бенчмарки, Q&A, gotchas) - 04-rag/проектирование-rag-систем.md -- Section 2 "GraphRAG" (архитектура, TreeRAG + GraphRAG)

Не нуждается в отдельном файле -- покрытие достаточное. Но если в будущем тема расширится (Microsoft GraphRAG v2, LightRAG), имеет смысл выделить.

Дупликация между файлами¶

Тематическая дупликация (25-40% overlap, но разный контент)¶

Файл A	Файл B	Общая тема	Разница
`07/мультимодальные-модели.md` (307 строк)	`01/vision-language-модели.md` (390 строк)	VLM 3-stage architecture, CLIP	07: model comparison, InfoNCE formula, SigLIP. 01: engineering depth, deployment, fine-tuning, evaluation, leaderboard
`08/каскадная-маршрутизация-llm.md` (413 строк)	`08/оптимизация-расходов-llmops.md` (375 строк)	Semantic caching, model routing	каскадная: routing strategies (StR, taxonomy, feedback), fallback, gateway tools. оптимизация: Redis implementation, cost projection, batch processing

INCONSISTENCY: Cost reduction semantic caching: каскадная = "40-86%", оптимизация = "up to 73%". Разные числа в двух файлах -- нужно reconcile.

`обновления-2026.md` vs подкаталоги¶

Не "массовая дупликация" как заявлено ранее. При spot-check выявлено: - KV Cache секция: в основном подмножество kv-кэш-оптимизация.md -- можно удалить - Speculative Decoding секция: ~30% overlap (EAGLE-3), но содержит уникальный контент (VSD, Draft Model Selection table)

Паттерн: каждая секция обновления-2026 содержит mix дублированного (30-50%) и уникального (50-70%) контента. Рекомендация та же: уникальный контент вынести в подкаталоги, дублированный удалить.

Существенная дупликация (20-40%)¶

Файл A	Файл B	Overlap
`09-специализированные-темы/ml-на-устройствах.md`	`02-инференс-оптимизация/квантизация-llm.md`	GPTQ, AWQ, GGUF форматы
`01-архитектура/kv-кэш-оптимизация.md`	`01-архитектура/vllm-paged-attention.md`	PagedAttention mechanism
`01-архитектура/позиционное-кодирование.md`	`01-архитектура/rope-длинный-контекст.md`	RoPE formulation
`01-архитектура/нормализация-глубокий-разбор.md`	`01-архитектура/сравнение-нормализаций.md`	LayerNorm vs RMSNorm
`01-архитектура/токенизация-llm.md`	`01-архитектура/сравнение-токенизаций.md`	BPE, WordPiece, Unigram
`02-инференс-оптимизация/оптимизация-инференса.md`	`02-инференс-оптимизация/сравнение-движков-инференса.md`	Inference engine features
`02-инференс-оптимизация/техники-файнтюнинга-llm.md`	`02-инференс-оптимизация/lora-варианты-файнтюнинга.md`	Базовый LoRA mechanism

Рекомендация: Принять паттерн "base + deep-dive": base-файл = обзор 2-3 абзаца + ссылка на deep-dive. Сейчас оба файла пытаются быть самодостаточными.

Устаревшее¶

Что	Где	Проблема
GPU pricing	`техники-файнтюнинга-llm.md:278-283`	H100 $3.39/hr -- spot prices Feb 2026 = $1.50-2.50/hr
API pricing	`08-операции-llmops/ценообразование-api-llm.md`	Цены меняются ежемесячно, o3 price drop 80%
"2025 стандарт" vs "2026 emerging"	`обновления-2026.md`	vLLM, PagedAttention, DPO уже стандарт 2025, не emerging

Рекомендация: Добавить дисклеймер "Цены актуальны на YYYY-MM" во все файлы с ценами.

Качество по подкаталогам¶

Подкаталог	Файлов	Оценка	Обоснование
01-архитектура	22	8.5/10	Глубокие формулы, код, gotchas, interview Q&A. Минус: дупликация обзор/сравнение
02-инференс-оптимизация	14	8.0/10	Comprehensive: квантизация, speculative decoding, LoRA. Минус: overlap внутри подкаталога
03-агенты-рассуждения	19	9.0/10	MCP, structured output, memory, multi-agent, tool use, coding agents -- все покрыто
04-rag	7	8.5/10	GraphRAG, Agentic RAG, chunking, vector DBs, metrics. Solid coverage
05-безопасность-alignment	11	8.5/10	RLHF/GRPO (выделенный файл 419 строк), DPO, red teaming, guardrails
06-бенчмарки-оценка	10	7.5/10	Benchmarks, embeddings, ML SD patterns
07-модели-фреймворки	6	7.5/10	Open-source LLM, MoE, diffusion. Минус: дупликация VLM с 01
08-операции-llmops	6	7.0/10	LLMOps, observability, cost. Минус: внутренняя дупликация
09-специализированные-темы	9	7.5/10	NAS, synthetic data, drift, feature stores. Минус: SDI слишком niche
10-ресурсы-интервью	7	7.0/10	Company-specific prep
синтез	10	8.0/10	Шпаргалки, мастер-гайд
Корневые файлы	4	5.0/10	обновления-2026 монолит, пробелы.md с битыми ссылками

Общая оценка: 7.8/10

Приоритизированные рекомендации¶

P1 (MUST)¶

Разбить обновления-2026.md (7913 строк) -- вынести уникальный контент (Attention Sinks, Model Merging) в подкаталоги, дублированные секции удалить, оставить краткий index
Исправить пробелы.md -- убрать 12 ссылок на несуществующий interview-qa.md, указать реальное расположение контента
Убрать emoji из обновления-2026.md
Исправить техники-файнтюнинга-llm.md:110 -- "vs 8-bit" на "vs FP16/BF16"

P2 (SHOULD)¶

Объединить или разделить responsibility между мультимодальные-модели.md (07) и vision-language-модели.md (01)
Объединить каскадная-маршрутизация-llm.md и оптимизация-расходов-llmops.md
Добавить standalone файл по Model Merging (TIES, DARE, Task Arithmetic)
Добавить дисклеймер по ценам в файлы с pricing tables

P3 (NICE TO HAVE)¶

Принять паттерн "base + deep-dive" для пар обзор/сравнение (нормализация, токенизация, PE, inference engines)
Расширить step-decomposed-influence.md до "Data Attribution Methods" или пометить как optional

Ошибки предыдущего аудита (агент a6e5ab0)¶

Агент заявил "прочитал ВСЕ 60 файлов" (121K tokens), но 4 из 7 "серьёзных пробелов" оказались ложными:

Ложное утверждение	Реальность
"Нет файла по Structured Output"	`структурированный-вывод.md` EXISTS (474 строки)
"Нет файла по MCP Protocol"	`mcp-vs-function-calling.md` (466) + `протокол-памяти-mcp.md` (414)
"Нет файла по Agent Memory Systems"	`системы-памяти-агентов.md` EXISTS (403 строки)
"GRPO покрыт одним словом"	111 упоминаний в 11 файлах, `прогресс-rlhf.md` (419 строк) с GRPO в заголовке
"PEFT table -- противоречие"	Корректная агрегация: PEFT 80-95% = LoRA 90-95% + QLoRA 80-90%
"GraphRAG нет файла"	Нет standalone, но Section 8 в `продвинутые-техники-rag.md` + Section 2 в `проектирование-rag-систем.md`

Root cause: Context overflow (121K tokens). Агент потерял track прочитанных файлов и фабриковал claims о "отсутствующем" контенте.