Обновления LLM Engineering 2025-2026¶

~7 минут чтения

Предварительно: Материалы | Подготовка к интервью

За 2025-2026 год LLM Engineering изменился радикально: context windows выросли с 32K до 2M токенов (Gemini 2.5 Pro), reasoning models (o1/o3, DeepSeek R1) стали стандартом для сложных задач, MoE архитектура доминирует (DeepSeek-V3: 671B total / 37B active, обученная за ~$5M вместо $100M+ у dense моделей). На собеседованиях в 2026 году вопросы по этим темам составляют до 40% технического интервью -- кандидат, не знающий разницу между DPO и GRPO или не понимающий PagedAttention, сразу проигрывает.

Что изменилось в LLM Engineering за 2025-2026 Обновлено: 2026-02-13

Критические тренды¶

1. Long Context Models (1M+ tokens)¶

Что изменилось: - Gemini 1.5 Pro / 2.5 Pro: 1-2M tokens context - Claude 3.5/4: 200K tokens - GPT-4 Turbo/o1: 128K tokens

Влияние на RAG: - Меньше chunking для многих задач - "Stuff" strategy снова актуальна - Lost-in-the-middle проблема решается лучше

Что спрашивают:

"Как изменился ваш RAG дизайн с появлением long context?"

Deep dive: Длинный контекст | RoPE | Attention Sinks & Streaming LLM

2. Reasoning Models (o1, o3, DeepSeek R1)¶

Что изменилось: - Chain-of-Thought встроен в модель - Self-verification на этапе генерации - "Thinking time" как параметр

Новые концепции: - Test-time compute scaling - Verifier models - Process supervision vs outcome supervision

Deep dive: Модели рассуждений | Масштабирование рассуждений | Test-Time Compute

3. MoE (Mixture of Experts) Dominance¶

Стандарт 2025-2026: - Mixtral, DeepSeek, Qwen -- все MoE - Sparse activation для efficiency - Router networks

Интервью вопрос:

"Объясните как работает MoE routing"

Deep dive: Сравнение MoE моделей

4. PagedAttention & vLLM¶

Теперь стандарт: - vLLM deployment для production - PagedAttention как концепция понимания KV-cache - Continuous batching

Конкуренты: - SGLang (faster structured output) - TensorRT-LLM (NVIDIA) - llama.cpp (CPU/edge)

Deep dive: vLLM & Paged Attention | Сравнение движков инференса

5. Structured Generation¶

Новые инструменты: - Outlines - Instructor - JSON mode built-in

Почему важно: - 100% валидный JSON - Type-safe outputs - Function calling reliability

Deep dive: Структурированный вывод

Обновления по направлениям¶

RAG¶

Тема	Статус	Файл
GraphRAG (Microsoft)	Production-ready	Продвинутые техники RAG
Hybrid Search (BM25 + Dense + Reranking)	Стандарт 2026	Продвинутые техники RAG
Agentic RAG	Emerging	Воркфлоу AI агентов
RAG Evaluation (RAGAS)	Стандарт	Метрики оценки RAG
Embedding Models (Matryoshka)	Стандарт	Сравнение моделей эмбеддингов

Fine-tuning & Alignment¶

Тема	Статус	Файл
QLoRA Standard (4-bit NF4 + LoRA)	Стандарт 2026	Техники файнтюнинга LLM
DPO / ORPO / KTO / SimPO	Active	Alignment PEFT LLM
Constitutional AI	Стандарт	Конституционный AI
Model Merging (TIES, DARE)	Emerging	Model Merging

Inference & Optimization¶

Тема	Статус	Файл
Speculative Decoding	Production	Спекулятивное декодирование
KV Cache (MQA, GQA, MLA, Paged)	Стандарт	vLLM & Paged Attention
Quantization (GGUF/GPTQ/AWQ/EXL2)	Стандарт	Квантизация LLM
Knowledge Distillation	Active	Дистилляция знаний LLM
Pruning	Active	Прунинг LLM
Semantic/Prompt Caching	Emerging	Semantic Caching
Uncertainty Estimation	Research	Uncertainty Estimation

Agents & Reasoning¶

Тема	Статус	Файл
MCP Protocol vs Function Calling	Стандарт 2026	MCP vs Function Calling
Agent Memory Systems	Active	Системы памяти агентов
Multi-Agent Orchestration	Emerging	Мульти-агентная оркестрация
CoT Reasoning (Advanced)	Active	Рассуждения CoT
Agent Workflow Orchestration	Emerging	Воркфлоу AI агентов
Tool Calling Best Practices	Стандарт	Надежность Tool Use

Security & Safety¶

Тема	Статус	Файл
LLM Guardrails	Стандарт	Гардрейлы LLM
Red Teaming & Jailbreaks	Active	Ред-тиминг & Jailbreaks
Watermarking & AI Detection	Emerging	Водяные знаки LLM
OWASP LLM Security	Стандарт	Безопасность OWASP LLM

Architecture & Models¶

Тема	Статус	Файл
Mamba & SSM	Active	Mamba & SSM
Titans (Neural Memory)	Research	Titans
Mechanistic Interpretability (SAE)	Research	Mech. Interpretability
Attention Sinks & Streaming LLM	Production	Attention Sinks
Vision Language Models	Active	VLM
Diffusion Language Models	Research	Диффузионные модели
Continual Learning	Research	Непрерывное обучение
Edge Deployment	Emerging	ML на устройствах

Evaluation & Benchmarks¶

Тема	Статус	Файл
LLM Evaluation Benchmarks	Стандарт	Бенчмарки оценки LLM
LLM-as-Judge	Active	Фреймворки оценки LLM
Code Benchmarks	Active	Бенчмарки кода LLM

Operations¶

Тема	Статус	Файл
LLM Observability	Стандарт	Наблюдаемость LLM
Model Routing	Active	Каскадная маршрутизация
Cost Optimization	Active	Оптимизация расходов
Synthetic Data Generation	Active	Синтетические данные

Что перестали спрашивать¶

Тема	Почему
BERT-style pretraining	Encoder-only models устарели для generation (все ещё используются для embeddings, NER, classification)
Full fine-tuning	Слишком дорого
Simple RAG	Базовый RAG недостаточен
Training from scratch	Только для frontier labs

Что спрашивают в 2025-2026¶

Тема	Частота
RAG architecture design	HIGH
LoRA/QLoRA tuning	HIGH
vLLM deployment	HIGH
Agentic systems	HIGH
Long context handling	MEDIUM
DPO/ORPO alignment	MEDIUM
GraphRAG	MEDIUM
Structured generation	MEDIUM

Распространенные заблуждения (обновления 2025-2026)¶

Заблуждение: long context (1M+ tokens) делает RAG ненужным

Gemini 2.5 Pro поддерживает 2M tokens, но: (1) стоимость обработки 1M токенов -- $10-50 за запрос vs $0.01-0.05 для RAG; (2) "lost-in-the-middle" проблема сохраняется -- модели хуже находят информацию в середине контекста; (3) latency первого токена (TTFT) растет с 1-2 секунд до 30-60 секунд. RAG остается необходимым для cost-эффективного production.

Заблуждение: DPO полностью заменил RLHF/PPO

DPO проще и стабильнее для style alignment, но PPO/GRPO по-прежнему дают лучшие результаты для reasoning и code generation (+5-10% на AIME/HumanEval). DeepSeek-R1 использует GRPO, не DPO. Выбор зависит от задачи: DPO для быстрых итераций, PPO/GRPO для максимального качества reasoning.

Заблуждение: reasoning models (o1, R1) нужны для всех задач

Reasoning models на 3-10x дороже и медленнее обычных LLM. Для classification, extraction, summarization -- standard model (GPT-4o-mini, Claude Haiku) дает 95%+ качества при 10x меньшей стоимости. Reasoning models оправданы только для: multi-step math, complex code generation, logic puzzles, scientific analysis.

Вопросы для интервью (обновления 2025-2026)¶

Q: Какие три самых значимых изменения в LLM Engineering за последний год?

"Модели стали больше и лучше, появились новые benchmarks."

"(1) Reasoning models стали production-ready: DeepSeek-R1, o3, Kimi K2 -- встроенный chain-of-thought с self-verification, GRPO вместо PPO для alignment. (2) MoE стал доминирующей архитектурой: DeepSeek-V3 (671B/37B active), Mixtral -- massive capacity при low inference cost. (3) Inference optimization: PagedAttention/vLLM + speculative decoding + INT4 quantization позволяют запускать 70B модели на single A100 с 2-3x throughput improvement."

Q: Как бы вы выбрали между reasoning model и standard LLM для production задачи?

"Всегда reasoning model -- она умнее."

"Я бы оценил три фактора: (1) Сложность задачи -- нужен ли multi-step reasoning? Для classification/extraction standard model достаточно; (2) Latency budget -- reasoning models генерируют 100-1000+ thinking tokens, TTFT может быть 5-30 секунд; (3) Cost -- R1 distill models (8B) дают 87% AIME при $0.01/запрос, полный R1 (671B) стоит 50x больше. Для большинства production задач я бы использовал model routing: простые запросы -> mini model, сложные -> reasoning model."

Обновлено: 2026-02-13 -- разбивка монолита, контент вынесен в отдельные файлы по подкаталогам