Обновления LLM Engineering 2025-2026¶
~7 минут чтения
Предварительно: Материалы | Подготовка к интервью
За 2025-2026 год LLM Engineering изменился радикально: context windows выросли с 32K до 2M токенов (Gemini 2.5 Pro), reasoning models (o1/o3, DeepSeek R1) стали стандартом для сложных задач, MoE архитектура доминирует (DeepSeek-V3: 671B total / 37B active, обученная за ~$5M вместо $100M+ у dense моделей). На собеседованиях в 2026 году вопросы по этим темам составляют до 40% технического интервью -- кандидат, не знающий разницу между DPO и GRPO или не понимающий PagedAttention, сразу проигрывает.
Что изменилось в LLM Engineering за 2025-2026 Обновлено: 2026-02-13
Критические тренды¶
1. Long Context Models (1M+ tokens)¶
Что изменилось: - Gemini 1.5 Pro / 2.5 Pro: 1-2M tokens context - Claude 3.5/4: 200K tokens - GPT-4 Turbo/o1: 128K tokens
Влияние на RAG: - Меньше chunking для многих задач - "Stuff" strategy снова актуальна - Lost-in-the-middle проблема решается лучше
Что спрашивают:
"Как изменился ваш RAG дизайн с появлением long context?"
Deep dive: Длинный контекст | RoPE | Attention Sinks & Streaming LLM
2. Reasoning Models (o1, o3, DeepSeek R1)¶
Что изменилось: - Chain-of-Thought встроен в модель - Self-verification на этапе генерации - "Thinking time" как параметр
Новые концепции: - Test-time compute scaling - Verifier models - Process supervision vs outcome supervision
Deep dive: Модели рассуждений | Масштабирование рассуждений | Test-Time Compute
3. MoE (Mixture of Experts) Dominance¶
Стандарт 2025-2026: - Mixtral, DeepSeek, Qwen -- все MoE - Sparse activation для efficiency - Router networks
Интервью вопрос:
"Объясните как работает MoE routing"
Deep dive: Сравнение MoE моделей
4. PagedAttention & vLLM¶
Теперь стандарт: - vLLM deployment для production - PagedAttention как концепция понимания KV-cache - Continuous batching
Конкуренты: - SGLang (faster structured output) - TensorRT-LLM (NVIDIA) - llama.cpp (CPU/edge)
Deep dive: vLLM & Paged Attention | Сравнение движков инференса
5. Structured Generation¶
Новые инструменты: - Outlines - Instructor - JSON mode built-in
Почему важно: - 100% валидный JSON - Type-safe outputs - Function calling reliability
Deep dive: Структурированный вывод
Обновления по направлениям¶
RAG¶
| Тема | Статус | Файл |
|---|---|---|
| GraphRAG (Microsoft) | Production-ready | Продвинутые техники RAG |
| Hybrid Search (BM25 + Dense + Reranking) | Стандарт 2026 | Продвинутые техники RAG |
| Agentic RAG | Emerging | Воркфлоу AI агентов |
| RAG Evaluation (RAGAS) | Стандарт | Метрики оценки RAG |
| Embedding Models (Matryoshka) | Стандарт | Сравнение моделей эмбеддингов |
Fine-tuning & Alignment¶
| Тема | Статус | Файл |
|---|---|---|
| QLoRA Standard (4-bit NF4 + LoRA) | Стандарт 2026 | Техники файнтюнинга LLM |
| DPO / ORPO / KTO / SimPO | Active | Alignment PEFT LLM |
| Constitutional AI | Стандарт | Конституционный AI |
| Model Merging (TIES, DARE) | Emerging | Model Merging |
Inference & Optimization¶
| Тема | Статус | Файл |
|---|---|---|
| Speculative Decoding | Production | Спекулятивное декодирование |
| KV Cache (MQA, GQA, MLA, Paged) | Стандарт | vLLM & Paged Attention |
| Quantization (GGUF/GPTQ/AWQ/EXL2) | Стандарт | Квантизация LLM |
| Knowledge Distillation | Active | Дистилляция знаний LLM |
| Pruning | Active | Прунинг LLM |
| Semantic/Prompt Caching | Emerging | Semantic Caching |
| Uncertainty Estimation | Research | Uncertainty Estimation |
Agents & Reasoning¶
| Тема | Статус | Файл |
|---|---|---|
| MCP Protocol vs Function Calling | Стандарт 2026 | MCP vs Function Calling |
| Agent Memory Systems | Active | Системы памяти агентов |
| Multi-Agent Orchestration | Emerging | Мульти-агентная оркестрация |
| CoT Reasoning (Advanced) | Active | Рассуждения CoT |
| Agent Workflow Orchestration | Emerging | Воркфлоу AI агентов |
| Tool Calling Best Practices | Стандарт | Надежность Tool Use |
Security & Safety¶
| Тема | Статус | Файл |
|---|---|---|
| LLM Guardrails | Стандарт | Гардрейлы LLM |
| Red Teaming & Jailbreaks | Active | Ред-тиминг & Jailbreaks |
| Watermarking & AI Detection | Emerging | Водяные знаки LLM |
| OWASP LLM Security | Стандарт | Безопасность OWASP LLM |
Architecture & Models¶
| Тема | Статус | Файл |
|---|---|---|
| Mamba & SSM | Active | Mamba & SSM |
| Titans (Neural Memory) | Research | Titans |
| Mechanistic Interpretability (SAE) | Research | Mech. Interpretability |
| Attention Sinks & Streaming LLM | Production | Attention Sinks |
| Vision Language Models | Active | VLM |
| Diffusion Language Models | Research | Диффузионные модели |
| Continual Learning | Research | Непрерывное обучение |
| Edge Deployment | Emerging | ML на устройствах |
Evaluation & Benchmarks¶
| Тема | Статус | Файл |
|---|---|---|
| LLM Evaluation Benchmarks | Стандарт | Бенчмарки оценки LLM |
| LLM-as-Judge | Active | Фреймворки оценки LLM |
| Code Benchmarks | Active | Бенчмарки кода LLM |
Operations¶
| Тема | Статус | Файл |
|---|---|---|
| LLM Observability | Стандарт | Наблюдаемость LLM |
| Model Routing | Active | Каскадная маршрутизация |
| Cost Optimization | Active | Оптимизация расходов |
| Synthetic Data Generation | Active | Синтетические данные |
Что перестали спрашивать¶
| Тема | Почему |
|---|---|
| BERT-style pretraining | Encoder-only models устарели для generation (все ещё используются для embeddings, NER, classification) |
| Full fine-tuning | Слишком дорого |
| Simple RAG | Базовый RAG недостаточен |
| Training from scratch | Только для frontier labs |
Что спрашивают в 2025-2026¶
| Тема | Частота |
|---|---|
| RAG architecture design | HIGH |
| LoRA/QLoRA tuning | HIGH |
| vLLM deployment | HIGH |
| Agentic systems | HIGH |
| Long context handling | MEDIUM |
| DPO/ORPO alignment | MEDIUM |
| GraphRAG | MEDIUM |
| Structured generation | MEDIUM |
Рекомендации по изучению¶
Priority 1 (Critical)¶
- vLLM + PagedAttention
- RAG with reranking
- QLoRA fine-tuning
- DPO training
Priority 2 (Important)¶
- GraphRAG
- Structured generation
- Guardrails
- Long context optimization
Priority 3 (Nice to have)¶
- MoE architecture
- Speculative decoding
- Custom tokenization
Распространенные заблуждения (обновления 2025-2026)¶
Заблуждение: long context (1M+ tokens) делает RAG ненужным
Gemini 2.5 Pro поддерживает 2M tokens, но: (1) стоимость обработки 1M токенов -- $10-50 за запрос vs $0.01-0.05 для RAG; (2) "lost-in-the-middle" проблема сохраняется -- модели хуже находят информацию в середине контекста; (3) latency первого токена (TTFT) растет с 1-2 секунд до 30-60 секунд. RAG остается необходимым для cost-эффективного production.
Заблуждение: DPO полностью заменил RLHF/PPO
DPO проще и стабильнее для style alignment, но PPO/GRPO по-прежнему дают лучшие результаты для reasoning и code generation (+5-10% на AIME/HumanEval). DeepSeek-R1 использует GRPO, не DPO. Выбор зависит от задачи: DPO для быстрых итераций, PPO/GRPO для максимального качества reasoning.
Заблуждение: reasoning models (o1, R1) нужны для всех задач
Reasoning models на 3-10x дороже и медленнее обычных LLM. Для classification, extraction, summarization -- standard model (GPT-4o-mini, Claude Haiku) дает 95%+ качества при 10x меньшей стоимости. Reasoning models оправданы только для: multi-step math, complex code generation, logic puzzles, scientific analysis.
Вопросы для интервью (обновления 2025-2026)¶
Q: Какие три самых значимых изменения в LLM Engineering за последний год?
"Модели стали больше и лучше, появились новые benchmarks."
"(1) Reasoning models стали production-ready: DeepSeek-R1, o3, Kimi K2 -- встроенный chain-of-thought с self-verification, GRPO вместо PPO для alignment. (2) MoE стал доминирующей архитектурой: DeepSeek-V3 (671B/37B active), Mixtral -- massive capacity при low inference cost. (3) Inference optimization: PagedAttention/vLLM + speculative decoding + INT4 quantization позволяют запускать 70B модели на single A100 с 2-3x throughput improvement."
Q: Как бы вы выбрали между reasoning model и standard LLM для production задачи?
"Всегда reasoning model -- она умнее."
"Я бы оценил три фактора: (1) Сложность задачи -- нужен ли multi-step reasoning? Для classification/extraction standard model достаточно; (2) Latency budget -- reasoning models генерируют 100-1000+ thinking tokens, TTFT может быть 5-30 секунд; (3) Cost -- R1 distill models (8B) дают 87% AIME при $0.01/запрос, полный R1 (671B) стоит 50x больше. Для большинства production задач я бы использовал model routing: простые запросы -> mini model, сложные -> reasoning model."
Обновлено: 2026-02-13 -- разбивка монолита, контент вынесен в отдельные файлы по подкаталогам