Перейти к содержанию

Обновления LLM Engineering 2025-2026

~7 минут чтения

Предварительно: Материалы | Подготовка к интервью

За 2025-2026 год LLM Engineering изменился радикально: context windows выросли с 32K до 2M токенов (Gemini 2.5 Pro), reasoning models (o1/o3, DeepSeek R1) стали стандартом для сложных задач, MoE архитектура доминирует (DeepSeek-V3: 671B total / 37B active, обученная за ~$5M вместо $100M+ у dense моделей). На собеседованиях в 2026 году вопросы по этим темам составляют до 40% технического интервью -- кандидат, не знающий разницу между DPO и GRPO или не понимающий PagedAttention, сразу проигрывает.

Что изменилось в LLM Engineering за 2025-2026 Обновлено: 2026-02-13


Критические тренды

1. Long Context Models (1M+ tokens)

Что изменилось: - Gemini 1.5 Pro / 2.5 Pro: 1-2M tokens context - Claude 3.5/4: 200K tokens - GPT-4 Turbo/o1: 128K tokens

Влияние на RAG: - Меньше chunking для многих задач - "Stuff" strategy снова актуальна - Lost-in-the-middle проблема решается лучше

Что спрашивают:

"Как изменился ваш RAG дизайн с появлением long context?"

Deep dive: Длинный контекст | RoPE | Attention Sinks & Streaming LLM

2. Reasoning Models (o1, o3, DeepSeek R1)

Что изменилось: - Chain-of-Thought встроен в модель - Self-verification на этапе генерации - "Thinking time" как параметр

Новые концепции: - Test-time compute scaling - Verifier models - Process supervision vs outcome supervision

Deep dive: Модели рассуждений | Масштабирование рассуждений | Test-Time Compute

3. MoE (Mixture of Experts) Dominance

Стандарт 2025-2026: - Mixtral, DeepSeek, Qwen -- все MoE - Sparse activation для efficiency - Router networks

Интервью вопрос:

"Объясните как работает MoE routing"

Deep dive: Сравнение MoE моделей

4. PagedAttention & vLLM

Теперь стандарт: - vLLM deployment для production - PagedAttention как концепция понимания KV-cache - Continuous batching

Конкуренты: - SGLang (faster structured output) - TensorRT-LLM (NVIDIA) - llama.cpp (CPU/edge)

Deep dive: vLLM & Paged Attention | Сравнение движков инференса

5. Structured Generation

Новые инструменты: - Outlines - Instructor - JSON mode built-in

Почему важно: - 100% валидный JSON - Type-safe outputs - Function calling reliability

Deep dive: Структурированный вывод


Обновления по направлениям

RAG

Тема Статус Файл
GraphRAG (Microsoft) Production-ready Продвинутые техники RAG
Hybrid Search (BM25 + Dense + Reranking) Стандарт 2026 Продвинутые техники RAG
Agentic RAG Emerging Воркфлоу AI агентов
RAG Evaluation (RAGAS) Стандарт Метрики оценки RAG
Embedding Models (Matryoshka) Стандарт Сравнение моделей эмбеддингов

Fine-tuning & Alignment

Тема Статус Файл
QLoRA Standard (4-bit NF4 + LoRA) Стандарт 2026 Техники файнтюнинга LLM
DPO / ORPO / KTO / SimPO Active Alignment PEFT LLM
Constitutional AI Стандарт Конституционный AI
Model Merging (TIES, DARE) Emerging Model Merging

Inference & Optimization

Тема Статус Файл
Speculative Decoding Production Спекулятивное декодирование
KV Cache (MQA, GQA, MLA, Paged) Стандарт vLLM & Paged Attention
Quantization (GGUF/GPTQ/AWQ/EXL2) Стандарт Квантизация LLM
Knowledge Distillation Active Дистилляция знаний LLM
Pruning Active Прунинг LLM
Semantic/Prompt Caching Emerging Semantic Caching
Uncertainty Estimation Research Uncertainty Estimation

Agents & Reasoning

Тема Статус Файл
MCP Protocol vs Function Calling Стандарт 2026 MCP vs Function Calling
Agent Memory Systems Active Системы памяти агентов
Multi-Agent Orchestration Emerging Мульти-агентная оркестрация
CoT Reasoning (Advanced) Active Рассуждения CoT
Agent Workflow Orchestration Emerging Воркфлоу AI агентов
Tool Calling Best Practices Стандарт Надежность Tool Use

Security & Safety

Тема Статус Файл
LLM Guardrails Стандарт Гардрейлы LLM
Red Teaming & Jailbreaks Active Ред-тиминг & Jailbreaks
Watermarking & AI Detection Emerging Водяные знаки LLM
OWASP LLM Security Стандарт Безопасность OWASP LLM

Architecture & Models

Тема Статус Файл
Mamba & SSM Active Mamba & SSM
Titans (Neural Memory) Research Titans
Mechanistic Interpretability (SAE) Research Mech. Interpretability
Attention Sinks & Streaming LLM Production Attention Sinks
Vision Language Models Active VLM
Diffusion Language Models Research Диффузионные модели
Continual Learning Research Непрерывное обучение
Edge Deployment Emerging ML на устройствах

Evaluation & Benchmarks

Тема Статус Файл
LLM Evaluation Benchmarks Стандарт Бенчмарки оценки LLM
LLM-as-Judge Active Фреймворки оценки LLM
Code Benchmarks Active Бенчмарки кода LLM

Operations

Тема Статус Файл
LLM Observability Стандарт Наблюдаемость LLM
Model Routing Active Каскадная маршрутизация
Cost Optimization Active Оптимизация расходов
Synthetic Data Generation Active Синтетические данные

Что перестали спрашивать

Тема Почему
BERT-style pretraining Encoder-only models устарели для generation (все ещё используются для embeddings, NER, classification)
Full fine-tuning Слишком дорого
Simple RAG Базовый RAG недостаточен
Training from scratch Только для frontier labs

Что спрашивают в 2025-2026

Тема Частота
RAG architecture design HIGH
LoRA/QLoRA tuning HIGH
vLLM deployment HIGH
Agentic systems HIGH
Long context handling MEDIUM
DPO/ORPO alignment MEDIUM
GraphRAG MEDIUM
Structured generation MEDIUM

Рекомендации по изучению

Priority 1 (Critical)

  1. vLLM + PagedAttention
  2. RAG with reranking
  3. QLoRA fine-tuning
  4. DPO training

Priority 2 (Important)

  1. GraphRAG
  2. Structured generation
  3. Guardrails
  4. Long context optimization

Priority 3 (Nice to have)

  1. MoE architecture
  2. Speculative decoding
  3. Custom tokenization

Распространенные заблуждения (обновления 2025-2026)

Заблуждение: long context (1M+ tokens) делает RAG ненужным

Gemini 2.5 Pro поддерживает 2M tokens, но: (1) стоимость обработки 1M токенов -- $10-50 за запрос vs $0.01-0.05 для RAG; (2) "lost-in-the-middle" проблема сохраняется -- модели хуже находят информацию в середине контекста; (3) latency первого токена (TTFT) растет с 1-2 секунд до 30-60 секунд. RAG остается необходимым для cost-эффективного production.

Заблуждение: DPO полностью заменил RLHF/PPO

DPO проще и стабильнее для style alignment, но PPO/GRPO по-прежнему дают лучшие результаты для reasoning и code generation (+5-10% на AIME/HumanEval). DeepSeek-R1 использует GRPO, не DPO. Выбор зависит от задачи: DPO для быстрых итераций, PPO/GRPO для максимального качества reasoning.

Заблуждение: reasoning models (o1, R1) нужны для всех задач

Reasoning models на 3-10x дороже и медленнее обычных LLM. Для classification, extraction, summarization -- standard model (GPT-4o-mini, Claude Haiku) дает 95%+ качества при 10x меньшей стоимости. Reasoning models оправданы только для: multi-step math, complex code generation, logic puzzles, scientific analysis.


Вопросы для интервью (обновления 2025-2026)

Q: Какие три самых значимых изменения в LLM Engineering за последний год?

❌ "Модели стали больше и лучше, появились новые benchmarks."

✅ "(1) Reasoning models стали production-ready: DeepSeek-R1, o3, Kimi K2 -- встроенный chain-of-thought с self-verification, GRPO вместо PPO для alignment. (2) MoE стал доминирующей архитектурой: DeepSeek-V3 (671B/37B active), Mixtral -- massive capacity при low inference cost. (3) Inference optimization: PagedAttention/vLLM + speculative decoding + INT4 quantization позволяют запускать 70B модели на single A100 с 2-3x throughput improvement."

Q: Как бы вы выбрали между reasoning model и standard LLM для production задачи?

❌ "Всегда reasoning model -- она умнее."

✅ "Я бы оценил три фактора: (1) Сложность задачи -- нужен ли multi-step reasoning? Для classification/extraction standard model достаточно; (2) Latency budget -- reasoning models генерируют 100-1000+ thinking tokens, TTFT может быть 5-30 секунд; (3) Cost -- R1 distill models (8B) дают 87% AIME при $0.01/запрос, полный R1 (671B) стоит 50x больше. Для большинства production задач я бы использовал model routing: простые запросы -> mini model, сложные -> reasoning model."


Обновлено: 2026-02-13 -- разбивка монолита, контент вынесен в отдельные файлы по подкаталогам