Deep Learning: Обновления 2025-2026¶
~7 минут чтения
Предварительно: Учебные материалы DL | Подготовка к интервью DL
За 2025 год Deep Learning сменил 6 стандартов де-факто: RMSNorm вместо LayerNorm, SwiGLU вместо GELU, RoPE вместо абсолютных позиционных кодировок, BF16 вместо FP16, GQA вместо MHA, и Flash Attention как обязательный компонент. Hybrid-архитектуры (Transformer + Mamba) показали 2x ускорение инференса при сопоставимом качестве. Эта страница покрывает все критические изменения, которые спрашивают на интервью 2026 года.
Что изменилось за последний год в Deep Learning Обновлено: 2026-02-11
1. Attention Mechanisms — Революция продолжается¶
Flash Attention 3 (2025)¶
Key Innovation: Hardware-aware attention для H100 GPUs.
Features: - Asynchronous computation - Better memory hierarchy utilization - 1.5-2x faster than Flash Attention 2
Impact: Standard для training LLMs в 2025.
Multi-Query Attention (MQA) → Grouped-Query Attention (GQA)¶
Evolution: | Method | K/V heads | Memory | Speed | |--------|-----------|--------|-------| | MHA | N | High | Baseline | | MQA | 1 | Lowest | Fastest | | GQA | G (G < N) | Medium | Fast |
2025 Standard: GQA (LLaMA ⅔, Mistral) — balance между speed и quality.
Sliding Window Attention¶
Trend: Long-context models используют local attention.
Mistral approach: Window size W, каждый token attends to W previous tokens.
Benefit: O(N×W) вместо O(N²), линейный scaling.
2. Normalization — Новые стандарты¶
RMSNorm Dominance (2025)¶
Reality: RMSNorm стала стандартом для LLMs.
Why: 1. Simpler than LayerNorm (no mean) 2. Same or better performance 3. Faster computation 4. Used in LLaMA, Qwen, Mistral
LayerNorm still used: BERT-style encoders, some vision models.
Dynamic Tanh (DyT) (2025)¶
Paper: "Transformers without Normalization"
Idea: Replace LayerNorm with learnable tanh: $\(\text{DyT}(x) = \tanh(\alpha \cdot x)\)$
Results: Comparable to LayerNorm on vision and language tasks.
3. Positional Encodings — RoPE Standard¶
RoPE Extensions (2025)¶
YaRN (Yet another RoPE extension): - Better length extrapolation - Uses temperature scaling - 2-3x longer contexts
LongRoPE: - Dynamic NTK-aware scaling - 1M+ context lengths
ALiBi Alternative (Still Used)¶
Attention with Linear Biases: $\(\text{Attention}(q, k) = \text{softmax}(qk^T + m \cdot (i-j))\)$
Where used: BLOOM, some encoder models.
4. Activation Functions — Эволюция¶
SwiGLU = Standard (2025)¶
Formula: $\(\text{SwiGLU}(x) = \text{Swish}(xW_1) \odot (xW_2)\)$
Where used: LLaMA, PaLM, Mistral (replaced ReLU/GELU).
Learnable Activations¶
Trend: Meta-learning activation functions for specific tasks.
DeepMind AlphaEvolve (2026): AI-generated activations with better properties. Подробнее: обновления математики (секция 2).
5. Optimizers — Beyond Adam¶
Подробно: SOAP, Schedule-Free, BDS-Adam, SNR-Adam -- см. обновления математики (секция 1).
Muon (2025)¶
Key Idea: Momentum + Orthogonalization. Uses Newton-Schulz iteration for cheap orthogonalization.
Results: Faster convergence than AdamW on LLM pretraining.
Краткий итог: SOAP дает 40% ускорение на language modeling, Schedule-Free убирает необходимость в LR scheduling.
6. Weight Initialization — New Insights¶
μP (Maximal Update Parametrization) (2025)¶
Problem: Hyperparameters don't transfer across model sizes.
Solution: Reparameterize so optimal LR/batch size are size-independent.
Impact: Can tune on small models, apply to large.
7. Training Techniques — Efficiency¶
Gradient Checkpointing Standard¶
Reality: Almost universal for LLM training.
Patterns: - Full checkpointing (all layers) - Selective checkpointing (expensive layers only) - Activation checkpointing + recomputation
Mixed Precision (BF16 Default)¶
Evolution: - 2020: FP32 training - 2022: FP16 mixed precision - 2024: BF16 standard (better dynamic range) - 2025: FP8 emerging (H100)
DeepSpeed / FSDP Maturity¶
ZeRO Evolution: - ZeRO-1: Optimizer state sharding - ZeRO-2: + Gradient sharding - ZeRO-3: + Parameter sharding - ZeRO-Infinity: Offload to CPU/NVMe
8. Architectures Beyond Transformers¶
Mamba / SSM Models (2024-2025)¶
Key Innovation: State Space Models with linear complexity.
Formula: $\(h_t = Ah_{t-1} + Bx_t\)$
Advantages: - \(O(N)\) complexity vs \(O(N^2)\) attention - Fast inference - Competitive quality
When to use: Long sequences (>100K tokens), real-time inference.
Hybrid Architectures (2025-2026)¶
Trend: Combine attention + SSM for best of both worlds.
Key Hybrids: | Model | Architecture | Key Feature | |-------|-------------|-------------| | Jamba (AI21) | Transformer + Mamba layers | Best quality + efficiency | | Bamba (IBM) | Transformer + Mamba2 | 2x faster inference, 32K context | | Samba | Attention + SSM | Nvidia-validated | | MambaFormer | Transformer with SSM blocks | Hybrid design patterns |
IBM Bamba (Apr 2025): - Collaboration: IBM + CMU + Princeton + UIUC - Architecture: Mamba2-based hybrid - Performance: Matches Llama-3.1 8B with 7x less training data - Speed: 2x faster than comparable transformers - Context: 32K (trained on 4K, extrapolates well) - Open-source: Training recipes, data, dataloader, quantization
Key Insight: "Everything comes back to the KV cache reduction. More throughput, lower latency, longer context length." — Raghu Ganti, IBM
When to use SSM/Hybrids: - Long sequences (>100K tokens) - Real-time inference requirements - Memory-constrained deployment - Production with latency SLAs
9. CNNs — Resurgence¶
ConvNeXt V2 (2025)¶
Idea: Modernize CNN with Transformer-inspired designs.
Features: - LayerNorm instead of BatchNorm - Larger kernels - GELU activation
Results: Competitive with ViT on ImageNet.
Vision Mamba (2024-2025)¶
Innovation: Apply SSM to vision.
Advantage: Linear complexity for high-res images.
10. Knowledge Distillation¶
Distillation Patterns (2025)¶
Standard approach: $\(L = \alpha L_{CE}(y, \hat{y}) + (1-\alpha) L_{KL}(\sigma(z_T/T), \sigma(z_S/T))\)$
Trends: - Distill reasoning (not just outputs) - Progressive distillation - Multi-teacher distillation
Tiny Models (2025)¶
Examples: - Phi-3 (3.8B): Competitive with Llama-2-70B on benchmarks - MiniCPM (2.4B): Strong performance - Gemma-2-2B: SOTA for size
Deprecated Approaches (2025-2026)¶
| Deprecated | Replacement |
|---|---|
| Standard attention | Flash Attention |
| LayerNorm for LLMs | RMSNorm |
| ReLU/GELU | SwiGLU |
| Absolute positional embeddings | RoPE |
| FP16 mixed precision | BF16 |
| Full attention for long context | Sliding window / SSM |
Заблуждение: Flash Attention меняет результат вычисления attention
Flash Attention дает ТОЧНО те же числа, что и стандартный attention -- это чисто hardware-оптимизация (tiling SRAM/HBM). Нет аппроксимации, нет потери качества. Ускорение 2-4x за счёт уменьшения количества чтений/записей в HBM. Спутать Flash Attention с linear attention (аппроксимация через ядра) -- частая ошибка на интервью.
Заблуждение: BF16 и FP16 взаимозаменяемы
BF16 имеет 8 бит экспоненты (как FP32) vs 5 бит у FP16. Это значит dynamic range BF16 = \(\pm 3.4 \times 10^{38}\), а FP16 только \(\pm 65504\). При LLM training с FP16 loss часто overflow'ит (>65504) без loss scaling. BF16 не требует loss scaling вообще. Ценой: mantissa BF16 = 7 бит vs 10 бит FP16, но на практике это не влияет на quality.
Заблуждение: Mamba заменит Transformer для всех задач
Mamba имеет \(O(1)\) memory при inference (фиксированный hidden state), но теряет информацию о ранних токенах при очень длинных контекстах. Transformer с KV-cache сохраняет ВСЕ прошлые токены. Для задач с dense global interaction (multi-hop reasoning, RAG) Transformer всё ещё лидирует. Поэтому лучшие модели 2025 -- гибриды (Jamba, Bamba).
Interview Trends 2025-2026¶
Новые обязательные темы:¶
- Flash Attention mechanism — как работает tiling
- KV-Cache — memory implications, optimizations
- RoPE vs ALiBi — когда что
- GQA/MQA — why grouped-query attention
- BF16 vs FP16 — dynamic range differences
- Gradient checkpointing — tradeoffs
Новые вопросы с оценкой ответов:¶
Q: Why does GQA balance memory and quality better than MQA?
"GQA просто использует меньше голов" -- не объясняет механизм
"MQA использует 1 KV-голову на все query heads -- memory \(\frac{1}{H}\), но quality падает из-за bottleneck. GQA группирует query heads (например, 32 query / 8 KV groups в Llama-3), сохраняя \(\frac{G}{H}\) memory при near-MHA quality. Каждая KV-группа обслуживает подмножество query heads, что сохраняет diversity attention patterns."
Q: Explain Flash Attention's memory complexity
"Flash Attention аппроксимирует attention для скорости" -- фактическая ошибка
"Flash Attention -- exact attention с IO-оптимизацией. Стандартный attention материализует \(N \times N\) матрицу в HBM = \(O(N^2)\) memory. Flash Attention использует tiling: загружает блоки Q,K,V в SRAM (20MB), считает partial softmax, пишет только финальный output в HBM. Memory = \(O(N)\), compute тот же \(O(N^2)\), но 2-4x быстрее из-за меньшего IO."
Q: When would you use Mamba over Transformer?
"Mamba лучше для всех задач с длинными последовательностями" -- oversimplification
"Mamba -- для задач где inference latency критична и контекст > 2K токенов: document processing, audio/video, genomics. \(O(T)\) complexity и \(O(1)\) inference memory vs \(O(T^2)\) и \(O(T)\) KV-cache. НО для dense global reasoning (multi-hop QA, complex RAG) Transformer лучше -- fixed hidden state Mamba теряет ранние токены. Оптимально: hybrid (Jamba, Bamba)."
Q: How does RoPE encode relative position?
"RoPE добавляет позиционные вектора к эмбеддингам" -- путает с sinusoidal PE
"RoPE кодирует позицию через вращение в комплексной плоскости: \(f(x, m) = x \cdot e^{im\theta}\). Dot product двух rotated vectors зависит только от разности позиций \(m - n\), а не абсолютных. Это даёт естественное relative position encoding. Преимущество: лучшая length extrapolation (YaRN, LongRoPE до 1M+ контекста). Стандарт в LLaMA, Qwen, Mistral."