Deep Learning: Обновления 2025-2026¶

~7 минут чтения

Предварительно: Учебные материалы DL | Подготовка к интервью DL

За 2025 год Deep Learning сменил 6 стандартов де-факто: RMSNorm вместо LayerNorm, SwiGLU вместо GELU, RoPE вместо абсолютных позиционных кодировок, BF16 вместо FP16, GQA вместо MHA, и Flash Attention как обязательный компонент. Hybrid-архитектуры (Transformer + Mamba) показали 2x ускорение инференса при сопоставимом качестве. Эта страница покрывает все критические изменения, которые спрашивают на интервью 2026 года.

Что изменилось за последний год в Deep Learning Обновлено: 2026-02-11

1. Attention Mechanisms — Революция продолжается¶

Flash Attention 3 (2025)¶

Key Innovation: Hardware-aware attention для H100 GPUs.

Features: - Asynchronous computation - Better memory hierarchy utilization - 1.5-2x faster than Flash Attention 2

Impact: Standard для training LLMs в 2025.

Multi-Query Attention (MQA) → Grouped-Query Attention (GQA)¶

Evolution: | Method | K/V heads | Memory | Speed | |--------|-----------|--------|-------| | MHA | N | High | Baseline | | MQA | 1 | Lowest | Fastest | | GQA | G (G < N) | Medium | Fast |

2025 Standard: GQA (LLaMA ⅔, Mistral) — balance между speed и quality.

Sliding Window Attention¶

Trend: Long-context models используют local attention.

Mistral approach: Window size W, каждый token attends to W previous tokens.

Benefit: O(N×W) вместо O(N²), линейный scaling.

2. Normalization — Новые стандарты¶

RMSNorm Dominance (2025)¶

Reality: RMSNorm стала стандартом для LLMs.

Why: 1. Simpler than LayerNorm (no mean) 2. Same or better performance 3. Faster computation 4. Used in LLaMA, Qwen, Mistral

LayerNorm still used: BERT-style encoders, some vision models.

Dynamic Tanh (DyT) (2025)¶

Paper: "Transformers without Normalization"

Idea: Replace LayerNorm with learnable tanh: $$\text{DyT}(x) = \tanh(\alpha \cdot x)$$

Results: Comparable to LayerNorm on vision and language tasks.

3. Positional Encodings — RoPE Standard¶

RoPE Extensions (2025)¶

YaRN (Yet another RoPE extension): - Better length extrapolation - Uses temperature scaling - 2-3x longer contexts

LongRoPE: - Dynamic NTK-aware scaling - 1M+ context lengths

ALiBi Alternative (Still Used)¶

Attention with Linear Biases: $$\text{Attention}(q, k) = \text{softmax}(qk^T + m \cdot (i-j))$$

Where used: BLOOM, some encoder models.

4. Activation Functions — Эволюция¶

SwiGLU = Standard (2025)¶

Formula: $$\text{SwiGLU}(x) = \text{Swish}(xW_1) \odot (xW_2)$$

Where used: LLaMA, PaLM, Mistral (replaced ReLU/GELU).

Learnable Activations¶

Trend: Meta-learning activation functions for specific tasks.

DeepMind AlphaEvolve (2026): AI-generated activations with better properties. Подробнее: обновления математики (секция 2).

5. Optimizers — Beyond Adam¶

Подробно: SOAP, Schedule-Free, BDS-Adam, SNR-Adam -- см. обновления математики (секция 1).

Muon (2025)¶

Key Idea: Momentum + Orthogonalization. Uses Newton-Schulz iteration for cheap orthogonalization.

Results: Faster convergence than AdamW on LLM pretraining.

Краткий итог: SOAP дает 40% ускорение на language modeling, Schedule-Free убирает необходимость в LR scheduling.

6. Weight Initialization — New Insights¶

μP (Maximal Update Parametrization) (2025)¶

Problem: Hyperparameters don't transfer across model sizes.

Solution: Reparameterize so optimal LR/batch size are size-independent.

Impact: Can tune on small models, apply to large.

7. Training Techniques — Efficiency¶

Gradient Checkpointing Standard¶

Reality: Almost universal for LLM training.

Patterns: - Full checkpointing (all layers) - Selective checkpointing (expensive layers only) - Activation checkpointing + recomputation

Mixed Precision (BF16 Default)¶

Evolution: - 2020: FP32 training - 2022: FP16 mixed precision - 2024: BF16 standard (better dynamic range) - 2025: FP8 emerging (H100)

DeepSpeed / FSDP Maturity¶

ZeRO Evolution: - ZeRO-1: Optimizer state sharding - ZeRO-2: + Gradient sharding - ZeRO-3: + Parameter sharding - ZeRO-Infinity: Offload to CPU/NVMe

8. Architectures Beyond Transformers¶

Mamba / SSM Models (2024-2025)¶

Key Innovation: State Space Models with linear complexity.

Formula: $$h_t = Ah_{t-1} + Bx_t$$

\[y_t = Ch_t\]

Advantages: - $O(N)$ complexity vs $O(N^2)$ attention - Fast inference - Competitive quality

When to use: Long sequences (>100K tokens), real-time inference.

Hybrid Architectures (2025-2026)¶

Trend: Combine attention + SSM for best of both worlds.

Key Hybrids: | Model | Architecture | Key Feature | |-------|-------------|-------------| | Jamba (AI21) | Transformer + Mamba layers | Best quality + efficiency | | Bamba (IBM) | Transformer + Mamba2 | 2x faster inference, 32K context | | Samba | Attention + SSM | Nvidia-validated | | MambaFormer | Transformer with SSM blocks | Hybrid design patterns |

IBM Bamba (Apr 2025): - Collaboration: IBM + CMU + Princeton + UIUC - Architecture: Mamba2-based hybrid - Performance: Matches Llama-3.1 8B with 7x less training data - Speed: 2x faster than comparable transformers - Context: 32K (trained on 4K, extrapolates well) - Open-source: Training recipes, data, dataloader, quantization

Key Insight: "Everything comes back to the KV cache reduction. More throughput, lower latency, longer context length." — Raghu Ganti, IBM

When to use SSM/Hybrids: - Long sequences (>100K tokens) - Real-time inference requirements - Memory-constrained deployment - Production with latency SLAs

9. CNNs — Resurgence¶

ConvNeXt V2 (2025)¶

Idea: Modernize CNN with Transformer-inspired designs.

Features: - LayerNorm instead of BatchNorm - Larger kernels - GELU activation

Results: Competitive with ViT on ImageNet.

Vision Mamba (2024-2025)¶

Innovation: Apply SSM to vision.

Advantage: Linear complexity for high-res images.

10. Knowledge Distillation¶

Distillation Patterns (2025)¶

Standard approach: $$L = \alpha L_{CE}(y, \hat{y}) + (1-\alpha) L_{KL}(\sigma(z_T/T), \sigma(z_S/T))$$

Trends: - Distill reasoning (not just outputs) - Progressive distillation - Multi-teacher distillation

Tiny Models (2025)¶

Examples: - Phi-3 (3.8B): Competitive with Llama-2-70B on benchmarks - MiniCPM (2.4B): Strong performance - Gemma-2-2B: SOTA for size

Deprecated Approaches (2025-2026)¶

Deprecated	Replacement
Standard attention	Flash Attention
LayerNorm for LLMs	RMSNorm
ReLU/GELU	SwiGLU
Absolute positional embeddings	RoPE
FP16 mixed precision	BF16
Full attention for long context	Sliding window / SSM

Заблуждение: Flash Attention меняет результат вычисления attention

Flash Attention дает ТОЧНО те же числа, что и стандартный attention -- это чисто hardware-оптимизация (tiling SRAM/HBM). Нет аппроксимации, нет потери качества. Ускорение 2-4x за счёт уменьшения количества чтений/записей в HBM. Спутать Flash Attention с linear attention (аппроксимация через ядра) -- частая ошибка на интервью.

Заблуждение: BF16 и FP16 взаимозаменяемы

BF16 имеет 8 бит экспоненты (как FP32) vs 5 бит у FP16. Это значит dynamic range BF16 = $\pm 3.4 \times 10^{38}$, а FP16 только $\pm 65504$. При LLM training с FP16 loss часто overflow'ит (>65504) без loss scaling. BF16 не требует loss scaling вообще. Ценой: mantissa BF16 = 7 бит vs 10 бит FP16, но на практике это не влияет на quality.

Заблуждение: Mamba заменит Transformer для всех задач

Mamba имеет $O(1)$ memory при inference (фиксированный hidden state), но теряет информацию о ранних токенах при очень длинных контекстах. Transformer с KV-cache сохраняет ВСЕ прошлые токены. Для задач с dense global interaction (multi-hop reasoning, RAG) Transformer всё ещё лидирует. Поэтому лучшие модели 2025 -- гибриды (Jamba, Bamba).

Interview Trends 2025-2026¶

Новые обязательные темы:¶

Flash Attention mechanism — как работает tiling
KV-Cache — memory implications, optimizations
RoPE vs ALiBi — когда что
GQA/MQA — why grouped-query attention
BF16 vs FP16 — dynamic range differences
Gradient checkpointing — tradeoffs

Новые вопросы с оценкой ответов:¶

Q: Why does GQA balance memory and quality better than MQA?

"GQA просто использует меньше голов" -- не объясняет механизм

"MQA использует 1 KV-голову на все query heads -- memory $\frac{1}{H}$, но quality падает из-за bottleneck. GQA группирует query heads (например, 32 query / 8 KV groups в Llama-3), сохраняя $\frac{G}{H}$ memory при near-MHA quality. Каждая KV-группа обслуживает подмножество query heads, что сохраняет diversity attention patterns."

Q: Explain Flash Attention's memory complexity

"Flash Attention аппроксимирует attention для скорости" -- фактическая ошибка

"Flash Attention -- exact attention с IO-оптимизацией. Стандартный attention материализует $N \times N$ матрицу в HBM = $O(N^2)$ memory. Flash Attention использует tiling: загружает блоки Q,K,V в SRAM (20MB), считает partial softmax, пишет только финальный output в HBM. Memory = $O(N)$, compute тот же $O(N^2)$, но 2-4x быстрее из-за меньшего IO."

Q: When would you use Mamba over Transformer?

"Mamba лучше для всех задач с длинными последовательностями" -- oversimplification

"Mamba -- для задач где inference latency критична и контекст > 2K токенов: document processing, audio/video, genomics. $O(T)$ complexity и $O(1)$ inference memory vs $O(T^2)$ и $O(T)$ KV-cache. НО для dense global reasoning (multi-hop QA, complex RAG) Transformer лучше -- fixed hidden state Mamba теряет ранние токены. Оптимально: hybrid (Jamba, Bamba)."

Q: How does RoPE encode relative position?

"RoPE добавляет позиционные вектора к эмбеддингам" -- путает с sinusoidal PE

"RoPE кодирует позицию через вращение в комплексной плоскости: $f(x, m) = x \cdot e^{im\theta}$. Dot product двух rotated vectors зависит только от разности позиций $m - n$, а не абсолютных. Это даёт естественное relative position encoding. Преимущество: лучшая length extrapolation (YaRN, LongRoPE до 1M+ контекста). Стандарт в LLaMA, Qwen, Mistral."