Математика для ML: обновления 2025-2026¶
~5 минут чтения
Предварительно: Учебные материалы | Подготовка к интервью
За 2025-2026 годы произошли существенные сдвиги в математическом фундаменте ML: SOAP-оптимизатор сокращает время обучения на 35%, RMSNorm вытеснила LayerNorm во всех основных LLM (LLaMA, Qwen, Mistral), а CUPED уменьшает дисперсию A/B-тестов на 20-50%. Ниже -- конкретные обновления, которые уже спрашивают на интервью.
Обновлено: 2026-02-11
1. Optimizers -- Новая волна¶
SOAP (2024-2025)¶
Paper: "SOAP: Improving and Stabilizing Shampoo using Adam"
Key Idea: Комбинирует Shampoo (preconditioning) + Adam (stability).
Results: - 40% fewer iterations than Adam - 35% wall-clock time reduction - Large batch regime optimization
# SOAP concept (simplified)
# Shampoo: full matrix preconditioning (expensive)
# Adam: diagonal preconditioning (cheap)
# SOAP: adaptive between them
Schedule-Free Optimizers (2024-2025)¶
Key Idea: Убрать learning rate scheduling, сделать optimizer саморегулирующимся.
Methods: - Schedule-Free SGD/Adam (Defazio et al., 2024) - Muon (momentum + orthogonalization)
BDS-Adam (2025)¶
Paper: "BDS-Adam optimizer integrating adaptive variance rectification"
Improvement over Adam: - Fixes non-vanishing gradient bias - Borgesian Gradient-Aware Smoothing - Better convergence on non-convex
Signal-to-Noise Ratio Guided Adam (2025)¶
Paper: "Boosting Adam-like Optimizers with SNR Guidance"
Key Idea: Reinterpret Adam from signal-processing perspective. SNR-weighted updates.
2. Activation Functions — Эволюция продолжается¶
DeepMind AlphaEvolve (Feb 2026)¶
Breakthrough: AI автоматически ищет новые activation functions в бесконечном пространстве Python функций.
Подход: Evolutionary search с LLM-guided mutation.
Результаты: Новые activations с better generalization на benchmarks.
Trainable Activation Functions (2025)¶
Trend: Не фиксированные функции, а learnable параметры внутри activation.
class LearnableReLU(nn.Module):
def __init__(self, features):
super().__init__()
self.alpha = nn.Parameter(torch.ones(features))
self.beta = nn.Parameter(torch.zeros(features))
def forward(self, x):
return torch.where(x > 0, self.alpha * x, self.beta * x)
S-ReLU (2025)¶
Paper: "A General Framework for Activation Function Optimization Based on Mollification Theory"
Smooth версия ReLU с learnable parameters: $\(f(x) = \alpha x + \beta \cdot \text{softplus}(\gamma x + \delta)\)$
Ultra-Low Precision Activations (2025)¶
Paper: "Exploring Reduced Precision for Deep Learning Activation Functions"
Findings: - 4-bit activations feasible with careful design - Mixed precision (4-bit forward, 8-bit backward) - Hardware-specific optimizations
3. Normalization — Новые стандарты¶
Подробно: RMSNorm, DyT и другие методы нормализации -- см. обновления DL (секция 2).
Краткий итог для математики:
- RMSNorm = стандарт для LLM (LLaMA, Qwen, Mistral). Формула: \(\text{RMSNorm}(x) = \frac{x}{\sqrt{\text{mean}(x^2)}} \cdot \gamma\). Проще LayerNorm (нет mean subtraction).
- DyT (Dynamic Tanh) = экспериментальная альтернатива без нормализации: \(\text{DyT}(x) = \tanh(\alpha \cdot x)\).
4. Statistics & A/B Testing — Практические тренды¶
Sequential Testing Mainstream (2025)¶
Trend: Companies переходят от fixed-horizon A/B к sequential tests.
Methods: - mSPRT (mixture Sequential Probability Ratio Test) - Group Sequential Testing - Bayesian updating
Advantage: Earlier decisions, less data waste.
Variance Reduction Techniques¶
Trend: CUPED (Controlled-experiment Using Pre-Experiment Data) standard.
Formula: $\(\hat{\theta}_{\text{CUPED}} = \hat{\theta} - \theta_{\text{cov}} \cdot (X_{\text{pre}} - \mathbb{E}[X_{\text{pre}}])\)$
Effect: 20-50% variance reduction, smaller sample sizes.
5. Regularization — Новые паттерны¶
LayerScale (2025)¶
Paper: "Going deeper with Image Transformers"
Mechanism: Learnable per-channel scaling after each residual connection.
class LayerScale(nn.Module):
def __init__(self, dim, init_value=1e-5):
super().__init__()
self.gamma = nn.Parameter(init_value * torch.ones(dim))
def forward(self, x):
return x * self.gamma
Effect: Stabilizes very deep transformers (100+ layers).
Stochastic Depth (DropPath) — Mainstream¶
Trend: DropPath (randomly drop entire residual blocks) стандарт для Vision Transformers.
def drop_path(x, drop_prob=0.1):
if drop_prob == 0. or not self.training:
return x
keep_prob = 1 - drop_prob
mask = torch.rand(x.shape[0]) < keep_prob
return x * mask.unsqueeze(-1).unsqueeze(-1) / keep_prob
6. Ensemble Methods — Современные тренды¶
Gradient Boosting с Neural Networks (2025)¶
Trend: Гибриды деревьев и нейросетей.
Methods: - TabNet (attention-based) - NODE (Neural Oblivious Decision Ensembles) - GrowNet (gradient boosting with neural nets)
CatBoost Dominance на Tabular (2025)¶
Reality Check: CatBoost часто побеждает XGBoost/LightGBM на категориальных данных.
Причины: - Native categorical encoding (Ordered Target Statistics) - Symmetric trees (faster inference) - Minimal tuning required
7. Information Theory — Новые применения¶
Mutual Information Neural Estimation (MINE)¶
Trend: Использование MI для: - Disentangled representations - Feature selection - Contrastive learning objectives
Formula: $\(\hat{I}(X;Z) = \sup_{T \in \mathcal{F}} \mathbb{E}_P[T] - \log \mathbb{E}_{Q}[e^T]\)$
Semantic Entropy для Hallucination Detection (2025)¶
Paper: "Detecting Hallucinations with Semantic Entropy"
Idea: Entropy over semantic equivalence classes, not tokens.
Application: Detect LLM hallucinations without ground truth.
Заблуждение: Adam -- лучший оптимизатор для всего
Adam по-прежнему дефолт, но SOAP показывает 40% ускорение на LLM-обучении. Schedule-Free SGD убирает необходимость в scheduling вовсе. На интервью ожидают знание альтернатив, а не только Adam.
Заблуждение: BatchNorm всегда лучше, чем LayerNorm
Для CNN -- BatchNorm всё ещё актуален. Но для Transformers и LLM BatchNorm не работает (зависит от batch size, не совместим с autoregressive генерацией). В 2025-2026 RMSNorm = стандарт для LLM, DyT (Dynamic Tanh) -- экспериментальная альтернатива без нормализации вовсе.
Заблуждение: fixed-horizon A/B-тесты -- единственный подход
Sequential testing (mSPRT) позволяет принимать решение раньше без inflation alpha. CUPED уменьшает дисперсию на 20-50%, сокращая нужный sample size. На интервью в 2026 ожидают знание обоих подходов.
8. Устаревшие подходы (Deprecated)¶
Что больше НЕ спрашивают на интервью (2025-2026)¶
| Deprecated | Replacement |
|---|---|
| Sigmoid activation (hidden layers) | ReLU/GELU/SwiGLU |
| BatchNorm for Transformers | LayerNorm/RMSNorm |
| Fixed LR schedules | Warmup + Cosine Decay |
| Vanilla Dropout для LLMs | DropPath, attention dropout |
| MSE для classification | Cross-entropy (всегда) |
| t-SNE для production | UMAP/PCA |
9. Что спрашивают в 2026 (Новые тренды)¶
Interview Trends 2025-2026¶
Новые темы на интервью: 1. RMSNorm vs LayerNorm — почему LLMs используют RMSNorm 2. LoRA rank selection — как выбрать r, связь с SVD 3. Gradient checkpointing — memory vs compute tradeoff 4. Mixed precision (BF16) — когда safe, когда нет 5. KV-Cache — как работает, memory implications 6. Flash Attention — IO-aware algorithm 7. Quantization (GPTQ/AWQ) — INT8/INT4 tradeoffs
Новые формулы для запоминания¶
LoRA memory: $\(\text{Memory}_{\text{LoRA}} = 2 \cdot d \cdot r \quad \text{vs} \quad d^2\)$
KV-Cache size (FP16): $\(\text{KV}_{\text{GB}} = \frac{4 \cdot L \cdot B \cdot S \cdot H_{kv} \cdot D_h}{10^9}\)$
Breakdown: 2 tensors (K, V) x 2 bytes (FP16) = 4 bytes per element. \(H_{kv}\) = number of KV heads (= \(H\) for MHA, < \(H\) for GQA/MQA). For BF16 — same formula. For INT8 KV-cache: replace 4 with 2.
Flash Attention complexity: $\(O(N^2 \cdot d) \to O(N \cdot d) \text{ memory with tiling}\)$
Интервью: обновления 2026¶
Формат ответов¶
Красный флаг: "Adam -- лучший оптимизатор, ничего нового не появилось"
Сильный ответ: "Adam остаётся дефолтом, но SOAP комбинирует Shampoo + Adam для 35% ускорения wall-clock time. Schedule-Free подходы убирают learning rate scheduling. Для LLM RMSNorm заменила LayerNorm -- проще, быстрее, используется в LLaMA/Qwen/Mistral."
Красный флаг: "Для A/B-тестов нужен только t-test"
Сильный ответ: "Sequential testing (mSPRT) позволяет пикать результаты без inflating false positive rate. CUPED (\(\hat{\theta}_{adj} = \hat{\theta} - \theta_{cov}(X_{pre} - E[X_{pre}])\)) сокращает дисперсию на 20-50% за счёт pre-experiment data."