Математика для ML: обновления 2025-2026¶

~5 минут чтения

Предварительно: Учебные материалы | Подготовка к интервью

За 2025-2026 годы произошли существенные сдвиги в математическом фундаменте ML: SOAP-оптимизатор сокращает время обучения на 35%, RMSNorm вытеснила LayerNorm во всех основных LLM (LLaMA, Qwen, Mistral), а CUPED уменьшает дисперсию A/B-тестов на 20-50%. Ниже -- конкретные обновления, которые уже спрашивают на интервью.

Обновлено: 2026-02-11

1. Optimizers -- Новая волна¶

SOAP (2024-2025)¶

Paper: "SOAP: Improving and Stabilizing Shampoo using Adam"

Key Idea: Комбинирует Shampoo (preconditioning) + Adam (stability).

Results: - 40% fewer iterations than Adam - 35% wall-clock time reduction - Large batch regime optimization

# SOAP concept (simplified)
# Shampoo: full matrix preconditioning (expensive)
# Adam: diagonal preconditioning (cheap)
# SOAP: adaptive between them

Schedule-Free Optimizers (2024-2025)¶

Key Idea: Убрать learning rate scheduling, сделать optimizer саморегулирующимся.

Methods: - Schedule-Free SGD/Adam (Defazio et al., 2024) - Muon (momentum + orthogonalization)

BDS-Adam (2025)¶

Paper: "BDS-Adam optimizer integrating adaptive variance rectification"

Improvement over Adam: - Fixes non-vanishing gradient bias - Borgesian Gradient-Aware Smoothing - Better convergence on non-convex

Signal-to-Noise Ratio Guided Adam (2025)¶

Paper: "Boosting Adam-like Optimizers with SNR Guidance"

Key Idea: Reinterpret Adam from signal-processing perspective. SNR-weighted updates.

2. Activation Functions — Эволюция продолжается¶

DeepMind AlphaEvolve (Feb 2026)¶

Breakthrough: AI автоматически ищет новые activation functions в бесконечном пространстве Python функций.

Подход: Evolutionary search с LLM-guided mutation.

Результаты: Новые activations с better generalization на benchmarks.

Trainable Activation Functions (2025)¶

Trend: Не фиксированные функции, а learnable параметры внутри activation.

class LearnableReLU(nn.Module):
    def __init__(self, features):
        super().__init__()
        self.alpha = nn.Parameter(torch.ones(features))
        self.beta = nn.Parameter(torch.zeros(features))

    def forward(self, x):
        return torch.where(x > 0, self.alpha * x, self.beta * x)

S-ReLU (2025)¶

Paper: "A General Framework for Activation Function Optimization Based on Mollification Theory"

Smooth версия ReLU с learnable parameters: $$f(x) = \alpha x + \beta \cdot \text{softplus}(\gamma x + \delta)$$

Ultra-Low Precision Activations (2025)¶

Paper: "Exploring Reduced Precision for Deep Learning Activation Functions"

Findings: - 4-bit activations feasible with careful design - Mixed precision (4-bit forward, 8-bit backward) - Hardware-specific optimizations

3. Normalization — Новые стандарты¶

Подробно: RMSNorm, DyT и другие методы нормализации -- см. обновления DL (секция 2).

Краткий итог для математики:

RMSNorm = стандарт для LLM (LLaMA, Qwen, Mistral). Формула: $\text{RMSNorm}(x) = \frac{x}{\sqrt{\text{mean}(x^2)}} \cdot \gamma$. Проще LayerNorm (нет mean subtraction).
DyT (Dynamic Tanh) = экспериментальная альтернатива без нормализации: $\text{DyT}(x) = \tanh(\alpha \cdot x)$.

4. Statistics & A/B Testing — Практические тренды¶

Sequential Testing Mainstream (2025)¶

Trend: Companies переходят от fixed-horizon A/B к sequential tests.

Methods: - mSPRT (mixture Sequential Probability Ratio Test) - Group Sequential Testing - Bayesian updating

Advantage: Earlier decisions, less data waste.

Variance Reduction Techniques¶

Trend: CUPED (Controlled-experiment Using Pre-Experiment Data) standard.

Formula: $$\hat{\theta}_{\text{CUPED}} = \hat{\theta} - \theta_{\text{cov}} \cdot (X_{\text{pre}} - \mathbb{E}[X_{\text{pre}}])$$

Effect: 20-50% variance reduction, smaller sample sizes.

5. Regularization — Новые паттерны¶

LayerScale (2025)¶

Paper: "Going deeper with Image Transformers"

Mechanism: Learnable per-channel scaling after each residual connection.

class LayerScale(nn.Module):
    def __init__(self, dim, init_value=1e-5):
        super().__init__()
        self.gamma = nn.Parameter(init_value * torch.ones(dim))

    def forward(self, x):
        return x * self.gamma

Effect: Stabilizes very deep transformers (100+ layers).

Stochastic Depth (DropPath) — Mainstream¶

Trend: DropPath (randomly drop entire residual blocks) стандарт для Vision Transformers.

def drop_path(x, drop_prob=0.1):
    if drop_prob == 0. or not self.training:
        return x
    keep_prob = 1 - drop_prob
    mask = torch.rand(x.shape[0]) < keep_prob
    return x * mask.unsqueeze(-1).unsqueeze(-1) / keep_prob

6. Ensemble Methods — Современные тренды¶

Gradient Boosting с Neural Networks (2025)¶

Trend: Гибриды деревьев и нейросетей.

Methods: - TabNet (attention-based) - NODE (Neural Oblivious Decision Ensembles) - GrowNet (gradient boosting with neural nets)

CatBoost Dominance на Tabular (2025)¶

Reality Check: CatBoost часто побеждает XGBoost/LightGBM на категориальных данных.

Причины: - Native categorical encoding (Ordered Target Statistics) - Symmetric trees (faster inference) - Minimal tuning required

7. Information Theory — Новые применения¶

Mutual Information Neural Estimation (MINE)¶

Trend: Использование MI для: - Disentangled representations - Feature selection - Contrastive learning objectives

Formula: $$\hat{I}(X;Z) = \sup_{T \in \mathcal{F}} \mathbb{E}_P[T] - \log \mathbb{E}_{Q}[e^T]$$

Semantic Entropy для Hallucination Detection (2025)¶

Paper: "Detecting Hallucinations with Semantic Entropy"

Idea: Entropy over semantic equivalence classes, not tokens.

Application: Detect LLM hallucinations without ground truth.

Заблуждение: Adam -- лучший оптимизатор для всего

Adam по-прежнему дефолт, но SOAP показывает 40% ускорение на LLM-обучении. Schedule-Free SGD убирает необходимость в scheduling вовсе. На интервью ожидают знание альтернатив, а не только Adam.

Заблуждение: BatchNorm всегда лучше, чем LayerNorm

Для CNN -- BatchNorm всё ещё актуален. Но для Transformers и LLM BatchNorm не работает (зависит от batch size, не совместим с autoregressive генерацией). В 2025-2026 RMSNorm = стандарт для LLM, DyT (Dynamic Tanh) -- экспериментальная альтернатива без нормализации вовсе.

Заблуждение: fixed-horizon A/B-тесты -- единственный подход

Sequential testing (mSPRT) позволяет принимать решение раньше без inflation alpha. CUPED уменьшает дисперсию на 20-50%, сокращая нужный sample size. На интервью в 2026 ожидают знание обоих подходов.

8. Устаревшие подходы (Deprecated)¶

Что больше НЕ спрашивают на интервью (2025-2026)¶

Deprecated	Replacement
Sigmoid activation (hidden layers)	ReLU/GELU/SwiGLU
BatchNorm for Transformers	LayerNorm/RMSNorm
Fixed LR schedules	Warmup + Cosine Decay
Vanilla Dropout для LLMs	DropPath, attention dropout
MSE для classification	Cross-entropy (всегда)
t-SNE для production	UMAP/PCA

9. Что спрашивают в 2026 (Новые тренды)¶

Interview Trends 2025-2026¶

Новые темы на интервью: 1. RMSNorm vs LayerNorm — почему LLMs используют RMSNorm 2. LoRA rank selection — как выбрать r, связь с SVD 3. Gradient checkpointing — memory vs compute tradeoff 4. Mixed precision (BF16) — когда safe, когда нет 5. KV-Cache — как работает, memory implications 6. Flash Attention — IO-aware algorithm 7. Quantization (GPTQ/AWQ) — INT8/INT4 tradeoffs

Новые формулы для запоминания¶

LoRA memory: $$\text{Memory}_{\text{LoRA}} = 2 \cdot d \cdot r \quad \text{vs} \quad d^2$$

KV-Cache size (FP16): $$\text{KV}_{\text{GB}} = \frac{4 \cdot L \cdot B \cdot S \cdot H_{kv} \cdot D_h}{10^9}$$

Breakdown: 2 tensors (K, V) x 2 bytes (FP16) = 4 bytes per element. $H_{kv}$ = number of KV heads (= $H$ for MHA, < $H$ for GQA/MQA). For BF16 — same formula. For INT8 KV-cache: replace 4 with 2.

Flash Attention complexity: $$O(N^2 \cdot d) \to O(N \cdot d) \text{ memory with tiling}$$

Интервью: обновления 2026¶

Формат ответов¶

Красный флаг: "Adam -- лучший оптимизатор, ничего нового не появилось"

Сильный ответ: "Adam остаётся дефолтом, но SOAP комбинирует Shampoo + Adam для 35% ускорения wall-clock time. Schedule-Free подходы убирают learning rate scheduling. Для LLM RMSNorm заменила LayerNorm -- проще, быстрее, используется в LLaMA/Qwen/Mistral."

Красный флаг: "Для A/B-тестов нужен только t-test"

Сильный ответ: "Sequential testing (mSPRT) позволяет пикать результаты без inflating false positive rate. CUPED ($\hat{\theta}_{adj} = \hat{\theta} - \theta_{cov}(X_{pre} - E[X_{pre}])$) сокращает дисперсию на 20-50% за счёт pre-experiment data."