Методы Alignment LLM¶

~4 минуты чтения

Предварительно: Техники файнтюнинга LLM, Безопасность LLM

RLHF, DPO, Constitutional AI, RLAIF, GRPO -- полный разбор (2025-2026)

Alignment -- процесс приведения поведения LLM в соответствие с намерениями человека -- определяет разницу между "сырой" языковой моделью и полезным ассистентом. По данным Anthropic (2025), модель без alignment в 40-60% случаев генерирует токсичный, вредный или нерелевантный контент. Стоимость alignment для модели масштаба GPT-4 составляет $1-10M, но без него модель непригодна для production. В 2025-2026 годах сложились пять основных методов: RLHF (золотой стандарт OpenAI), DPO (доминирует в open-source), Constitutional AI (подход Anthropic), RLAIF (масштабирование Google) и GRPO (прорыв DeepSeek в reasoning).

Ключевые концепции¶

Ландшафт методов¶

Метод	Сложность	Данные	Качество	Прозрачность	Кто использует
RLHF	Высокая	Human preferences	Лучшее	Низкая	OpenAI, Anthropic
DPO	Низкая	Human preferences	90-95% от RLHF	Низкая	Meta, open-source, Mistral
Constitutional AI	Средняя	AI feedback + принципы	Высокое	Высокая	Anthropic (Claude)
RLAIF	Средняя	AI preferences	Варьируется	Низкая	Google, Meta
GRPO	Средняя	Group comparisons	Высокое	Средняя	DeepSeek (R1)

1. RLHF (Reinforcement Learning from Human Feedback)¶

Три стадии:

graph TD
    A["Stage 1: SFT<br/>Pre-trained model → fine-tune<br/>на instruction data"] --> B["Stage 2: Reward Model<br/>Человек сравнивает A vs B<br/>Loss: -log(σ(r(x,y_w) - r(x,y_l)))"]
    B --> C["Stage 3: PPO<br/>Оптимизация policy с reward model<br/>objective = E[r(x, π(y))] - β·KL(π || π_ref)"]
    style A fill:#e8eaf6,stroke:#3f51b5
    style B fill:#fff3e0,stroke:#ef6c00
    style C fill:#e8f5e9,stroke:#4caf50

PPO objective:

\[L_{\text{PPO}} = \mathbb{E}\left[\min\left(r_t(\theta)\hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_t\right)\right]\]

$r_t(\theta) = \pi_\theta(y|x) / \pi_{\text{ref}}(y|x)$

Проблемы:

Проблема	Описание
Reward hacking	Модель находит shortcuts для максимизации reward
Distribution shift	RM accuracy деградирует на OOD данных
KL collapse	Модель слишком далеко уходит от base
PPO instability	Training может diverge (failure rate 20-30%)
Cost	100K-1M preference pairs, 1000-10000 human hours

2. DPO (Direct Preference Optimization)¶

Ключевая идея: skip reward model, оптимизация напрямую из preferences.

\[\mathcal{L}_{\text{DPO}} = -\mathbb{E}\left[\log\sigma\left(\beta\log\frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta\log\frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)}\right)\right]\]

$y_w$ = preferred, $y_l$ = dispreferred, $\beta$ = temperature (0.1-0.5).

Почему работает: optimal policy $\pi^*(y|x) = (1/Z(x)) \cdot \pi_{\text{ref}}(y|x) \cdot \exp(r(x,y)/\beta)$. Из этого выражения можно получить reward как функцию от policy, минуя отдельную reward model.

Реализация:

def dpo_loss(policy_log_probs, reference_log_probs, beta=0.1):
    log_ratio_w = policy_log_probs[:, 0] - reference_log_probs[:, 0]
    log_ratio_l = policy_log_probs[:, 1] - reference_log_probs[:, 1]
    logits = beta * (log_ratio_w - log_ratio_l)
    return -F.logsigmoid(logits).mean()

Аспект	RLHF	DPO
Стадии	3 (SFT -> RM -> PPO)	2 (SFT -> DPO)
Reward model	Нужна	Не нужна
Стабильность	Средняя (failure 20-30%)	Высокая (failure 5-10%)
Compute	1000 GPU-hours (7B)	200 GPU-hours (7B)
Preference win-rate	~76%	~71%
Качество	Best	90-95% от RLHF

Когда DPO: limited compute, быстрая итерация, стабильность критична, binary feedback. Когда НЕ DPO: complex reward landscapes, нужен максимум alignment quality, nuanced human values.

3. Constitutional AI¶

Два этапа: self-critique + RLAIF.

graph TD
    subgraph P1["Phase 1: Supervised (Critique & Revision)"]
        A1["1. Генерируем ответ"] --> A2["2. Модель критикует себя<br/>по конституции"]
        A2 --> A3["3. Модель ревизирует ответ"]
        A3 --> A4["4. Fine-tune на ревизиях"]
    end
    subgraph P2["Phase 2: RLAIF"]
        B1["1. Генерируем множество ответов"] --> B2["2. AI оценивает каждый<br/>по конституции"]
        B2 --> B3["3. Создаём preference pairs"]
        B3 --> B4["4. Обучаем с DPO/RLHF"]
    end
    P1 --> P2
    style A1 fill:#e8eaf6,stroke:#3f51b5
    style A2 fill:#fff3e0,stroke:#ef6c00
    style A3 fill:#e8f5e9,stroke:#4caf50
    style A4 fill:#e8f5e9,stroke:#4caf50
    style B1 fill:#e8eaf6,stroke:#3f51b5
    style B2 fill:#fff3e0,stroke:#ef6c00
    style B3 fill:#f3e5f5,stroke:#9c27b0
    style B4 fill:#e8f5e9,stroke:#4caf50

Конституция Claude (2026): 1. Be helpful, harmless, honest 2. Never provide harmful instructions 3. Respect privacy 4. Acknowledge uncertainty 5. Avoid stereotypes and bias 6. Promote well-being

Преимущество	Описание
Прозрачность	Принципы задокументированы, аудируемы
Масштабируемость	Self-critique не требует human labels
Консистентность	Одни принципы применяются единообразно
Кастомизируемость	Легко модифицировать конституцию
Прирост	+25-40% alignment score vs vanilla RLHF

4. RLAIF (RL from AI Feedback)¶

Как RLHF, но preferences генерирует AI model вместо людей.

Метрика	RLHF	RLAIF
Agreement с human preferences	100% (by definition)	70-85%
Cost per 1K preferences	$50-200	$1-5
Масштабируемость	Ограничена	Не ограничена
Риск	Human bias	AI bias amplification

5. GRPO (Group Relative Policy Optimization)¶

Инновация DeepSeek R1: no value function, group comparisons вместо binary.

Алгоритм: 1. Для prompt x сэмплируем K ответов (K=4-8) 2. Вычисляем rewards r_1...r_K (через verifier) 3. Relative advantage: $\hat{A}_i = (r_i - \text{mean}) / \text{std}$ 4. Loss: $L = -\mathbb{E}[\hat{A}_i \cdot \log \pi_\theta(y_i|x)] + \beta \cdot KL(\pi_\theta \| \pi_{\text{ref}})$

Аспект	PPO (RLHF)	GRPO
Value function	Нужна	Не нужна
Стабильность	Средняя	Выше
Memory	Выше (V + pi)	Ниже (только pi)
Sample efficiency	Хорошая	Лучше (group-based)

DeepSeek R1 stages: R1-Zero (pure GRPO на base -> reasoning emergence) -> R1 (GRPO + SFT distillation -> production model).

6. Emerging Methods (2026)¶

Safe RLHF: отдельные reward и cost models + constrained optimization. Для safety-critical.

Democratic Alignment: sortition-weighted preferences для broader value representation. Research phase.

Детали и сравнения¶

Hybrid подходы¶

DPO -> RLHF: DPO для быстрого initial alignment, потом RLHF для quality refinement. Best of both.
Constitutional AI + RLAIF: конституция для AI feedback generation. Подход Anthropic.
Multi-Objective DPO: game-theoretic methods для competing objectives.

Полная матрица сравнения¶

Feature	RLHF	DPO	RLAIF	CAI	GRPO
Сложность	High	Low	High	High	Medium
Compute	High	Low	Medium	Medium	Medium
Human data	Required	Required	Optional	Minimal	Minimal
Стабильность	Medium	High	Medium	High	High
Quality ceiling	Highest	High	Varies	High	High
Масштабируемость	Limited	Good	Best	Good	Good
Прозрачность	Low	Low	Low	High	Medium

Стоимость (модель 1B параметров)¶

Метод	Human labels	Compute	Total
RLHF	100K ($50K)	500 GPU-hrs	~$75K
DPO	50K ($25K)	200 GPU-hrs	~$35K
Constitutional AI	1K ($500)	300 GPU-hrs	~$5K
RLAIF	0	400 GPU-hrs	~$4K

Бенчмарки (AlpacaEval 2)¶

Модель	Метод	Win Rate
LLaMA-2-Chat	RLHF	71.3%
Mistral-Instruct	DPO	75.2%
Claude 3.5	Constitutional AI	89.1%
DeepSeek R1	GRPO	87.5%

Production adoption (2026)¶

Метод	Adoption
RLHF	High (OpenAI, Anthropic)
DPO	Very High (Meta, open-source)
Constitutional AI	Production (Anthropic)
RLAIF	Growing (Google)
GRPO	Growing (DeepSeek)

Decision Tree¶

graph TD
    Q1{"Ограниченный compute?"} -->|Да| DPO["DPO"]
    Q1 -->|Нет| Q2{"Максимум quality?"}
    Q2 -->|Да| RLHF["RLHF"]
    Q2 -->|Нет| Q3{"Масштабирование<br/>до миллионов?"}
    Q3 -->|Да| RLAIF["RLAIF"]
    Q3 -->|Нет| Q4{"Safety-critical +<br/>transparency?"}
    Q4 -->|Да| CAI["Constitutional AI"]
    Q4 -->|Нет| Q5{"Reasoning model?"}
    Q5 -->|Да| GRPO["GRPO"]
    Q5 -->|Нет| HYB["Hybrid<br/>DPO + RLHF refinement"]
    style DPO fill:#e8eaf6,stroke:#3f51b5
    style RLHF fill:#e8f5e9,stroke:#4caf50
    style RLAIF fill:#fff3e0,stroke:#ef6c00
    style CAI fill:#f3e5f5,stroke:#9c27b0
    style GRPO fill:#fce4ec,stroke:#c62828
    style HYB fill:#e8f5e9,stroke:#4caf50

Заблуждение: Constitutional AI заменяет RLHF

Constitutional AI дает +25-40% alignment vs vanilla RLHF, но Anthropic использует его вместе с RLHF, а не вместо. Claude 3.5 обучен Constitutional AI + RLHF + DPO. Чистый Constitutional AI без RL-этапа проигрывает по win rate на 10-15% на Arena. Конституция задает направление, но RL-оптимизация нужна для calibration и nuanced behavior.

DPO ceiling: 90-95% от RLHF -- для frontier моделей это критично

DPO проще и дешевле, но его quality ceiling ниже. На AlpacaEval 2: DPO-модели ~75% win rate vs RLHF ~71% (кажется DPO лучше!), но на более сложных бенчмарках (MT-Bench, Arena) RLHF стабильно впереди. Причина: DPO работает только с binary preferences, не может выучить nuanced reward landscapes. Для production-критичных моделей: DPO для быстрого старта, затем RLHF refinement.

Reward hacking -- главная проблема RLHF

Модель учится максимизировать reward model, а не быть genuinely helpful. Типичные симптомы: sycophancy (чрезмерное соглашение), verbose responses (длиннее = выше reward), formulaic structure. Защита: regularization через KL penalty (beta), diverse reward models, iterative retraining RM на adversarial examples. DeepSeek R1 решает частично через GRPO (group comparisons вместо absolute reward).

Interview Questions¶

Q: Объясните RLHF pipeline -- какие стадии и зачем каждая?

Red flag: "RLHF -- это когда модель учится на feedback от людей" (без деталей о стадиях и математике)

Strong answer: "3 стадии: (1) SFT -- fine-tune pre-trained на instruction data, (2) Reward Model -- обучаем на human comparisons (A vs B), loss = -log sigma(r(w) - r(l)), (3) PPO -- оптимизация policy с reward model, balance reward vs KL от reference. Проблемы: reward hacking, PPO instability (20-30% failure rate), дорого ($75K для 1B модели). KL penalty критичен -- без него модель уходит в reward hacking."

Q: Чем DPO лучше RLHF и когда его недостаточно?

Red flag: "DPO проще и дешевле, поэтому всегда лучше" (игнорирует quality ceiling)

Strong answer: "DPO пропускает reward model: доказано, что optimal policy выражается через reference policy + reward, поэтому можно оптимизировать напрямую. 90-95% качества RLHF при 5x меньшем compute ($35K vs $75K для 1B). Failure rate 5-10% vs 20-30%. Ограничение: binary preferences only, не тянет complex reward landscapes. На MT-Bench и Arena RLHF стабильно впереди. Production: DPO для быстрого старта, затем RLHF refinement."

Q: Что такое Constitutional AI и как Anthropic его использует в Claude?

Red flag: "Это просто набор правил для модели" (путает с system prompt)

Strong answer: "Два этапа: (1) модель критикует себя по набору принципов (конституции) и ревизирует ответ -- supervised fine-tuning, (2) RLAIF на AI-generated preferences по той же конституции. Преимущества: прозрачность (принципы аудируемы), масштабируемость (минимум human labels), +25-40% alignment vs vanilla RLHF. Стоимость $5K vs $75K для RLHF на модели 1B."

Q: RLHF vs DPO vs Constitutional AI -- как выбрать для production?

Red flag: "Всегда используйте самый новый метод" (без учёта контекста)

Strong answer: "Зависит от контекста: RLHF -- максимум quality при бюджете на human labels и compute. DPO -- быстрая итерация, limited compute, binary feedback. Constitutional AI -- safety-critical, нужна прозрачность, нет бюджета на human labeling. GRPO -- reasoning модели (DeepSeek R1). Production: часто hybrid -- DPO для быстрого старта, RLHF для refinement. Startup MVP -- DPO однозначно."

Ключевые числа¶

Факт	Значение
DPO vs RLHF quality	90-95%
RLHF PPO failure rate	20-30%
DPO failure rate	5-10%
Constitutional AI vs RLHF	+25-40% alignment
RLHF cost (1B model)	~$75K
DPO cost (1B model)	~$35K
Constitutional AI cost	~$5K
RLAIF agreement with humans	70-85%
DeepSeek R1 reasoning improvement	+30-50%

Источники¶

Anthropic -- "Claude's New Constitution" (2026) + "Claude's Constitution" (2023)
arXiv -- "Direct Preference Optimization" (Rafailov et al.)
arXiv -- "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs" (2501.12948)
Nature -- "DeepSeek-R1" (s41586-025-09422-z)
Cameron Wolfe -- "GRPO: Tricks for Making RL Actually Work"
Medium -- "Beyond Traditional RLHF: DPO, Constitutional AI"
Medium -- "The Proof is in the Preference: Why DPO is the New RLHF"
AI Safety Frontier -- "Paper Highlights of January 2026"
AWS Blog -- "Fine-tune LLMs with RLHF vs RLAIF vs DPO"
OpenReview -- "Curriculum Alignment with RLAIF"
ACM Computing Surveys -- "Human Preference Learning for Aligning LLMs"
TechRxiv -- "RLHF: Shaping the Future of AI Alignment Roadmap 2025-2035"
arXiv -- "Domain-Specific Constitutional AI" (2509.16444)
arXiv -- "Alignment and Safety in LLMs" (2507.19672)