Перейти к содержанию

Методы Alignment LLM

~4 минуты чтения

Предварительно: Техники файнтюнинга LLM, Безопасность LLM

RLHF, DPO, Constitutional AI, RLAIF, GRPO -- полный разбор (2025-2026)

Alignment -- процесс приведения поведения LLM в соответствие с намерениями человека -- определяет разницу между "сырой" языковой моделью и полезным ассистентом. По данным Anthropic (2025), модель без alignment в 40-60% случаев генерирует токсичный, вредный или нерелевантный контент. Стоимость alignment для модели масштаба GPT-4 составляет $1-10M, но без него модель непригодна для production. В 2025-2026 годах сложились пять основных методов: RLHF (золотой стандарт OpenAI), DPO (доминирует в open-source), Constitutional AI (подход Anthropic), RLAIF (масштабирование Google) и GRPO (прорыв DeepSeek в reasoning).


Ключевые концепции

Ландшафт методов

Метод Сложность Данные Качество Прозрачность Кто использует
RLHF Высокая Human preferences Лучшее Низкая OpenAI, Anthropic
DPO Низкая Human preferences 90-95% от RLHF Низкая Meta, open-source, Mistral
Constitutional AI Средняя AI feedback + принципы Высокое Высокая Anthropic (Claude)
RLAIF Средняя AI preferences Варьируется Низкая Google, Meta
GRPO Средняя Group comparisons Высокое Средняя DeepSeek (R1)

1. RLHF (Reinforcement Learning from Human Feedback)

Три стадии:

graph TD
    A["Stage 1: SFT<br/>Pre-trained model → fine-tune<br/>на instruction data"] --> B["Stage 2: Reward Model<br/>Человек сравнивает A vs B<br/>Loss: -log(σ(r(x,y_w) - r(x,y_l)))"]
    B --> C["Stage 3: PPO<br/>Оптимизация policy с reward model<br/>objective = E[r(x, π(y))] - β·KL(π || π_ref)"]
    style A fill:#e8eaf6,stroke:#3f51b5
    style B fill:#fff3e0,stroke:#ef6c00
    style C fill:#e8f5e9,stroke:#4caf50

PPO objective:

\[L_{\text{PPO}} = \mathbb{E}\left[\min\left(r_t(\theta)\hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_t\right)\right]\]

\(r_t(\theta) = \pi_\theta(y|x) / \pi_{\text{ref}}(y|x)\)

Проблемы:

Проблема Описание
Reward hacking Модель находит shortcuts для максимизации reward
Distribution shift RM accuracy деградирует на OOD данных
KL collapse Модель слишком далеко уходит от base
PPO instability Training может diverge (failure rate 20-30%)
Cost 100K-1M preference pairs, 1000-10000 human hours

2. DPO (Direct Preference Optimization)

Ключевая идея: skip reward model, оптимизация напрямую из preferences.

\[\mathcal{L}_{\text{DPO}} = -\mathbb{E}\left[\log\sigma\left(\beta\log\frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta\log\frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)}\right)\right]\]

\(y_w\) = preferred, \(y_l\) = dispreferred, \(\beta\) = temperature (0.1-0.5).

Почему работает: optimal policy \(\pi^*(y|x) = (1/Z(x)) \cdot \pi_{\text{ref}}(y|x) \cdot \exp(r(x,y)/\beta)\). Из этого выражения можно получить reward как функцию от policy, минуя отдельную reward model.

Реализация:

def dpo_loss(policy_log_probs, reference_log_probs, beta=0.1):
    log_ratio_w = policy_log_probs[:, 0] - reference_log_probs[:, 0]
    log_ratio_l = policy_log_probs[:, 1] - reference_log_probs[:, 1]
    logits = beta * (log_ratio_w - log_ratio_l)
    return -F.logsigmoid(logits).mean()
Аспект RLHF DPO
Стадии 3 (SFT -> RM -> PPO) 2 (SFT -> DPO)
Reward model Нужна Не нужна
Стабильность Средняя (failure 20-30%) Высокая (failure 5-10%)
Compute 1000 GPU-hours (7B) 200 GPU-hours (7B)
Preference win-rate ~76% ~71%
Качество Best 90-95% от RLHF

Когда DPO: limited compute, быстрая итерация, стабильность критична, binary feedback. Когда НЕ DPO: complex reward landscapes, нужен максимум alignment quality, nuanced human values.

3. Constitutional AI

Два этапа: self-critique + RLAIF.

graph TD
    subgraph P1["Phase 1: Supervised (Critique & Revision)"]
        A1["1. Генерируем ответ"] --> A2["2. Модель критикует себя<br/>по конституции"]
        A2 --> A3["3. Модель ревизирует ответ"]
        A3 --> A4["4. Fine-tune на ревизиях"]
    end
    subgraph P2["Phase 2: RLAIF"]
        B1["1. Генерируем множество ответов"] --> B2["2. AI оценивает каждый<br/>по конституции"]
        B2 --> B3["3. Создаём preference pairs"]
        B3 --> B4["4. Обучаем с DPO/RLHF"]
    end
    P1 --> P2
    style A1 fill:#e8eaf6,stroke:#3f51b5
    style A2 fill:#fff3e0,stroke:#ef6c00
    style A3 fill:#e8f5e9,stroke:#4caf50
    style A4 fill:#e8f5e9,stroke:#4caf50
    style B1 fill:#e8eaf6,stroke:#3f51b5
    style B2 fill:#fff3e0,stroke:#ef6c00
    style B3 fill:#f3e5f5,stroke:#9c27b0
    style B4 fill:#e8f5e9,stroke:#4caf50

Конституция Claude (2026): 1. Be helpful, harmless, honest 2. Never provide harmful instructions 3. Respect privacy 4. Acknowledge uncertainty 5. Avoid stereotypes and bias 6. Promote well-being

Преимущество Описание
Прозрачность Принципы задокументированы, аудируемы
Масштабируемость Self-critique не требует human labels
Консистентность Одни принципы применяются единообразно
Кастомизируемость Легко модифицировать конституцию
Прирост +25-40% alignment score vs vanilla RLHF

4. RLAIF (RL from AI Feedback)

Как RLHF, но preferences генерирует AI model вместо людей.

Метрика RLHF RLAIF
Agreement с human preferences 100% (by definition) 70-85%
Cost per 1K preferences $50-200 $1-5
Масштабируемость Ограничена Не ограничена
Риск Human bias AI bias amplification

5. GRPO (Group Relative Policy Optimization)

Инновация DeepSeek R1: no value function, group comparisons вместо binary.

Алгоритм: 1. Для prompt x сэмплируем K ответов (K=4-8) 2. Вычисляем rewards r_1...r_K (через verifier) 3. Relative advantage: \(\hat{A}_i = (r_i - \text{mean}) / \text{std}\) 4. Loss: \(L = -\mathbb{E}[\hat{A}_i \cdot \log \pi_\theta(y_i|x)] + \beta \cdot KL(\pi_\theta \| \pi_{\text{ref}})\)

Аспект PPO (RLHF) GRPO
Value function Нужна Не нужна
Стабильность Средняя Выше
Memory Выше (V + pi) Ниже (только pi)
Sample efficiency Хорошая Лучше (group-based)

DeepSeek R1 stages: R1-Zero (pure GRPO на base -> reasoning emergence) -> R1 (GRPO + SFT distillation -> production model).

6. Emerging Methods (2026)

Safe RLHF: отдельные reward и cost models + constrained optimization. Для safety-critical.

Democratic Alignment: sortition-weighted preferences для broader value representation. Research phase.


Детали и сравнения

Hybrid подходы

  1. DPO -> RLHF: DPO для быстрого initial alignment, потом RLHF для quality refinement. Best of both.
  2. Constitutional AI + RLAIF: конституция для AI feedback generation. Подход Anthropic.
  3. Multi-Objective DPO: game-theoretic methods для competing objectives.

Полная матрица сравнения

Feature RLHF DPO RLAIF CAI GRPO
Сложность High Low High High Medium
Compute High Low Medium Medium Medium
Human data Required Required Optional Minimal Minimal
Стабильность Medium High Medium High High
Quality ceiling Highest High Varies High High
Масштабируемость Limited Good Best Good Good
Прозрачность Low Low Low High Medium

Стоимость (модель 1B параметров)

Метод Human labels Compute Total
RLHF 100K ($50K) 500 GPU-hrs ~$75K
DPO 50K ($25K) 200 GPU-hrs ~$35K
Constitutional AI 1K ($500) 300 GPU-hrs ~$5K
RLAIF 0 400 GPU-hrs ~$4K

Бенчмарки (AlpacaEval 2)

Модель Метод Win Rate
LLaMA-2-Chat RLHF 71.3%
Mistral-Instruct DPO 75.2%
Claude 3.5 Constitutional AI 89.1%
DeepSeek R1 GRPO 87.5%

Production adoption (2026)

Метод Adoption
RLHF High (OpenAI, Anthropic)
DPO Very High (Meta, open-source)
Constitutional AI Production (Anthropic)
RLAIF Growing (Google)
GRPO Growing (DeepSeek)

Decision Tree

graph TD
    Q1{"Ограниченный compute?"} -->|Да| DPO["DPO"]
    Q1 -->|Нет| Q2{"Максимум quality?"}
    Q2 -->|Да| RLHF["RLHF"]
    Q2 -->|Нет| Q3{"Масштабирование<br/>до миллионов?"}
    Q3 -->|Да| RLAIF["RLAIF"]
    Q3 -->|Нет| Q4{"Safety-critical +<br/>transparency?"}
    Q4 -->|Да| CAI["Constitutional AI"]
    Q4 -->|Нет| Q5{"Reasoning model?"}
    Q5 -->|Да| GRPO["GRPO"]
    Q5 -->|Нет| HYB["Hybrid<br/>DPO + RLHF refinement"]
    style DPO fill:#e8eaf6,stroke:#3f51b5
    style RLHF fill:#e8f5e9,stroke:#4caf50
    style RLAIF fill:#fff3e0,stroke:#ef6c00
    style CAI fill:#f3e5f5,stroke:#9c27b0
    style GRPO fill:#fce4ec,stroke:#c62828
    style HYB fill:#e8f5e9,stroke:#4caf50

Заблуждение: Constitutional AI заменяет RLHF

Constitutional AI дает +25-40% alignment vs vanilla RLHF, но Anthropic использует его вместе с RLHF, а не вместо. Claude 3.5 обучен Constitutional AI + RLHF + DPO. Чистый Constitutional AI без RL-этапа проигрывает по win rate на 10-15% на Arena. Конституция задает направление, но RL-оптимизация нужна для calibration и nuanced behavior.

DPO ceiling: 90-95% от RLHF -- для frontier моделей это критично

DPO проще и дешевле, но его quality ceiling ниже. На AlpacaEval 2: DPO-модели ~75% win rate vs RLHF ~71% (кажется DPO лучше!), но на более сложных бенчмарках (MT-Bench, Arena) RLHF стабильно впереди. Причина: DPO работает только с binary preferences, не может выучить nuanced reward landscapes. Для production-критичных моделей: DPO для быстрого старта, затем RLHF refinement.

Reward hacking -- главная проблема RLHF

Модель учится максимизировать reward model, а не быть genuinely helpful. Типичные симптомы: sycophancy (чрезмерное соглашение), verbose responses (длиннее = выше reward), formulaic structure. Защита: regularization через KL penalty (beta), diverse reward models, iterative retraining RM на adversarial examples. DeepSeek R1 решает частично через GRPO (group comparisons вместо absolute reward).


Interview Questions

Q: Объясните RLHF pipeline -- какие стадии и зачем каждая?

❌ Red flag: "RLHF -- это когда модель учится на feedback от людей" (без деталей о стадиях и математике)

✅ Strong answer: "3 стадии: (1) SFT -- fine-tune pre-trained на instruction data, (2) Reward Model -- обучаем на human comparisons (A vs B), loss = -log sigma(r(w) - r(l)), (3) PPO -- оптимизация policy с reward model, balance reward vs KL от reference. Проблемы: reward hacking, PPO instability (20-30% failure rate), дорого ($75K для 1B модели). KL penalty критичен -- без него модель уходит в reward hacking."


Q: Чем DPO лучше RLHF и когда его недостаточно?

❌ Red flag: "DPO проще и дешевле, поэтому всегда лучше" (игнорирует quality ceiling)

✅ Strong answer: "DPO пропускает reward model: доказано, что optimal policy выражается через reference policy + reward, поэтому можно оптимизировать напрямую. 90-95% качества RLHF при 5x меньшем compute ($35K vs $75K для 1B). Failure rate 5-10% vs 20-30%. Ограничение: binary preferences only, не тянет complex reward landscapes. На MT-Bench и Arena RLHF стабильно впереди. Production: DPO для быстрого старта, затем RLHF refinement."


Q: Что такое Constitutional AI и как Anthropic его использует в Claude?

❌ Red flag: "Это просто набор правил для модели" (путает с system prompt)

✅ Strong answer: "Два этапа: (1) модель критикует себя по набору принципов (конституции) и ревизирует ответ -- supervised fine-tuning, (2) RLAIF на AI-generated preferences по той же конституции. Преимущества: прозрачность (принципы аудируемы), масштабируемость (минимум human labels), +25-40% alignment vs vanilla RLHF. Стоимость $5K vs $75K для RLHF на модели 1B."


Q: RLHF vs DPO vs Constitutional AI -- как выбрать для production?

❌ Red flag: "Всегда используйте самый новый метод" (без учёта контекста)

✅ Strong answer: "Зависит от контекста: RLHF -- максимум quality при бюджете на human labels и compute. DPO -- быстрая итерация, limited compute, binary feedback. Constitutional AI -- safety-critical, нужна прозрачность, нет бюджета на human labeling. GRPO -- reasoning модели (DeepSeek R1). Production: часто hybrid -- DPO для быстрого старта, RLHF для refinement. Startup MVP -- DPO однозначно."

Ключевые числа

Факт Значение
DPO vs RLHF quality 90-95%
RLHF PPO failure rate 20-30%
DPO failure rate 5-10%
Constitutional AI vs RLHF +25-40% alignment
RLHF cost (1B model) ~$75K
DPO cost (1B model) ~$35K
Constitutional AI cost ~$5K
RLAIF agreement with humans 70-85%
DeepSeek R1 reasoning improvement +30-50%

Источники

  1. Anthropic -- "Claude's New Constitution" (2026) + "Claude's Constitution" (2023)
  2. arXiv -- "Direct Preference Optimization" (Rafailov et al.)
  3. arXiv -- "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs" (2501.12948)
  4. Nature -- "DeepSeek-R1" (s41586-025-09422-z)
  5. Cameron Wolfe -- "GRPO: Tricks for Making RL Actually Work"
  6. Medium -- "Beyond Traditional RLHF: DPO, Constitutional AI"
  7. Medium -- "The Proof is in the Preference: Why DPO is the New RLHF"
  8. AI Safety Frontier -- "Paper Highlights of January 2026"
  9. AWS Blog -- "Fine-tune LLMs with RLHF vs RLAIF vs DPO"
  10. OpenReview -- "Curriculum Alignment with RLAIF"
  11. ACM Computing Surveys -- "Human Preference Learning for Aligning LLMs"
  12. TechRxiv -- "RLHF: Shaping the Future of AI Alignment Roadmap 2025-2035"
  13. arXiv -- "Domain-Specific Constitutional AI" (2509.16444)
  14. arXiv -- "Alignment and Safety in LLMs" (2507.19672)

See Also

  • LoRA Fine-Tuning -- PEFT адаптеры часто используются для DPO/RLHF fine-tuning
  • Fine-Tuning Techniques -- SFT стадия перед alignment, data preparation
  • CoT Reasoning -- GRPO (DeepSeek R1) порождает reasoning через RL без SFT
  • LLM Safety -- alignment как часть общей системы безопасности LLM
  • Red Teaming -- проверка alignment через adversarial testing