Методы Alignment LLM¶
~4 минуты чтения
Предварительно: Техники файнтюнинга LLM, Безопасность LLM
RLHF, DPO, Constitutional AI, RLAIF, GRPO -- полный разбор (2025-2026)
Alignment -- процесс приведения поведения LLM в соответствие с намерениями человека -- определяет разницу между "сырой" языковой моделью и полезным ассистентом. По данным Anthropic (2025), модель без alignment в 40-60% случаев генерирует токсичный, вредный или нерелевантный контент. Стоимость alignment для модели масштаба GPT-4 составляет $1-10M, но без него модель непригодна для production. В 2025-2026 годах сложились пять основных методов: RLHF (золотой стандарт OpenAI), DPO (доминирует в open-source), Constitutional AI (подход Anthropic), RLAIF (масштабирование Google) и GRPO (прорыв DeepSeek в reasoning).
Ключевые концепции¶
Ландшафт методов¶
| Метод | Сложность | Данные | Качество | Прозрачность | Кто использует |
|---|---|---|---|---|---|
| RLHF | Высокая | Human preferences | Лучшее | Низкая | OpenAI, Anthropic |
| DPO | Низкая | Human preferences | 90-95% от RLHF | Низкая | Meta, open-source, Mistral |
| Constitutional AI | Средняя | AI feedback + принципы | Высокое | Высокая | Anthropic (Claude) |
| RLAIF | Средняя | AI preferences | Варьируется | Низкая | Google, Meta |
| GRPO | Средняя | Group comparisons | Высокое | Средняя | DeepSeek (R1) |
1. RLHF (Reinforcement Learning from Human Feedback)¶
Три стадии:
graph TD
A["Stage 1: SFT<br/>Pre-trained model → fine-tune<br/>на instruction data"] --> B["Stage 2: Reward Model<br/>Человек сравнивает A vs B<br/>Loss: -log(σ(r(x,y_w) - r(x,y_l)))"]
B --> C["Stage 3: PPO<br/>Оптимизация policy с reward model<br/>objective = E[r(x, π(y))] - β·KL(π || π_ref)"]
style A fill:#e8eaf6,stroke:#3f51b5
style B fill:#fff3e0,stroke:#ef6c00
style C fill:#e8f5e9,stroke:#4caf50
PPO objective:
\(r_t(\theta) = \pi_\theta(y|x) / \pi_{\text{ref}}(y|x)\)
Проблемы:
| Проблема | Описание |
|---|---|
| Reward hacking | Модель находит shortcuts для максимизации reward |
| Distribution shift | RM accuracy деградирует на OOD данных |
| KL collapse | Модель слишком далеко уходит от base |
| PPO instability | Training может diverge (failure rate 20-30%) |
| Cost | 100K-1M preference pairs, 1000-10000 human hours |
2. DPO (Direct Preference Optimization)¶
Ключевая идея: skip reward model, оптимизация напрямую из preferences.
\(y_w\) = preferred, \(y_l\) = dispreferred, \(\beta\) = temperature (0.1-0.5).
Почему работает: optimal policy \(\pi^*(y|x) = (1/Z(x)) \cdot \pi_{\text{ref}}(y|x) \cdot \exp(r(x,y)/\beta)\). Из этого выражения можно получить reward как функцию от policy, минуя отдельную reward model.
Реализация:
def dpo_loss(policy_log_probs, reference_log_probs, beta=0.1):
log_ratio_w = policy_log_probs[:, 0] - reference_log_probs[:, 0]
log_ratio_l = policy_log_probs[:, 1] - reference_log_probs[:, 1]
logits = beta * (log_ratio_w - log_ratio_l)
return -F.logsigmoid(logits).mean()
| Аспект | RLHF | DPO |
|---|---|---|
| Стадии | 3 (SFT -> RM -> PPO) | 2 (SFT -> DPO) |
| Reward model | Нужна | Не нужна |
| Стабильность | Средняя (failure 20-30%) | Высокая (failure 5-10%) |
| Compute | 1000 GPU-hours (7B) | 200 GPU-hours (7B) |
| Preference win-rate | ~76% | ~71% |
| Качество | Best | 90-95% от RLHF |
Когда DPO: limited compute, быстрая итерация, стабильность критична, binary feedback. Когда НЕ DPO: complex reward landscapes, нужен максимум alignment quality, nuanced human values.
3. Constitutional AI¶
Два этапа: self-critique + RLAIF.
graph TD
subgraph P1["Phase 1: Supervised (Critique & Revision)"]
A1["1. Генерируем ответ"] --> A2["2. Модель критикует себя<br/>по конституции"]
A2 --> A3["3. Модель ревизирует ответ"]
A3 --> A4["4. Fine-tune на ревизиях"]
end
subgraph P2["Phase 2: RLAIF"]
B1["1. Генерируем множество ответов"] --> B2["2. AI оценивает каждый<br/>по конституции"]
B2 --> B3["3. Создаём preference pairs"]
B3 --> B4["4. Обучаем с DPO/RLHF"]
end
P1 --> P2
style A1 fill:#e8eaf6,stroke:#3f51b5
style A2 fill:#fff3e0,stroke:#ef6c00
style A3 fill:#e8f5e9,stroke:#4caf50
style A4 fill:#e8f5e9,stroke:#4caf50
style B1 fill:#e8eaf6,stroke:#3f51b5
style B2 fill:#fff3e0,stroke:#ef6c00
style B3 fill:#f3e5f5,stroke:#9c27b0
style B4 fill:#e8f5e9,stroke:#4caf50
Конституция Claude (2026): 1. Be helpful, harmless, honest 2. Never provide harmful instructions 3. Respect privacy 4. Acknowledge uncertainty 5. Avoid stereotypes and bias 6. Promote well-being
| Преимущество | Описание |
|---|---|
| Прозрачность | Принципы задокументированы, аудируемы |
| Масштабируемость | Self-critique не требует human labels |
| Консистентность | Одни принципы применяются единообразно |
| Кастомизируемость | Легко модифицировать конституцию |
| Прирост | +25-40% alignment score vs vanilla RLHF |
4. RLAIF (RL from AI Feedback)¶
Как RLHF, но preferences генерирует AI model вместо людей.
| Метрика | RLHF | RLAIF |
|---|---|---|
| Agreement с human preferences | 100% (by definition) | 70-85% |
| Cost per 1K preferences | $50-200 | $1-5 |
| Масштабируемость | Ограничена | Не ограничена |
| Риск | Human bias | AI bias amplification |
5. GRPO (Group Relative Policy Optimization)¶
Инновация DeepSeek R1: no value function, group comparisons вместо binary.
Алгоритм: 1. Для prompt x сэмплируем K ответов (K=4-8) 2. Вычисляем rewards r_1...r_K (через verifier) 3. Relative advantage: \(\hat{A}_i = (r_i - \text{mean}) / \text{std}\) 4. Loss: \(L = -\mathbb{E}[\hat{A}_i \cdot \log \pi_\theta(y_i|x)] + \beta \cdot KL(\pi_\theta \| \pi_{\text{ref}})\)
| Аспект | PPO (RLHF) | GRPO |
|---|---|---|
| Value function | Нужна | Не нужна |
| Стабильность | Средняя | Выше |
| Memory | Выше (V + pi) | Ниже (только pi) |
| Sample efficiency | Хорошая | Лучше (group-based) |
DeepSeek R1 stages: R1-Zero (pure GRPO на base -> reasoning emergence) -> R1 (GRPO + SFT distillation -> production model).
6. Emerging Methods (2026)¶
Safe RLHF: отдельные reward и cost models + constrained optimization. Для safety-critical.
Democratic Alignment: sortition-weighted preferences для broader value representation. Research phase.
Детали и сравнения¶
Hybrid подходы¶
- DPO -> RLHF: DPO для быстрого initial alignment, потом RLHF для quality refinement. Best of both.
- Constitutional AI + RLAIF: конституция для AI feedback generation. Подход Anthropic.
- Multi-Objective DPO: game-theoretic methods для competing objectives.
Полная матрица сравнения¶
| Feature | RLHF | DPO | RLAIF | CAI | GRPO |
|---|---|---|---|---|---|
| Сложность | High | Low | High | High | Medium |
| Compute | High | Low | Medium | Medium | Medium |
| Human data | Required | Required | Optional | Minimal | Minimal |
| Стабильность | Medium | High | Medium | High | High |
| Quality ceiling | Highest | High | Varies | High | High |
| Масштабируемость | Limited | Good | Best | Good | Good |
| Прозрачность | Low | Low | Low | High | Medium |
Стоимость (модель 1B параметров)¶
| Метод | Human labels | Compute | Total |
|---|---|---|---|
| RLHF | 100K ($50K) | 500 GPU-hrs | ~$75K |
| DPO | 50K ($25K) | 200 GPU-hrs | ~$35K |
| Constitutional AI | 1K ($500) | 300 GPU-hrs | ~$5K |
| RLAIF | 0 | 400 GPU-hrs | ~$4K |
Бенчмарки (AlpacaEval 2)¶
| Модель | Метод | Win Rate |
|---|---|---|
| LLaMA-2-Chat | RLHF | 71.3% |
| Mistral-Instruct | DPO | 75.2% |
| Claude 3.5 | Constitutional AI | 89.1% |
| DeepSeek R1 | GRPO | 87.5% |
Production adoption (2026)¶
| Метод | Adoption |
|---|---|
| RLHF | High (OpenAI, Anthropic) |
| DPO | Very High (Meta, open-source) |
| Constitutional AI | Production (Anthropic) |
| RLAIF | Growing (Google) |
| GRPO | Growing (DeepSeek) |
Decision Tree¶
graph TD
Q1{"Ограниченный compute?"} -->|Да| DPO["DPO"]
Q1 -->|Нет| Q2{"Максимум quality?"}
Q2 -->|Да| RLHF["RLHF"]
Q2 -->|Нет| Q3{"Масштабирование<br/>до миллионов?"}
Q3 -->|Да| RLAIF["RLAIF"]
Q3 -->|Нет| Q4{"Safety-critical +<br/>transparency?"}
Q4 -->|Да| CAI["Constitutional AI"]
Q4 -->|Нет| Q5{"Reasoning model?"}
Q5 -->|Да| GRPO["GRPO"]
Q5 -->|Нет| HYB["Hybrid<br/>DPO + RLHF refinement"]
style DPO fill:#e8eaf6,stroke:#3f51b5
style RLHF fill:#e8f5e9,stroke:#4caf50
style RLAIF fill:#fff3e0,stroke:#ef6c00
style CAI fill:#f3e5f5,stroke:#9c27b0
style GRPO fill:#fce4ec,stroke:#c62828
style HYB fill:#e8f5e9,stroke:#4caf50
Заблуждение: Constitutional AI заменяет RLHF
Constitutional AI дает +25-40% alignment vs vanilla RLHF, но Anthropic использует его вместе с RLHF, а не вместо. Claude 3.5 обучен Constitutional AI + RLHF + DPO. Чистый Constitutional AI без RL-этапа проигрывает по win rate на 10-15% на Arena. Конституция задает направление, но RL-оптимизация нужна для calibration и nuanced behavior.
DPO ceiling: 90-95% от RLHF -- для frontier моделей это критично
DPO проще и дешевле, но его quality ceiling ниже. На AlpacaEval 2: DPO-модели ~75% win rate vs RLHF ~71% (кажется DPO лучше!), но на более сложных бенчмарках (MT-Bench, Arena) RLHF стабильно впереди. Причина: DPO работает только с binary preferences, не может выучить nuanced reward landscapes. Для production-критичных моделей: DPO для быстрого старта, затем RLHF refinement.
Reward hacking -- главная проблема RLHF
Модель учится максимизировать reward model, а не быть genuinely helpful. Типичные симптомы: sycophancy (чрезмерное соглашение), verbose responses (длиннее = выше reward), formulaic structure. Защита: regularization через KL penalty (beta), diverse reward models, iterative retraining RM на adversarial examples. DeepSeek R1 решает частично через GRPO (group comparisons вместо absolute reward).
Interview Questions¶
Q: Объясните RLHF pipeline -- какие стадии и зачем каждая?
Red flag: "RLHF -- это когда модель учится на feedback от людей" (без деталей о стадиях и математике)
Strong answer: "3 стадии: (1) SFT -- fine-tune pre-trained на instruction data, (2) Reward Model -- обучаем на human comparisons (A vs B), loss = -log sigma(r(w) - r(l)), (3) PPO -- оптимизация policy с reward model, balance reward vs KL от reference. Проблемы: reward hacking, PPO instability (20-30% failure rate), дорого ($75K для 1B модели). KL penalty критичен -- без него модель уходит в reward hacking."
Q: Чем DPO лучше RLHF и когда его недостаточно?
Red flag: "DPO проще и дешевле, поэтому всегда лучше" (игнорирует quality ceiling)
Strong answer: "DPO пропускает reward model: доказано, что optimal policy выражается через reference policy + reward, поэтому можно оптимизировать напрямую. 90-95% качества RLHF при 5x меньшем compute ($35K vs $75K для 1B). Failure rate 5-10% vs 20-30%. Ограничение: binary preferences only, не тянет complex reward landscapes. На MT-Bench и Arena RLHF стабильно впереди. Production: DPO для быстрого старта, затем RLHF refinement."
Q: Что такое Constitutional AI и как Anthropic его использует в Claude?
Red flag: "Это просто набор правил для модели" (путает с system prompt)
Strong answer: "Два этапа: (1) модель критикует себя по набору принципов (конституции) и ревизирует ответ -- supervised fine-tuning, (2) RLAIF на AI-generated preferences по той же конституции. Преимущества: прозрачность (принципы аудируемы), масштабируемость (минимум human labels), +25-40% alignment vs vanilla RLHF. Стоимость $5K vs $75K для RLHF на модели 1B."
Q: RLHF vs DPO vs Constitutional AI -- как выбрать для production?
Red flag: "Всегда используйте самый новый метод" (без учёта контекста)
Strong answer: "Зависит от контекста: RLHF -- максимум quality при бюджете на human labels и compute. DPO -- быстрая итерация, limited compute, binary feedback. Constitutional AI -- safety-critical, нужна прозрачность, нет бюджета на human labeling. GRPO -- reasoning модели (DeepSeek R1). Production: часто hybrid -- DPO для быстрого старта, RLHF для refinement. Startup MVP -- DPO однозначно."
Ключевые числа¶
| Факт | Значение |
|---|---|
| DPO vs RLHF quality | 90-95% |
| RLHF PPO failure rate | 20-30% |
| DPO failure rate | 5-10% |
| Constitutional AI vs RLHF | +25-40% alignment |
| RLHF cost (1B model) | ~$75K |
| DPO cost (1B model) | ~$35K |
| Constitutional AI cost | ~$5K |
| RLAIF agreement with humans | 70-85% |
| DeepSeek R1 reasoning improvement | +30-50% |
Источники¶
- Anthropic -- "Claude's New Constitution" (2026) + "Claude's Constitution" (2023)
- arXiv -- "Direct Preference Optimization" (Rafailov et al.)
- arXiv -- "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs" (2501.12948)
- Nature -- "DeepSeek-R1" (s41586-025-09422-z)
- Cameron Wolfe -- "GRPO: Tricks for Making RL Actually Work"
- Medium -- "Beyond Traditional RLHF: DPO, Constitutional AI"
- Medium -- "The Proof is in the Preference: Why DPO is the New RLHF"
- AI Safety Frontier -- "Paper Highlights of January 2026"
- AWS Blog -- "Fine-tune LLMs with RLHF vs RLAIF vs DPO"
- OpenReview -- "Curriculum Alignment with RLAIF"
- ACM Computing Surveys -- "Human Preference Learning for Aligning LLMs"
- TechRxiv -- "RLHF: Shaping the Future of AI Alignment Roadmap 2025-2035"
- arXiv -- "Domain-Specific Constitutional AI" (2509.16444)
- arXiv -- "Alignment and Safety in LLMs" (2507.19672)
See Also¶
- LoRA Fine-Tuning -- PEFT адаптеры часто используются для DPO/RLHF fine-tuning
- Fine-Tuning Techniques -- SFT стадия перед alignment, data preparation
- CoT Reasoning -- GRPO (DeepSeek R1) порождает reasoning через RL без SFT
- LLM Safety -- alignment как часть общей системы безопасности LLM
- Red Teaming -- проверка alignment через adversarial testing