Синтетические данные для обучения LLM¶
~4 минуты чтения
Предварительно: Техники файнтюнинга LLM, Методы alignment
К 2025 году объем текстовых данных в открытом вебе фактически исчерпан для обучения frontier моделей -- Llama 3 обучалась на 15T токенов, приближаясь к потолку качественного web corpus. Синтетические данные стали не опцией, а необходимостью: Phi-1.5 (1.3B параметров) на синтетических textbook-данных сравнялась по качеству с моделями в 10x крупнее, а Cosmopedia v2 (28B токенов, ~$100K на генерацию) показала 2x эффективность по сравнению с web data. Одновременно model collapse -- деградация качества при обучении на собственных выходах через поколения (30-50%+ на Gen 4+) -- стал ключевым техническим вызовом.
Ключевые концепции¶
Синтетические данные -- данные, сгенерированные моделями для обучения других моделей.
Ключевой сдвиг 2025-2026: web corpus исчерпан, data design становится фундаментальной осью разработки моделей.
Типы обучающих данных¶
| Тип | Описание | Применение |
|---|---|---|
| Чисто человеческие | Логи, документы, чаты, сенсоры | Gold standard, дорого |
| Частично синтетические | Человеческое ядро + модельные варианты | Большинство production систем |
| Полностью синтетические | Целиком от моделей | Раннее экспериментирование |
Генераторы синтетических данных¶
| Движок | Что генерирует |
|---|---|
| LLM (GPT-4, Llama, DeepSeek) | Инструкции, диалоги, цепочки рассуждений, tool traces |
| Vision/Multimodal (Diffusion, GANs) | Изображения, UI варианты, альтернативные ракурсы |
| Симуляторы + RL | Траектории: состояния, действия, награды |
Ландшафт датасетов 2026¶
| Датасет | Размер | Генератор | Применение |
|---|---|---|---|
| Cosmopedia v2 | 28B токенов | Mixtral-8x7B | Pre-training |
| Cosmopedia Chinese | 60B токенов | Mixtral | Китайские LLM |
| Orca | 5M сэмплов | GPT-4 | Fine-tuning |
| Phi datasets | Разные | GPT-4 | Малые модели |
1. Data Flywheel¶
4-шаговый процесс¶
Шаг 1: Курирование человеческих данных Малый, но качественный корпус: чистый, дедуплицированный, привязанный к реальным процессам. Определяет что значит "правильно".
Шаг 2: Генерация синтетических данных LLM генерирует кандидатов: перефразировки, усложнённые сценарии, edge-case варианты. Фокус на известных пробелах модели.
Шаг 3: Человеческая фильтрация Быстрый accept/reject/edit workflow. Каждое действие -- неявная аннотация. Только выжившие становятся обучающими данными.
Шаг 4: Обучение и измерение Гибридный корпус (human + synthetic) -> fine-tune -> RLHF. Метрики на held-out реальных данных и live workflows, НЕ только бенчмарки. Error analysis -> фокус следующей генерации.
Human-Model Loop¶
| Действие | Неявный сигнал |
|---|---|
| Удалить предложение | "Эта формулировка неприемлема" |
| Переписать caption | "Вот правильная версия" |
| Выбрать B вместо A | Pairwise preference |
| Исправить ошибку | Error correction training |
Выход: структурированные сигналы для RLHF, fine-tuning, preference modeling.
2. Model Collapse¶
Определение¶
Model collapse -- деградация качества, разнообразия и фактической точности при обучении на синтетических данных через поколения.
Model Collapse Progression:
Gen 0: Human data -> Model A (strong)
Gen 1: Synthetic A -> Model B (degraded)
Gen 2: Synthetic B -> Model C (more degraded)
Gen N: Synthetic N -> Model Z (collapsed)
Симптомы:
- Сужение словаря
- Рост повторений
- Потеря "хвостового" знания
- Рост галлюцинаций
Метрики коллапса¶
| Метрика | Здоровая | Деградирует | Коллапс |
|---|---|---|---|
| Perplexity | Нормальная | Падает | Очень низкая |
| Размер словаря | Полный | Сужается | Минимальный |
| Повторяемость | <5% | 5-15% | >20% |
| Diversity score | Высокий | Падает | Низкий |
| Фактическая точность | Нормальная | Падает | Плохая |
Механизмы¶
| Механизм | Описание |
|---|---|
| Distribution narrowing | Модель учит среднее, теряет хвосты |
| Error amplification | Ошибки накапливаются через поколения |
| Diversity loss | Креативные выходы исчезают |
| Hallucination propagation | Фейковые факты становятся "реальными" |
Пороги деградации по поколениям¶
| Поколение | Деградация качества |
|---|---|
| Gen 1 | 0-5% |
| Gen 2 | 5-15% |
| Gen 3 | 15-30% |
| Gen 4+ | 30-50%+ |
3. Предотвращение коллапса¶
Исследования 2025-2026¶
| Статья | Находка |
|---|---|
| Demystifying Synthetic Data (Oct 2025) | Разрыв между прогнозами коллапса и реальностью |
| Preventing Model Collapse (Jan 2026) | Дополнительные стадии обучения улучшают результат |
| Escaping Collapse via Verification (Oct 2025) | Фильтрация предотвращает деградацию |
Стратегии¶
| Стратегия | Эффективность | Реализация |
|---|---|---|
| Hybrid data | Высокая | Смесь synthetic + real (60-70% human, 30-40% synthetic) |
| Quality filtering | Высокая | Многоступенчатая фильтрация |
| Verification | Средняя | Проверка перед обучением |
| Fresh seeds | Средняя | Новые человеческие данные каждое поколение |
| Caps on generations | Средняя | Ограничение до 1-2 поколений |
4. Cosmopedia¶
| Аспект | Детали |
|---|---|
| Разработчик | Hugging Face |
| v2 размер | 28B токенов |
| Генератор | Mixtral-8x7B-Instruct |
| Лицензия | Apache 2.0 |
Типы контента¶
| Тип | Доля | Описание |
|---|---|---|
| Textbooks | 40% | Образовательный контент |
| Blog posts | 25% | Неформальные объяснения |
| Stories | 15% | Нарративный контент |
| WikiHow | 10% | How-to guides |
| Posts | 10% | Короткий контент |
Pipeline генерации¶
1. Seed Data Collection
Web samples из Common Crawl -> Topic clustering -> Quality filtering
2. Prompt Generation
Diverse prompts from seeds -> Style variation -> Difficulty targeting
3. Synthetic Generation
Mixtral-8x7B-Instruct -> Temperature tuning for diversity
4. Post-Processing
Deduplication -> Quality scoring -> PII removal
Cosmo-1B результаты¶
| Метрика | Значение |
|---|---|
| Параметры | 1.8B |
| Training tokens | 30B (Cosmopedia) |
| Производительность | Сравнима с 3B моделями |
| Эффективность | 2x vs web data |
5. Quality Filtering Pipeline¶
Стратегии фильтрации¶
| Метод | Описание | Retention |
|---|---|---|
| Length filter | Убрать слишком короткие/длинные (50-2000) | 80-90% |
| Perplexity filter | Убрать high-perplexity | 60-80% |
| Deduplication | MinHash LSH, убрать near-duplicates | 70-85% |
| Quality classifier | GPT-4 score-based | 40-60% |
| Combined pipeline | Все 4 последовательно | 30-50% |
Preservation diversity¶
| Стратегия | Описание |
|---|---|
| Clustering | Topic diversity |
| Temperature tuning | Выше temp = больше разнообразия |
| Seed diversity | Разнообразные источники промптов |
Verification systems¶
| Метод | Описание | Стоимость |
|---|---|---|
| Fact checking | Верификация утверждений | Высокая |
| Consistency check | Перекрёстные ссылки | Средняя |
| Human review | Выборочная проверка | Высокая |
| Model-based scoring | Quality model | Низкая |
6. Методы генерации¶
Self-Instruct¶
Stanford (2023). Модель генерирует собственные обучающие данные. Используется: Alpaca, Vicuna.
CoT-Self-Instruct (2025)¶
Chain-of-thought для высококачественных промптов. Фокус на post-training data. Лучшее качество через рассуждения.
Phi Approach¶
Тяжело отфильтрованные синтетические данные. Модели: Phi-1, Phi-1.5, Phi-2. Quality > quantity для малых моделей.
Orca Approach¶
Обучение на объяснениях GPT-4. Фокус: reasoning traces. 5M сэмплов.
7. Synthetic Pretraining¶
Synthetic pretraining -- использование синтетических данных на всех стадиях обучения, начиная с pre-training (не только mid/post-training).
Исторический контекст¶
Phi-1.5 (2023): первая модель с тяжёлой зависимостью от синтетических данных ("textbook" + filtered web). 1.3B параметров, 30B токенов -- сравнима с моделями в 10x крупнее.
3 стадии Synthetic Compilation¶
Stage 1: Memory (Memorization) Усиление фактов через engineered rephrasing. REWIRE (Meta): web-документы переструктурируются для когерентного pretraining. Active Reading (Meta): 8B модель на diverse learning strategies -- насыщение на SimpleQA. BeyondWeb/SYNTH: self-sufficient pretraining из 56,000 Wikipedia статей.
Stage 2: Logic (Logical Hardwiring) Встраивание правил и абстрактных последовательностей разрешений в веса. Transformers -- эффективные компиляторы: формальные системы правил интегрируются без вербализации. Circuit Transformers (Anthropic): базовая математика решается до генерации токенов. Seed-Prover: 230M уникальных задач по геометрии (vs 1M в крупнейшей коллекции), генерация шла 7+ дней.
Stage 3: Simulations (System Modeling) Моделирование целых систем работы с интегрированными ограничениями. GLM 4.5: large-scale synthetic agent trajectories. Minimax M2.1: 100K programming environments, recursive synthetic feedback. IBM Toucan: 1.5M trajectories из 500 MCP серверов.
Модели с synthetic pretraining (2025-2026)¶
| Модель | Подход |
|---|---|
| Minimax | Extensive synthetic datasets до mid-training |
| Trinity | Synthetic pipeline (Arcee/Datalogy/Prime) |
| Kimi K2/K2.5 | Synthetic data strategy |
| Nemotron-3 | Synthetic pretraining (NVIDIA) |
| Baguettotron/Monad | Full synthetic (SYNTH), Pleias |
8. Domain-Specific генерация¶
Medical Imaging¶
GANs: CycleGAN, CFGAN, SRGAN для MRI/CT. Ограничения: нестабильность обучения, обобщаемость.
Diffusion Models: forward noise + reverse denoise. Medical Diffusion: 3D MRI/CT. MAISI (NVIDIA): 3D CT + 127 анатомических структур.
Med-Art: Diffusion Transformer (DiT) из текстовых промптов + LLaVA-NeXT + LoRA fine-tuning. Работает с ограниченными данными.
Tabular Data¶
| Подход | Примеры |
|---|---|
| GAN-based | TabFairGAN (fairness), CTGAN (conditional), DPGAN (privacy) |
| Diffusion-based | TabDDPM, AutoDiff, FinDiff (financial) |
| LLM-based | GReaT, GreatTab, CoTF (Chain-of-Thought Fine-tuning) |
9. Use Case Matrix¶
По стадии обучения¶
| Стадия | Доля synthetic | Фокус |
|---|---|---|
| Pre-training | 30-50% | Diversity |
| Mid-training | 40-60% | Domain coverage |
| Fine-tuning | 20-40% | Task quality |
| RLHF data | 50-80% | Preference quality |
По домену¶
| Домен | Пригодность | Причина |
|---|---|---|
| Code | Высокая | Executable verification |
| Math | Высокая | Verifiable answers |
| General text | Средняя | Качество варьируется |
| Factual | Низкая | Риск галлюцинаций |
| Creative | Средняя | Нужно разнообразие |
10. Enterprise Adoption¶
Шаги внедрения¶
- Аудит существующих данных
- Идентификация пробелов (где модель ошибается)
- Курирование человеческого ядра
- Генерация синтетических данных вокруг ядра
- Валидация и итерация
Типичные ошибки¶
| Ошибка | Последствие |
|---|---|
| Пропуск human validation | Model collapse, деградация |
| Генерация без таргетирования | Low-value данные |
| Измерение только бенчмарков | Пропуск real-world проблем |
| Отсутствие governance | Невозможно трейсить issues |
Для интервью¶
Q: "Что такое synthetic data flywheel?"¶
4 шага: (1) Курирование высококачественного человеческого ядра (100-10K примеров). (2) Генерация синтетических вариантов через LLM -- перефразировки, edge cases, фокус на пробелах. (3) Фильтрация -- human review (accept/reject/edit), каждое действие -- implicit annotation. Retention rate 20-50%. (4) Обучение на hybrid корпусе + measurement на real data. Human-model loop: люди не строят датасеты, а shape distribution синтетических данных. Cost: 0.1-0.3x от pure human annotation.
Q: "Как предотвратить model collapse?"¶
Model collapse -- деградация через поколения (Gen 1: 0-5%, Gen 4+: 30-50%). Механизмы: distribution narrowing, error amplification, diversity loss, hallucination propagation. Предотвращение: (1) Hybrid data -- 60-70% human + 30-40% synthetic. (2) Quality filtering pipeline -- length -> perplexity -> dedup -> classifier, retention 30-50%, quality +30%. (3) Fresh seeds каждое поколение. (4) Caps на 1-2 поколения. (5) Verification -- fact checking + consistency. Cosmopedia: 28B токенов, Mixtral-8x7B, ~50% retention после фильтрации.
Q: "Что такое synthetic pretraining?"¶
Сдвиг от "синтетика только для fine-tuning" к "синтетика с pre-training". 3 стадии: (1) Memory -- engineered rephrasing для усиления фактов (REWIRE, Active Reading). BeyondWeb: self-sufficient pretraining из 56K Wikipedia статей. (2) Logic -- встраивание правил в веса. Circuit Transformers (Anthropic): математика до генерации токенов. Seed-Prover: 230M задач по геометрии. (3) Simulations -- моделирование систем. IBM Toucan: 1.5M trajectories из 500 MCP серверов. Minimax M2.1: 100K programming environments. Phi-1.5 (2023): 1.3B params = качество 10x крупнее модели.
Ключевые числа¶
| Факт | Значение |
|---|---|
| Cosmopedia v2 размер | 28B токенов |
| Cosmopedia retention после фильтрации | ~50% |
| Cosmopedia стоимость генерации | ~$100K |
| Cosmo-1B эффективность | 2x vs web data |
| Phi-1.5 эффективность | 1.3B = 10x крупнее модель |
| Seed-Prover задачи | 230M уникальных |
| IBM Toucan траектории | 1.5M из 500 MCP серверов |
| Minimax environments | 100,000 programming environments |
| SYNTH base | 56,000 Wikipedia статей |
| Hybrid data рекомендация | 60-70% human + 30-40% synthetic |
| Human core size | 100-10,000 примеров |
| Synthetic multiplier | 10-100x от human core |
| Validation pass rate | 20-50% |
| Combined filtering retention | 30-50% |
| Combined filtering quality boost | +30% |
| Human annotation стоимость | $100-500 per 1M tokens |
| Synthetic (GPT-4) стоимость | $10-30 per 1M tokens |
| Synthetic (open) стоимость | $0.50-2 per 1M tokens |
| Model collapse Gen 1 | 0-5% |
| Model collapse Gen 4+ | 30-50%+ |
Заблуждение: синтетические данные всегда дешевле человеческих
Генерация через open-source модели стоит $0.50-2 за 1M токенов, через GPT-4 -- $10-30. Но без quality filtering pipeline (retention 30-50%) вы получаете мусор, который ухудшает модель. Полная стоимость включает: генерацию + фильтрацию + human review выборки + verification. Для domain-specific данных (медицина, юриспруденция) стоимость валидации может превысить стоимость человеческой разметки. Синтетика дешевле только при масштабе >100K примеров и наличии автоматической верификации (код, математика).
Заблуждение: model collapse -- теоретическая проблема, на практике не встречается
Исследование "Demystifying Synthetic Data" (Oct 2025) показало разрыв между теоретическими прогнозами и реальностью, но это не значит, что проблемы нет. Gen 1 деградация 0-5% кажется несущественной, но к Gen 4+ она достигает 30-50%+. Механизм: модель учит среднее распределения и теряет "хвосты" -- редкие факты, нестандартные формулировки, edge cases. Cosmopedia справляется только благодаря aggressive filtering (50% retention) и одному поколению генерации.
Заблуждение: можно заменить все human data синтетическими
Рекомендуемая пропорция -- 60-70% human + 30-40% synthetic. Полностью синтетические корпуса (BeyondWeb/SYNTH) работают только для pre-training с последующим fine-tuning на real data. Для RLHF human preferences незаменимы: LLM-as-judge дает correlation 0.5-0.7 с human judgment. Human core (100-10K примеров) определяет "что значит правильно" -- без него synthetic flywheel генерирует данные без якоря.
Interview Questions¶
Q: Что такое model collapse и как его предотвратить?
Red flag: "Model collapse -- это когда модель переобучается на синтетических данных, нужно просто добавить regularization"
Strong answer: "Model collapse -- деградация качества через поколения обучения на synthetic data: сужение словаря, рост повторений, потеря хвостового знания, propagation галлюцинаций. Gen 1: 0-5%, Gen 4+: 30-50%+. Предотвращение: (1) hybrid data -- 60-70% human + 30-40% synthetic, (2) quality filtering pipeline -- length + perplexity + dedup + classifier, retention 30-50%, (3) caps на 1-2 поколения генерации, (4) fresh human seeds каждое поколение. Ключевая метрика: diversity score + фактическая точность на held-out real data, не только perplexity"
Q: Как устроен synthetic data flywheel?
Red flag: "Просто генерируем данные через GPT-4 и обучаем на них модель"
Strong answer: "4 шага: (1) Курирование human core -- 100-10K качественных примеров, определяющих 'правильно'. (2) Генерация -- LLM создает перефразировки, edge cases, фокус на известных пробелах модели. (3) Фильтрация -- human accept/reject/edit, каждое действие -- implicit annotation для RLHF, retention 20-50%. (4) Обучение на hybrid корпусе + measurement на real data и live workflows. Стоимость 0.1-0.3x от pure human annotation. Критично: измерять на held-out real data, не только бенчмарках -- бенчмарки не ловят distribution narrowing"
Q: Чем synthetic pretraining отличается от synthetic fine-tuning?
Red flag: "Synthetic pretraining -- это просто больше синтетических данных для первой фазы обучения"
Strong answer: "Сдвиг парадигмы: синтетика не только для post-training, а для всех стадий. Три фазы: (1) Memory -- engineered rephrasing для усиления фактов, REWIRE переструктурирует web-документы. (2) Logic -- встраивание формальных правил в веса, Circuit Transformers решают базовую математику до генерации токенов. (3) Simulations -- моделирование систем, IBM Toucan: 1.5M trajectories из 500 MCP серверов. Результат: Phi-1.5 (1.3B params) = качество модели в 10x крупнее. Ограничение: pre-training synthetic data требует extreme diversity -- Cosmopedia использует 5 типов контента и temperature tuning"
Источники¶
- Invisible Technologies -- "AI Training in 2026: Anchoring Synthetic Data in Human Truth"
- Hugging Face -- "Cosmopedia: Creating Large-Scale Synthetic Data"
- Vintage Data -- "Synthetic Pretraining" (Feb 2026)
- Neptune.ai -- "Synthetic Data for LLM Training" (Nov 2025)
- arXiv -- "Demystifying Synthetic Data in LLM Pre-training" (2510.01631)
- arXiv -- "How to Synthesize Text Data without Model Collapse" (2412.14689)
- arXiv -- "Escaping Model Collapse via Synthetic Data Verification" (2510.16657)
- arXiv -- "Preventing Model Collapse when Training LLMs with Synthetic Data" (Jan 2026)
- OpenReview -- "CoT-Self-Instruct: Building High-Quality Synthetic Prompts"
- Machine Learning Mastery -- "7 Agentic AI Trends to Watch in 2026" (Jan 2026)