Синтетические данные для обучения LLM¶

~4 минуты чтения

Предварительно: Техники файнтюнинга LLM, Методы alignment

К 2025 году объем текстовых данных в открытом вебе фактически исчерпан для обучения frontier моделей -- Llama 3 обучалась на 15T токенов, приближаясь к потолку качественного web corpus. Синтетические данные стали не опцией, а необходимостью: Phi-1.5 (1.3B параметров) на синтетических textbook-данных сравнялась по качеству с моделями в 10x крупнее, а Cosmopedia v2 (28B токенов, ~$100K на генерацию) показала 2x эффективность по сравнению с web data. Одновременно model collapse -- деградация качества при обучении на собственных выходах через поколения (30-50%+ на Gen 4+) -- стал ключевым техническим вызовом.

Ключевые концепции¶

Синтетические данные -- данные, сгенерированные моделями для обучения других моделей.

Ключевой сдвиг 2025-2026: web corpus исчерпан, data design становится фундаментальной осью разработки моделей.

Типы обучающих данных¶

Тип	Описание	Применение
Чисто человеческие	Логи, документы, чаты, сенсоры	Gold standard, дорого
Частично синтетические	Человеческое ядро + модельные варианты	Большинство production систем
Полностью синтетические	Целиком от моделей	Раннее экспериментирование

Генераторы синтетических данных¶

Движок	Что генерирует
LLM (GPT-4, Llama, DeepSeek)	Инструкции, диалоги, цепочки рассуждений, tool traces
Vision/Multimodal (Diffusion, GANs)	Изображения, UI варианты, альтернативные ракурсы
Симуляторы + RL	Траектории: состояния, действия, награды

Ландшафт датасетов 2026¶

Датасет	Размер	Генератор	Применение
Cosmopedia v2	28B токенов	Mixtral-8x7B	Pre-training
Cosmopedia Chinese	60B токенов	Mixtral	Китайские LLM
Orca	5M сэмплов	GPT-4	Fine-tuning
Phi datasets	Разные	GPT-4	Малые модели

1. Data Flywheel¶

4-шаговый процесс¶

Шаг 1: Курирование человеческих данных Малый, но качественный корпус: чистый, дедуплицированный, привязанный к реальным процессам. Определяет что значит "правильно".

Шаг 2: Генерация синтетических данных LLM генерирует кандидатов: перефразировки, усложнённые сценарии, edge-case варианты. Фокус на известных пробелах модели.

Шаг 3: Человеческая фильтрация Быстрый accept/reject/edit workflow. Каждое действие -- неявная аннотация. Только выжившие становятся обучающими данными.

Шаг 4: Обучение и измерение Гибридный корпус (human + synthetic) -> fine-tune -> RLHF. Метрики на held-out реальных данных и live workflows, НЕ только бенчмарки. Error analysis -> фокус следующей генерации.

Human-Model Loop¶

Действие	Неявный сигнал
Удалить предложение	"Эта формулировка неприемлема"
Переписать caption	"Вот правильная версия"
Выбрать B вместо A	Pairwise preference
Исправить ошибку	Error correction training

Выход: структурированные сигналы для RLHF, fine-tuning, preference modeling.

2. Model Collapse¶

Определение¶

Model collapse -- деградация качества, разнообразия и фактической точности при обучении на синтетических данных через поколения.

Model Collapse Progression:
Gen 0: Human data -> Model A (strong)
Gen 1: Synthetic A -> Model B (degraded)
Gen 2: Synthetic B -> Model C (more degraded)
Gen N: Synthetic N -> Model Z (collapsed)

Симптомы:
- Сужение словаря
- Рост повторений
- Потеря "хвостового" знания
- Рост галлюцинаций

Метрики коллапса¶

Метрика	Здоровая	Деградирует	Коллапс
Perplexity	Нормальная	Падает	Очень низкая
Размер словаря	Полный	Сужается	Минимальный
Повторяемость	<5%	5-15%	>20%
Diversity score	Высокий	Падает	Низкий
Фактическая точность	Нормальная	Падает	Плохая

Механизмы¶

Механизм	Описание
Distribution narrowing	Модель учит среднее, теряет хвосты
Error amplification	Ошибки накапливаются через поколения
Diversity loss	Креативные выходы исчезают
Hallucination propagation	Фейковые факты становятся "реальными"

Пороги деградации по поколениям¶

Поколение	Деградация качества
Gen 1	0-5%
Gen 2	5-15%
Gen 3	15-30%
Gen 4+	30-50%+

3. Предотвращение коллапса¶

Исследования 2025-2026¶

Статья	Находка
Demystifying Synthetic Data (Oct 2025)	Разрыв между прогнозами коллапса и реальностью
Preventing Model Collapse (Jan 2026)	Дополнительные стадии обучения улучшают результат
Escaping Collapse via Verification (Oct 2025)	Фильтрация предотвращает деградацию

Стратегии¶

Стратегия	Эффективность	Реализация
Hybrid data	Высокая	Смесь synthetic + real (60-70% human, 30-40% synthetic)
Quality filtering	Высокая	Многоступенчатая фильтрация
Verification	Средняя	Проверка перед обучением
Fresh seeds	Средняя	Новые человеческие данные каждое поколение
Caps on generations	Средняя	Ограничение до 1-2 поколений

4. Cosmopedia¶

Аспект	Детали
Разработчик	Hugging Face
v2 размер	28B токенов
Генератор	Mixtral-8x7B-Instruct
Лицензия	Apache 2.0

Типы контента¶

Тип	Доля	Описание
Textbooks	40%	Образовательный контент
Blog posts	25%	Неформальные объяснения
Stories	15%	Нарративный контент
WikiHow	10%	How-to guides
Posts	10%	Короткий контент

Pipeline генерации¶

1. Seed Data Collection
   Web samples из Common Crawl -> Topic clustering -> Quality filtering

2. Prompt Generation
   Diverse prompts from seeds -> Style variation -> Difficulty targeting

3. Synthetic Generation
   Mixtral-8x7B-Instruct -> Temperature tuning for diversity

4. Post-Processing
   Deduplication -> Quality scoring -> PII removal

Cosmo-1B результаты¶

Метрика	Значение
Параметры	1.8B
Training tokens	30B (Cosmopedia)
Производительность	Сравнима с 3B моделями
Эффективность	2x vs web data

5. Quality Filtering Pipeline¶

Стратегии фильтрации¶

Метод	Описание	Retention
Length filter	Убрать слишком короткие/длинные (50-2000)	80-90%
Perplexity filter	Убрать high-perplexity	60-80%
Deduplication	MinHash LSH, убрать near-duplicates	70-85%
Quality classifier	GPT-4 score-based	40-60%
Combined pipeline	Все 4 последовательно	30-50%

Preservation diversity¶

Стратегия	Описание
Clustering	Topic diversity
Temperature tuning	Выше temp = больше разнообразия
Seed diversity	Разнообразные источники промптов

Verification systems¶

Метод	Описание	Стоимость
Fact checking	Верификация утверждений	Высокая
Consistency check	Перекрёстные ссылки	Средняя
Human review	Выборочная проверка	Высокая
Model-based scoring	Quality model	Низкая

6. Методы генерации¶

Self-Instruct¶

Stanford (2023). Модель генерирует собственные обучающие данные. Используется: Alpaca, Vicuna.

CoT-Self-Instruct (2025)¶

Chain-of-thought для высококачественных промптов. Фокус на post-training data. Лучшее качество через рассуждения.

Phi Approach¶

Тяжело отфильтрованные синтетические данные. Модели: Phi-1, Phi-1.5, Phi-2. Quality > quantity для малых моделей.

Orca Approach¶

Обучение на объяснениях GPT-4. Фокус: reasoning traces. 5M сэмплов.

7. Synthetic Pretraining¶

Synthetic pretraining -- использование синтетических данных на всех стадиях обучения, начиная с pre-training (не только mid/post-training).

Исторический контекст¶

Phi-1.5 (2023): первая модель с тяжёлой зависимостью от синтетических данных ("textbook" + filtered web). 1.3B параметров, 30B токенов -- сравнима с моделями в 10x крупнее.

3 стадии Synthetic Compilation¶

Stage 1: Memory (Memorization) Усиление фактов через engineered rephrasing. REWIRE (Meta): web-документы переструктурируются для когерентного pretraining. Active Reading (Meta): 8B модель на diverse learning strategies -- насыщение на SimpleQA. BeyondWeb/SYNTH: self-sufficient pretraining из 56,000 Wikipedia статей.

Stage 2: Logic (Logical Hardwiring) Встраивание правил и абстрактных последовательностей разрешений в веса. Transformers -- эффективные компиляторы: формальные системы правил интегрируются без вербализации. Circuit Transformers (Anthropic): базовая математика решается до генерации токенов. Seed-Prover: 230M уникальных задач по геометрии (vs 1M в крупнейшей коллекции), генерация шла 7+ дней.

Stage 3: Simulations (System Modeling) Моделирование целых систем работы с интегрированными ограничениями. GLM 4.5: large-scale synthetic agent trajectories. Minimax M2.1: 100K programming environments, recursive synthetic feedback. IBM Toucan: 1.5M trajectories из 500 MCP серверов.

Модели с synthetic pretraining (2025-2026)¶

Модель	Подход
Minimax	Extensive synthetic datasets до mid-training
Trinity	Synthetic pipeline (Arcee/Datalogy/Prime)
Kimi K2/K2.5	Synthetic data strategy
Nemotron-3	Synthetic pretraining (NVIDIA)
Baguettotron/Monad	Full synthetic (SYNTH), Pleias

8. Domain-Specific генерация¶

Medical Imaging¶

GANs: CycleGAN, CFGAN, SRGAN для MRI/CT. Ограничения: нестабильность обучения, обобщаемость.

Diffusion Models: forward noise + reverse denoise. Medical Diffusion: 3D MRI/CT. MAISI (NVIDIA): 3D CT + 127 анатомических структур.

Med-Art: Diffusion Transformer (DiT) из текстовых промптов + LLaVA-NeXT + LoRA fine-tuning. Работает с ограниченными данными.

Tabular Data¶

Подход	Примеры
GAN-based	TabFairGAN (fairness), CTGAN (conditional), DPGAN (privacy)
Diffusion-based	TabDDPM, AutoDiff, FinDiff (financial)
LLM-based	GReaT, GreatTab, CoTF (Chain-of-Thought Fine-tuning)

9. Use Case Matrix¶

По стадии обучения¶

Стадия	Доля synthetic	Фокус
Pre-training	30-50%	Diversity
Mid-training	40-60%	Domain coverage
Fine-tuning	20-40%	Task quality
RLHF data	50-80%	Preference quality

По домену¶

Домен	Пригодность	Причина
Code	Высокая	Executable verification
Math	Высокая	Verifiable answers
General text	Средняя	Качество варьируется
Factual	Низкая	Риск галлюцинаций
Creative	Средняя	Нужно разнообразие

10. Enterprise Adoption¶

Шаги внедрения¶

Аудит существующих данных
Идентификация пробелов (где модель ошибается)
Курирование человеческого ядра
Генерация синтетических данных вокруг ядра
Валидация и итерация

Типичные ошибки¶

Ошибка	Последствие
Пропуск human validation	Model collapse, деградация
Генерация без таргетирования	Low-value данные
Измерение только бенчмарков	Пропуск real-world проблем
Отсутствие governance	Невозможно трейсить issues

Для интервью¶

Q: "Что такое synthetic data flywheel?"¶

4 шага: (1) Курирование высококачественного человеческого ядра (100-10K примеров). (2) Генерация синтетических вариантов через LLM -- перефразировки, edge cases, фокус на пробелах. (3) Фильтрация -- human review (accept/reject/edit), каждое действие -- implicit annotation. Retention rate 20-50%. (4) Обучение на hybrid корпусе + measurement на real data. Human-model loop: люди не строят датасеты, а shape distribution синтетических данных. Cost: 0.1-0.3x от pure human annotation.

Q: "Как предотвратить model collapse?"¶

Model collapse -- деградация через поколения (Gen 1: 0-5%, Gen 4+: 30-50%). Механизмы: distribution narrowing, error amplification, diversity loss, hallucination propagation. Предотвращение: (1) Hybrid data -- 60-70% human + 30-40% synthetic. (2) Quality filtering pipeline -- length -> perplexity -> dedup -> classifier, retention 30-50%, quality +30%. (3) Fresh seeds каждое поколение. (4) Caps на 1-2 поколения. (5) Verification -- fact checking + consistency. Cosmopedia: 28B токенов, Mixtral-8x7B, ~50% retention после фильтрации.

Q: "Что такое synthetic pretraining?"¶

Сдвиг от "синтетика только для fine-tuning" к "синтетика с pre-training". 3 стадии: (1) Memory -- engineered rephrasing для усиления фактов (REWIRE, Active Reading). BeyondWeb: self-sufficient pretraining из 56K Wikipedia статей. (2) Logic -- встраивание правил в веса. Circuit Transformers (Anthropic): математика до генерации токенов. Seed-Prover: 230M задач по геометрии. (3) Simulations -- моделирование систем. IBM Toucan: 1.5M trajectories из 500 MCP серверов. Minimax M2.1: 100K programming environments. Phi-1.5 (2023): 1.3B params = качество 10x крупнее модели.

Ключевые числа¶

Факт	Значение
Cosmopedia v2 размер	28B токенов
Cosmopedia retention после фильтрации	~50%
Cosmopedia стоимость генерации	~$100K
Cosmo-1B эффективность	2x vs web data
Phi-1.5 эффективность	1.3B = 10x крупнее модель
Seed-Prover задачи	230M уникальных
IBM Toucan траектории	1.5M из 500 MCP серверов
Minimax environments	100,000 programming environments
SYNTH base	56,000 Wikipedia статей
Hybrid data рекомендация	60-70% human + 30-40% synthetic
Human core size	100-10,000 примеров
Synthetic multiplier	10-100x от human core
Validation pass rate	20-50%
Combined filtering retention	30-50%
Combined filtering quality boost	+30%
Human annotation стоимость	$100-500 per 1M tokens
Synthetic (GPT-4) стоимость	$10-30 per 1M tokens
Synthetic (open) стоимость	$0.50-2 per 1M tokens
Model collapse Gen 1	0-5%
Model collapse Gen 4+	30-50%+

Заблуждение: синтетические данные всегда дешевле человеческих

Генерация через open-source модели стоит $0.50-2 за 1M токенов, через GPT-4 -- $10-30. Но без quality filtering pipeline (retention 30-50%) вы получаете мусор, который ухудшает модель. Полная стоимость включает: генерацию + фильтрацию + human review выборки + verification. Для domain-specific данных (медицина, юриспруденция) стоимость валидации может превысить стоимость человеческой разметки. Синтетика дешевле только при масштабе >100K примеров и наличии автоматической верификации (код, математика).

Заблуждение: model collapse -- теоретическая проблема, на практике не встречается

Исследование "Demystifying Synthetic Data" (Oct 2025) показало разрыв между теоретическими прогнозами и реальностью, но это не значит, что проблемы нет. Gen 1 деградация 0-5% кажется несущественной, но к Gen 4+ она достигает 30-50%+. Механизм: модель учит среднее распределения и теряет "хвосты" -- редкие факты, нестандартные формулировки, edge cases. Cosmopedia справляется только благодаря aggressive filtering (50% retention) и одному поколению генерации.

Заблуждение: можно заменить все human data синтетическими

Рекомендуемая пропорция -- 60-70% human + 30-40% synthetic. Полностью синтетические корпуса (BeyondWeb/SYNTH) работают только для pre-training с последующим fine-tuning на real data. Для RLHF human preferences незаменимы: LLM-as-judge дает correlation 0.5-0.7 с human judgment. Human core (100-10K примеров) определяет "что значит правильно" -- без него synthetic flywheel генерирует данные без якоря.

Interview Questions¶

Q: Что такое model collapse и как его предотвратить?

Red flag: "Model collapse -- это когда модель переобучается на синтетических данных, нужно просто добавить regularization"

Strong answer: "Model collapse -- деградация качества через поколения обучения на synthetic data: сужение словаря, рост повторений, потеря хвостового знания, propagation галлюцинаций. Gen 1: 0-5%, Gen 4+: 30-50%+. Предотвращение: (1) hybrid data -- 60-70% human + 30-40% synthetic, (2) quality filtering pipeline -- length + perplexity + dedup + classifier, retention 30-50%, (3) caps на 1-2 поколения генерации, (4) fresh human seeds каждое поколение. Ключевая метрика: diversity score + фактическая точность на held-out real data, не только perplexity"

Q: Как устроен synthetic data flywheel?

Red flag: "Просто генерируем данные через GPT-4 и обучаем на них модель"

Strong answer: "4 шага: (1) Курирование human core -- 100-10K качественных примеров, определяющих 'правильно'. (2) Генерация -- LLM создает перефразировки, edge cases, фокус на известных пробелах модели. (3) Фильтрация -- human accept/reject/edit, каждое действие -- implicit annotation для RLHF, retention 20-50%. (4) Обучение на hybrid корпусе + measurement на real data и live workflows. Стоимость 0.1-0.3x от pure human annotation. Критично: измерять на held-out real data, не только бенчмарках -- бенчмарки не ловят distribution narrowing"

Q: Чем synthetic pretraining отличается от synthetic fine-tuning?

Red flag: "Synthetic pretraining -- это просто больше синтетических данных для первой фазы обучения"

Strong answer: "Сдвиг парадигмы: синтетика не только для post-training, а для всех стадий. Три фазы: (1) Memory -- engineered rephrasing для усиления фактов, REWIRE переструктурирует web-документы. (2) Logic -- встраивание формальных правил в веса, Circuit Transformers решают базовую математику до генерации токенов. (3) Simulations -- моделирование систем, IBM Toucan: 1.5M trajectories из 500 MCP серверов. Результат: Phi-1.5 (1.3B params) = качество модели в 10x крупнее. Ограничение: pre-training synthetic data требует extreme diversity -- Cosmopedia использует 5 типов контента и temperature tuning"

Источники¶

Invisible Technologies -- "AI Training in 2026: Anchoring Synthetic Data in Human Truth"
Hugging Face -- "Cosmopedia: Creating Large-Scale Synthetic Data"
Vintage Data -- "Synthetic Pretraining" (Feb 2026)
Neptune.ai -- "Synthetic Data for LLM Training" (Nov 2025)
arXiv -- "Demystifying Synthetic Data in LLM Pre-training" (2510.01631)
arXiv -- "How to Synthesize Text Data without Model Collapse" (2412.14689)
arXiv -- "Escaping Model Collapse via Synthetic Data Verification" (2510.16657)
arXiv -- "Preventing Model Collapse when Training LLMs with Synthetic Data" (Jan 2026)
OpenReview -- "CoT-Self-Instruct: Building High-Quality Synthetic Prompts"
Machine Learning Mastery -- "7 Agentic AI Trends to Watch in 2026" (Jan 2026)