Перейти к содержанию

Синтетические данные для обучения LLM

~4 минуты чтения

Предварительно: Техники файнтюнинга LLM, Методы alignment

К 2025 году объем текстовых данных в открытом вебе фактически исчерпан для обучения frontier моделей -- Llama 3 обучалась на 15T токенов, приближаясь к потолку качественного web corpus. Синтетические данные стали не опцией, а необходимостью: Phi-1.5 (1.3B параметров) на синтетических textbook-данных сравнялась по качеству с моделями в 10x крупнее, а Cosmopedia v2 (28B токенов, ~$100K на генерацию) показала 2x эффективность по сравнению с web data. Одновременно model collapse -- деградация качества при обучении на собственных выходах через поколения (30-50%+ на Gen 4+) -- стал ключевым техническим вызовом.


Ключевые концепции

Синтетические данные -- данные, сгенерированные моделями для обучения других моделей.

Ключевой сдвиг 2025-2026: web corpus исчерпан, data design становится фундаментальной осью разработки моделей.

Типы обучающих данных

Тип Описание Применение
Чисто человеческие Логи, документы, чаты, сенсоры Gold standard, дорого
Частично синтетические Человеческое ядро + модельные варианты Большинство production систем
Полностью синтетические Целиком от моделей Раннее экспериментирование

Генераторы синтетических данных

Движок Что генерирует
LLM (GPT-4, Llama, DeepSeek) Инструкции, диалоги, цепочки рассуждений, tool traces
Vision/Multimodal (Diffusion, GANs) Изображения, UI варианты, альтернативные ракурсы
Симуляторы + RL Траектории: состояния, действия, награды

Ландшафт датасетов 2026

Датасет Размер Генератор Применение
Cosmopedia v2 28B токенов Mixtral-8x7B Pre-training
Cosmopedia Chinese 60B токенов Mixtral Китайские LLM
Orca 5M сэмплов GPT-4 Fine-tuning
Phi datasets Разные GPT-4 Малые модели

1. Data Flywheel

4-шаговый процесс

Шаг 1: Курирование человеческих данных Малый, но качественный корпус: чистый, дедуплицированный, привязанный к реальным процессам. Определяет что значит "правильно".

Шаг 2: Генерация синтетических данных LLM генерирует кандидатов: перефразировки, усложнённые сценарии, edge-case варианты. Фокус на известных пробелах модели.

Шаг 3: Человеческая фильтрация Быстрый accept/reject/edit workflow. Каждое действие -- неявная аннотация. Только выжившие становятся обучающими данными.

Шаг 4: Обучение и измерение Гибридный корпус (human + synthetic) -> fine-tune -> RLHF. Метрики на held-out реальных данных и live workflows, НЕ только бенчмарки. Error analysis -> фокус следующей генерации.

Human-Model Loop

Действие Неявный сигнал
Удалить предложение "Эта формулировка неприемлема"
Переписать caption "Вот правильная версия"
Выбрать B вместо A Pairwise preference
Исправить ошибку Error correction training

Выход: структурированные сигналы для RLHF, fine-tuning, preference modeling.


2. Model Collapse

Определение

Model collapse -- деградация качества, разнообразия и фактической точности при обучении на синтетических данных через поколения.

Model Collapse Progression:
Gen 0: Human data -> Model A (strong)
Gen 1: Synthetic A -> Model B (degraded)
Gen 2: Synthetic B -> Model C (more degraded)
Gen N: Synthetic N -> Model Z (collapsed)

Симптомы:
- Сужение словаря
- Рост повторений
- Потеря "хвостового" знания
- Рост галлюцинаций

Метрики коллапса

Метрика Здоровая Деградирует Коллапс
Perplexity Нормальная Падает Очень низкая
Размер словаря Полный Сужается Минимальный
Повторяемость <5% 5-15% >20%
Diversity score Высокий Падает Низкий
Фактическая точность Нормальная Падает Плохая

Механизмы

Механизм Описание
Distribution narrowing Модель учит среднее, теряет хвосты
Error amplification Ошибки накапливаются через поколения
Diversity loss Креативные выходы исчезают
Hallucination propagation Фейковые факты становятся "реальными"

Пороги деградации по поколениям

Поколение Деградация качества
Gen 1 0-5%
Gen 2 5-15%
Gen 3 15-30%
Gen 4+ 30-50%+

3. Предотвращение коллапса

Исследования 2025-2026

Статья Находка
Demystifying Synthetic Data (Oct 2025) Разрыв между прогнозами коллапса и реальностью
Preventing Model Collapse (Jan 2026) Дополнительные стадии обучения улучшают результат
Escaping Collapse via Verification (Oct 2025) Фильтрация предотвращает деградацию

Стратегии

Стратегия Эффективность Реализация
Hybrid data Высокая Смесь synthetic + real (60-70% human, 30-40% synthetic)
Quality filtering Высокая Многоступенчатая фильтрация
Verification Средняя Проверка перед обучением
Fresh seeds Средняя Новые человеческие данные каждое поколение
Caps on generations Средняя Ограничение до 1-2 поколений

4. Cosmopedia

Аспект Детали
Разработчик Hugging Face
v2 размер 28B токенов
Генератор Mixtral-8x7B-Instruct
Лицензия Apache 2.0

Типы контента

Тип Доля Описание
Textbooks 40% Образовательный контент
Blog posts 25% Неформальные объяснения
Stories 15% Нарративный контент
WikiHow 10% How-to guides
Posts 10% Короткий контент

Pipeline генерации

1. Seed Data Collection
   Web samples из Common Crawl -> Topic clustering -> Quality filtering

2. Prompt Generation
   Diverse prompts from seeds -> Style variation -> Difficulty targeting

3. Synthetic Generation
   Mixtral-8x7B-Instruct -> Temperature tuning for diversity

4. Post-Processing
   Deduplication -> Quality scoring -> PII removal

Cosmo-1B результаты

Метрика Значение
Параметры 1.8B
Training tokens 30B (Cosmopedia)
Производительность Сравнима с 3B моделями
Эффективность 2x vs web data

5. Quality Filtering Pipeline

Стратегии фильтрации

Метод Описание Retention
Length filter Убрать слишком короткие/длинные (50-2000) 80-90%
Perplexity filter Убрать high-perplexity 60-80%
Deduplication MinHash LSH, убрать near-duplicates 70-85%
Quality classifier GPT-4 score-based 40-60%
Combined pipeline Все 4 последовательно 30-50%

Preservation diversity

Стратегия Описание
Clustering Topic diversity
Temperature tuning Выше temp = больше разнообразия
Seed diversity Разнообразные источники промптов

Verification systems

Метод Описание Стоимость
Fact checking Верификация утверждений Высокая
Consistency check Перекрёстные ссылки Средняя
Human review Выборочная проверка Высокая
Model-based scoring Quality model Низкая

6. Методы генерации

Self-Instruct

Stanford (2023). Модель генерирует собственные обучающие данные. Используется: Alpaca, Vicuna.

CoT-Self-Instruct (2025)

Chain-of-thought для высококачественных промптов. Фокус на post-training data. Лучшее качество через рассуждения.

Phi Approach

Тяжело отфильтрованные синтетические данные. Модели: Phi-1, Phi-1.5, Phi-2. Quality > quantity для малых моделей.

Orca Approach

Обучение на объяснениях GPT-4. Фокус: reasoning traces. 5M сэмплов.


7. Synthetic Pretraining

Synthetic pretraining -- использование синтетических данных на всех стадиях обучения, начиная с pre-training (не только mid/post-training).

Исторический контекст

Phi-1.5 (2023): первая модель с тяжёлой зависимостью от синтетических данных ("textbook" + filtered web). 1.3B параметров, 30B токенов -- сравнима с моделями в 10x крупнее.

3 стадии Synthetic Compilation

Stage 1: Memory (Memorization) Усиление фактов через engineered rephrasing. REWIRE (Meta): web-документы переструктурируются для когерентного pretraining. Active Reading (Meta): 8B модель на diverse learning strategies -- насыщение на SimpleQA. BeyondWeb/SYNTH: self-sufficient pretraining из 56,000 Wikipedia статей.

Stage 2: Logic (Logical Hardwiring) Встраивание правил и абстрактных последовательностей разрешений в веса. Transformers -- эффективные компиляторы: формальные системы правил интегрируются без вербализации. Circuit Transformers (Anthropic): базовая математика решается до генерации токенов. Seed-Prover: 230M уникальных задач по геометрии (vs 1M в крупнейшей коллекции), генерация шла 7+ дней.

Stage 3: Simulations (System Modeling) Моделирование целых систем работы с интегрированными ограничениями. GLM 4.5: large-scale synthetic agent trajectories. Minimax M2.1: 100K programming environments, recursive synthetic feedback. IBM Toucan: 1.5M trajectories из 500 MCP серверов.

Модели с synthetic pretraining (2025-2026)

Модель Подход
Minimax Extensive synthetic datasets до mid-training
Trinity Synthetic pipeline (Arcee/Datalogy/Prime)
Kimi K2/K2.5 Synthetic data strategy
Nemotron-3 Synthetic pretraining (NVIDIA)
Baguettotron/Monad Full synthetic (SYNTH), Pleias

8. Domain-Specific генерация

Medical Imaging

GANs: CycleGAN, CFGAN, SRGAN для MRI/CT. Ограничения: нестабильность обучения, обобщаемость.

Diffusion Models: forward noise + reverse denoise. Medical Diffusion: 3D MRI/CT. MAISI (NVIDIA): 3D CT + 127 анатомических структур.

Med-Art: Diffusion Transformer (DiT) из текстовых промптов + LLaVA-NeXT + LoRA fine-tuning. Работает с ограниченными данными.

Tabular Data

Подход Примеры
GAN-based TabFairGAN (fairness), CTGAN (conditional), DPGAN (privacy)
Diffusion-based TabDDPM, AutoDiff, FinDiff (financial)
LLM-based GReaT, GreatTab, CoTF (Chain-of-Thought Fine-tuning)

9. Use Case Matrix

По стадии обучения

Стадия Доля synthetic Фокус
Pre-training 30-50% Diversity
Mid-training 40-60% Domain coverage
Fine-tuning 20-40% Task quality
RLHF data 50-80% Preference quality

По домену

Домен Пригодность Причина
Code Высокая Executable verification
Math Высокая Verifiable answers
General text Средняя Качество варьируется
Factual Низкая Риск галлюцинаций
Creative Средняя Нужно разнообразие

10. Enterprise Adoption

Шаги внедрения

  1. Аудит существующих данных
  2. Идентификация пробелов (где модель ошибается)
  3. Курирование человеческого ядра
  4. Генерация синтетических данных вокруг ядра
  5. Валидация и итерация

Типичные ошибки

Ошибка Последствие
Пропуск human validation Model collapse, деградация
Генерация без таргетирования Low-value данные
Измерение только бенчмарков Пропуск real-world проблем
Отсутствие governance Невозможно трейсить issues

Для интервью

Q: "Что такое synthetic data flywheel?"

4 шага: (1) Курирование высококачественного человеческого ядра (100-10K примеров). (2) Генерация синтетических вариантов через LLM -- перефразировки, edge cases, фокус на пробелах. (3) Фильтрация -- human review (accept/reject/edit), каждое действие -- implicit annotation. Retention rate 20-50%. (4) Обучение на hybrid корпусе + measurement на real data. Human-model loop: люди не строят датасеты, а shape distribution синтетических данных. Cost: 0.1-0.3x от pure human annotation.

Q: "Как предотвратить model collapse?"

Model collapse -- деградация через поколения (Gen 1: 0-5%, Gen 4+: 30-50%). Механизмы: distribution narrowing, error amplification, diversity loss, hallucination propagation. Предотвращение: (1) Hybrid data -- 60-70% human + 30-40% synthetic. (2) Quality filtering pipeline -- length -> perplexity -> dedup -> classifier, retention 30-50%, quality +30%. (3) Fresh seeds каждое поколение. (4) Caps на 1-2 поколения. (5) Verification -- fact checking + consistency. Cosmopedia: 28B токенов, Mixtral-8x7B, ~50% retention после фильтрации.

Q: "Что такое synthetic pretraining?"

Сдвиг от "синтетика только для fine-tuning" к "синтетика с pre-training". 3 стадии: (1) Memory -- engineered rephrasing для усиления фактов (REWIRE, Active Reading). BeyondWeb: self-sufficient pretraining из 56K Wikipedia статей. (2) Logic -- встраивание правил в веса. Circuit Transformers (Anthropic): математика до генерации токенов. Seed-Prover: 230M задач по геометрии. (3) Simulations -- моделирование систем. IBM Toucan: 1.5M trajectories из 500 MCP серверов. Minimax M2.1: 100K programming environments. Phi-1.5 (2023): 1.3B params = качество 10x крупнее модели.


Ключевые числа

Факт Значение
Cosmopedia v2 размер 28B токенов
Cosmopedia retention после фильтрации ~50%
Cosmopedia стоимость генерации ~$100K
Cosmo-1B эффективность 2x vs web data
Phi-1.5 эффективность 1.3B = 10x крупнее модель
Seed-Prover задачи 230M уникальных
IBM Toucan траектории 1.5M из 500 MCP серверов
Minimax environments 100,000 programming environments
SYNTH base 56,000 Wikipedia статей
Hybrid data рекомендация 60-70% human + 30-40% synthetic
Human core size 100-10,000 примеров
Synthetic multiplier 10-100x от human core
Validation pass rate 20-50%
Combined filtering retention 30-50%
Combined filtering quality boost +30%
Human annotation стоимость $100-500 per 1M tokens
Synthetic (GPT-4) стоимость $10-30 per 1M tokens
Synthetic (open) стоимость $0.50-2 per 1M tokens
Model collapse Gen 1 0-5%
Model collapse Gen 4+ 30-50%+

Заблуждение: синтетические данные всегда дешевле человеческих

Генерация через open-source модели стоит $0.50-2 за 1M токенов, через GPT-4 -- $10-30. Но без quality filtering pipeline (retention 30-50%) вы получаете мусор, который ухудшает модель. Полная стоимость включает: генерацию + фильтрацию + human review выборки + verification. Для domain-specific данных (медицина, юриспруденция) стоимость валидации может превысить стоимость человеческой разметки. Синтетика дешевле только при масштабе >100K примеров и наличии автоматической верификации (код, математика).

Заблуждение: model collapse -- теоретическая проблема, на практике не встречается

Исследование "Demystifying Synthetic Data" (Oct 2025) показало разрыв между теоретическими прогнозами и реальностью, но это не значит, что проблемы нет. Gen 1 деградация 0-5% кажется несущественной, но к Gen 4+ она достигает 30-50%+. Механизм: модель учит среднее распределения и теряет "хвосты" -- редкие факты, нестандартные формулировки, edge cases. Cosmopedia справляется только благодаря aggressive filtering (50% retention) и одному поколению генерации.

Заблуждение: можно заменить все human data синтетическими

Рекомендуемая пропорция -- 60-70% human + 30-40% synthetic. Полностью синтетические корпуса (BeyondWeb/SYNTH) работают только для pre-training с последующим fine-tuning на real data. Для RLHF human preferences незаменимы: LLM-as-judge дает correlation 0.5-0.7 с human judgment. Human core (100-10K примеров) определяет "что значит правильно" -- без него synthetic flywheel генерирует данные без якоря.


Interview Questions

Q: Что такое model collapse и как его предотвратить?

❌ Red flag: "Model collapse -- это когда модель переобучается на синтетических данных, нужно просто добавить regularization"

✅ Strong answer: "Model collapse -- деградация качества через поколения обучения на synthetic data: сужение словаря, рост повторений, потеря хвостового знания, propagation галлюцинаций. Gen 1: 0-5%, Gen 4+: 30-50%+. Предотвращение: (1) hybrid data -- 60-70% human + 30-40% synthetic, (2) quality filtering pipeline -- length + perplexity + dedup + classifier, retention 30-50%, (3) caps на 1-2 поколения генерации, (4) fresh human seeds каждое поколение. Ключевая метрика: diversity score + фактическая точность на held-out real data, не только perplexity"

Q: Как устроен synthetic data flywheel?

❌ Red flag: "Просто генерируем данные через GPT-4 и обучаем на них модель"

✅ Strong answer: "4 шага: (1) Курирование human core -- 100-10K качественных примеров, определяющих 'правильно'. (2) Генерация -- LLM создает перефразировки, edge cases, фокус на известных пробелах модели. (3) Фильтрация -- human accept/reject/edit, каждое действие -- implicit annotation для RLHF, retention 20-50%. (4) Обучение на hybrid корпусе + measurement на real data и live workflows. Стоимость 0.1-0.3x от pure human annotation. Критично: измерять на held-out real data, не только бенчмарках -- бенчмарки не ловят distribution narrowing"

Q: Чем synthetic pretraining отличается от synthetic fine-tuning?

❌ Red flag: "Synthetic pretraining -- это просто больше синтетических данных для первой фазы обучения"

✅ Strong answer: "Сдвиг парадигмы: синтетика не только для post-training, а для всех стадий. Три фазы: (1) Memory -- engineered rephrasing для усиления фактов, REWIRE переструктурирует web-документы. (2) Logic -- встраивание формальных правил в веса, Circuit Transformers решают базовую математику до генерации токенов. (3) Simulations -- моделирование систем, IBM Toucan: 1.5M trajectories из 500 MCP серверов. Результат: Phi-1.5 (1.3B params) = качество модели в 10x крупнее. Ограничение: pre-training synthetic data требует extreme diversity -- Cosmopedia использует 5 типов контента и temperature tuning"


Источники

  1. Invisible Technologies -- "AI Training in 2026: Anchoring Synthetic Data in Human Truth"
  2. Hugging Face -- "Cosmopedia: Creating Large-Scale Synthetic Data"
  3. Vintage Data -- "Synthetic Pretraining" (Feb 2026)
  4. Neptune.ai -- "Synthetic Data for LLM Training" (Nov 2025)
  5. arXiv -- "Demystifying Synthetic Data in LLM Pre-training" (2510.01631)
  6. arXiv -- "How to Synthesize Text Data without Model Collapse" (2412.14689)
  7. arXiv -- "Escaping Model Collapse via Synthetic Data Verification" (2510.16657)
  8. arXiv -- "Preventing Model Collapse when Training LLMs with Synthetic Data" (Jan 2026)
  9. OpenReview -- "CoT-Self-Instruct: Building High-Quality Synthetic Prompts"
  10. Machine Learning Mastery -- "7 Agentic AI Trends to Watch in 2026" (Jan 2026)