Перейти к содержанию

Пошаговая декомпозиция влияния данных в рекуррентных трансформерах

~4 минуты чтения

Предварительно: Прогресс глубокого обучения | Эффективные трансформеры

Стандартные методы data attribution (TracIn, influence functions) дают один скалярный скор на пример -- "этот пример важен на 0.73". Но для looped transformers (рекуррентные архитектуры с shared блоками, как Universal Transformer) это теряет ключевую информацию: на каком именно шаге рекурсии пример влияет? Step-Decomposed Influence (SDI) решает эту проблему, раскладывая TracIn по временным шагам и давая influence trajectory вместо скаляра. Результат -- per-step insights в reasoning process модели, что критично для debugging и interpretability.

URL: https://arxiv.org/pdf/2602.10097v1 Тип: arxiv paper Дата: 2026-02-10 Авторы: Georgios Kaissis, David Mildenberger, Juan Felipe Gomez, Martin J. Menten, Eleni Triantafillou

Ключевые идеи

  1. Looped transformers (GPT-style) применяют shared блок рекурсивно для latent reasoning
  2. TracIn limitation — дает single scalar score, агригирует все loop iterations
  3. Step-Decomposed Influence (SDI) — decomposition TracIn по timestep'ам:
  4. Unrolls recurrent computation graph
  5. Attributes influence к конкретным loop iterations
  6. Per-step insights в reasoning process
  7. TensorSketch implementation — never materialises per-example gradients для scalability

Формулы и математика

\[ \text{Step-Decomposed Influence (SDI)}: \text{декомпозиция влияния на } \text{length-}T_4 \text{ influence trajectory} \]
\[ \text{Influence trajectory}: \gamma_1, \gamma_2, \gamma_3, \gamma_4 \]

Применения для AI/LLM Engineer

Interpretability

  • Per-step attribution — понимание какие input'ы влияют на каждый шаг reasoning
  • Debugging looped models — identification problematic reasoning paths
  • Fine-grained analysis — вместо aggregated score

Training insights

  • Data attribution — какие training examples важнее для конкретных behaviours
  • Curriculum learning — identification difficult examples
  • Quality analysis — detection outliers в training data

Связанные работы

  • TracIn (original influence estimation)
  • RAP (Recall-Aware Pruning)
  • Transformer interpretability papers

Цитаты

"Existing training-data influence estimators such as TracIn yield a single scalar score that aggregates over all loop iterations, obscuring when during recurrent computation a training example matters."

Мои заметки

Почему это важно: - Looped transformers (shared-block recurrent architectures like Universal Transformers) — niche but theoretically important; standard GPT/Claude use distinct, non-shared layers - Understanding model internals — interview question для ML Engineer - Data attribution — часть MLOps и debugging

Further research: - TracIn original paper - Influence estimation methods - Transformer interpretability survey


Частые заблуждения

Заблуждение: SDI применим к стандартным GPT/Claude моделям

SDI разработан для looped transformers -- архитектур с shared-block рекурсией (Universal Transformer, DEQ). Стандартные GPT, Claude, Llama используют distinct (не shared) слои, поэтому SDI в чистом виде к ним неприменим. Для стандартных трансформеров используют layer-wise attribution или attention-based interpretability.

Заблуждение: Influence functions масштабируются на LLM уровне

Классические influence functions требуют вычисления Hessian-inverse, что для модели с миллиардами параметров вычислительно невозможно (O(p^2) память). TracIn -- упрощенная аппроксимация через dot-product градиентов, но и он дорог. SDI использует TensorSketch для scalability -- never materialises per-example gradients. На практике для production LLM чаще используют proxy-методы: embedding similarity, attention patterns.


Вопросы для собеседования

Объясните разницу между TracIn и SDI. Когда SDI дает преимущество?

❌ "SDI -- это улучшенная версия TracIn" -- слишком поверхностно, не показывает понимание.

✅ Сильный ответ: TracIn оценивает влияние training example как сумму dot-products градиентов по всем checkpoint'ам -- результат один скаляр. SDI декомпозирует этот скаляр по loop iterations в рекуррентных трансформерах, давая influence trajectory (gamma_1, ..., gamma_T). Преимущество SDI: можно увидеть, что example X критичен на шаге 3 рассуждения, но не важен на шагах 1-2. Это позволяет debugging reasoning paths -- например, обнаружить, что ошибка возникает из-за конкретного training примера на конкретном шаге рекурсии.

Как бы вы реализовали data attribution для production LLM с 70B параметрами?

❌ "Используем influence functions" -- не масштабируется на 70B.

✅ Сильный ответ: Прямое вычисление influence functions невозможно (Hessian для 70B -- O(p^2) = O(10^21)). Практичные подходы: (1) TracIn с gradient checkpointing -- dot-product последних K checkpoint градиентов, O(Kp) по памяти; (2) Embedding-based attribution -- cosine similarity в embedding space (дешево, но грубая аппроксимация); (3) Representation engineering -- анализ активаций промежуточных слоев; (4) Для looped архитектур -- SDI с TensorSketch для scalability. Trade-off: точность vs compute budget.

Зачем нужна interpretability для training data? Разве не достаточно анализировать модель?

❌ "Чтобы понять, как модель работает" -- общие слова.

✅ Сильный ответ: Data attribution решает конкретные production проблемы: (1) debugging -- модель дает неправильный ответ, data attribution показывает какие training examples этому способствовали (mislabeled data, outliers); (2) data curation -- определить наиболее ценные примеры для переобучения, вместо full retrain; (3) compliance -- GDPR "right to be forgotten" требует оценить влияние удаления конкретного примера; (4) curriculum learning -- порядок подачи примеров на основе их influence. SDI добавляет temporal dimension -- не просто "какие данные важны", а "когда именно они важны".