Перейти к содержанию

Titans Architecture (Neural Memory)

~3 минуты чтения

Предварительно: Mamba & SSM | Длинный контекст | Эффективные трансформеры

Source: Google Research "Titans: Learning to Memorize at Test Time" (2025), Danial Amin analysis


Концепция

Прорыв Google Research: - Замена static parameter storage на dynamic, learned memorization - Модель активно решает что запоминать во время inference - Linear scaling при сохранении Transformer-quality dependencies

Ключевая инновация: Test-Time Learning

Проблема которую решает: - Transformer: \(O(N^2)\) attention -- невыносимо для длинного контекста - RNN/Mamba: \(O(N)\) но теряется precise dependency modeling - Titans: сочетает эффективность RNN с качеством Transformer

Результат: - 2M+ tokens без quadratic scaling - Outperformed GPT-4 на long-context reasoning с меньшим числом параметров - Better than RAG на BABILong benchmark

Три варианта архитектуры

Variant Аббревиатура Назначение Особенности
Memory as Context MAC Superior performance Memory как контекст для текущей обработки, лучший на benchmarks
Memory as Gate MAG Latency-critical production Sliding window attention, лучше compute characteristics
Memory as Layer MAL Incremental adoption Upgrade path для existing recurrent architectures

Neural Long-Term Memory Module

Как работает:

1. Input проходит через нейронный memory module
2. Module решает что стоит запомнить (learned decision)
3. Memory обновляется на test-time
4. Memory используется как контекст для следующих токенов

Отличие от RAG: - RAG: retrieval из external storage - Titans: learned memorization внутри архитектуры - Результат: Titans > Llama3 + RAG на benchmarks

Сравнение архитектур

Аспект Transformer Mamba/SSM Titans
Complexity \(O(N^2)\) \(O(N)\) \(O(N)\)
Dependency Quality Excellent Good Excellent
Max Context ~200K practical Unlimited (theoretical) 2M+ demonstrated
Training Standard Standard Parallelizable
Memory Static weights Hidden state Learned neural memory

Интервью вопросы

Q: В чём главная инновация Titans?

A: Neural long-term memory module который учится что запоминать во время inference. В отличие от static parameter storage, модель динамически решает какую информацию сохранить для будущих токенов. Это сочетает linear scaling рекуррентных моделей с precise dependency modeling трансформеров.

Q: Как Titans решает проблему контекста?

A: Вместо quadratic attention Titans использует learned memory. Модель может обрабатывать 2M+ токенов без compute explosion. При этом сохраняется ability model complex dependencies -- проблема чисто рекуррентных моделей.

Q: MAC vs MAG vs MAL -- когда что использовать?

A: MAC -- максимальное качество, больше compute. MAG -- latency-critical production системы, sliding window attention. MAL -- upgrade для существующих recurrent систем, minimal changes.

Q: Почему Titans лучше RAG для long context?

A: BABILong benchmark показал Titans > Llama3 + RAG. Learned memorization эффективнее retrieval потому что модель учится what's important для конкретной задачи, а не просто извлекает похожий контент.

Q: Как Titans влияет на стратегию AI компаний?

A: Позволяет offering значительно longer context без пропорционального увеличения costs. Companies могут обрабатывать entire codebases/legal documents/scientific papers без "lost in the middle" эффекта.

Production Status (Feb 2026)

Research: - Paper: "Titans: Learning to Memorize at Test Time" (Google Research, 2025) - Code: Pending open-source - Benchmarks: BABILong, long-context reasoning

Industry Impact: - Major AI labs experimenting - Hybrid architectures expected - Domain-optimized memory modules in development


See Also