Список статей для чтения¶
~6 минут чтения
Предварительно: Подготовка к интервью | Материалы
Для Research Engineer / ML Engineer позиций в AI лабораториях (Meta, OpenAI, Anthropic, Google) знание 50-100 ключевых статей -- не "nice to have", а обязательное требование. На собеседованиях в Anthropic и OpenAI в 2025-2026 году кандидатов напрямую спрашивают "какие 5 последних papers вы прочитали?" и просят объяснить конкретные механизмы (например, DPO loss derivation или FlashAttention tiling strategy). Этот список из 7 категорий и 50+ статей покрывает ~90% вопросов о литературе на LLM Engineer интервью.
URL: найдено через web search (multiple sources) Тип: curated paper lists + interview guides Дата: 2024-2025 (источники за 2024-2025)
Ключевые категории бумаг¶
P0: LLM & NLP Foundations¶
- Attention Is All You Need (2017) — база
- GPT series (2018-2023) — эволюция
- LLaMA series (2023-2024) — open-source state-of-the-art
- Mixtral (MoE) — sparse models
- Transformers архитектуры
P1: Alignment & Safety¶
- Constitutional AI (Anthropic, 2023)
- Red Teaming (2024)
- Direct Preference Optimization (DPO)
- LLM jailbreak defense
P2: RAG & Retrieval¶
- Retrieval-Augmented Generation (Lewis et al., 2020)
- HyDE (2022)
- Contriever (2021)
- Dense Passage Retrieval (Karpukhin et al., 2020)
P3: Agents & Tool Use¶
- ReAct: Synergizing Reasoning and Acting in Language Models (2022)
- ToolFormer (Schick et al., 2023)
- API-Bank (Gao et al., 2023)
- Function calling форматы (OpenAI, Anthropic)
P4: Evaluation & Benchmarks¶
- MMLU (Hendrycks et al., 2020)
- GSM8K (Cobbe et al., 2021)
- HumanEval (Chen et al., 2021)
- MT-Bench
- HELM (Liang et al., 2022)
P5: Optimization & Inference¶
- PagedAttention (vLLM, 2023)
- Flash Attention (Dao et al., 2022; v2, 2023)
- Speculative Decoding
- Quantization (GPTQ, AWQ, GGUF)
P6: Code & LLM Agents¶
- Voyager (2023)
- MetaGPT (2023)
- SWE-agent (Yang et al., 2024)
- AutoCodeDiffier (2023)
- Devin (2024)
Curated Lists 2024-2025¶
LLM Research Papers: The 2024 List¶
Автор: Sebastian Raschka Дата: December 2024
Ключевые бумаги: 1. Llama 3 series — 70B, 400B+ models 2. Mixtral 8x7B — Mixture of Experts 3. Phi-3 — 3.8B dense model 4. Gemma 2 — open-source 2B/9B 5. Qwen 2 — Alibaba's 72B model 6. DBRX — Databricks' Mixture-of-Experts 7. Grok — real-time models for API use 8. H3 Optimization — Hera-level optimization 9. Multimodal LLMs — vision-language models 10. Long-context LLMs — techniques beyond 128K 11. LLM Agents — autonomous agents 12. Data Curation — filtering techniques 13. Prompting — optimization methods
The 2025 AI Engineering Reading List¶
From: Latent.Space Topics (50+ papers/models):
LLMs: - DeepSeek-V3 - Llama 3.⅓.2/70B - Phi-3.5-mini - Qwen 2.5 - Gemma 2 - Mistral Large
RAG & Retrieval: - ColBERT v2 - E5-mistral - BGE-M3 - Jina v2 - Voyage v3
Agents & Tools: - OpenAI o1-preview reasoning - Claude 3 Opus - Gemini 2.0 Flash Thinking - Tool use benchmarks
Infrastructure: - Ray Serve - vLLM - TensorRT-LLM - SGLang
Evaluation: - Chatbot Arena - MT-Bench - HELM - RULER
10 Papers Every Future AI Engineer Needs to Read¶
Автор: Unknown (Medium compilation) Дата: 2024
Ключевые бумаги: 1. Data Interpreter — Toolformer, Chameleon 2. Code Execution — Sandboxing, security 3. LLM Observability — Interpretability 4. Search-Augmented Generation — RAG improvements 5. Fine-tuning Efficiency — LoRA, QLoRA, PEFT 6. Safety & Alignment — Constitutional AI 7. Multimodal — Vision-language 8. Evaluation — Better benchmarks 9. Agentic Workflows — Multi-agent systems 10. Efficiency — Quantization, distillation
Must Read LLM Research Papers - 2024¶
Автор: Unknown (DataGalore) Дата: November 2024
Ключевые бумаги: 1. SELAR (Tree-Search Enhanced LLM Agents) — multi-agent retrieval 2. Data Interpreter — code execution, tool use 3. Dynamic prompting — automatic optimization 4. Long-context techniques — beyond 128K 5. Quantization — advanced compression 6. Distillation — model compression 7. Memory optimization — KV cache tricks 8. Batch inference — throughput optimization
Конференции для чтения¶
NeurIPS 2024¶
- LLM architectures
- Alignment methods
- Agents & tool use
- Foundation model efficiency
ICML 2024¶
- Statistical learning theory
- Online learning
- Causal inference
ICLR 2025¶
- Latest LLM research
- Training optimizations
- Novel architectures
Стратегия чтения¶
Для подготовки к Research Engineer позициям:¶
- Prioritize conferences — NeurIPS/ICML/ICLR/ACL
- Read abstracts first — понять relevance
- Focus on methods — понимать как, а не только результаты
- Track experiments — знать SOTA vs paper claims
- Implement key ideas — воспроизвести результаты
Gap Analysis (что мне нужно прочитать):¶
- Нужно подробнее изучить Transformers (Vision, Mamba, RWKV)
- Advanced RAG techniques (HyDE, ColBERT late interaction)
- RLHF/DPO implementations
- Multi-agent orchestration patterns
- Quantization methods (GPTQ, AWQ, SpQR)
- Speculative decoding variants
Распространенные заблуждения¶
Заблуждение: достаточно прочитать Attention Is All You Need и все понятно
Оригинальный Transformer (2017) -- это база, но к 2026 году архитектура кардинально изменилась: RoPE вместо sinusoidal positional encoding, RMSNorm вместо LayerNorm, GQA вместо MHA, SwiGLU вместо ReLU FFN. Если вы не знаете LLaMA architecture paper (2023) и DeepSeek-V3 (2024), ваше понимание устарело на 3+ поколения.
Заблуждение: чтение abstracts = знание paper
На интервью просят объяснить конкретные механизмы: как именно DPO выводит loss без reward model? Какая формула у PagedAttention для allocation? Чтение abstract дает 10% понимания. Минимум -- прочитать Methods section и воспроизвести ключевую формулу/код.
Заблуждение: нужно прочитать все 50+ papers из списка
Стратегия важнее объема. Для LLM Engineer позиции P0 (Foundations) + P5 (Optimization) покрывают 70% вопросов. Для Research Engineer -- добавить P1 (Alignment) + P4 (Evaluation). Лучше глубоко знать 15 papers, чем поверхностно 50.
Вопросы для интервью¶
Q: Какие 3-5 papers вы считаете наиболее важными для LLM Engineer в 2025-2026?
"Attention Is All You Need, BERT, GPT-3 -- это фундаментальные работы."
"Для production LLM Engineer я бы выделил: (1) FlashAttention-2 (Dao, 2023) -- понимание IO-aware алгоритмов критично для оптимизации; (2) LoRA (Hu et al., 2021) -- стандарт parameter-efficient fine-tuning; (3) DPO (Rafailov et al., 2023) -- упрощенный alignment без reward model; (4) PagedAttention/vLLM (2023) -- production serving; (5) DeepSeek-V3 (2024) -- state-of-the-art MoE + MLA архитектура."
Q: Как вы следите за новыми papers в LLM?
"Я читаю Twitter и Hacker News."
"У меня несколько каналов: (1) arxiv RSS по ключевым категориям (cs.CL, cs.LG, cs.AI); (2) curated lists -- Sebastian Raschka (ежемесячно), Latent.Space (ежеквартально); (3) конференции -- NeurIPS, ICML, ICLR proceedings; (4) блоги лабораторий -- Anthropic Engineering, Meta AI, Google Research. Для каждой прочитанной paper я делаю 1-page summary с ключевой формулой и implementation insight."
Источники¶
- Sebastian Raschka -- 2024 LLM Research Papers
- Latent.Space -- 2025 AI Engineering Reading List
- Medium -- 10 Papers Every Future AI Engineer
- DataGalore -- Must Read LLM Research Papers 2024