LLM evaluation in 2026 involves 30+ benchmarks across reasoning, coding, knowledge, safety, and multimodal capabilities. MMLU shows saturation (88%+ top models), making newer benchmarks like GPQA Diamond, SWE-bench Verified, and Humanity's Last Exam more discriminative for frontier models.
Высокий MMLU не значит что модель хороша для ВАШЕЙ задачи
MMLU 92% выглядит впечатляюще, но: (1) top models разнятся на 1-2% -- статистически незначимо при 16K вопросах, (2) contamination -- модели могли тренироваться на benchmark data, (3) MMLU тестирует factual knowledge (multiple choice), а не reasoning, coding или следование инструкциям. Модель с 88% MMLU может быть лучше для вашего use case чем модель с 92%. Правило: всегда тестируйте на собственном evaluation set из 50-100 примеров вашей задачи. 3+ бенчмарка для fair comparison.
Заблуждение: модель с 1M контекстом может использовать весь контекст
Needle in Haystack показывает: recall при 4K токенов = 95%+, при 128K = 77%, при 512K = 45%, при 1M = 26%. Модель с 1M context window теряет 74% информации на максимальной длине. Для production: используйте RAG + chunking вместо длинного контекста. "Длинный контекст" -- это marketing, не capability.
Заблуждение: reasoning-модели (o-series, R1) лучше для всех задач
O3-mini = 87.5% на ARC-AGI (vs GPT-4o: 50%), 83.3% на AIME (vs o1: ~76%). Но reasoning-модели стоят дороже по compute и latency, и на "лёгких" бенчмарках (MMLU, GSM8K, HumanEval) не дают преимущества -- стандартные модели уже набирают 90%+. Reasoning premium (+15-20%) проявляется только на hard tasks: SWE-bench, GPQA Diamond, AIME, ARC-AGI. Для simple Q&A и autocomplete standard модель выгоднее.
Q: Как систематически оценить LLM для production deployment?
Red flag: "Посмотрим MMLU и HumanEval, выберем лучшую"
Strong answer: "Пятиступенчатый процесс: (1) Chatbot Arena для общего quality (Elo-рейтинг на миллионах голосов), (2) domain-specific бенчмарки -- SWE-bench для кодинга, GPQA для research, MMMU для multimodal, (3) custom evaluation set -- 50-100 примеров вашей конкретной задачи, (4) cost-speed-quality tradeoff -- DeepSeek V3 в 55x дешевле Claude Opus, (5) A/B test с реальными пользователями. Ни один бенчмарк в изоляции не предсказывает production performance."
Q: Какие бенчмарки остались дискриминирующими для frontier-моделей в 2026?
Red flag: "MMLU, HumanEval, GSM8K -- основные бенчмарки"
Strong answer: "Насыщенные (>90%, бесполезны для сравнения): MMLU, GSM8K, HumanEval, MBPP. Дискриминирующие: GPQA Diamond (77% лучший, PhD-level), ARC-AGI (87.5%, abstract reasoning), SWE-bench Verified (80.9%, real GitHub issues), AIME 2024 (83.3%, competition math). Ещё не решённые: FrontierMath (research-level math), Humanity's Last Exam (hardest human questions). Тренд: каждый год frontier-модели насыщают текущие 'hard' бенчмарки, и community создаёт ещё более сложные."
Q: В чём проблема data contamination в бенчмарках и как с ней борются?
Red flag: "Contamination -- это когда модель видела ответы, просто нужно держать данные в секрете"
Strong answer: "Contamination -- модель тренируется на data, содержащей benchmark задачи (web scraping captures leaderboards, solutions, discussions). Последствия: inflated scores, ложное чувство прогресса. Решения: (1) LiveCodeBench -- использует только задачи published после training cutoff модели, (2) Humanity's Last Exam -- новые задачи от экспертов, (3) SWE-bench Verified -- реальные GitHub issues с verified test cases, (4) temporal evaluation -- регулярная ротация задач. Нет идеального решения -- любой публичный бенчмарк со временем утекает в training data."
Q: Как интерпретировать результаты Needle in Haystack теста?
Red flag: "Если модель поддерживает 1M контекст, она может использовать весь миллион"
Strong answer: "Needle in Haystack прячет конкретный факт на разной глубине длинного контекста и проверяет recall. Ключевые числа: 4K токенов = 95%+ recall, 32K = 90%+, 128K = 77%, 512K = 45%, 1M = 26%. Деградация нелинейная -- после 128K падение резкое. Практический вывод: advertised context window и usable context window -- разные вещи. Для длинных документов: RAG с chunking + retrieval эффективнее, чем запихивание всего в контекст."