Перейти к содержанию

Бенчмарки кода LLM

~10 минут чтения

Предварительно: Гайд по бенчмаркам LLM, Метрики оценки LLM

HumanEval (164 задачи) и MBPP (974) полностью насыщены: frontier-модели набирают >95% и >90% соответственно. Реальный дифференциатор в 2026 -- SWE-bench Verified (500 реальных GitHub issues): Claude Opus 4.5 достиг 80.9%, GPT-5.2 -- 80.0%, а годом ранее потолок был ~50%. Разрыв между open-source (DeepSeek V3.1, 62%) и closed-source (80.9%) составляет 18 пунктов, но open-source дешевле в 55x ($0.27 vs $15 за 1M токенов). Reasoning-модели дают premium +15-20% на кодинг-бенчмарках по сравнению со standard-моделями.


Ключевые концепции

Иерархия бенчмарков

Бенчмарк Фокус Сложность Реализм Статус 2026
HumanEval Function completion Low-Medium Low Saturated (>95%)
MBPP Basic Python Low Low Saturated (>90%)
LiveCodeBench Contest problems Medium-High Medium Active
SWE-bench Verified Real GitHub issues High High Gold standard
Terminal-Bench CLI/shell tasks Medium High New

Эволюция: simple correctness tests (HumanEval) -> real-world repository tasks (SWE-bench). Frontier models >95% на HumanEval, поэтому фокус сместился на SWE-bench Verified.

1. HumanEval

Аспект Детали
Developer OpenAI (2021)
Type Function completion
Language Python
Problems 164
Metric pass@k

Пример задачи:

def has_close_elements(numbers: List[float], threshold: float) -> bool:
    """Check if there are two elements closer than threshold."""
    # Model must complete this function
    ...

pass@k метрика:

\[\text{pass@}k = \mathbb{E}\left[1 - \frac{\binom{n-c}{k}}{\binom{n}{k}}\right]\]
  • \(n\) = total generated samples
  • \(c\) = correct samples (pass all tests)
  • \(k\) = number of samples considered

Ограничения: simple standalone functions, Python only, 164 problems (too small), no library usage, no context/codebase navigation.

2. MBPP (Most Basic Python Problems)

Аспект Детали
Developer Austin et al. (2021)
Problems 974 (sanitized: 427)
Difficulty Basic

MBPP vs HumanEval: MBPP проще (basic Python), больше задач (974 vs 164), дает description + test case вместо docstring.

MBPP Sanitized: 427 задач -- убраны ambiguous/problematic problems. Более надежная оценка.

3. SWE-bench

Аспект Детали
Developer Princeton (2024)
Type Real repository fixes
Problems 2,294 (Verified: 500)
Languages Python (primarily)
Metric % resolved

Структура задачи:

Input:
  - GitHub issue description
  - Repository at specific commit
  - Hints about affected files (optional)

Expected Output:
  - Patch that resolves the issue
  - Must pass all tests
  - Must not break existing functionality

Evaluation:
  - Apply patch to repo -> Run test suite -> Check if issue tests pass

SWE-bench Verified: cleaner subset (500 из 2,294) с verified test cases и clearer problem definitions.

Почему это gold standard: тестирует весь SE workflow -- понимание bug reports, навигация по codebase, написание fix, passing tests.

4. LiveCodeBench

Аспект Детали
Type Contest problems (Codeforces, AtCoder)
Difficulty 800-2400 (Elo-like scale)
Languages Multiple
Update Continuous (post-training cutoff)

Ключевая фича: contamination-free -- использует только задачи published после training cutoff модели. Тестирует true reasoning ability.

5. Другие бенчмарки

Бенчмарк Тип Размер Фокус
CodeContests Competitive programming 10,000+ Codeforces и др.
APPS Interview + contest 5,000 (5 difficulty levels) Programming progress
MultiPL-E Multi-language HumanEval 18+ languages Cross-language
HumanEval-X Cross-lingual 5 languages (Py/Java/JS/C++/Go) Generation + translation
DS-1000 Data science 1,000 Pandas, NumPy, Matplotlib
Terminal-Bench CLI/shell tasks New Practical command-line

SOTA Leaderboard 2026

SWE-bench Verified (February 2026)

Rank Model Score Notes
1 Claude Opus 4.5 80.9% Anthropic, reasoning model
2 GPT-5.2 80.0% OpenAI, latest flagship
3 Gemini 2.5 Pro 63.8% Google, multimodal
4 DeepSeek V3.1 62.0% Open-source leader
5 Kimi K2.5 58.9% Moonshot AI
6 Qwen3-Coder 55.3% Alibaba
7 Claude 3.5 Sonnet 49.0% Previous generation
8 GPT-4o 45.2% Previous generation

80% barrier: Claude Opus 4.5 и GPT-5.2 первыми преодолели 80% на SWE-bench Verified -- near-human expert performance на real-world debugging. Reasoning premium: модели с explicit reasoning (thinking, o-series) дают +15-20% vs standard models.

LiveCodeBench

Model Score
GPT-5.2 89.2%
Claude Opus 4.5 88.1%
Gemini 2.5 Pro 82.4%

HumanEval / MBPP (saturated)

Model HumanEval pass@1 MBPP pass@1
Claude 3.5 Sonnet 92.0% 88.0%
GPT-4o 90.2% 86.5%
DeepSeek V3 89.2% 85.5%
Qwen 2.5 Coder 32B 88.5% 86.0%
Llama 3.1 70B 82.0% 78.0%

Open Source Leaders

Model Size HumanEval SWE-bench License
DeepSeek V3.1 MoE -- 62.0% MIT
Qwen 2.5 Coder 32B 32B 88.5% 35.0% Apache 2.0
DeepSeek Coder V2 33B 85.0% -- MIT
StarCoder2 15B 15B 72.0% -- BigCode

Historical Progress (SWE-bench Verified)

Year Best Score Model
2024 ~50% GPT-4
2025 ~49-53% Claude 3.5 Sonnet
2026 80.9% Claude Opus 4.5

Детали и сравнения

Benchmark Quality Issues

Test Adequacy (arXiv 2511.04355):

Проблема Описание
Low mutation scores High complexity problems имеют weak test coverage
No correlation with coverage More tests != better detection
False positives Possible на HumanEval и MBPP

Benchmark Contamination:

Проблема Описание
Data leakage Models trained на benchmark data
Overfitting Models optimize для конкретных бенчмарков
Temporal drift Бенчмарки устаревают быстро

Saturation: HumanEval >95%, MBPP >90% для frontier models. Нужны более сложные бенчмарки.

Coding Tools Ecosystem (2026)

Tool Model Key Features
Cursor Claude/GPT GUI IDE, composer mode, tab autocomplete
Claude Code Claude Opus 4.5 Terminal-native, agentic, git integration
GitHub Copilot GPT-4o/GPT-5 IDE integration, code completion
Windsurf Cascade Context-aware suggestions
Aider Multiple Terminal, git integration

Cursor vs Claude Code: GUI IDE experience vs terminal-native agentic execution. 2026 тренд: gap blurring -- оба заимствуют фичи друг у друга.

Model Selection Guide

Сценарий Модель Причина
Complex debugging Claude Opus 4.5 Best reasoning
High-volume coding GPT-5.2 или Gemini Cost/performance
Self-hosted DeepSeek V3.1 Best open-source
Long context Gemini или Kimi 1M+ context
Cost-sensitive DeepSeek или Qwen 10-50x cheaper

Pricing (February 2026)

Model Input / Output per 1M tokens
Claude Opus 4.5 $15 / $75
GPT-5.2 $10 / $30
Gemini 2.5 Pro $7 / $21
DeepSeek V3.1 $0.27 / $1.10

Benchmark Selection Guide

Use Case Бенчмарк Причина
Algorithm practice HumanEval Function-level
Basic coding MBPP Simple problems
Contest prep LiveCodeBench Real contests, no contamination
Real-world fixes SWE-bench Repository-level
Multi-language MultiPL-E Cross-language
Data science DS-1000 Pandas/NumPy
CLI skills Terminal-Bench Practical

Для интервью

Q: "Какие code бенчмарки LLM наиболее релевантны в 2026?"

SWE-bench Verified -- gold standard (real GitHub issues, 500 задач). Claude Opus 4.5: 80.9%, GPT-5.2: 80.0%. LiveCodeBench -- contamination-free (post-training cutoff problems). HumanEval/MBPP saturated (>90-95% для frontier). Новый: Terminal-Bench (CLI skills).

Q: "Что такое pass@k и как интерпретировать?"

pass@k = вероятность что хотя бы 1 из k сгенерированных решений пройдет все тесты. Формула: \(\text{pass@}k = \mathbb{E}[1 - \binom{n-c}{k}/\binom{n}{k}]\). pass@1 -- самый строгий (одна попытка). 90%+ HumanEval = production-ready для простого кода. 80-90% = reliable, needs review. <70% = significant errors.

Q: "Как работает SWE-bench?"

GitHub issue description + repo at specific commit. Модель генерирует patch. Evaluation: apply patch -> run test suite -> check if issue tests pass + no regressions. SWE-bench Verified: 500 cleaned задач из 2,294. Тестирует полный SE workflow: bug understanding, codebase navigation, fix writing. 2026 SOTA: ~80% (near-human expert).

Q: "Open-source vs closed-source для coding?"

Closed-source лидирует: Claude Opus 4.5 (80.9% SWE-bench) и GPT-5.2 (80.0%). Open-source: DeepSeek V3.1 = 62.0% (gap ~18%). Reasoning premium: +15-20% для models с explicit reasoning. Но open-source дешевле в 10-50x ($0.27 vs $15 за 1M tokens).

Q: "Проблемы с текущими code бенчмарками?"

(1) Saturation: HumanEval >95%, MBPP >90%. (2) Data contamination: models trained on benchmark data. (3) Weak test cases: high complexity problems have low mutation scores (arXiv 2511.04355). (4) Temporal drift: бенчмарки устаревают. Solution: LiveCodeBench (continuous, post-cutoff), SWE-bench (real issues), Terminal-Bench (new).

Ключевые числа

Факт Значение
SWE-bench Verified SOTA 80.9% (Claude Opus 4.5)
SWE-bench 2024 SOTA ~50%
SWE-bench improvement 2024->2026 +30 points
HumanEval problems 164
MBPP problems 974 (sanitized: 427)
SWE-bench problems 2,294 (Verified: 500)
HumanEval frontier saturation >95%
Reasoning premium +15-20%
Open-source gap (SWE-bench) ~18 points
DeepSeek vs Claude cost ratio ~55x cheaper

Заблуждение: 95% на HumanEval = модель отлично кодит

HumanEval -- 164 standalone-функции на Python без контекста кодовой базы. Это уровень "напиши has_close_elements". Frontier-модели все набирают >95%, что делает бенчмарк бесполезным для сравнения. Та же модель с 95% HumanEval может показать 49% на SWE-bench (реальные GitHub issues с навигацией по репозиторию, пониманием bug reports, написанием патчей). Разрыв 46 пунктов -- HumanEval не предсказывает реальную coding ability.

Заблуждение: open-source модели непригодны для кодинга

DeepSeek V3.1 набирает 62% на SWE-bench Verified -- gap с лидером (Claude Opus 4.5, 80.9%) составляет 18 пунктов. Но DeepSeek стоит $0.27/M tokens vs $15/M у Claude -- в 55 раз дешевле. Для задач уровня HumanEval/MBPP (function-level) open-source модели дают 85-89%, что достаточно для autocomplete и простой кодогенерации. Выбор зависит от задачи: repo-level debugging -- closed-source, function-level генерация -- open-source при 55x экономии.

Заблуждение: pass@1 -- единственная важная метрика кодинга

Pass@1 показывает результат первой попытки, но production-системы (Cursor, Claude Code, Copilot) генерируют несколько вариантов. Pass@10 у модели с 70% pass@1 может быть >95%. Формула \(\text{pass@}k = \mathbb{E}[1 - \binom{n-c}{k}/\binom{n}{k}]\) нелинейна -- маленький рост pass@1 даёт большой рост pass@10. Кроме того, test adequacy -- отдельная проблема: arXiv 2511.04355 показывает low mutation scores для complex problems, то есть сами тесты ненадёжны.


Interview Questions

Q: Почему HumanEval и MBPP больше не используются для сравнения frontier-моделей?

❌ Red flag: "Они всё ещё полезны, просто нужно больше задач"

✅ Strong answer: "HumanEval (164 задачи) и MBPP (974) полностью насыщены -- frontier-модели набирают >95% и >90% соответственно. Проблемы: (1) saturation -- нет дискриминирующей способности, (2) data contamination -- модели тренируются на benchmark data, (3) тестируют standalone functions без контекста репозитория. Замена: SWE-bench Verified для real-world debugging (500 GitHub issues), LiveCodeBench для contamination-free оценки (post-cutoff задачи с Codeforces/AtCoder), Terminal-Bench для CLI skills."

Q: Как работает SWE-bench и почему это gold standard?

❌ Red flag: "Это просто набор задач на программирование"

✅ Strong answer: "Input: описание GitHub issue + репозиторий на конкретном коммите. Модель генерирует patch. Evaluation: apply patch, run test suite, проверить что issue-тесты проходят и existing тесты не сломаны. SWE-bench Verified -- 500 cleaned задач из 2294 с верифицированными test cases. Тестирует полный SE workflow: понимание bug report, навигация по codebase, написание fix. SOTA 2026: 80.9% (Claude Opus 4.5) vs ~50% в 2024 -- прирост +30 пунктов за 2 года."

Q: Как reasoning-модели влияют на результаты кодинг-бенчмарков?

❌ Red flag: "Reasoning-модели просто больше, поэтому и лучше"

✅ Strong answer: "Модели с explicit reasoning (o-series, thinking mode) дают +15-20% на SWE-bench по сравнению со standard-моделями того же семейства. Причина: SWE-bench требует multi-step рассуждений -- понять баг, найти файлы, спланировать fix, написать patch, проверить side effects. Пример: Claude 3.5 Sonnet (standard) = 49%, Claude Opus 4.5 (reasoning) = 80.9%. Но reasoning стоит дороже по compute и latency -- для простых autocomplete задач standard модель выгоднее."


Источники

  1. MarkTechPost -- "The Ultimate 2025 Guide to Coding LLM Benchmarks"
  2. EvidentlyAI -- "15 LLM Coding Benchmarks"
  3. ToLearn Blog -- "LLM Coding Benchmark Showdown 2026"
  4. arXiv -- "Where Do LLMs Still Struggle? Code Generation Analysis" (2511.04355)
  5. SWE-bench -- Official Leaderboard
  6. LiveCodeBench -- Contamination-free Benchmark
  7. Terminal-Bench -- CLI Task Evaluation
  8. HackerNoon -- "Evaluation Benchmarks for Code LLMs"

See Also