Перейти к содержанию

Ценообразование API LLM

~5 минут чтения

Предварительно: Open-Source LLM модели, Каскадная маршрутизация LLM

Разброс цен на LLM API в 2026 году -- 400x: от $0.075/M tokens (Gemini Flash) до $30/M tokens (Claude Opus). Классификация текста через GPT-4o стоит $0.003/запрос; тот же classification через Gemini Flash -- $0.0001, экономия 97%. При 1M запросов/мес customer support обходится в $50K на premium-моделях и $5K при оптимизации (routing + caching) -- разница в $540K/год. Reasoning-модели (o1, o3) добавляют 3-30x множитель к базовой цене из-за hidden chain-of-thought токенов. Self-hosting Llama 4 8B окупается при 50K запросов/мес, а 70B -- при 500K. Понимание ценовой карты -- фундамент для model routing и cost optimization.

Дисклеймер: цены быстро устаревают

Все цены актуальны на февраль 2026. LLM pricing меняется каждые 2-3 месяца (GPT-4o подешевел в 3x за 2025). Перед production-решениями всегда проверяйте актуальные цены на сайтах провайдеров. Этот документ полезен для понимания относительных соотношений и паттернов ценообразования, а не абсолютных цифр.


Спектр цен 2026

Категория Модели Цена (Input)
Budget Gemini Flash, GPT-4o-mini $0.075-0.15/M
Mid-tier GPT-4o, Claude Sonnet $2.50-3.00/M
Premium Claude Opus, GPT-5.2 $5.00-30.00/M
Reasoning o1, o3, Claude Thinking 3-10x base

Part 2: Model Pricing Table

Premium Models

Model Input (per 1M) Output (per 1M) Context Best For
Claude Opus 4.6 $5.00-30.00 $15-150 200K-1M Complex reasoning
GPT-5.2 $1.50 $6.00 400K General purpose
Gemini 3 Pro $2.00 $8.00 1M Multimodal, long context

Mid-Tier Models

Model Input (per 1M) Output (per 1M) Context Best For
Claude Sonnet 4 $3.00 $15.00 200K Balanced tasks
GPT-4o $2.50 $10.00 128K General purpose
Gemini 2.5 Pro $1.25 $5.00 1M Documents

Budget Models

Model Input (per 1M) Output (per 1M) Context Best For
GPT-4o-mini $0.15 $0.60 128K Simple tasks
Gemini 1.5 Flash $0.075 $0.30 1M High volume
Claude Haiku 3.5 $0.25 $1.25 200K Fast responses

Open-Source (Self-Hosted)

Model Size Est. Cost/M tokens Hardware
Llama 4 8B 8B ~$0.05 Single GPU
Qwen2.5 72B 72B ~$0.15 Multi-GPU
DeepSeek V3 671B MoE ~$0.20 Cluster

Part 3: Reasoning Model Pricing

Premium Reasoning

Model Input Output Notes
o3-mini $1.10/M $4.40/M Hidden CoT
o1 $15/M $60/M Legacy
Claude Thinking 2-3x Sonnet Visible CoT

Cost Multipliers

Scenario Standard Cost Reasoning Cost Multiplier
Simple query $0.01 $0.03-0.10 3-10x
Complex analysis $0.10 $0.50-2.00 5-20x
Math proof $0.05 $0.30-1.50 6-30x

Part 4: Cost Optimization Strategies

Model Routing

Strategy Savings Implementation
Simple → Budget 90%+ Route easy tasks to Flash
Classification → Small 95%+ Use fine-tuned small models
Reasoning → On-demand 50%+ Only use o1 when needed

Caching

Cache Type Hit Rate Savings
Exact match 10-30% 100% on hits
Semantic cache 30-60% 80-95%
Prompt caching 50-90% 90% on cached prefix

Prompt Caching (Anthropic)

Feature Details
Discount 90% on cached tokens
TTL 5 minutes default
Best for Repeated system prompts

Batch Processing

Provider Discount Latency
OpenAI Batch 50% 24h
Anthropic 50% Hours
Google 50% Hours

Part 5: Real-World Cost Analysis

Use Case Costs (Monthly, 1M queries)

Use Case Premium Only Optimized Savings
Customer support $50,000 $5,000 90%
Content generation $30,000 $8,000 73%
Code review $20,000 $10,000 50%
Data extraction $15,000 $1,500 90%

Per-Query Costs

Task Type GPT-4o Gemini Flash Optimal Choice
Classification $0.003 $0.0001 Flash (97% save)
Summary (500 words) $0.01 $0.0003 Flash (97% save)
Code generation $0.05 $0.002 GPT-4o (quality)
Complex reasoning $0.10 o3-mini

Part 6: Provider Comparison

OpenAI

Aspect Details
Strengths Best ecosystem, reliable
Pricing Mid-range
Caching Not available
Batch 50% discount

Anthropic

Aspect Details
Strengths Quality, long context
Pricing Premium
Caching Prompt caching (90% off)
Batch 50% discount

Google (Gemini)

Aspect Details
Strengths Cheapest, 1M context
Pricing Budget-friendly
Caching Context caching
Free tier Generous

DeepSeek

Aspect Details
Strengths Open-source, cheap API
Pricing Very low
API $0.27/M input (R1)
Self-host MIT license

Part 7: Budget Planning

Monthly Budget Calculator

Queries/Month Avg Tokens Budget Model Mid Model Premium
10K 1,000 $1 $25 $50
100K 1,000 $10 $250 $500
1M 1,000 $100 $2,500 $5,000
10M 1,000 $1,000 $25,000 $50,000

ROI Optimization

Spend Level Recommended Strategy
<$100/mo Use cheapest capable model
$100-1,000/mo Add routing, caching
$1,000-10,000/mo Full optimization stack
>$10,000/mo Consider self-hosting

Part 8: Self-Hosting Analysis

When to Self-Host

Criterion Threshold
Monthly API spend >$5,000
Latency requirement <100ms
Data privacy Required
Customization Needed

Self-Hosting Costs

Model Hardware Monthly Cost Break-even
Llama 4 8B 1x RTX 4090 $200-400 50K queries
Llama 4 70B 4x A100 $3,000-5,000 500K queries
DeepSeek V3 8x H100 $10,000-15,000 2M+ queries

Cloud vs Self-Host ROI

Scenario API Cost Self-Host Winner
<100K queries/mo $500 $1,000+ API
500K queries/mo $2,500 $3,000 Similar
2M+ queries/mo $10,000 $5,000 Self-host

Part 9: Interview-Relevant Numbers

Pricing Summary

Model Input $/M Output $/M Notes
Gemini 1.5 Flash $0.075 $0.30 Cheapest
GPT-4o-mini $0.15 $0.60 Best budget
Claude Haiku $0.25 $1.25 Fast
GPT-4o $2.50 $10.00 Standard
Claude Sonnet $3.00 $15.00 Quality
Claude Opus $5-30 $15-150 Premium

Cost Savings Potential

Strategy Typical Savings
Model routing 50-80%
Semantic caching 60-80%
Prompt caching 90% on cache hits
Batch API 50%
Self-hosting 50-90% (at scale)

Break-Even Analysis

Transition Break-even Query Volume
GPT-4o → Flash Any volume
API → Self-host (8B) 50K queries/mo
API → Self-host (70B) 500K queries/mo

Заблуждение: output tokens стоят столько же, сколько input

Output tokens в 2-5x дороже input у всех провайдеров: GPT-4o -- $2.50 input vs $10.00 output (4x), Claude Sonnet -- $3.00 vs $15.00 (5x), Claude Opus -- до $150/M output. Это значит, что max_tokens -- один из самых эффективных рычагов экономии: ограничение output с 500 до 200 токенов снижает output cost на 60%. Reasoning-модели усугубляют проблему: hidden CoT генерирует тысячи "невидимых" output-токенов.

Заблуждение: self-hosting всегда дешевле API при большом объеме

Self-hosting выгоден только при достаточном volume И команде с GPU-опытом. Llama 4 70B на 4xA100 стоит $3K-5K/мес + ops overhead (мониторинг, failover, обновления моделей, security patches). Break-even при ~500K запросов/мес -- но если traffic волатильный (пики и спады), API с pay-per-use может быть дешевле, потому что GPU простаивают в low-traffic часы. Гибридный подход (self-host для baseline load + API для пиков) часто оптимален.

Заблуждение: prompt caching от провайдера и semantic caching -- одно и то же

Prompt caching (Anthropic, 90% discount) кэширует только prefix промпта на стороне провайдера с TTL 5 минут -- работает для повторяющихся system prompts. Semantic caching -- на вашей стороне, сравнивает embeddings всего запроса и возвращает полный кэшированный ответ без LLM-вызова. Они комплементарны: prompt caching снижает cost на input tokens при cache miss, semantic caching вообще избегает API call при cache hit.


Interview Questions

Q: Вам нужно выбрать модель для customer support бота с 1M запросов/мес. Как подойдете к выбору?

❌ Red flag: "GPT-4o, потому что это лучшая модель"

✅ Strong answer: "Анализ по типам запросов: ~60% простые FAQ (classification + template response) -- Gemini Flash \(0.075/M, cost ~\)5/мес за этот сегмент. ~30% standard Q&A -- GPT-4o-mini \(0.15/M с semantic cache (70% hit rate), effective cost ~\)14/мес. ~10% complex issues (reasoning, multi-step) -- GPT-4o \(2.50/M, cost ~\)250/мес. Total: ~$270/мес вместо $50K на premium-only. A/B тест quality по CSAT, если degradation >2% -- увеличить долю mid-tier. Prompt caching (Anthropic) для system prompt: еще -90% на input tokens."

Q: Reasoning-модели (o1, o3) стоят 3-30x дороже. Когда их использование оправдано?

❌ Red flag: "Когда задача сложная"

✅ Strong answer: "Reasoning-модели оправданы когда: (1) задача требует multi-step logical chains, которые standard-модели consistently fail (math proofs, complex code architecture). (2) Цена ошибки высока (legal analysis, medical triage) -- 6-30x cost multiplier оправдан если ошибка стоит \(1000+. (3) Не подходят для: classification (\)0.10 за simple query vs \(0.003), summarization, data extraction. o3-mini (\)1.10/\(4.40M) -- default для reasoning; full o1 (\)15/$60M) -- только для edge cases. Всегда с routing: complexity classifier определяет, какие 5-10% запросов реально нуждаются в reasoning."

Q: Как спланировать бюджет на LLM API для стартапа, который растет с 10K до 1M запросов/мес за 12 месяцев?

❌ Red flag: "Умножу текущий cost на 100"

✅ Strong answer: "Фазовый план: Phase 1 (10K-50K, месяцы 1-3): budget model (Gemini Flash) для MVP, $10-50/мес, фокус на product-market fit. Phase 2 (50K-200K, месяцы 4-6): добавить model routing (simple/medium/complex), semantic caching L1+L2, target $250-500/мес. Phase 3 (200K-1M, месяцы 7-12): full optimization stack (3-tier cache, ML router, batch API для offline), evaluate self-hosting для baseline traffic (Llama 4 8B, break-even ~50K). Budget plan: $10 -> $50 -> $250 -> $500 -> $1K -> $2K (не линейный рост благодаря caching scale). Key metric: cost per successful query, не total spend."


Sources

  1. CloudIDR -- "LLM Pricing Comparison 2026: We Analyzed 60+ Models"
  2. Intuition Labs -- "LLM API Pricing Comparison (2025): OpenAI, Gemini, Claude"
  3. BinaryVerse AI -- "LLM Pricing Comparison (2025): Live Rates + Cost Calculator"
  4. Claude5 -- "LLM API Pricing 2026: Complete Guide (Save Up to 90%)"
  5. ScriptByAI -- "AI LLM API Pricing 2026: GPT-5.2, Gemini 3, Claude 4.6"

See Also