Ценообразование API LLM¶

~5 минут чтения

Предварительно: Open-Source LLM модели, Каскадная маршрутизация LLM

Разброс цен на LLM API в 2026 году -- 400x: от $0.075/M tokens (Gemini Flash) до $30/M tokens (Claude Opus). Классификация текста через GPT-4o стоит $0.003/запрос; тот же classification через Gemini Flash -- $0.0001, экономия 97%. При 1M запросов/мес customer support обходится в $50K на premium-моделях и $5K при оптимизации (routing + caching) -- разница в $540K/год. Reasoning-модели (o1, o3) добавляют 3-30x множитель к базовой цене из-за hidden chain-of-thought токенов. Self-hosting Llama 4 8B окупается при 50K запросов/мес, а 70B -- при 500K. Понимание ценовой карты -- фундамент для model routing и cost optimization.

Дисклеймер: цены быстро устаревают

Все цены актуальны на февраль 2026. LLM pricing меняется каждые 2-3 месяца (GPT-4o подешевел в 3x за 2025). Перед production-решениями всегда проверяйте актуальные цены на сайтах провайдеров. Этот документ полезен для понимания относительных соотношений и паттернов ценообразования, а не абсолютных цифр.

Спектр цен 2026¶

Категория	Модели	Цена (Input)
Budget	Gemini Flash, GPT-4o-mini	$0.075-0.15/M
Mid-tier	GPT-4o, Claude Sonnet	$2.50-3.00/M
Premium	Claude Opus, GPT-5.2	$5.00-30.00/M
Reasoning	o1, o3, Claude Thinking	3-10x base

Part 2: Model Pricing Table¶

Premium Models¶

Model	Input (per 1M)	Output (per 1M)	Context	Best For
Claude Opus 4.6	$5.00-30.00	$15-150	200K-1M	Complex reasoning
GPT-5.2	$1.50	$6.00	400K	General purpose
Gemini 3 Pro	$2.00	$8.00	1M	Multimodal, long context

Mid-Tier Models¶

Model	Input (per 1M)	Output (per 1M)	Context	Best For
Claude Sonnet 4	$3.00	$15.00	200K	Balanced tasks
GPT-4o	$2.50	$10.00	128K	General purpose
Gemini 2.5 Pro	$1.25	$5.00	1M	Documents

Budget Models¶

Model	Input (per 1M)	Output (per 1M)	Context	Best For
GPT-4o-mini	$0.15	$0.60	128K	Simple tasks
Gemini 1.5 Flash	$0.075	$0.30	1M	High volume
Claude Haiku 3.5	$0.25	$1.25	200K	Fast responses

Open-Source (Self-Hosted)¶

Model	Size	Est. Cost/M tokens	Hardware
Llama 4 8B	8B	~$0.05	Single GPU
Qwen2.5 72B	72B	~$0.15	Multi-GPU
DeepSeek V3	671B MoE	~$0.20	Cluster

Part 3: Reasoning Model Pricing¶

Premium Reasoning¶

Model	Input	Output	Notes
o3-mini	$1.10/M	$4.40/M	Hidden CoT
o1	$15/M	$60/M	Legacy
Claude Thinking	2-3x Sonnet	—	Visible CoT

Cost Multipliers¶

Scenario	Standard Cost	Reasoning Cost	Multiplier
Simple query	$0.01	$0.03-0.10	3-10x
Complex analysis	$0.10	$0.50-2.00	5-20x
Math proof	$0.05	$0.30-1.50	6-30x

Part 4: Cost Optimization Strategies¶

Model Routing¶

Strategy	Savings	Implementation
Simple → Budget	90%+	Route easy tasks to Flash
Classification → Small	95%+	Use fine-tuned small models
Reasoning → On-demand	50%+	Only use o1 when needed

Caching¶

Cache Type	Hit Rate	Savings
Exact match	10-30%	100% on hits
Semantic cache	30-60%	80-95%
Prompt caching	50-90%	90% on cached prefix

Prompt Caching (Anthropic)¶

Feature	Details
Discount	90% on cached tokens
TTL	5 minutes default
Best for	Repeated system prompts

Batch Processing¶

Provider	Discount	Latency
OpenAI Batch	50%	24h
Anthropic	50%	Hours
Google	50%	Hours

Part 5: Real-World Cost Analysis¶

Use Case Costs (Monthly, 1M queries)¶

Use Case	Premium Only	Optimized	Savings
Customer support	$50,000	$5,000	90%
Content generation	$30,000	$8,000	73%
Code review	$20,000	$10,000	50%
Data extraction	$15,000	$1,500	90%

Per-Query Costs¶

Task Type	GPT-4o	Gemini Flash	Optimal Choice
Classification	$0.003	$0.0001	Flash (97% save)
Summary (500 words)	$0.01	$0.0003	Flash (97% save)
Code generation	$0.05	$0.002	GPT-4o (quality)
Complex reasoning	$0.10	—	o3-mini

Part 6: Provider Comparison¶

OpenAI¶

Aspect	Details
Strengths	Best ecosystem, reliable
Pricing	Mid-range
Caching	Not available
Batch	50% discount

Anthropic¶

Aspect	Details
Strengths	Quality, long context
Pricing	Premium
Caching	Prompt caching (90% off)
Batch	50% discount

Google (Gemini)¶

Aspect	Details
Strengths	Cheapest, 1M context
Pricing	Budget-friendly
Caching	Context caching
Free tier	Generous

DeepSeek¶

Aspect	Details
Strengths	Open-source, cheap API
Pricing	Very low
API	$0.27/M input (R1)
Self-host	MIT license

Part 7: Budget Planning¶

Monthly Budget Calculator¶

Queries/Month	Avg Tokens	Budget Model	Mid Model	Premium
10K	1,000	$1	$25	$50
100K	1,000	$10	$250	$500
1M	1,000	$100	$2,500	$5,000
10M	1,000	$1,000	$25,000	$50,000

ROI Optimization¶

Spend Level	Recommended Strategy
<$100/mo	Use cheapest capable model
$100-1,000/mo	Add routing, caching
$1,000-10,000/mo	Full optimization stack
>$10,000/mo	Consider self-hosting

Part 8: Self-Hosting Analysis¶

When to Self-Host¶

Criterion	Threshold
Monthly API spend	>$5,000
Latency requirement	<100ms
Data privacy	Required
Customization	Needed

Self-Hosting Costs¶

Model	Hardware	Monthly Cost	Break-even
Llama 4 8B	1x RTX 4090	$200-400	50K queries
Llama 4 70B	4x A100	$3,000-5,000	500K queries
DeepSeek V3	8x H100	$10,000-15,000	2M+ queries

Cloud vs Self-Host ROI¶

Scenario	API Cost	Self-Host	Winner
<100K queries/mo	$500	$1,000+	API
500K queries/mo	$2,500	$3,000	Similar
2M+ queries/mo	$10,000	$5,000	Self-host

Part 9: Interview-Relevant Numbers¶

Pricing Summary¶

Model	Input $/M	Output $/M	Notes
Gemini 1.5 Flash	$0.075	$0.30	Cheapest
GPT-4o-mini	$0.15	$0.60	Best budget
Claude Haiku	$0.25	$1.25	Fast
GPT-4o	$2.50	$10.00	Standard
Claude Sonnet	$3.00	$15.00	Quality
Claude Opus	$5-30	$15-150	Premium

Cost Savings Potential¶

Strategy	Typical Savings
Model routing	50-80%
Semantic caching	60-80%
Prompt caching	90% on cache hits
Batch API	50%
Self-hosting	50-90% (at scale)

Break-Even Analysis¶

Transition	Break-even Query Volume
GPT-4o → Flash	Any volume
API → Self-host (8B)	50K queries/mo
API → Self-host (70B)	500K queries/mo

Заблуждение: output tokens стоят столько же, сколько input

Output tokens в 2-5x дороже input у всех провайдеров: GPT-4o -- $2.50 input vs $10.00 output (4x), Claude Sonnet -- $3.00 vs $15.00 (5x), Claude Opus -- до $150/M output. Это значит, что max_tokens -- один из самых эффективных рычагов экономии: ограничение output с 500 до 200 токенов снижает output cost на 60%. Reasoning-модели усугубляют проблему: hidden CoT генерирует тысячи "невидимых" output-токенов.

Заблуждение: self-hosting всегда дешевле API при большом объеме

Self-hosting выгоден только при достаточном volume И команде с GPU-опытом. Llama 4 70B на 4xA100 стоит $3K-5K/мес + ops overhead (мониторинг, failover, обновления моделей, security patches). Break-even при ~500K запросов/мес -- но если traffic волатильный (пики и спады), API с pay-per-use может быть дешевле, потому что GPU простаивают в low-traffic часы. Гибридный подход (self-host для baseline load + API для пиков) часто оптимален.

Заблуждение: prompt caching от провайдера и semantic caching -- одно и то же

Prompt caching (Anthropic, 90% discount) кэширует только prefix промпта на стороне провайдера с TTL 5 минут -- работает для повторяющихся system prompts. Semantic caching -- на вашей стороне, сравнивает embeddings всего запроса и возвращает полный кэшированный ответ без LLM-вызова. Они комплементарны: prompt caching снижает cost на input tokens при cache miss, semantic caching вообще избегает API call при cache hit.

Interview Questions¶

Q: Вам нужно выбрать модель для customer support бота с 1M запросов/мес. Как подойдете к выбору?

Red flag: "GPT-4o, потому что это лучшая модель"

Strong answer: "Анализ по типам запросов: ~60% простые FAQ (classification + template response) -- Gemini Flash $0.075/M, cost ~$5/мес за этот сегмент. ~30% standard Q&A -- GPT-4o-mini $0.15/M с semantic cache (70% hit rate), effective cost ~$14/мес. ~10% complex issues (reasoning, multi-step) -- GPT-4o $2.50/M, cost ~$250/мес. Total: ~$270/мес вместо $50K на premium-only. A/B тест quality по CSAT, если degradation >2% -- увеличить долю mid-tier. Prompt caching (Anthropic) для system prompt: еще -90% на input tokens."

Q: Reasoning-модели (o1, o3) стоят 3-30x дороже. Когда их использование оправдано?

Red flag: "Когда задача сложная"

Strong answer: "Reasoning-модели оправданы когда: (1) задача требует multi-step logical chains, которые standard-модели consistently fail (math proofs, complex code architecture). (2) Цена ошибки высока (legal analysis, medical triage) -- 6-30x cost multiplier оправдан если ошибка стоит $1000+. (3) Не подходят для: classification ($0.10 за simple query vs $0.003), summarization, data extraction. o3-mini ($1.10/$4.40M) -- default для reasoning; full o1 ($15/$60M) -- только для edge cases. Всегда с routing: complexity classifier определяет, какие 5-10% запросов реально нуждаются в reasoning."

Q: Как спланировать бюджет на LLM API для стартапа, который растет с 10K до 1M запросов/мес за 12 месяцев?

Red flag: "Умножу текущий cost на 100"

Strong answer: "Фазовый план: Phase 1 (10K-50K, месяцы 1-3): budget model (Gemini Flash) для MVP, $10-50/мес, фокус на product-market fit. Phase 2 (50K-200K, месяцы 4-6): добавить model routing (simple/medium/complex), semantic caching L1+L2, target $250-500/мес. Phase 3 (200K-1M, месяцы 7-12): full optimization stack (3-tier cache, ML router, batch API для offline), evaluate self-hosting для baseline traffic (Llama 4 8B, break-even ~50K). Budget plan: $10 -> $50 -> $250 -> $500 -> $1K -> $2K (не линейный рост благодаря caching scale). Key metric: cost per successful query, не total spend."

Sources¶

CloudIDR -- "LLM Pricing Comparison 2026: We Analyzed 60+ Models"
Intuition Labs -- "LLM API Pricing Comparison (2025): OpenAI, Gemini, Claude"
BinaryVerse AI -- "LLM Pricing Comparison (2025): Live Rates + Cost Calculator"
Claude5 -- "LLM API Pricing 2026: Complete Guide (Save Up to 90%)"
ScriptByAI -- "AI LLM API Pricing 2026: GPT-5.2, Gemini 3, Claude 4.6"