Разброс цен на LLM API в 2026 году -- 400x: от $0.075/M tokens (Gemini Flash) до $30/M tokens (Claude Opus). Классификация текста через GPT-4o стоит $0.003/запрос; тот же classification через Gemini Flash -- $0.0001, экономия 97%. При 1M запросов/мес customer support обходится в $50K на premium-моделях и $5K при оптимизации (routing + caching) -- разница в $540K/год. Reasoning-модели (o1, o3) добавляют 3-30x множитель к базовой цене из-за hidden chain-of-thought токенов. Self-hosting Llama 4 8B окупается при 50K запросов/мес, а 70B -- при 500K. Понимание ценовой карты -- фундамент для model routing и cost optimization.
Дисклеймер: цены быстро устаревают
Все цены актуальны на февраль 2026. LLM pricing меняется каждые 2-3 месяца (GPT-4o подешевел в 3x за 2025). Перед production-решениями всегда проверяйте актуальные цены на сайтах провайдеров. Этот документ полезен для понимания относительных соотношений и паттернов ценообразования, а не абсолютных цифр.
Заблуждение: output tokens стоят столько же, сколько input
Output tokens в 2-5x дороже input у всех провайдеров: GPT-4o -- $2.50 input vs $10.00 output (4x), Claude Sonnet -- $3.00 vs $15.00 (5x), Claude Opus -- до $150/M output. Это значит, что max_tokens -- один из самых эффективных рычагов экономии: ограничение output с 500 до 200 токенов снижает output cost на 60%. Reasoning-модели усугубляют проблему: hidden CoT генерирует тысячи "невидимых" output-токенов.
Заблуждение: self-hosting всегда дешевле API при большом объеме
Self-hosting выгоден только при достаточном volume И команде с GPU-опытом. Llama 4 70B на 4xA100 стоит $3K-5K/мес + ops overhead (мониторинг, failover, обновления моделей, security patches). Break-even при ~500K запросов/мес -- но если traffic волатильный (пики и спады), API с pay-per-use может быть дешевле, потому что GPU простаивают в low-traffic часы. Гибридный подход (self-host для baseline load + API для пиков) часто оптимален.
Заблуждение: prompt caching от провайдера и semantic caching -- одно и то же
Prompt caching (Anthropic, 90% discount) кэширует только prefix промпта на стороне провайдера с TTL 5 минут -- работает для повторяющихся system prompts. Semantic caching -- на вашей стороне, сравнивает embeddings всего запроса и возвращает полный кэшированный ответ без LLM-вызова. Они комплементарны: prompt caching снижает cost на input tokens при cache miss, semantic caching вообще избегает API call при cache hit.
Q: Вам нужно выбрать модель для customer support бота с 1M запросов/мес. Как подойдете к выбору?
Red flag: "GPT-4o, потому что это лучшая модель"
Strong answer: "Анализ по типам запросов: ~60% простые FAQ (classification + template response) -- Gemini Flash \(0.075/M, cost ~\)5/мес за этот сегмент. ~30% standard Q&A -- GPT-4o-mini \(0.15/M с semantic cache (70% hit rate), effective cost ~\)14/мес. ~10% complex issues (reasoning, multi-step) -- GPT-4o \(2.50/M, cost ~\)250/мес. Total: ~$270/мес вместо $50K на premium-only. A/B тест quality по CSAT, если degradation >2% -- увеличить долю mid-tier. Prompt caching (Anthropic) для system prompt: еще -90% на input tokens."
Q: Reasoning-модели (o1, o3) стоят 3-30x дороже. Когда их использование оправдано?
Red flag: "Когда задача сложная"
Strong answer: "Reasoning-модели оправданы когда: (1) задача требует multi-step logical chains, которые standard-модели consistently fail (math proofs, complex code architecture). (2) Цена ошибки высока (legal analysis, medical triage) -- 6-30x cost multiplier оправдан если ошибка стоит \(1000+. (3) Не подходят для: classification (\)0.10 за simple query vs \(0.003), summarization, data extraction. o3-mini (\)1.10/\(4.40M) -- default для reasoning; full o1 (\)15/$60M) -- только для edge cases. Всегда с routing: complexity classifier определяет, какие 5-10% запросов реально нуждаются в reasoning."
Q: Как спланировать бюджет на LLM API для стартапа, который растет с 10K до 1M запросов/мес за 12 месяцев?
Red flag: "Умножу текущий cost на 100"
Strong answer: "Фазовый план: Phase 1 (10K-50K, месяцы 1-3): budget model (Gemini Flash) для MVP, $10-50/мес, фокус на product-market fit. Phase 2 (50K-200K, месяцы 4-6): добавить model routing (simple/medium/complex), semantic caching L1+L2, target $250-500/мес. Phase 3 (200K-1M, месяцы 7-12): full optimization stack (3-tier cache, ML router, batch API для offline), evaluate self-hosting для baseline traffic (Llama 4 8B, break-even ~50K). Budget plan: $10 -> $50 -> $250 -> $500 -> $1K -> $2K (не линейный рост благодаря caching scale). Key metric: cost per successful query, не total spend."