Senaryonuza en uygun en ucuz LLM hangisi?

Token ve hacmi girin — tüm modeller yan yana istek başına, günlük ve aylık maliyetlerle görünür. Fiyatlar düzenlenebilir.

{{ __t('usage_section') }}
{{ __t('cache_hint') }}

{{ __t('cost_comparison') }}
{{ __t('model') }} {{ __t('th_in') }}
$/Mtok
{{ __t('th_out') }}
$/Mtok
{{ __t('th_cache_read') }}
$/Mtok
{{ __t('th_per_request') }}
$
{{ __t('th_per_day') }}
$
{{ __t('th_per_month') }}
$
{{ m.name }}
{{ m.vendor }}
{{ calcRequest(m).toFixed(5) }} {{ calcDay(m).toFixed(2) }} {{ calcMonth(m).toFixed(2) }}
{{ __t('note_label') }}: {{ __t('prices_disclaimer') }}

LLM API maliyetleri nasıl oluşur

Sağlayıcılar milyon token (Mtok) başına faturalandırır; girdi ve çıktı için ayrı fiyat. Çoğu, sabit bağlamı önbelleğe alıp tekrar okurken girdi fiyatının küçük bir kısmını uygular. Aynı sistem promptunu paylaşan isteklerde girdiden %50–90 tasarruf sağlar.

Pratikte: işe yarayan en ucuz modeli seçmek

Sınıflandırma, özet, basit ayıklama: küçük modeller (Haiku, GPT-4o mini, Gemini Flash, DeepSeek) 20–100× daha ucuz ve iş yüklerinin %80'ini karşılar. Akıl yürütme, kod ve çok adımlı görevler için Opus, GPT-4o, Gemini Pro. Üretimde yönlendirici ile %40–70 tasarruf tipik.

Faturayı düşürme ipuçları

  • Prompt önbelleğini kullanın: sistem promptlarını ve büyük sabit bağlamları cache bloğu olarak işaretleyin — Anthropic, OpenAI, Google destekler.
  • Çıktıyı kısaltın — çıktı genelde girdinin 3–5 katı. Uzun metin yerine yapılandırılmış JSON kullanın.
  • Batch API kullanın: Anthropic ve OpenAI'da asenkron batch %50 daha ucuzdur.