Który LLM jest najtańszy dla Twojego zastosowania?

Wpisz tokeny i wolumen — wszystkie modele obok siebie z kosztem na żądanie, dziennym i miesięcznym. Ceny edytowalne.

{{ __t('usage_section') }}
{{ __t('cache_hint') }}

{{ __t('cost_comparison') }}
{{ __t('model') }} {{ __t('th_in') }}
$/Mtok
{{ __t('th_out') }}
$/Mtok
{{ __t('th_cache_read') }}
$/Mtok
{{ __t('th_per_request') }}
$
{{ __t('th_per_day') }}
$
{{ __t('th_per_month') }}
$
{{ m.name }}
{{ m.vendor }}
{{ calcRequest(m).toFixed(5) }} {{ calcDay(m).toFixed(2) }} {{ calcMonth(m).toFixed(2) }}
{{ __t('note_label') }}: {{ __t('prices_disclaimer') }}

Jak liczone są koszty LLM API

Dostawcy rozliczają się za milion tokenów (Mtok) — osobno wejście i wyjście. Wielu oferuje cache: stały kontekst jest zapamiętywany i czytany za ułamek ceny wejścia. Przy wielu zapytaniach z tym samym promptem to oszczędność 50–90% wejścia.

Praktyka: jak wybrać najtańszy działający model

Klasyfikacja, streszczenia, proste ekstrakcje: małe modele (Haiku, GPT-4o mini, Gemini Flash, DeepSeek) są 20–100× tańsze i wystarczają w 80% przypadków. Rozumowanie, kod i multi-hop — Opus, GPT-4o, Gemini Pro. Router w produkcji oszczędza 40–70%.

Jak obniżyć rachunek

  • Używaj prompt cache: oznaczaj system prompt i duże stałe konteksty jako cache — Anthropic, OpenAI, Google wspierają.
  • Skracaj output — kosztuje 3–5× więcej niż input. Strukturalny JSON zamiast długich tekstów.
  • Używaj batch API — w Anthropic i OpenAI 50% taniej niż live.