Welk LLM is voor jouw use case het goedkoopst?

Voer tokens en volume in — alle modellen naast elkaar met kosten per request, per dag en per maand. Prijzen aanpasbaar.

{{ __t('usage_section') }}
{{ __t('cache_hint') }}

{{ __t('cost_comparison') }}
{{ __t('model') }} {{ __t('th_in') }}
$/Mtok
{{ __t('th_out') }}
$/Mtok
{{ __t('th_cache_read') }}
$/Mtok
{{ __t('th_per_request') }}
$
{{ __t('th_per_day') }}
$
{{ __t('th_per_month') }}
$
{{ m.name }}
{{ m.vendor }}
{{ calcRequest(m).toFixed(5) }} {{ calcDay(m).toFixed(2) }} {{ calcMonth(m).toFixed(2) }}
{{ __t('note_label') }}: {{ __t('prices_disclaimer') }}

Hoe LLM API-kosten zijn opgebouwd

Providers rekenen per miljoen tokens (Mtok), apart voor input en output. Veel bieden caching: stabiele context wordt gecached en daarna voor een fractie van de input-prijs gelezen. Bij hergebruikte system prompts scheelt dat 50–90% op de input.

In de praktijk: het goedkoopste werkbare model kiezen

Classificatie, samenvatten, eenvoudige extractie: kleine modellen (Haiku, GPT-4o mini, Gemini Flash, DeepSeek) zijn 20–100× goedkoper en dekken 80% van de workloads. Redeneren, code en multi-hop vragen om Opus, GPT-4o, Gemini Pro. Een router in productie scheelt 40–70%.

Tips om je rekening te verlagen

  • Gebruik prompt caching: markeer system prompts en grote vaste contexten als cache — Anthropic, OpenAI en Google ondersteunen het.
  • Kort output — output kost meestal 3–5× input. Gebruik gestructureerde JSON ipv lange tekst.
  • Gebruik batch-API's: asynchroon is bij Anthropic en OpenAI 50% goedkoper.