Welches LLM ist für deinen Use Case am günstigsten?

Trage Tokens und Volumen ein — alle Modelle erscheinen nebeneinander mit Tages-, Monats- und Pro-Request-Kosten. Preise editierbar.

{{ __t('usage_section') }}
{{ __t('cache_hint') }}

{{ __t('cost_comparison') }}
{{ __t('model') }} {{ __t('th_in') }}
$/Mtok
{{ __t('th_out') }}
$/Mtok
{{ __t('th_cache_read') }}
$/Mtok
{{ __t('th_per_request') }}
$
{{ __t('th_per_day') }}
$
{{ __t('th_per_month') }}
$
{{ m.name }}
{{ m.vendor }}
{{ calcRequest(m).toFixed(5) }} {{ calcDay(m).toFixed(2) }} {{ calcMonth(m).toFixed(2) }}
{{ __t('note_label') }}: {{ __t('prices_disclaimer') }}

So setzen sich die LLM-Kosten zusammen

Anbieter rechnen pro Million Token (Mtok) ab — separat für Input (Prompt + System + Kontext) und Output (Modellantwort). Dazu kommt bei vielen Anbietern ein Caching-Tarif: stabile Kontext-Anteile werden gecached und beim nächsten Mal zu einem Bruchteil des Input-Preises gelesen. Bei vielen Requests mit ähnlichem System-Prompt kann das die Rechnung drastisch senken — typischerweise um 50–90 % des Input-Anteils.

Praxis: Wie wähle ich das günstigste Modell?

Klassifikation, Summarization, einfache Extraktionen: kleine Modelle (Haiku, GPT-4o mini, Gemini Flash, DeepSeek) sind oft 20–100× günstiger als die Top-Modelle und reichen für 80 % der Workloads. Reasoning-, Code- und Multi-Hop-Aufgaben profitieren von Opus, GPT-4o, Gemini Pro. Tipp: in Production einen Router bauen, der einfache Aufgaben an günstige Modelle und komplexe an Top-Modelle leitet — typische Ersparnis 40–70 %.

Tipps zur Kostenreduktion

  • Prompt-Caching nutzen: System-Prompts und große konstante Kontexte als Cache-Block markieren — Anthropic, OpenAI, Google bieten das alle.
  • Output kürzen — Output ist meist 3–5× teurer als Input. Strukturierte JSON-Outputs statt langer Prosa.
  • Batch-API nutzen: Asynchrone Batches sind bei Anthropic und OpenAI 50 % günstiger als Live-Requests.