Trage Tokens und Volumen ein — alle Modelle erscheinen nebeneinander mit Tages-, Monats- und Pro-Request-Kosten. Preise editierbar.
| {{ __t('model') }} | {{ __t('th_in') }} $/Mtok |
{{ __t('th_out') }} $/Mtok |
{{ __t('th_cache_read') }} $/Mtok |
{{ __t('th_per_request') }} $ |
{{ __t('th_per_day') }} $ |
{{ __t('th_per_month') }} $ |
|---|---|---|---|---|---|---|
| {{ m.name }} {{ m.vendor }} |
{{ calcRequest(m).toFixed(5) }} | {{ calcDay(m).toFixed(2) }} | {{ calcMonth(m).toFixed(2) }} |
Anbieter rechnen pro Million Token (Mtok) ab — separat für Input (Prompt + System + Kontext) und Output (Modellantwort). Dazu kommt bei vielen Anbietern ein Caching-Tarif: stabile Kontext-Anteile werden gecached und beim nächsten Mal zu einem Bruchteil des Input-Preises gelesen. Bei vielen Requests mit ähnlichem System-Prompt kann das die Rechnung drastisch senken — typischerweise um 50–90 % des Input-Anteils.
Klassifikation, Summarization, einfache Extraktionen: kleine Modelle (Haiku, GPT-4o mini, Gemini Flash, DeepSeek) sind oft 20–100× günstiger als die Top-Modelle und reichen für 80 % der Workloads. Reasoning-, Code- und Multi-Hop-Aufgaben profitieren von Opus, GPT-4o, Gemini Pro. Tipp: in Production einen Router bauen, der einfache Aufgaben an günstige Modelle und komplexe an Top-Modelle leitet — typische Ersparnis 40–70 %.