Quale LLM è più economico per il tuo caso?

Inserisci token e volume — tutti i modelli affiancati con costo per richiesta, giornaliero e mensile. Prezzi modificabili.

{{ __t('usage_section') }}
{{ __t('cache_hint') }}

{{ __t('cost_comparison') }}
{{ __t('model') }} {{ __t('th_in') }}
$/Mtok
{{ __t('th_out') }}
$/Mtok
{{ __t('th_cache_read') }}
$/Mtok
{{ __t('th_per_request') }}
$
{{ __t('th_per_day') }}
$
{{ __t('th_per_month') }}
$
{{ m.name }}
{{ m.vendor }}
{{ calcRequest(m).toFixed(5) }} {{ calcDay(m).toFixed(2) }} {{ calcMonth(m).toFixed(2) }}
{{ __t('note_label') }}: {{ __t('prices_disclaimer') }}

Come si compongono i costi LLM API

I provider fatturano per milione di token (Mtok) — separati input e output. Molti offrono caching: il contesto stabile viene salvato e riletto a una frazione del prezzo input. Risparmio 50–90% sul costo input nei workload con prompt ripetuto.

In pratica: scegliere il modello più economico utile

Classificazione, riassunto, estrazione semplice: i modelli piccoli (Haiku, GPT-4o mini, Gemini Flash, DeepSeek) costano 20–100× meno e coprono l'80% dei carichi. Ragionamento, codice e multi-hop richiedono Opus, GPT-4o, Gemini Pro. Un router in produzione risparmia 40–70%.

Come abbassare la bolletta

  • Usa il prompt caching: marca system prompt e contesti fissi grandi come cache — Anthropic, OpenAI e Google lo offrono.
  • Accorcia l'output — costa di solito 3–5× l'input. JSON strutturato invece di testi lunghi.
  • Usa le batch API: asincrone, 50% in meno su Anthropic e OpenAI.