Quel LLM est le moins cher pour votre usage ?

Saisissez vos tokens et volume — tous les modèles côte à côte avec coût par requête, journalier et mensuel. Prix modifiables.

{{ __t('usage_section') }}
{{ __t('cache_hint') }}

{{ __t('cost_comparison') }}
{{ __t('model') }} {{ __t('th_in') }}
$/Mtok
{{ __t('th_out') }}
$/Mtok
{{ __t('th_cache_read') }}
$/Mtok
{{ __t('th_per_request') }}
$
{{ __t('th_per_day') }}
$
{{ __t('th_per_month') }}
$
{{ m.name }}
{{ m.vendor }}
{{ calcRequest(m).toFixed(5) }} {{ calcDay(m).toFixed(2) }} {{ calcMonth(m).toFixed(2) }}
{{ __t('note_label') }}: {{ __t('prices_disclaimer') }}

Structure des coûts d'API LLM

Les fournisseurs facturent au million de tokens (Mtok) — séparément l'entrée et la sortie. Beaucoup proposent un tarif de cache : le contexte stable est mis en cache et relu à une fraction du prix d'entrée. Économies de 50 à 90 % sur l'entrée quand le prompt est répété.

En pratique : choisir le modèle le moins cher viable

Classification, résumé, extraction simple : les petits modèles (Haiku, GPT-4o mini, Gemini Flash, DeepSeek) sont 20–100× moins chers et couvrent 80 % des cas. Raisonnement, code, multi-saut : Opus, GPT-4o, Gemini Pro. Un routeur en prod économise 40–70 %.

Conseils pour baisser la facture

  • Utilisez le prompt caching : marquez les system prompts et gros contextes fixes en cache — Anthropic, OpenAI et Google le proposent.
  • Réduisez la sortie — souvent 3–5× plus chère que l'entrée. Préférez du JSON structuré aux longs textes.
  • Utilisez les API batch : 50 % moins chères chez Anthropic et OpenAI.