¿Qué LLM es más barato para tu caso?

Introduce tokens y volumen — todos los modelos aparecen con coste por petición, diario y mensual. Precios editables.

{{ __t('usage_section') }}
{{ __t('cache_hint') }}

{{ __t('cost_comparison') }}
{{ __t('model') }} {{ __t('th_in') }}
$/Mtok
{{ __t('th_out') }}
$/Mtok
{{ __t('th_cache_read') }}
$/Mtok
{{ __t('th_per_request') }}
$
{{ __t('th_per_day') }}
$
{{ __t('th_per_month') }}
$
{{ m.name }}
{{ m.vendor }}
{{ calcRequest(m).toFixed(5) }} {{ calcDay(m).toFixed(2) }} {{ calcMonth(m).toFixed(2) }}
{{ __t('note_label') }}: {{ __t('prices_disclaimer') }}

Cómo se estructuran los costes LLM

Los proveedores facturan por millón de tokens (Mtok) — por separado input y output. Muchos ofrecen caché: el contexto estable se almacena y se lee mucho más barato. Con muchas peticiones que comparten prompt, ahorras 50–90% en input.

Práctica: cómo elegir el modelo más barato

Clasificación, resumen, extracciones sencillas: los modelos pequeños (Haiku, GPT-4o mini, Gemini Flash, DeepSeek) son 20–100× más baratos y cubren el 80% de los casos. Razonamiento, código y multi-hop se benefician de Opus, GPT-4o, Gemini Pro. Router en producción ahorra 40–70%.

Consejos para bajar la factura

  • Usa caché de prompts: marca system prompts y contexto fijo como cache — Anthropic, OpenAI y Google lo soportan.
  • Acorta el output — suele costar 3–5× el input. Prefiere JSON estructurado a prosa larga.
  • Usa APIs batch: asíncronas, 50% más baratas en Anthropic y OpenAI.