Qual LLM sai mais barato para o seu caso?

Insira tokens e volume — todos os modelos aparecem lado a lado com custo por requisição, diário e mensal. Preços editáveis.

{{ __t('usage_section') }}
{{ __t('cache_hint') }}

{{ __t('cost_comparison') }}
{{ __t('model') }} {{ __t('th_in') }}
$/Mtok
{{ __t('th_out') }}
$/Mtok
{{ __t('th_cache_read') }}
$/Mtok
{{ __t('th_per_request') }}
$
{{ __t('th_per_day') }}
$
{{ __t('th_per_month') }}
$
{{ m.name }}
{{ m.vendor }}
{{ calcRequest(m).toFixed(5) }} {{ calcDay(m).toFixed(2) }} {{ calcMonth(m).toFixed(2) }}
{{ __t('note_label') }}: {{ __t('prices_disclaimer') }}

Como os custos de LLM são estruturados

Provedores cobram por milhão de tokens (Mtok) — input e output separados. Muitos têm tier de cache: contexto estável fica armazenado e é lido por uma fração do preço. Em workloads com prompt repetido isso reduz 50–90% do custo de input.

Prática: como escolher o modelo mais barato

Classificação, sumarização, extração simples: modelos pequenos (Haiku, GPT-4o mini, Gemini Flash, DeepSeek) custam 20–100× menos e cobrem 80% dos casos. Raciocínio, código e multi-hop pedem Opus, GPT-4o, Gemini Pro. Router em produção economiza 40–70%.

Dicas para reduzir o custo

  • Use cache de prompt: marque system prompt e contexto fixo como cache — Anthropic, OpenAI e Google suportam.
  • Reduza o output — costuma custar 3–5× o input. Prefira JSON estruturado a texto longo.
  • Use APIs batch: assíncronas, 50% mais baratas em Anthropic e OpenAI.