あなたのユースケースに最も安いLLMは?

トークン数とリクエスト数を入力すると、各モデルの1リクエスト・日次・月額コストが並びます。価格は編集可。

{{ __t('usage_section') }}
{{ __t('cache_hint') }}

{{ __t('cost_comparison') }}
{{ __t('model') }} {{ __t('th_in') }}
$/Mtok
{{ __t('th_out') }}
$/Mtok
{{ __t('th_cache_read') }}
$/Mtok
{{ __t('th_per_request') }}
$
{{ __t('th_per_day') }}
$
{{ __t('th_per_month') }}
$
{{ m.name }}
{{ m.vendor }}
{{ calcRequest(m).toFixed(5) }} {{ calcDay(m).toFixed(2) }} {{ calcMonth(m).toFixed(2) }}
{{ __t('note_label') }}: {{ __t('prices_disclaimer') }}

LLM API コストの仕組み

課金は100万トークン (Mtok) 単位で、入力と出力で別レート。多くのベンダーがプロンプトキャッシュを提供:固定文脈はキャッシュされ次回は入力料金の一部で済みます。同じシステムプロンプトを多用すると入力分のコストを50–90%削減可能。

実践:最安で十分なモデルの選び方

分類・要約・単純抽出は小型モデル(Haiku/GPT-4o mini/Gemini Flash/DeepSeek)が20–100倍安く、ワークロードの8割をカバー。推論・コーディング・多段検索は Opus/GPT-4o/Gemini Pro 向き。ルーティングで40–70%節約。

コスト削減のコツ

  • プロンプトキャッシュを活用:システムプロンプトや巨大固定文脈をキャッシュブロック化(Anthropic / OpenAI / Google 全社対応)。
  • 出力を短くする:出力料金は入力の3–5倍が一般的。長文より構造化JSONを返す設計に。
  • バッチAPIを利用:Anthropic / OpenAI で50%安。