Claude / GPT / Gemini を並べてトークン数を素早く推定。コンテキスト枠の使用率も表示。
| {{ __t('th_model') }} | {{ __t('th_tokens') }} | {{ __t('th_context') }} | {{ __t('th_usage') }} | {{ __t('th_status') }} |
|---|---|---|---|---|
| {{ row.name }} | {{ row.tokens.toLocaleString() }} | {{ row.context.toLocaleString() }} | {{ row.pct.toFixed(1) }}% | {{ __t('status_ok') }} {{ __t('status_tight') }} {{ __t('status_over') }} |
トークンはLLMがテキストを処理する前に分割する単位。多くは語の断片で、英語では約4文字または単語の3/4。中国語・日本語では1文字あたり1–2トークン程度。料金(100万トークン単位)とコンテキスト容量を決めます。
各社が独自のトークナイザを訓練。GPT-4oはo200k_base(語彙約20万)、旧GPTはcl100k_base(10万)。ClaudeやGeminiも独自のサブワード分割を持つ。「internationalization」も4 / 6 / それ以上にもなりうる。非ラテン文字(アラビア・タイ・CJK)で差が顕著。