并列估算 Claude/GPT/Gemini token 数,并显示上下文窗口占用率。
| {{ __t('th_model') }} | {{ __t('th_tokens') }} | {{ __t('th_context') }} | {{ __t('th_usage') }} | {{ __t('th_status') }} |
|---|---|---|---|---|
| {{ row.name }} | {{ row.tokens.toLocaleString() }} | {{ row.context.toLocaleString() }} | {{ row.pct.toFixed(1) }}% | {{ __t('status_ok') }} {{ __t('status_tight') }} {{ __t('status_over') }} |
Token 是 LLM 处理文本前的最小切分单元,通常是词片段。英文约 4 个字符或一个单词的 3/4;中日文常 1 字 1–2 个 token。Token 决定费用(按百万 token 计)与容量(上下文窗口)。
各家自训分词器。GPT-4o 用 o200k_base(约 20 万词表),旧 GPT 用 cl100k_base(10 万)。Claude、Gemini 各有自家分词器。同一个 "internationalization" 可被切成 4、6 个甚至更多 token。非拉丁字符(阿拉伯、泰、CJK)差异最大。