Estimativa rápida de tokens para Claude, GPT e Gemini lado a lado, com verificação da janela de contexto.
| {{ __t('th_model') }} | {{ __t('th_tokens') }} | {{ __t('th_context') }} | {{ __t('th_usage') }} | {{ __t('th_status') }} |
|---|---|---|---|---|
| {{ row.name }} | {{ row.tokens.toLocaleString() }} | {{ row.context.toLocaleString() }} | {{ row.pct.toFixed(1) }}% | {{ __t('status_ok') }} {{ __t('status_tight') }} {{ __t('status_over') }} |
Tokens são as unidades em que um LLM quebra o texto. Geralmente fragmentos de palavra — em inglês ~4 caracteres ou ¾ de palavra; em chinês/japonês frequentemente 1–2 por caractere. Definem custo e capacidade.
Cada provedor treina seu próprio tokenizer. GPT-4o usa o200k_base (~200k); GPT antigo cl100k_base (100k). Claude e Gemini têm os seus. "internationalization" pode virar 4, 6+ tokens. Diferenças maiores em árabe, tailandês, CJK.