Stima rapida dei token per Claude, GPT e Gemini affiancati, con controllo della finestra di contesto.
| {{ __t('th_model') }} | {{ __t('th_tokens') }} | {{ __t('th_context') }} | {{ __t('th_usage') }} | {{ __t('th_status') }} |
|---|---|---|---|---|
| {{ row.name }} | {{ row.tokens.toLocaleString() }} | {{ row.context.toLocaleString() }} | {{ row.pct.toFixed(1) }}% | {{ __t('status_ok') }} {{ __t('status_tight') }} {{ __t('status_over') }} |
I token sono le unità in cui un LLM divide il testo prima di elaborarlo. Spesso frammenti di parola — in inglese ~4 caratteri o ¾ di una parola; in cinese/giapponese spesso 1–2 token per carattere. Determinano costo e capacità.
Ogni provider addestra il proprio tokenizer. GPT-4o usa o200k_base (~200k); i vecchi GPT cl100k_base (100k). Claude e Gemini hanno i propri. La stessa parola "internationalization" può finire in 4 o 6+ token. Le differenze maggiori si vedono in arabo, tailandese, CJK.