Quanti token ha il tuo prompt?

Stima rapida dei token per Claude, GPT e Gemini affiancati, con controllo della finestra di contesto.

{{ stats.chars }} {{ __t('chars') }} · {{ stats.words }} {{ __t('words') }} · {{ stats.lines }} {{ __t('lines') }} · {{ stats.bytes }} {{ __t('bytes') }}

{{ __t('tokens_per_model') }}
{{ m.name }}
{{ estimateTokens(m).toLocaleString() }}
{{ m.note }}
{{ __t('note_label') }}: {{ __t('disclaimer') }}
{{ __t('context_check') }}
{{ __t('th_model') }} {{ __t('th_tokens') }} {{ __t('th_context') }} {{ __t('th_usage') }} {{ __t('th_status') }}
{{ row.name }} {{ row.tokens.toLocaleString() }} {{ row.context.toLocaleString() }} {{ row.pct.toFixed(1) }}% {{ __t('status_ok') }} {{ __t('status_tight') }} {{ __t('status_over') }}

Cosa sono i token?

I token sono le unità in cui un LLM divide il testo prima di elaborarlo. Spesso frammenti di parola — in inglese ~4 caratteri o ¾ di una parola; in cinese/giapponese spesso 1–2 token per carattere. Determinano costo e capacità.

Perché i conteggi differiscono tra modelli?

Ogni provider addestra il proprio tokenizer. GPT-4o usa o200k_base (~200k); i vecchi GPT cl100k_base (100k). Claude e Gemini hanno i propri. La stessa parola "internationalization" può finire in 4 o 6+ token. Le differenze maggiori si vedono in arabo, tailandese, CJK.

Consigli pratici

  • Regola: 1 token ≈ 4 caratteri EN, 3 caratteri IT, 1–2 token per carattere CJK.
  • Codice e JSON usano più token per i caratteri speciali — notazione compatta risparmia.
  • Prompt lunghi: attiva il caching — risparmio fino al 90% sull'input.