Szybkie szacowanie tokenów dla Claude, GPT i Gemini obok siebie, z weryfikacją okna kontekstowego.
| {{ __t('th_model') }} | {{ __t('th_tokens') }} | {{ __t('th_context') }} | {{ __t('th_usage') }} | {{ __t('th_status') }} |
|---|---|---|---|---|
| {{ row.name }} | {{ row.tokens.toLocaleString() }} | {{ row.context.toLocaleString() }} | {{ row.pct.toFixed(1) }}% | {{ __t('status_ok') }} {{ __t('status_tight') }} {{ __t('status_over') }} |
Tokeny to bloki, na które LLM dzieli tekst. Zwykle fragmenty słów — w angielskim ~4 znaki lub ¾ słowa; w chińskim/japońskim często 1–2 tokeny na znak. Decydują o koszcie i pojemności.
Każdy provider trenuje własny tokenizer. GPT-4o używa o200k_base (~200k słownika), starsze GPT cl100k_base (100k). Claude i Gemini mają swoje. „internationalization" może mieć 4, 6+ tokenów. Największe różnice w arabskim, tajskim, CJK.