Prompt'unuz kaç token?

Claude, GPT ve Gemini için yan yana hızlı token tahmini, bağlam penceresi kontrolü ile.

{{ stats.chars }} {{ __t('chars') }} · {{ stats.words }} {{ __t('words') }} · {{ stats.lines }} {{ __t('lines') }} · {{ stats.bytes }} {{ __t('bytes') }}

{{ __t('tokens_per_model') }}
{{ m.name }}
{{ estimateTokens(m).toLocaleString() }}
{{ m.note }}
{{ __t('note_label') }}: {{ __t('disclaimer') }}
{{ __t('context_check') }}
{{ __t('th_model') }} {{ __t('th_tokens') }} {{ __t('th_context') }} {{ __t('th_usage') }} {{ __t('th_status') }}
{{ row.name }} {{ row.tokens.toLocaleString() }} {{ row.context.toLocaleString() }} {{ row.pct.toFixed(1) }}% {{ __t('status_ok') }} {{ __t('status_tight') }} {{ __t('status_over') }}

Token nedir?

Token, bir LLM'in metni işlemeden önce böldüğü birimdir. Genellikle kelime parçası — İngilizcede ~4 karakter veya kelimenin 3/4'ü; Çince/Japoncada karakter başına genelde 1–2 token. Maliyet ve kapasiteyi belirler.

Modeller arasında neden farklılık var?

Her sağlayıcı kendi tokenizer'ını eğitir. GPT-4o, o200k_base (~200k) kullanır; eski GPT'ler cl100k_base (100k). Claude ve Gemini'nin kendi alt-sözcük bölünmeleri vardır. Aynı "internationalization" 4, 6+ token olabilir. En büyük farklar Arapça, Tay, CJK metinlerde.

Pratik ipuçları

  • İpucu: 1 token ≈ İngilizce 4 karakter, Türkçe ~3, CJK karakter başına 1–2 token.
  • Kod ve JSON özel karakterler nedeniyle daha çok token harcar — kompakt yazım kazandırır.
  • Uzun sistem promptlarında önbelleği etkinleştirin — girdi maliyetinden %90'a varan tasarruf.