Estimación rápida de tokens para Claude, GPT y Gemini, todos en paralelo, con verificación de ventana de contexto.
| {{ __t('th_model') }} | {{ __t('th_tokens') }} | {{ __t('th_context') }} | {{ __t('th_usage') }} | {{ __t('th_status') }} |
|---|---|---|---|---|
| {{ row.name }} | {{ row.tokens.toLocaleString() }} | {{ row.context.toLocaleString() }} | {{ row.pct.toFixed(1) }}% | {{ __t('status_ok') }} {{ __t('status_tight') }} {{ __t('status_over') }} |
Los tokens son las piezas en las que un LLM divide el texto. Un token suele ser un fragmento de palabra — en inglés ~4 caracteres o ¾ de palabra; en chino/japonés a menudo 1–2 tokens por carácter. Determinan coste y capacidad.
Cada proveedor entrena su propio tokenizador. GPT-4o usa o200k_base (~200k); GPT antiguos cl100k_base (100k). Claude y Gemini tienen tokenizadores propios. "internationalization" puede ser 4, 6+ tokens según el tokenizer. Mayores diferencias en árabe, tailandés, CJK.