Token计算与分词可视化

常见问题

此工具使用哪种分词模型？

本工具使用cl100k_base分词方案，与OpenAI的GPT-4、GPT-3.5-Turbo和text-embedding-ada-002模型采用相同的编码方式，通过gpt-tokenizer JavaScript库实现，产生的Token数量与OpenAI的tiktoken库完全一致。

为什么中文字符比英文单词使用更多Token？

cl100k_base词表针对拉丁字母语言进行了大量优化。常见英文单词通常只占一个Token，而汉字、日语、韩语等非拉丁字符每个通常需要两到三个Token。因此，相同语义内容用中文表达通常比英文多消耗2至3倍的Token。

使用此工具时文本会被上传到服务器吗？

不会。整个分词过程通过gpt-tokenizer JavaScript库在浏览器本地运行，您的文本不会发送到任何服务器——既不发送给我们，也不发送给OpenAI。因此，本工具完全适合处理保密提示词、私人文档或敏感数据。

关于Token计算工具

Token计算器精确统计您的文本在cl100k_base编码下的Token数量，与GPT-4、GPT-3.5-Turbo等OpenAI模型使用的分词方式完全一致。每个Token以彩色块显示，直观展示AI模型如何切分您的文本。所有处理均在本地完成，文本不会离开您的浏览器。