Token计算与分词可视化

Token总数:0
点击"计算Token"查看分词结果
常见问题
此工具使用哪种分词模型?

本工具使用cl100k_base分词方案,与OpenAI的GPT-4、GPT-3.5-Turbo和text-embedding-ada-002模型采用相同的编码方式,通过gpt-tokenizer JavaScript库实现,产生的Token数量与OpenAI的tiktoken库完全一致。

为什么中文字符比英文单词使用更多Token?

cl100k_base词表针对拉丁字母语言进行了大量优化。常见英文单词通常只占一个Token,而汉字、日语、韩语等非拉丁字符每个通常需要两到三个Token。因此,相同语义内容用中文表达通常比英文多消耗2至3倍的Token。

使用此工具时文本会被上传到服务器吗?

不会。整个分词过程通过gpt-tokenizer JavaScript库在浏览器本地运行,您的文本不会发送到任何服务器——既不发送给我们,也不发送给OpenAI。因此,本工具完全适合处理保密提示词、私人文档或敏感数据。

关于Token计算工具
Token计算器精确统计您的文本在cl100k_base编码下的Token数量,与GPT-4、GPT-3.5-Turbo等OpenAI模型使用的分词方式完全一致。每个Token以彩色块显示,直观展示AI模型如何切分您的文本。所有处理均在本地完成,文本不会离开您的浏览器。