本工具使用cl100k_base分词方案,与OpenAI的GPT-4、GPT-3.5-Turbo和text-embedding-ada-002模型采用相同的编码方式,通过gpt-tokenizer JavaScript库实现,产生的Token数量与OpenAI的tiktoken库完全一致。
cl100k_base词表针对拉丁字母语言进行了大量优化。常见英文单词通常只占一个Token,而汉字、日语、韩语等非拉丁字符每个通常需要两到三个Token。因此,相同语义内容用中文表达通常比英文多消耗2至3倍的Token。
不会。整个分词过程通过gpt-tokenizer JavaScript库在浏览器本地运行,您的文本不会发送到任何服务器——既不发送给我们,也不发送给OpenAI。因此,本工具完全适合处理保密提示词、私人文档或敏感数据。