大语言模型分词机制浅析 | AI生成和翻译

Home 2025.03

很好的问题——LLM API中的token概念起初确实容易让人困惑。让我来清晰地解释一下。


什么是Token

例如:

所以token实际上是子词单元,经过优化后能让模型高效处理多种语言和生僻词


Token在API中的重要性

  1. 计费依据——大多数LLM API按token数量收费(输入+输出)
  2. 限制条件——模型有最大token限制(例如GPT-4 Turbo的128k就是指输入+输出总共最多128,000个token)
  3. 效率优化——减少提示词中的token数量可以降低成本并确保不超限

实际应用中的Token处理


示例

import tiktoken

enc = tiktoken.get_encoding("cl100k_base")
text = "You're handsome."
tokens = enc.encode(text)
print(tokens)        # 输出token ID列表
print(len(tokens))   # 输出token数量

这段代码可能输出类似[9125, 3938, 13] → 3个token(具体取决于分词器版本)


✅ 总结:token ≠ 单词。它们是LLM理解文本的基础单元。"You're handsome."大约包含3-4个token,而不是2个单词


需要我演示如何统计你自己文本(如转录稿、文章、代码)的token数量吗?这样你就能在调用API前预估成本和限制。


Back Donate