← 返回

什么是 Token

Token 是 LLM 处理文本的基本单位。你可以把它理解成"词的碎片"。

如何分词？

LLM 不会直接处理字符，而是把文本切分成 token。例如：

输入: "Hello world"
Tokens: ["Hello", " world"]

输入: "Hello world"
Tokens: ["Hello", " wor", "ld"]

同一个词在不同模型中可能被切分方式不同，取决于训练时使用的分词器。

常见分词器

分词器	特点	使用模型
BPE	字节对编码，高效	GPT-2, GPT-3, RoBERTa
WordPiece	子词单元	BERT
Unigram	基于语言模型	T5, ALBERT
SentencePiece	语言无关	Llama, Qwen

Token 与汉字

中文通常一个汉字 ≈ 1-2 个 token，英文平均 1 个词 ≈ 1.3 个 token。

"我爱人工智能" → 5 tokens
"Artificial Intelligence" → 2 tokens

特殊 Token

每个模型都有一些特殊用途的 token：

<BOS> / <EOS> - 序列开始/结束
<PAD> - 填充，对齐批次长度
<UNK> - 未知词
<mask> - 掩码（BERT 使用）

为什么重要？

API 按 token 计费，模型有上下文长度限制（如 128K tokens）。理解 token 帮助你：

估算 API 调用成本
控制输入输出长度
优化提示词效率
理解为什么某些词输出更慢（罕见词需要多个 token）

实用技巧

减少 Token 消耗：

使用简洁语言，避免冗余表达
中英文混合时，英文常见词更省 token
代码通常比自然语言更节省 token

估算规则：

英文：1 词 ≈ 1.3 tokens
中文：1 字 ≈ 1-2 tokens
代码：1 字符 ≈ 0.3-0.5 tokens

实用工具

OpenAI Tokenizer - 可视化分词
Tiktokenizer - 多模型支持
tiktoken (Python) - OpenAI 官方库

代码示例

import tiktoken

# GPT-4 的分词器
enc = tiktoken.encoding_for_model("gpt-4")

text = "Hello, 世界!"
tokens = enc.encode(text)
print(f"Token 数量: {len(tokens)}")
print(f"Tokens: {tokens}")
print(f"解码: {enc.decode(tokens)}")