qwen大模型在进行词嵌入向量时,针对的词表中的唯一数字还是其他的?
Qwen大模型进行词嵌入向量时,针对的是词表中每个 Token 对应的唯一数字(Token ID) ,核心逻辑结合词表构建、嵌入过程展开
一、Qwen 词表与 Token ID
Qwen 用 BPE 分词器(基于 tiktoken,以 cl100k
为基础词库扩展 ),会把文本拆成一个个 Token(如中文、英文、数字、特殊符号的子词/字符 ),每个 Token 对应唯一数字编号(Token ID) ,存于 vocab.json
这类词表文件。
比如:
- 英文 “Q” 可能对应 Token ID
123
- 中文 “模” 可能对应 Token ID
4567
- 数字 “1” 可能对应 Token ID
89
- 特殊符号
Ġ
(空格的特殊编码 )可能对应 Token ID0
词表本质是 {Tok