词编码模型有哪些
词编码模型在高维向量空间的关系解析与实例说明
如Word2Vec、BERT、Qwen等
一、高维向量空间的基础概念
词编码模型(如Word2Vec、BERT、Qwen等)的核心是将自然语言符号映射为稠密的高维向量,使语义相近的词汇在向量空间中位置接近。以Qwen模型为例,其15万字符的词表规模(通常基于字节对编码BPE)本质是在高维空间中为每个词分配唯一的坐标点,而向量之间的几何关系(如距离、夹角)则反映语义相关性。
二、高维向量空间的关系类型
-
语义相似性
向量空间中,余弦相似度越高的向量语义越接近。例如:- “国王”向量 - “男人”向量 + “女人”向量 ≈ “王后”向量
这种线性运算在高维空间中表现为向量平移,体现词与词之间的语义类比关系。
- “国王”向量 - “男人”向量 + “女人”向量 ≈ “王后”向量
-
多语言空间对齐
跨语言模型(如mBERT)通过共享向量空间,使不同语言的同义词汇在空间中位置接近。例如:- 中文“苹果”与英文“apple”的向量在空间中具有高相似度。