1. Embedding技术演进全景解析
1.1 稀疏向量:关键词匹配的基石
1.1.1 问:请说明稀疏向量的适用场景及技术特点
答:稀疏向量适用于关键词精确匹配场景,典型实现包括TF-IDF、BM25和SPLADE。其技术特征表现为50,000+高维向量且95%以上位置为零值,通过余弦或点积计算相似度时仅激活维度参与运算。核心优势在于关键词命中时精度极高且具备强可解释性,能直接追溯具体词汇的得分贡献。典型案例包括新闻版权去重场景,编辑使用5个核心实体词作为查询条件,通过BM25检索可在10毫秒内返回疑似抄袭文章,准确率达到98%。
1.1.2 指导意见
面试考察重点在于对技术原理与场景匹配的深度理解。建议采用"技术特征-适用场景-局限性"三维应答框架:首先明确稀疏向量基于词频统计的本质特征,强调其依赖精确词汇匹配的特性;接着列举新闻去重、专利检索等需要精确术语匹配的场景;最后必须指出对同义词和句式变化的适应性缺陷。可补充说明现代系统常采用稀疏与稠密向量结合的混合方案,既保证召回率又维持精度。
1.2 稠密向量:语义理解的核心突破
1.2.1 问:稠密向量如何解决语义匹配问题?请结合实例说明
答:稠密向量通过神经网络将文本映射到256-1536维连续向量空间,全部维度均为非零值,使用余弦距离计算相似度。其突破性在于捕捉语义层面的关联性,包括同义词替换("手机"与"移动电话")、