RAG技术全解析：从概念到实践，构建高效语义检索系统—

RAG技术全解析：从概念到实践，构建高效语义检索系统——嵌入模型与向量数据库搭建指南

一、RAG技术概述：为什么需要RAG？

1.1 什么是RAG？
RAG（Retrieval-Augmented Generation）是一种结合检索与生成能力的AI架构。其核心思想是通过外部知识库动态增强大语言模型（LLM）的生成能力，解决传统模型知识过时、幻觉（Hallucination）等问题。

1.2 RAG的核心优势

动态知识更新：无需重新训练模型即可引入最新数据。
降低幻觉风险：基于真实文档生成答案，提升可信度。
支持私有数据：企业可利用内部文档构建专属问答系统。

1.3 RAG的工作流程

数据预处理：加载并清洗文档（PDF、HTML等），分割为小块（Chunking）。
向量化：通过嵌入模型（Embedding Model）将文本转为高维向量。
存储与检索：将向量存入向量数据库，根据用户查询进行语义相似度匹配。
生成答案：将检索结果与用户问题结合，输入LLM生成最终输出。

二、核心组件详解：嵌入模型与向量数据库

2.1 嵌入模型：语义向量化的基石
嵌入模型（Embedding Model）将文本转化为向量，决定检索的准确性。

2.1.1 模型选择与性能对比
通义千问提供的文本嵌入模型在MTEB（多语言任务）和CMTEB（中文任务）中表现优异：

模型名称	MTEB（通用任务）	MTEB（检索任务）	CMTEB（中文任务）	CMTEB（中文检索任务）	向量维度	特点
text-embedding-v1	58.30	45.47	59.84	56.59	1536维	基础模型，支持多语言通用语义检索。
text-embedding-v2	60.13	49.49	62.17	62.78	1536维	优化中文与多语言处理能力，检索效果提升显著。
text-embedding-v3	63.39	55.41	68.92	73.23	1024维	旗舰模型，性能登顶MTEB/CMTEB榜单，支持自定义向量维度（需通过API指定）。

2.1.2 嵌入模型调用示例（LangChain框架）

from langchain_community.embeddings import DashScopeEmbeddings# 初始化嵌入模型
embeddings = DashScopeEmbeddings(model="text-embedding-v2")# 单个文本向量化
query_vector = embeddings.embed_query("This is a test document.")
print("文本向量长度：", len(query_vector))# 批量文本向量化
doc_vectors = embeddings.embed_documents(["Hi there!","Oh, hello!","What's your name?","My friends call me World","Hello World!"
])
print("文本向量数量：", len(doc_vectors), "，单个向量长度：", len(doc_vectors[0]))

2.2 向量数据库：高效检索的关键
向量数据库（Vector Database）存储并检索高维向量，支持语义搜索。

2.2.1 常见向量数据库对比

数据库	开源/闭源	部署难度	支持语言	适用场景
Chroma	开源	低	Python	本地开发、小规模测试
FAISS	开源	中	C++/Python	高性能相似度搜索
Milvus	开源	高	多语言	企业级大规模部署
Pinecone	闭源	中	多语言	云端即服务（SaaS）

2.2.2 向量数据库搭建示例（Chroma）

import chromadb
from chromadb.api.types import EmbeddingFunction
from sentence_transformers import SentenceTransformer# 自定义嵌入函数
class MyEmbeddingFunction(EmbeddingFunction):def __init__(self):self.model = SentenceTransformer('all-MiniLM-L6-v2')def __call__(self, input: List[str]) -> np.ndarray:return self.model.encode(input).tolist()# 初始化Chroma客户端
client = chromadb.Client()
collection = client.create_collection(name="my_collection", embedding_function=MyEmbeddingFunction())# 添加文档
collection.add(documents=["文档1内容", "文档2内容"], ids=["id1", "id2"])# 查询示例
results = collection.query(query_texts=["用户查询内容"], n_results=3)
print(results)

三、RAG系统搭建全流程

3.1 数据预处理与向量化

文档加载与分割：
- 使用工具如 Unstructured 或 PyPDF2 解析PDF/HTML。
- 分割策略：按固定长度（如512 tokens）或语义边界（如段落）。
```
from unstructured.partition.auto import partition
chunks = partition(filename="data.pdf", chunk_size=512)
```

嵌入模型生成向量：

推荐模型：all-MiniLM-L6-v2（轻量）、text-embedding-v3（高性能）。

from sentence_transformers import SentenceTransformer
model = SentenceTransformer('all-MiniLM-L6-v2')
embeddings = model.encode([chunk.text for chunk in chunks])

3.2 向量数据库部署

本地模式（Chroma）：

pip install chromadb

import chromadb
client = chromadb.PersistentClient(path="./chroma_db")

云端模式（Milvus）：

from pymilvus import connections, Collection
connections.connect(host='localhost', port='19530')
collection = Collection(name="docs", schema=...)

3.3 检索与生成集成

检索引擎配置：

结合BM25（关键词匹配）与向量相似度（混合检索）。

from langchain.retrievers import MilvusRetriever
retriever = MilvusRetriever(collection_name="docs")

生成模型调用：

使用LLM（如Llama、GPT）生成答案。

from langchain.llms import Llama2
llm = Llama2(model_path="models/llama-2-7b")
rag_chain = {"context": retriever, "question": lambda x: x} | llm.generate

四、实践案例：基于DeepSeek的RAG系统

4.1 系统架构

数据预处理：上传PDF文档 → 分割为Chunk → 生成向量。
向量数据库：使用Milvus存储向量。
检索与生成：通过DeepSeek模型生成答案。

4.2 搭建步骤

环境准备：

# 安装Ollama与DeepSeek
curl -fsSL https://ollama.com/install.sh | sh
ollama run deepseek-r1:1.5b

代码实现：

# 使用Streamlit构建前端
import streamlit as st
from chatpdf_rag_deepseek import RAGrag = RAG(llm_model="deepseek-r1:1.5b", embedding_model="mxbai-embed-large")
st.title("RAG问答系统")
uploaded_file = st.file_uploader("上传文档", type="pdf")
query = st.text_input("输入问题")
if st.button("提交"):answer = rag.query(query, uploaded_file)st.write("答案：", answer)