【Datawhale AI夏令营】从Baseline到SOTA：深度剖析金融问答RAG管道优化之路

从Baseline到SOTA：深度剖析金融问答RAG管道优化之路

引言

检索增强生成（Retrieval-Augmented Generation, RAG）已成为构建知识密集型AI应用的事实标准 1。然而，从一个简单的“hello world”级别的RAG，进化到一个能在竞赛中（尤其是在金融文档分析这类复杂领域）脱颖而出的系统，需要在架构的精密度上实现巨大飞跃 2。

本文将深入分析一个常见的RAG基线方案（Baseline），该方案与“讯飞星火杯”等多模态RAG问答挑战赛提供的方案类似 3。我们将逐一拆解其组件，精准定位那些限制其性能的固有弱点，并为您铺设一条全面、详尽的工程优化路线图，助您将其提升至业界顶尖（SOTA）水平 4。

解构Baseline：坚实但充满裂痕的基础

我们首先审视一下所提供的基线架构。它遵循一个经典的RAG两阶段流程 5。

阶段一：离线预处理（构建知识库） 6

解析 (Parse)：使用fitz (PyMuPDF) 从金融PDF年报中提取文本 7。
分块 (Chunk)：按页面为单位对文档进行分割 (all_from_page_chunks) 8。
嵌入与索引 (Embed & Index)：使用bge-m3等模型对每个页面块进行嵌入，并存入一个简单的内存向量库 (SimpleVectorStore) 中 9。

阶段二：在线推理（生成答案） 10

查询 (Query)：使用相同的嵌入模型对用户问题进行向量化 11。
检索 (Retrieve)：执行简单的向量相似度搜索，找出Top-K个最相似的页面块 12。
生成 (Generate)：将检索到的页面块和原始问题一同输入给大语言模型（LLM，如Qwen），生成最终答案 13。

弱点分析

该基线方案的自我剖析已正确指出了其缺点，但理解这些缺点背后的技术含义至关重要 14：

信息丢失（多模态问题）：金融报告是天生的多模态文档 15。仅用 fitz提取文本，会完全忽略图像、图表和复杂的表格结构，而这些地方往往蕴含着最关键的数据 16。这并非微不足道的损失，而是对信息全貌的

灾难性破坏 17。
上下文割裂（分块问题）：按页分块是其最核心的架构缺陷 18。一个页面可能包含多个不相关的主题（例如，一部分资产负债表、一条关于诉讼的脚注、一段关于市场营销的文字） 19。对这种“主题大杂烩”进行嵌入，会产生一个

嘈杂、低保真的向量，它代表了内容的平均语义，而非具体的某个事实。这严重拉低了检索精度，因为一个精准的查询向量，在库里根本找不到与之精准匹配的文档向量 20。
检索策略单一（“单脚马”问题）：完全依赖向量搜索是远远不够的 21。向量搜索擅长理解语义（例如，“公司收益” vs “企业利润”），但对于金融文档中常见的

特定关键词、专有名词缩写或产品代号则无能为力 22。

这些缺陷会引发

级联失败：糟糕的解析与分块导致了低质量的知识库，这必然造成糟糕的检索结果，最终迫使LLM从一堆嘈杂、不相关或不完整的上下文中生成答案 23。

优化路线图：构建高精度RAG系统

要修正这一切，我们必须以“在每一步都最大化信噪比”为核心思想，重新设计整个流程 24。

阶段一：高级解析与语义分块

目标：将非结构化的多模态PDF，转化为一系列干净、语义连贯且富含上下文的数据块 25。

1.1 告别`fitz`，拥抱多模态与结构化解析

我们不能再简单地抽文字，而应将PDF视为一个

视觉文档 26。

SOTA方案：大型多模态模型 (LMMs)：使用具备视觉能力的模型（如 GPT-4V）来“阅读”每个页面 27。这类模型能理解布局、正确解析多栏文本、将表格转录为干净的Markdown格式，并描述图表内容 28。仅此一招，便可解决“信息丢失”的根本问题。
务实方案：专业解析器：如果对整个数据集使用LMMs过于缓慢或昂贵，可以采用专业的文档解析库，如IBM的Docling。这些工具在处理复杂企业文档布局方面，远胜于通用工具 29。

1.2 从按页分割到按义分块

一旦你获得了干净、结构化的输出（理想情况是Markdown），就可以实施更智能的分块策略 30。核心目标是

创建代表单一、连贯思想的知识块 31。

分块策略	工作原理	适用场景
递归字符分割	通过一系列层级化的分隔符（如	`\n\n`, `\n`, `.`）递归地切分文本 32。	一个快速且有效的基准策略，远优于固定大小或按页分割。适合处理叙事性文本 33。
文档结构分割	基于结构化元素（如Markdown的标题	`#`, `##`或HTML标签）进行分割 34。		强烈推荐。在使用LMM将PDF解析为Markdown后，你可以按章节分割，或将每个表格视为一个独立的块。这保留了文档的逻辑流 35。
语义分块	使用嵌入模型检测文本中的语义变化点，在主题切换处进行分割 36。	能创建语义最连贯的知识块，但计算成本更高 37。

优化建议：使用LMM将PDF解析为Markdown，然后应用基于文档结构的分块策略 38。这个组合为后续阶段提供了最高质量的输入 39。

阶段二：两阶段检索引擎

目标：在第一阶段最大化召回率，在第二阶段最大化精确率，确保最相关的文档能被找到并被优先排序 40。

2.1 高召回：混合搜索 (Hybrid Search)

不要依赖单一的搜索方法，结合向量搜索和关键字搜索的优势 41。

稠密检索（向量）：使用高质量的嵌入模型（下文详述）和FAISS等向量库，找到语义相似的块 42。
稀疏检索（关键字）：使用强大的关键字算法，如 Okapi BM25 43。它优于TF-IDF等旧方法，非常擅长查找那些向量搜索可能遗漏的特定金融术语、人名或产品代码 44。
结果融合：使用**倒数排序融合（Reciprocal Rank Fusion, RRF）**等方法合并两种搜索的结果 45。RRF对于不同搜索方式的得分尺度差异具有很好的鲁棒性。第一阶段应检索大量候选文档（例如，Top 50-100），以确保正确答案大概率包含在这个集合中 46。

2.2 高精度：重排序 (Reranking)

混合搜索捞回了一个宽泛的候选文档网；现在我们需要精确地识别出其中的最佳选项 47。这需要通过**重排序器（reranker）**来完成，它是一个更强大（也更慢）的模型，用于重新评估候选集 48。

关键区别在于模型架构：

双编码器 (Bi-Encoders) (用于初次检索)：为查询和文档分别创建嵌入向量，然后比较它们。速度快，可扩展 49。
交叉编码器 (Cross-Encoders) (用于重排序)：将查询和单个文档同时输入模型进行处理 50。这允许了深度的、令牌级别的交互，从而得到一个远比向量相似度更准确的相关性分数 51。它对于搜索整个数据库来说太慢，但对于重排50-100个候选文档来说是完美的 52。

优化建议：在混合搜索之后，将Top 100的候选文档传递给一个强大的交叉编码器模型（如 bge-reranker-large）或专用的API（如Cohere Rerank），以获得最终的、绝对最佳的3-5个知识块 53。

阶段三：上下文工程与提示词优化

目标：打造完美、无噪音的上下文，并引导LLM生成一个精准、基于事实的答案 54。

3.1 上下文精炼

即便是排名最高的知识块也可能包含不相关的句子。在送入LLM之前，先对它们进行“净化” 55。

上下文压缩 (Contextual Compression)：使用像LangChain的LLMChainExtractor这样的工具，它会利用一个轻量级LLM来阅读每个检索到的块，并仅提取与用户查询直接相关的句子 56。这能减少令牌消耗，并让最终的LLM专注于最关键的信息。
父文档检索器 (Parent Document Retriever)：这是一个非常高效的模式。你嵌入并检索的是小而具体的知识块，以实现高精度检索。但在生成答案时，你提供给LLM的是这些小块所在的更大的“父”块（例如，整个章节或页面） 57。这为LLM提供了理解具体事实所需的丰富周边上下文。

3.2 高级提示词工程 (Prompt Engineering)

最后一步是构建高质量的提示词。不要只是简单地把上下文和问题堆在一起 58。

使用结构化提示词：清晰地界定角色、指令、上下文和问题 59。
融入少量样本 (Few-Shot Examples)：提供1-2个复杂问题及其理想、推理清晰的答案范例 60。这有助于校准模型的行为，尤其是在处理答案为“N/A”等棘手情况时 61。
强制事实性与推理：明确指示模型只能使用提供的上下文，进行逐步思考（思维链, Chain-of-Thought），并引用其答案的来源 62。

以下是一个更稳健的提示词结构示例：

Markdown

你是一位一丝不苟的金融分析师。你的任务是仅基于下面提供的上下文来回答用户的问题。不要使用任何先验知识。如果答案在上下文中不存在，请回答 "N/A"。首先，进行一步步的推理过程，分析问题和上下文。
其次，根据你的推理，以请求的JSON格式提供最终答案。--- CONTEXT ---
[在此处插入你经过检索和精炼的上下文，包括文件名和页码等元数据]
--- END CONTEXT ------ EXAMPLE ---
Question: 公司在2022年的收入是多少？
Context: 2023年报告第45页指出：“我们2022财年的收入为15亿美元。”
Reasoning:
1.  问题询问2022年的收入。
2.  来自第45页的上下文明确指出2022年的收入是15亿美元。
3.  信息可以直接找到。
Final Answer:
{"answer": "15亿美元","source_filename": "2023_report.pdf","source_page": 45
}
--- END EXAMPLE ------ USER QUESTION ---
Question: [在此处插入用户的实际问题]
--- END USER QUESTION ---Reasoning:

模型选型：为任务选择合适的工具

基线方案的模型选择是一个不错的起点，但我们可以更具策略性 63。

嵌入模型 (Embedding Model)：选择至关重要。对于中文金融文本语料库，一个通用的多语言模型并非最佳选择 64。切换到一个在中文领域表现顶尖的模型，如

bge-large-zh-v1.5。它将为你的领域提供保真度高得多的嵌入表示 65。
重排序模型 (Reranker Model)：如前所述，一个专用的交叉编码器是必需品。bge-reranker-large 是一个强大的开源选项 66。若追求极致性能和易用性，可以考虑商业API，如

Cohere的Rerank 或 Vertex AI Ranking API 67。

生成模型 (Generator LLM)：Qwen是一个能力不错的模型系列 68。然而，对于复杂的推理和严格的指令遵循能力，旗舰模型如

GPT-4 或 Claude 3 Opus 通常能在质量和可靠性上提供显著优势，这可能成为竞赛中的决定性因素 69。

结论：优化后的架构

通过实施上述变革，我们将简单的基线方案转变为一个为精度而生的、强大的多阶段工作流 70：

解析：使用LMM（如GPT-4V）将PDF转为结构化的Markdown，捕获文本、表格和图表 71。
分块：基于文档结构的分块策略从Markdown中创建语义连贯的块 72。
索引：使用顶级的中文嵌入模型（bge-large-zh-v1.5）在FAISS中构建向量索引，同时建立BM25索引以支持关键字搜索，从而构成一个混合索引 73。
检索与融合：通过混合搜索检索Top 100的候选文档，并使用RRF进行融合 74。
重排序：一个强大的交叉编码器（bge-reranker-large）对这100个候选项进行重排，找出最终的Top 3-5 75。
精炼与生成：使用上下文压缩或父文档模式对顶级块进行精炼，然后将其输入到一个强大的LLM（如GPT-4），并辅以一个高级的、包含少量样本和思维链的提示词 76。