1st author: Hao Sun 孙浩 - PhD Candidate @ Peking University - Homepage
paper: [2505.04588] ZeroSearch: Incentivize the Search Capability of LLMs without Searching
code: Alibaba-NLP/ZeroSearch: ZeroSearch: Incentivize the Search Capability of LLMs without Searching
5. 总结 (结果先行)
ZeroSearch 用 LLM 充当模拟环境的思想,不仅仅是一个降本增效的工程技巧,有更深远的意义。它将强化学习中的“环境”这一外部、不可控的元素,成功地内化为了一个内部、完全可控的组件。
这种“LLM 模拟 LLM 环境”的范式极具扩展性。今天可以模拟搜索引擎,明天就可以模拟代码解释器、数据库、API 调用乃至模拟人类用户的反馈。这为在完全虚拟、但高度逼真且可控的世界中训练复杂的 AI Agent 指明了一条可行的道路。
虽然该方法仍需要额外的 GPU 资源来部署模拟器,但与无尽的 API 账单相比,这无疑是一笔划算的投资。随着模型推理效率的不断提升,这种“自给自足”的训练范式将变得越来越有吸引力。
1. 思想
这篇论文试图解决一个在 AI Agent 领域非常实际且棘手的问题。
-
大问题:
- 我们希望通过强化学习 (RL) 让大型语言模型 (LLM) 学会如何使用搜索引擎来解决复杂问题。然而,直接与真实搜索引擎(如 Google)进行 RL 训练存在两大障碍:
- 高昂的 API 成本: RL 需要海量的交互 (rollouts) 来进行探索和学习,数百万次的搜索请求会产生难以承受的 API 费用。
- 不可控的文档质量: 真实搜索引擎返回的结果质量参差不齐,充满噪音,这给 RL 训练带来了巨大的不稳定性,模型很难在这样的嘈杂环境中稳定学习。
- 我们希望通过强化学习 (RL) 让大型语言模型 (LLM) 学会如何使用搜索引擎来解决复杂问题。然而,直接与真实搜索引擎(如 Google)进行 RL 训练存在两大障碍:
-
小问题:
- 如何构建一个既免费又可控的“模拟搜索环境”?
- 如何确保在这个模拟环境中训练出的模型,能够泛化到真实世界的搜索引擎上?
- 如何设计训练过程,让模型逐步学会处理从“理想信息”到“嘈杂信息”的各种情况,从而锻炼出真正的推理和筛选能力?
-
核心思想:
- 论文的核心洞见是:用一个经过特殊微调的 LLM 假扮搜索引擎。
- 模拟器 (Simulator): 直接用另一个 LLM 作为模拟搜索引擎 π ϕ \pi_\phi πϕ。这个模拟器接收策略模型 π θ \pi_\theta πθ 生成的查询,然后生成模拟的搜索结果。这直接将 API 成本降为零,只剩下本地 GPU 的计算成本。
- 质量可控 (Controllable Quality): 通过对模拟器 LLM 进行轻量级的监督微调 (SFT),使其能够根据提示中的特定关键词(例如
[useful]
或[noisy]
)生成“有用”或“嘈杂”的文档。这赋予了我们对环境质量的精确控制能力,这是真实搜索引擎无法提供的。 - 课程学习 (Curriculum Learning): 既然环境可控,就可以设计一个从易到难的训练课程。训练初期,让模拟器多返回“有用”的文档,帮助模型快速掌握基本任务流程和格式。随着训练的进行,逐步提高“嘈杂”文档的比例,迫使模型学会从噪音中辨别和推理,从而变得更加鲁棒。
2. 方法
ZeroSearch 的方法有如下步骤:
-
构建模拟搜索引擎 ($\pi_{\phi} $)
-
目标: 创造一个能模仿真实搜索引擎并能按指令生成不同质量文档的 LLM。
-
流程:
- 首先,通过与真实搜索引擎交互,收集一批“查询-文档”对。
- 然后,利用一个强大的 LLM(如 GPT-4)作为裁判,判断每个文档相对于其查询是“有用的 (useful)”还是“嘈杂的 (noisy)”。
- 最后,使用这些标注好的数据,对一个中等大小的 LLM 进行监督微调 (SFT)。微调的模板包含一个控制开关,例如:
"给定查询 [query],请为问题 [question] 生成五个 [useful/noisy] 的文档..."
- 通过在训练时向模拟器输入
[useful]
或[noisy]
关键词,我们就能在后续的 RL 训练中精确控制生成文档的质量。
-
-
强化学习框架
-
整体优化目标是一个标准的 RL 目标,加入了 KL 散度作为正则化项,以保证训练的稳定性。
max π θ E x ∼ D , y ∼ π θ ( ⋅ ∣ x ; π ϕ ) [ r ϕ ( x , y ) ] − β D K L [ π θ ( y ∣ x ) ∣ ∣ π ref ( y ∣ x ) ] \max_{\pi_{\theta}} \mathbb{E}_{x \sim \mathcal{D}, y \sim \pi_{\theta}(\cdot|x;\pi_{\phi})} [r_{\phi}(x,y)] - \beta D_{KL}[\pi_{\theta}(y|x) || \pi_{\text{ref}}(y|x)] πθmaxEx∼D,y∼πθ(⋅∣x;πϕ)[rϕ(x,y)]−βDKL[πθ(y∣x)∣∣πref(y∣x)] -
符号解释:
-
π θ \pi_{\theta} πθ: 我们要训练的策略模型 (policy model),即 Agent。
-
π ϕ \pi_{\phi} πϕ: 冻结的、作为环境的模拟搜索引擎 LLM。它的参数在 RL 训练中保持不变。
-
y y y: 模型生成的完整轨迹,包括思考链 (
<think>
)、搜索查询 (<search>
) 和最终答案 (<answer>
)。 -
r ϕ ( x , y ) r_{\phi}(x,y) rϕ(x,y): 奖励函数。这里使用最终答案与标准答案之间的 F1 分数,以避免模型通过生成冗长答案来“刷分”(reward hacking)。
r ϕ ( x , y ) = 2 × I N P N + R N r_\phi(x,y)=\frac{2\times IN}{PN+RN} rϕ(x,y)=PN+RN2×IN
其中 IN 表示预测与真实值之间的重叠单词数,PN 是预测中的单词数,RN 是真实值中的单词数。 -
D K L D_{KL} DKL: KL 散度。用于惩罚策略模型 π θ \pi_{\theta} πθ 与一个参考模型 π ref \pi_{\text{ref}} πref (通常是训练前的 SFT 模型) 偏离太远,防止模型在探索中“忘记”其基本语言能力。
-
β \beta β: KL 散度的权重系数。
-
-
-
课程化 Rollout 策略
-
为了实现从易到难的训练,引入了一个概率函数 p i p_i pi 来控制在第 i i i 个训练步骤中生成嘈杂文档的概率。
p i = p s + b i m − 1 b − 1 ( p e − p s ) p_i = p_s + \frac{b^{\frac{i}{m}}-1}{b-1}(p_e - p_s) pi=ps+b−1bmi−1(pe−ps) -
符号解释:
- p i p_i pi: 在训练步骤 i i i 时,生成嘈杂文档的概率。
- p s , p e p_s, p_e ps,pe: 分别是初始和最终的噪音概率。例如,可以设 p s = 0.1 , p e = 0.8 p_s=0.1, p_e=0.8 ps=0.1,pe=0.8。
- i , m i, m i,m: 分别是当前和总的训练步数。
- b b b: 一个控制课程进度的基数(默认为 4),决定了难度是线性增加还是指数增加。
-
效果: 训练初期 ( i i i 较小), p i p_i pi 接近 p s p_s ps,模型主要看到高质量文档。随着训练的进行 ( i → m i \to m i→m), p i p_i pi 趋近 p e p_e pe,模型必须面对一个充满噪音的、更具挑战性的环境。
-
-
损失函数设计细节
- 在一次 rollout 中,轨迹 y y y 同时包含由策略模型 π θ \pi_{\theta} πθ 生成的 token (思考和查询) 和由模拟器 π ϕ \pi_{\phi} πϕ 生成的 token (文档内容)。
- 在计算损失和反向传播时,必须只对策略模型 $\pi_\theta $ 生成的 token 计算梯度。对于模拟器 $\pi_\phi $ 生成的文档 token,其损失会被掩码 (mask) 掉,不参与梯度更新。这确保了策略模型只为自己的“决策”负责,从而稳定了训练过程。
3. 优势
与同类工作(如 Search-R1, DeepResearcher)相比,ZeroSearch 的优势非常清晰:
- 零 API 成本: 将最主要的开销从外部 API 调用转为内部 GPU 计算,极大地降低了研究和应用的门槛。
- 完全可控的环境: 能够精确控制返回文档的质量,这使得实现课程学习成为可能,而这在真实、不可控的网络环境中是无法做到的。
- 高度的训练稳定性和可复现性: 模拟环境是确定性的(给定种子),消除了真实网络波动带来的噪音,使实验结果更可靠、更易复现。
- 卓越的可扩展性: 当需要加速训练时,可以通过增加 GPU 并行运行多个模拟器实例来实现,而不像商业 API 那样受到速率限制。
4. 实验
-
设置与评估:
- 在多个 QA 数据集上进行测试,涵盖单跳和多跳问题。
- 关键对比: 与使用真实搜索引擎(通过 SerpAPI)进行训练的 Search-R1 模型进行直接比较。
- 公平性: 为了公平起见,在最终评估(inference)阶段,所有模型(包括 ZeroSearch)都使用同一个真实的搜索引擎。这验证了在模拟环境中学习到的能力可以成功迁移到真实世界。
-
实验结论:
-
模拟器超越真实: 最令人惊讶的发现是,使用 14B 模型的 ZeroSearch 不仅能匹敌,甚至在平均性能上超越了使用真实 Google 搜索进行训练的 Search-R1。这证明了高质量的模拟环境甚至可以比嘈杂的真实环境更利于模型学习。
-
模拟器的质量至关重要: 实验表明,经过 SFT 微调的模拟器远胜于仅通过 prompt 指导的 LLM。并且,模拟器 LLM 的规模越大,最终训练出的策略模型性能越好。
-
成本效益惊人: 成本分析表直观地展示了其巨大优势,约 6.4 万次搜索请求,Google API 成本约 587 美元,而使用 14B 模拟器的 GPU 成本仅为 71 美元。
-
课程学习行之有效 (Table 6): 与在整个训练过程中使用固定噪音比例的“随机”策略相比,从易到难的课程学习策略取得了明显更好的性能。
-
REINFORCE 反而最好 (Table 5): 反直觉的是,通常认为 REINFORCE 的高方差特性会逊色于 PPO 等 Actor-Critic 方法。但实验表明恰恰相反。不过论文作者没有分析原因。
笔者认为这可能的原因是:
在 LLM Agent 的特定场景下,PPO 的核心优势(通过 Critic 减少方差)可能因 Critic 难以训练而大打折扣,甚至引入负面效果。而 REINFORCE 的核心劣势(高方差)则被强大的预训练先验和大数据量 (论文使用64x5条经验样本) 训练所缓解。
-