【论文解读】ZeroSearch: 零API成本激活大模型Web搜索

1st author: Hao Sun 孙浩 - PhD Candidate @ Peking University - Homepage

paper: [2505.04588] ZeroSearch: Incentivize the Search Capability of LLMs without Searching

code: Alibaba-NLP/ZeroSearch: ZeroSearch: Incentivize the Search Capability of LLMs without Searching


5. 总结 (结果先行)

ZeroSearch 用 LLM 充当模拟环境的思想,不仅仅是一个降本增效的工程技巧,有更深远的意义。它将强化学习中的“环境”这一外部、不可控的元素,成功地内化为了一个内部、完全可控的组件。

这种“LLM 模拟 LLM 环境”的范式极具扩展性。今天可以模拟搜索引擎,明天就可以模拟代码解释器、数据库、API 调用乃至模拟人类用户的反馈。这为在完全虚拟、但高度逼真且可控的世界中训练复杂的 AI Agent 指明了一条可行的道路。

虽然该方法仍需要额外的 GPU 资源来部署模拟器,但与无尽的 API 账单相比,这无疑是一笔划算的投资。随着模型推理效率的不断提升,这种“自给自足”的训练范式将变得越来越有吸引力。

Table 2

1. 思想

这篇论文试图解决一个在 AI Agent 领域非常实际且棘手的问题。

  • 大问题:

    • 我们希望通过强化学习 (RL) 让大型语言模型 (LLM) 学会如何使用搜索引擎来解决复杂问题。然而,直接与真实搜索引擎(如 Google)进行 RL 训练存在两大障碍:
      1. 高昂的 API 成本: RL 需要海量的交互 (rollouts) 来进行探索和学习,数百万次的搜索请求会产生难以承受的 API 费用。
      2. 不可控的文档质量: 真实搜索引擎返回的结果质量参差不齐,充满噪音,这给 RL 训练带来了巨大的不稳定性,模型很难在这样的嘈杂环境中稳定学习。
  • 小问题:

    • 如何构建一个既免费又可控的“模拟搜索环境”?
    • 如何确保在这个模拟环境中训练出的模型,能够泛化到真实世界的搜索引擎上?
    • 如何设计训练过程,让模型逐步学会处理从“理想信息”到“嘈杂信息”的各种情况,从而锻炼出真正的推理和筛选能力?
  • 核心思想:

    • 论文的核心洞见是:用一个经过特殊微调的 LLM 假扮搜索引擎
    1. 模拟器 (Simulator): 直接用另一个 LLM 作为模拟搜索引擎 π ϕ \pi_\phi πϕ。这个模拟器接收策略模型 π θ \pi_\theta πθ 生成的查询,然后生成模拟的搜索结果。这直接将 API 成本降为零,只剩下本地 GPU 的计算成本。
    2. 质量可控 (Controllable Quality): 通过对模拟器 LLM 进行轻量级的监督微调 (SFT),使其能够根据提示中的特定关键词(例如 [useful][noisy]生成“有用”或“嘈杂”的文档。这赋予了我们对环境质量的精确控制能力,这是真实搜索引擎无法提供的。
    3. 课程学习 (Curriculum Learning): 既然环境可控,就可以设计一个从易到难的训练课程。训练初期,让模拟器多返回“有用”的文档,帮助模型快速掌握基本任务流程和格式。随着训练的进行,逐步提高“嘈杂”文档的比例,迫使模型学会从噪音中辨别和推理,从而变得更加鲁棒。

Table 1

2. 方法

ZeroSearch 的方法有如下步骤:

  1. 构建模拟搜索引擎 ($\pi_{\phi} $)

    • 目标: 创造一个能模仿真实搜索引擎并能按指令生成不同质量文档的 LLM。

    • 流程:

      1. 首先,通过与真实搜索引擎交互,收集一批“查询-文档”对
      2. 然后,利用一个强大的 LLM(如 GPT-4)作为裁判,判断每个文档相对于其查询是“有用的 (useful)”还是“嘈杂的 (noisy)”。
      3. 最后,使用这些标注好的数据,对一个中等大小的 LLM 进行监督微调 (SFT)。微调的模板包含一个控制开关,例如:
        "给定查询 [query],请为问题 [question] 生成五个 [useful/noisy] 的文档..."
        
      • 通过在训练时向模拟器输入 [useful][noisy] 关键词,我们就能在后续的 RL 训练中精确控制生成文档的质量
  2. 强化学习框架

    • 整体优化目标是一个标准的 RL 目标,加入了 KL 散度作为正则化项,以保证训练的稳定性。
      max ⁡ π θ E x ∼ D , y ∼ π θ ( ⋅ ∣ x ; π ϕ ) [ r ϕ ( x , y ) ] − β D K L [ π θ ( y ∣ x ) ∣ ∣ π ref ( y ∣ x ) ] \max_{\pi_{\theta}} \mathbb{E}_{x \sim \mathcal{D}, y \sim \pi_{\theta}(\cdot|x;\pi_{\phi})} [r_{\phi}(x,y)] - \beta D_{KL}[\pi_{\theta}(y|x) || \pi_{\text{ref}}(y|x)] πθmaxExD,yπθ(x;πϕ)[rϕ(x,y)]βDKL[πθ(yx)∣∣πref(yx)]

    • 符号解释:

      • π θ \pi_{\theta} πθ: 我们要训练的策略模型 (policy model),即 Agent。

      • π ϕ \pi_{\phi} πϕ: 冻结的、作为环境的模拟搜索引擎 LLM。它的参数在 RL 训练中保持不变。

      • y y y: 模型生成的完整轨迹,包括思考链 (<think>)、搜索查询 (<search>) 和最终答案 (<answer>)。

      • r ϕ ( x , y ) r_{\phi}(x,y) rϕ(x,y): 奖励函数。这里使用最终答案与标准答案之间的 F1 分数,以避免模型通过生成冗长答案来“刷分”(reward hacking)。
        r ϕ ( x , y ) = 2 × I N P N + R N r_\phi(x,y)=\frac{2\times IN}{PN+RN} rϕ(x,y)=PN+RN2×IN
        其中 IN 表示预测与真实值之间的重叠单词数,PN 是预测中的单词数,RN 是真实值中的单词数。

      • D K L D_{KL} DKL: KL 散度。用于惩罚策略模型 π θ \pi_{\theta} πθ 与一个参考模型 π ref \pi_{\text{ref}} πref (通常是训练前的 SFT 模型) 偏离太远,防止模型在探索中“忘记”其基本语言能力。

      • β \beta β: KL 散度的权重系数。

  3. 课程化 Rollout 策略

    • 为了实现从易到难的训练,引入了一个概率函数 p i p_i pi 来控制在第 i i i 个训练步骤中生成嘈杂文档的概率。
      p i = p s + b i m − 1 b − 1 ( p e − p s ) p_i = p_s + \frac{b^{\frac{i}{m}}-1}{b-1}(p_e - p_s) pi=ps+b1bmi1(peps)

    • 符号解释:

      • p i p_i pi: 在训练步骤 i i i 时,生成嘈杂文档的概率。
      • p s , p e p_s, p_e ps,pe: 分别是初始和最终的噪音概率。例如,可以设 p s = 0.1 , p e = 0.8 p_s=0.1, p_e=0.8 ps=0.1,pe=0.8
      • i , m i, m i,m: 分别是当前和总的训练步数
      • b b b: 一个控制课程进度的基数(默认为 4),决定了难度是线性增加还是指数增加。
    • 效果: 训练初期 ( i i i 较小), p i p_i pi 接近 p s p_s ps模型主要看到高质量文档随着训练的进行 ( i → m i \to m im), p i p_i pi 趋近 p e p_e pe模型必须面对一个充满噪音的、更具挑战性的环境

  4. 损失函数设计细节

    • 在一次 rollout 中,轨迹 y y y 同时包含由策略模型 π θ \pi_{\theta} πθ 生成的 token (思考和查询) 和由模拟器 π ϕ \pi_{\phi} πϕ 生成的 token (文档内容)。
    • 在计算损失和反向传播时,必须只对策略模型 $\pi_\theta $ 生成的 token 计算梯度对于模拟器 $\pi_\phi $ 生成的文档 token,其损失会被掩码 (mask) 掉,不参与梯度更新。这确保了策略模型只为自己的“决策”负责,从而稳定了训练过程。

3. 优势

与同类工作(如 Search-R1, DeepResearcher)相比,ZeroSearch 的优势非常清晰:

  • 零 API 成本: 将最主要的开销从外部 API 调用转为内部 GPU 计算,极大地降低了研究和应用的门槛。
  • 完全可控的环境: 能够精确控制返回文档的质量,这使得实现课程学习成为可能,而这在真实、不可控的网络环境中是无法做到的。
  • 高度的训练稳定性和可复现性: 模拟环境是确定性的(给定种子),消除了真实网络波动带来的噪音,使实验结果更可靠、更易复现。
  • 卓越的可扩展性: 当需要加速训练时,可以通过增加 GPU 并行运行多个模拟器实例来实现,而不像商业 API 那样受到速率限制。

4. 实验

  • 设置与评估:

    • 在多个 QA 数据集上进行测试,涵盖单跳和多跳问题。
    • 关键对比: 与使用真实搜索引擎(通过 SerpAPI)进行训练的 Search-R1 模型进行直接比较。
    • 公平性: 为了公平起见,在最终评估(inference)阶段,所有模型(包括 ZeroSearch)都使用同一个真实的搜索引擎。这验证了在模拟环境中学习到的能力可以成功迁移到真实世界。
      Table5 & Table 6
  • 实验结论:

    • 模拟器超越真实: 最令人惊讶的发现是,使用 14B 模型的 ZeroSearch 不仅能匹敌,甚至在平均性能上超越了使用真实 Google 搜索进行训练的 Search-R1。这证明了高质量的模拟环境甚至可以比嘈杂的真实环境更利于模型学习。

    • 模拟器的质量至关重要: 实验表明,经过 SFT 微调的模拟器远胜于仅通过 prompt 指导的 LLM。并且,模拟器 LLM 的规模越大,最终训练出的策略模型性能越好。

    • 成本效益惊人: 成本分析表直观地展示了其巨大优势,约 6.4 万次搜索请求,Google API 成本约 587 美元,而使用 14B 模拟器的 GPU 成本仅为 71 美元。

    • 课程学习行之有效 (Table 6): 与在整个训练过程中使用固定噪音比例的“随机”策略相比,从易到难的课程学习策略取得了明显更好的性能。

    • REINFORCE 反而最好 (Table 5): 反直觉的是,通常认为 REINFORCE 的高方差特性会逊色于 PPO 等 Actor-Critic 方法。但实验表明恰恰相反。不过论文作者没有分析原因。

      笔者认为这可能的原因是:

      在 LLM Agent 的特定场景下,PPO 的核心优势(通过 Critic 减少方差)可能因 Critic 难以训练而大打折扣,甚至引入负面效果。而 REINFORCE 的核心劣势(高方差)则被强大的预训练先验和大数据量 (论文使用64x5条经验样本) 训练所缓解。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/85622.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/85622.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JAVA网络编程中HTTP客户端(HttpURLConnection、Apache HttpClient)

HTTP 客户端是 Java 中实现网络请求的核心工具,主要用于与 Web 服务器交互(如获取网页、提交表单、调用 REST API 等)。Java 生态中有两种主流的 HTTP 客户端实现:​​HttpURLConnection(JDK 原生)​​ 和 ​​Apache HttpClient(第三方库)​​。以下是两者的详细解析、…

C# Process.Start多个参数传递及各个参数之间的空格处理

最近做一个软件集成的事情&#xff0c;有多个之前做的软件&#xff0c;集成到一起自己用&#xff0c;使用了 Process.Start&#xff08;“*.exe”&#xff09;的方式&#xff0c;然而遇到了传递参数的问题。 这里汇总后的程序叫main.exe&#xff0c;要汇总的软件之一是pro1.…

【Python】Excel表格操作:ISBN转条形码

一、效果 原始文件&#xff1a; 输出文件&#xff1a; 二、代码 import os import logging from openpyxl import load_workbook from openpyxl.drawing.image import Image as ExcelImage from barcode import EAN13 from barcode.writer import ImageWriterlogging.basicCo…

【Fargo】mediasoup发送2:码率分配、传输基类设计及WebRtcTransport原理

Fargo 使用了mediasoup的代码,搬运了他的架构架构精妙,但是似乎是为了sfu而生,【Fargo】mediasoup发送1:控制与数据分离的分层设计和原理我本地用来发送测试,因此需要进一步梳理: 通过分析这段代码,我来详细解释: 一、sfu 需要码率级别的分配控制 1. DistributeAvail…

矩阵置零C++

给定一个 m x n 的矩阵&#xff0c;如果一个元素为 0 &#xff0c;则将其所在行和列的所有元素都设为 0 。请使用 原地 算法。 思路&#xff1a; 1、让首行首列记录哪一行哪一列有0 2、于是可以直接遍历非首行首列的元素&#xff0c;若该元素对应的首行首列为0&#xff0c;说明…

大内存对电脑性能有哪些提升

在科技飞速发展的今天&#xff0c;电脑已经成为我们生活和工作中不可或缺的伙伴。无论是日常办公、追剧娱乐&#xff0c;还是进行复杂的游戏和专业设计&#xff0c;电脑的性能都至关重要。而在影响电脑性能的众多因素中&#xff0c;内存大小常常被人们忽视。 多任务处理更流畅…

【StarRocks系列】Update语句

目录 简要流程 详细流程 1. UPDATE 语句执行流程 2. 如何更新表的数据 3. 是否支持事务 总结关键点 简要流程 前端处理&#xff08;FE&#xff09;&#xff1a; 解析 SQL 并验证主键条件生成包含主键列表和新值的更新计划按主键哈希分发到对应 BE 后端执行&#xff08…

计算机三级Linux应用与开发

第 1 章 计算机体系结构与操作系统 1.1 计算科学与计算机系统 冯诺依曼体系的结构要点&#xff1a; 计算机数制采用二进制&#xff0c;程序指令和数据统一存储&#xff0c;计算机应按照程序顺序执行。按照冯诺依曼结构设计的计算机由 控制器&#xff0c;运算器&#xff0c;存…

Web攻防-XSS跨站Cookie盗取数据包提交网络钓鱼BEEF项目XSS平台危害利用

知识点&#xff1a; 1、Web攻防-XSS跨站-手工代码&框架工具&在线平台 2、Web攻防-XSS跨站-Cookie盗取&数据提交&网络钓鱼 演示案例-WEB攻防-XSS跨站-Cookie盗取&数据提交&网络钓鱼&Beef工具 1、XSS跨站-攻击利用-凭据盗取 条件&#xff1a;无防…

自力更生式养老VS三大新型养老:在时代裂变中重构银发生存法则

在岁月长河中&#xff0c;父母曾为子女遮风挡雨&#xff0c;当他们步入暮年&#xff0c;养老问题成为家庭与社会共同关注的焦点。 “父母的养老终究是自力更生”&#xff0c;这句话道出了养老的本质内核。 然而&#xff0c;在自力更生的基础上&#xff0c;选择合适的养老方式…

计算机网络学习笔记:Wireshark观察TCP通信

文章目录 前言一、前置准备二、三报文握手过程抓包2.1、第一次握手2.2、第二次握手2.3、第三次握手 三、通信过程抓包3.1、报文 44379 – 客户端发数据&#xff08;PSH, ACK&#xff09;3.2、 报文 44380 – 服务端确认收到数据&#xff08;ACK&#xff09;3.3、报文 44469 – …

在Linux中,Iptables能做什么?

概述 背景说明 在运维工作中&#xff0c;Iptables是一个不可或缺的工具&#xff0c;它提供了强大的网络流量控制和管理能力。 问题呈现 iptables是一个不可获取的工具&#xff0c;你对其了解多少&#xff1f;该工具你是否真的会用&#xff1f;详细功能对应的应用场景你是否…

Linux——linux的基本命令

目录 一、linux的目录结构 二、绝对路径和相对路径 三、文件类型&#xff08;linux下所有东西都可看作文件&#xff09; 四、文件的权限 五、文件权限的修改&#xff08;chmod&#xff09; 六、linux常用的命令 七、文件查看命令 八、文件编辑命令 九、文件压缩与解压…

智慧水利数字孪生解决方案:百川孪生智领千行,100+标杆案例赋能智慧水利全域升级

在数字技术革命与产业变革深度交织的浪潮下&#xff0c;智慧水利作为保障国家水安全、推动水利高质量发展的核心载体&#xff0c;正以数字孪生技术为引擎&#xff0c;驱动水利行业从“经验驱动”向“数据驱动”转型。 山东融谷作为智慧水利数字孪生领域的创新实践者&#xff0c…

深入解析ID3算法:信息熵驱动的决策树构建基石

本文来自「大千AI助手」技术实战系列&#xff0c;专注用真话讲技术&#xff0c;拒绝过度包装。 ID3&#xff08;Iterative Dichotomiser 3&#xff09; 是机器学习史上的里程碑算法&#xff0c;由Ross Quinlan于1986年提出。它首次将信息论引入决策树构建&#xff0c;奠定了现代…

Java解析audio时长

前提需要电脑上先安装后ffmpeg public long parseDuration(String audioPath) {long durationMs -1;try {Process process Runtime.getRuntime().exec("ffprobe " audioPath);// InputStream is process.getInputStream();InputStream is process.getErrorStrea…

python学智能算法(十五)|机器学习朴素贝叶斯方法进阶-CountVectorizer多文本处理

【1】引言 前序学习进程中&#xff0c;已经学习CountVectorizer文本处理的简单技巧&#xff0c;先相关文章链接为&#xff1a; python学智能算法&#xff08;十四&#xff09;|机器学习朴素贝叶斯方法进阶-CountVectorizer文本处理简单测试-CSDN博客 此次继续深入&#xff0…

AiPy 监控视频智能监察:人像一键抽取+可反复执行程序落地

兄弟们&#xff0c;不知道你们有没有过查监控的经历&#xff0c;虽然现在监控摄像头是越来越多&#xff0c;硬盘越塞越满&#xff0c;但真出了事儿&#xff0c;回放查录像堪比大海捞针&#xff01;纯人工一帧帧的去找&#xff0c;能把眼睛盯瞎还是人影都找不到。不过我最近搞了…

期货反向跟单-终止盘手合作原则(二)

在期货反向跟单的领域中&#xff0c;数据就是实打实的真金白银&#xff0c;是策略能否持续盈利的核心价值所在。然而&#xff0c;许多团队在实际运营过程中&#xff0c;都遭遇了相似的困境&#xff1a;期初策略运转良好&#xff0c;可随着时间推移&#xff0c;数据表现却每况愈…

【Unity】MiniGame编辑器小游戏(三)马赛克【Mosaic】

更新日期&#xff1a;2025年6月17日。 项目源码&#xff1a;后续章节发布 索引 马赛克【Mosaic】一、游戏最终效果二、玩法简介三、正式开始1.定义游戏窗口类2.规划游戏窗口、视口区域3.地图方块阵列①.定义方块结构体②.生成方块阵列③.计算九宫格黑色方块数量④.排除任意九宫…