R1-Searcher++新突破!强化学习如何赋能大模型动态知识获取?

R1-Searcher++新突破!强化学习如何赋能大模型动态知识获取?

大语言模型(LLM)虽强大却易因静态知识产生幻觉,检索增强生成(RAG)技术成破局关键。本文将解读R1-Searcher++框架,看其如何通过两阶段训练策略,让LLM智能融合内外知识,实现高效推理,为AI知识获取开辟新路径。

论文标题
R1-Searcher++: Incentivizing the Dynamic Knowledge Acquisition of LLMs via Reinforcement Learning
来源
arXiv:2505.17005v1 [cs.CL] + https://arxiv.org/abs/2505.17005

PS: 整理了LLM、量化投资、机器学习方向的学习资料,关注同名公众号 「 亚里随笔」 即刻免费解锁

文章核心

研究背景

大语言模型(LLMs)虽能凭借参数中编码的信息展现出色推理能力,但对静态内部知识的依赖使其存在明显局限,容易产生幻觉,在开放任务中表现不佳。因此,让 LLM 在推理困惑时获取外部信息以实现更审慎推理至关重要。为解决此问题,大量研究聚焦于用外部信息源增强 LLM(即 RAG),早期方法强调特定提示策略,后续研究通过监督微调将此能力提炼到更小 LLM 中,但基于 SFT 的提炼会使模型记忆解决方案路径,限制其在新场景的泛化能力。

研究问题

  1. 过度依赖外部检索:传统RAG方法或基于强化学习的检索模型,训练后常过度依赖外部搜索引擎,忽略模型自身内部知识的利用。

  2. 知识利用效率低:模型未能有效在内部知识和外部检索间动态切换,导致检索次数多、推理效率低。

  3. 知识积累能力弱:缺乏对检索到的外部知识的记忆机制,无法将新信息转化为内部知识,难以持续提升推理能力。

主要贡献

  1. 两阶段训练框架:提出R1-Searcher++,通过SFT冷启动阶段让模型初步学习格式,再用强化学习(RL)实现动态知识获取,使LLM能自适应利用内外知识,这与现有RAG方法显著不同。

  2. 动态知识管理机制:设计奖励机制鼓励模型利用内部知识,引入记忆机制将检索信息转化为内部知识,实现知识的动态积累与高效利用,提升推理效率。

  3. 性能与效率双提升:实验表明,该方法在多跳问答任务上优于现有RAG和推理方法,相比基于RL的基线模型,检索次数减少42.9%,实现性能与效率的平衡。

方法论精要

1. 核心框架: R1-Searcher++采用两阶段训练策略。第一阶段为SFT冷启动,通过拒绝采样收集符合格式要求的数据,对模型进行初步格式学习;第二阶段为RL动态知识获取,利用基于结果的RL训练模型,结合内部知识利用鼓励和外部知识记忆机制,引导模型动态获取知识。

2. 关键参数设计原理:

SFT阶段:使用拒绝采样,仅保留包含适当和标签的正确响应,目标函数如下,其中 M i M_{i} Mi用于屏蔽外部文档token:

RL阶段:奖励函数由格式奖励、答案奖励和组奖励组成。格式奖励确保响应格式正确,答案奖励采用覆盖精确匹配(CEM) metric并限制答案在10字内,组奖励通过计算同一问题正确响应中检索器调用次数的标准差,鼓励模型减少对外部检索的依赖,最终奖励 R ( q , o i ) = R f o r m a t ( q , o i ) + R a n s w e r ( q , o i ) + R g r o u p ( q , o i ) R(q, o_{i})=R_{format }\left(q, o_{i}\right)+R_{answer }\left(q, o_{i}\right)+R_{group }\left(q, o_{i}\right) R(q,oi)=Rformat(q,oi)+Ranswer(q,oi)+Rgroup(q,oi)

3. 创新性技术组合: 将SFT与RL结合,在RL中融入内部知识利用鼓励和外部知识记忆机制。记忆机制通过训练单独的重写模型,将检索到的文档转化为模型可内部化的推理路径,损失函数为 L ( θ ) = − J M a s k ( θ ) + μ ∗ L M ( θ ) \mathcal{L}(\theta)=-\mathcal{J}{Mask }(\theta)+\mu * \mathcal{L}{M}(\theta) L(θ)=JMask(θ)+μLM(θ),其中 μ \mu μ为预定义系数,平衡策略模型训练和知识记忆。

4. 实验验证方式: 使用HotpotQA、2WikiMultiHopQA、Musique和Bamboogle四个多跳数据集,前两个为域内数据集,后两个为域外数据集,评估指标为F1-score和LLM-as-Judge(LasJ)。对比基线包括Naive Generation、Standard RAG、SuRe、Selective-Context、Adaptive-RAG、CRPlanner、RAG-CoT方法和RAG-RL方法等,验证模型在不同场景下的性能。

实验洞察

1. 性能优势: 在整体测试集上,R1-Searcher++相比最佳基于RL的方法R1-Searcher提升4.3%;在HotpotQA上,LasJ指标达64.2%,优于R1-Searcher的62.2%;在Bamboogle上,LasJ指标为59.2%,显著高于其他基线。

2. 效率突破: 相比基于RL的方法,检索次数大幅减少,平均检索次数比R1-Searcher减少30.0%,比Search-R1减少52.9%,有效降低推理成本。

3. 消融研究: 各关键组件均对模型性能有重要贡献。移除SFT冷启动阶段,Bamboogle上LasJ指标从59.2%降至56.8%;移除RL阶段,性能大幅下降,F1指标从60.8%降至47.4%;移除组奖励或记忆机制,性能也有不同程度下降,如移除组奖励,Musique上LasJ指标从32.8%降至32.4%,验证了各模块的有效性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/diannao/85601.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

图神经网络原理及应用简介

图神经网络(Graph Neural Networks, GNNs)原理及应用 1. 图神经网络的基本概念 图神经网络是一种专门用于处理图结构数据的深度学习模型。图(Graph)由节点(Node)和边(Edge)组成&…

Unity 限制物体在Bounds 包围盒控制移动

我列举两种方式,其实最终都是涉及到包围盒使用问题。可以通过 Box Collider 的 bounds 属性来获取物体的包围盒(Bounds)也可以直接设置Bounds包围盒使用,从而限制其移动范围。不过需要注意,直接使用 Box Collider 的 s…

SpringBoot中缓存@Cacheable出错

SpringBoot中使用Cacheable: 错误代码&#xff1a; Cacheable(value "FrontAdvertiseVOList", keyGenerator "cacheKey") Override public List<FrontAdvertiseVO> getFrontAdvertiseVOList(Integer count) {return this.list(Wrappers.<Adve…

位集合(STL bitset)简介

【bitset 官方网址】 https://cplusplus.com/reference/bitset/bitset/ 位集合&#xff08;Bit Set&#xff09;是一种高效存储和操作布尔值&#xff08;true/false&#xff09;或二进制位&#xff08;0/1&#xff09;的数据结构&#xff0c;主要用于处理大规模整数集合或状态标…

基于SDN环境下的DDoS异常攻击的检测与缓解

参考以下两篇博客&#xff0c;最后成功&#xff1a; 基于SDN的DDoS攻击检测和防御方法_基于sdn的ddos攻击检测与防御-CSDN博客 利用mininet模拟SDN架构并进行DDoS攻击与防御模拟&#xff08;Ryumininetsflowpostman&#xff09;_mininet模拟dos攻击-CSDN博客 需求 H2 模拟f…

责任链模式:构建灵活可扩展的请求处理体系(Java 实现详解)

一、责任链模式核心概念解析 &#xff08;一&#xff09;模式定义与本质 责任链模式&#xff08;Chain of Responsibility Pattern&#xff09;是一种行为型设计模式&#xff0c;其核心思想是将多个处理者对象连成一条链&#xff0c;并沿着这条链传递请求&#xff0c;直到有某…

如何进行页面前端监控

&#x1f9d1;‍&#x1f4bb; 写在开头 点赞 收藏 学会&#x1f923;&#x1f923;&#x1f923; 前端监控主要分三个方向 前端性能&#xff08;用户体验优化&#xff09; 异常监控 业务指标跟 下面我来分别介绍三类指标如何获取 1&#xff09;前端性能指标&#xff1a; …

Ajax技术分析方法全解:从基础到企业级实践(2025最新版)

引言 Ajax技术自2005年正式命名以来,已支撑全球83%的Web应用实现异步交互。2025年最新数据显示,单页面应用(SPA)的Ajax请求密度已达日均120亿次/应用。本文将系统化解析Ajax分析方法论,涵盖从基础原理到企业级工程实践的完整技术栈。 一、Ajax技术架构解构 1.1 核心组件…

git管理github上的repository

1. 首先注册github并创建一个仓库&#xff0c;这个很简单&#xff0c;网上教程也很多&#xff0c;就不展开说了 2. 安装git&#xff0c;这个也很简单&#xff0c;不过这里有个问题就是你当前windows的用户名即&#xff1a;C/Users/xxx 这个路径不要有中文&#xff0c;因为git …

Windows 下部署 SUNA 项目:虚拟环境尝试与最终方案

#工作记录 #回顾总结 本文记录了在 Windows 系统上&#xff0c;通过 PyCharm 图形界面&#xff08;尽量减少命令行操作&#xff09;部署 SUNA 项目时&#xff0c;针对不同虚拟环境方案的尝试过程、遇到的问题以及最终选择的可行方案&#xff0c;并补充了整体部署思路与推荐。…

无向图的点、边双连通分量

文章目录 点双连通分量边双连通分量 有向图的强连通分量&#xff1a;寒假学习笔记【匠心制作&#xff0c;图文并茂】——1.20拓扑、强连通分量、缩点 点双连通分量 在这之前&#xff0c;先让我们了解几个概念。 割点&#xff1a;删除一个点和其连出的边后&#xff0c;原图会…

第六十二节:深度学习-加载 TensorFlow/PyTorch/Caffe 模型

在计算机视觉领域,OpenCV的DNN(深度神经网络)模块正逐渐成为轻量级模型部署的利器。本文将深入探讨如何利用OpenCV加载和运行三大主流框架(TensorFlow、PyTorch、Caffe)训练的模型,并提供完整的代码实现和优化技巧。 一、OpenCV DNN模块的核心优势 OpenCV的DNN模块自3.3…

Spring @Autowired自动装配的实现机制

Spring Autowired自动装配的实现机制 Autowired 注解实现原理详解一、Autowired 注解定义二、Qualifier 注解辅助指定 Bean 名称三、BeanFactory&#xff1a;按类型获取 Bean四、注入逻辑实现五、小结 源码见&#xff1a;mini-spring Autowired 注解实现原理详解 Autowired 的…

胜牌™全球成为2026年FIFA世界杯™官方赞助商

胜牌全球将首次与国际足联&#xff08;FIFA&#xff09;旗舰赛事建立合作关系。 此次赞助恰逢美国首个润滑油品牌即将迎来160周年之际&#xff0c;其国际扩张步伐正在加快。 在这项全球顶级赛事筹备期间&#xff0c;胜牌全球将通过各种富有创意的零售和体验活动与球迷互动。 …

YOLOV7改进之融合深浅下采样模块(DSD Module)和轻量特征融合模块(LFI Module)

目录 一、研究背景​ 二. 核心创新点​ ​2.1 避免高MAC操作​ ​2.2 DSDM-LFIM主干网络​ 2.3 P2小目标检测分支​ ​3. 代码复现指南​ 环境配置 关键修改点 ​4. 实验结果对比​ 4.1 VisDrone数据集性能 4.2 边缘设备部署 4.3 检测效果可视化 ​5. 应用场景​ …

【C/C++】chrono简单使用场景

chrono使用场景举例 1 输出格式化字符串 示例代码 auto now std::chrono::system_clock::now(); auto t std::chrono::system_clock::to_time_t(now); auto ms std::chrono::duration_cast<std::chrono::milliseconds>(now.time_since_epoch()) % 1000;std::ostrin…

Med-R1论文阅读理解-1

论文总结&#xff1a;Med-R1: Reinforcement Learning for Generalizable Medical Reasoning in Vision-Language Models 论文写了什么&#xff1f; 本文提出了一种名为 Med-R1 的新框架&#xff0c;旨在通过强化学习&#xff08;Reinforcement Learning, RL&#xff09;提升…

京东热点缓存探测系统JDhotkey架构剖析

热点探测使用场景 MySQL 中被频繁访问的数据 &#xff0c;如热门商品的主键 IdRedis 缓存中被密集访问的 Key&#xff0c;如热门商品的详情需要 get goods$Id恶意攻击或机器人爬虫的请求信息&#xff0c;如特定标识的 userId、机器 IP频繁被访问的接口地址&#xff0c;如获取用…

MCU_IO驱动LED

注意事项&#xff1a; 1、亮度要求较高的情况下&#xff0c;不能由IO直接驱动LED MCU_IO引脚输出的电压和电流较弱&#xff0c;如果对光的亮度有要求的话&#xff0c;需要使用三极管来驱动。 MCU_IO的电压一般为3.3V或者5V&#xff0c;输出电流一般10mA-25mA。 2、不同颜色…

MyBatis 深度解析:高效 Java 持久层框架实践指南(基于 3.5.10)

一、MyBatis 核心架构与设计哲学 MyBatis 作为半自动 ORM 框架&#xff0c;核心设计目标是在灵活性与开发效率之间取得平衡。与 Hibernate 等全自动 ORM 框架不同&#xff0c;MyBatis 允许开发者完全控制 SQL 编写&#xff0c;同时通过映射机制减少重复代码&#xff0c;特别适…