RLVR的一种扩展方案--RLPR论文阅读

论文链接:RLPR: EXTRAPOLATING RLVR TO GENERAL DOMAINS WITHOUT VERIFIERS

文章目录

  • 简介
  • RLPR
    • RLVR
    • 概率奖励/Probability Reward
    • 奖励设计
    • 标准差过滤
  • 总结

简介

可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)在提升大语言模型(LLMs)的推理能力方面展现出了良好潜力,但其依赖基于规则、准确答案或代码运行等可验证的硬奖励,使其很大程度上局限于数据和代码领域。

为了解决此问题,本论文作者发现LLMs生成正确自由形式答案的内在概率能直接反应其对推理奖励的自我评估,即推理过程对得出争取答案的贡献程度;基于这一见解,提出了一种无需验证器的简洁框架–基于参考概率奖励的强化学习(Reinforcement Learning with Reference Probability Reward, RLPR),其可将RLVR扩展到更广泛的通用领域。RLPR使用LLMs对参考答案的token概率分数作为奖励信号,在训练过程中最大化期待的奖励;该概率分数是LLMs基础能力中自然内置的一部分,即使没有专门微调,也能为奖励评估提供良好的覆盖范围和潜力;此外其还能更好地应对自由形式自然语言答案的复杂性和多样性,即使对于部分正确的答案,也能给出合理的奖励。RLPR引入了以下两项关键创新:

  • 提出一种简单可扩展的奖励方案,可替代来自外部验证器的显示奖励,直接通过参考答案token的平均解码概率计算内在概率的奖励;包含一种简单的去偏方法,通过优化同一提示在无推理情况下的奖励优势来消除文本带来的奖励偏差
  • 提出一种自适应课程学习机制以稳定训练过程,基于过去奖励标准差的指数移动平均值设定动态阈值,自适应地移除那些产生低奖励标准差的提示(过于简单或过于复杂),这种方法能很好地适应训练过程中奖励分布的变化,提高训练稳定性和最终性能

在四个通用领域基准和三个数学基准上进行的全面实验表明,对于基于 Gemma、Llama 和 Qwen 的模型,RLPR 在这两个领域中均能持续提升其推理能力。值得注意的是,RLPR 在 TheoremQA 基准上比同期的 VeriFree 方法高出 7.6 分,在 Minerva 基准上高出 7.5 分,甚至在七个基准上的平均得分比依赖强验证器模型的 General-Reasoner 方法高出 1.6 分。

在这里插入图片描述

图1 常规RLVR和RLPR对比

图1详细描述了传统RLVR和RLPR之间的区别,RLVP依赖专用验证器计算奖励,如图中描述的数学验证器、代码验证器等,并且一般较为复杂且具有领域性,难以迁移到其他领域。RLPR则使用策略模型 πθ\pi_{\theta}πθ生成的简单概率奖励替代负责的基于验证器的奖励,其中 Q,z,y,y∗Q,z,y,y^*Q,z,y,y分别表示输入问题、LLMs生成最终答案前的推理内容、生成的最终答案和参考答案。图1右侧的一个例子则表明,RLVR常使用的规则和验证器在处理自然语言负责性有限,它们会将 y2,y3y_2,y_3y2,y3标记为不正确,但是RLPR则能成功将 y2,y3y_2,y_3y2,y3标记为正向奖励。

RLPR

RLVR

RLVR是一种典型的后训练范式,其基于规则的验证器为每个生成的响应分配一个奖励分数的标量;即给定提示词 xxx、策略模型 πθ\pi_{\theta}πθ,LLMs生成推理内容 zzz和最终的答案 yyy,然后对期望的验证器奖励分数进行优化:
J(θ)=Ez,y∼πθ(⋅∣x)[fverifier(y,y∗)](1)\mathcal{J}(\theta)=\mathbb{E}_{z,y \sim \pi_{\theta}(\cdot|x)}[f_{verifier}(y,y^*)] \tag1J(θ)=Ez,yπθ(x)[fverifier(y,y)](1)

其中 fverifierf_{verifier}fverifier是特定于任务的基于规则的验证器,用于判断生成的答案 yyy是否通过由真实答案 y∗y^*y定义的测试,常见的验证器包括数学问题的符号验证器、用于代码生成的沙箱执行验证器等。构建基于规则的验证器是一项费力的系统性功能,需要人为设计规则并处理边缘情况,极大限制了RLVR在新领域的领用。

概率奖励/Probability Reward

将一个问题 QQQ的回复用 o=(o0,⋅⋅⋅,oN)o=(o_0,\cdot\cdot\cdot,o_N)o=(o0,,oN)表示,其中 $o_i
$是回复中一个独立的token。为了获得概率,先从生成的整个回复序列中提取答案 yyy,剩下的部分为推理内容 zzz。然后将生成回复中的真实答案 yyy替换为参考答案 y∗y^*y得到一个调整后的序列 o′=(o0′,⋅⋅⋅,oN′′)o^{'}=(o^{'}_0,\cdot\cdot\cdot,o^{'}_{N^{'}})o=(o0,,oN),将此序列送入策略模型得到概率 (p0,⋅⋅⋅,pN′)(p_0,\cdot\cdot\cdot,p_{N^{'}})(p0,,pN),奖励则由以下公式计算:
r=fseq({pi∣oi′∈o′})(2)r=f_{seq}(\{p_i|o_i^{'} \in o^{'}\}) \tag2r=fseq({pioio})(2)

其中 fseqf_{seq}fseq用于将每个token的概率聚合为响应 ooo的单个奖励标量。虽然使用 fseq=∏Nf_{seq}=\sqrt[N]{\prod}fseq=N(概率的归一化乘积,即序列似然性)可以反映参考答案的整体似然性,但发现这种方式会引入高方差,并且对同义词等细微变化过于敏感。例如,token 概率序列(0.01, 0.7, 0.9)和(0.05, 0.7, 0.9)在乘积运算下会产生差异极大的分数,尽管仅在第一个 token 上存在微小差异。为解决这一问题,转而采用 fseq=1∣y∗∣∑f_{seq} = \frac{1}{|y^*|}\sumfseq=y1(均值概率),这种方式能产生更稳健的奖励信号,与答案质量的相关性更优。实验观察到,概率奖励值与生成答案 yyy的质量高度一致:当预测答案与参考答案在语义上相似时,会获得较高奖励;反之,则奖励较低。

奖励设计

基于概率的奖励与响应质量有很强的相关性,但也会受到多种潜在因素的影响,大致可分解为两个潜在因素,分别是推理内容 zzz和涵盖其他相关但未观测因素的特征,如问题、参考答案等。直接使用公式(2) 中的 rrr作为奖励会引入未观测因素,可能降低奖励质量。为了缓解此问题,引入基准分数 r′=fseq({pi∣oi′∈y∗})r^{'}=f_{seq}(\{p_i|o_i^{'} \in y^*\})r=fseq({pioiy}),即使用公式(2)只计算参考答案 y∗y^*y的分数。去偏后的概率奖励计算如下:
r^=clip(0,1,r−r′)(3)\hat{r}=\text{clip}(0,1,r-r^{'}) \tag3r^=clip(0,1,rr)(3)

其中的裁剪操作确保奖励可保持在李强的数值范围 [0,1][0,1][0,1]之内。公式(3)可有效消除来自问题和参考答案的潜在偏差,将概率奖励/PR建模未给定生成推理过程 zzz后概率的提升量。实验发现,此去偏方法可以稳定训练过程,提高奖励的稳健性,最终目标函数的梯度估计器为:
∇JRLPR(θ)=∇Eo∼πθ(⋅∣x)[r^]=∑or^πθ(o∣x)∇log⁡πθ(o∣x)=Eo∼πθ(⋅∣x)[r^∇log⁡πθ(o∣x)]\begin{align*} \nabla \mathcal{J}_{RLPR}(\theta) &= \nabla \mathbb{E}_{o \sim \pi_{\theta}(\cdot|x)}[\hat{r}] \\ &= \sum_{o} \hat{r}\pi_{\theta}(o|x) \nabla \log \pi_{\theta}(o|x) \\ &= \mathbb{E}_{o \sim \pi_{\theta}(\cdot|x)}[\hat{r}\nabla \log \pi_{\theta}(o|x)] \tag4 \end{align*}JRLPR(θ)=Eoπθ(x)[r^]=or^πθ(ox)logπθ(ox)=Eoπθ(x)[r^logπθ(ox)](4)

其中在整个回复 o=z∣∣yo=z||yo=z∣∣y上优化奖励。

标准差过滤

常规的强化学习或RLVR一般采用准确率过滤,即排除过难或过易的prompts来稳定训练,意味着很大概率会过滤掉完全正确或完全错误的prompts。然而概率奖励/PR的连续性使其难以直接引用准确率过滤,因为很难为响应的正确性设定一个通用阈值。

通过分析准确率过滤,观察到过滤奖励标准差交替的prompts能够达到类似的效果。具体来说,概率奖励值取值范围为 [0,1][0,1][0,1],具有有界性,那些产生全高分或圈地分的prompts会表现出较低的标准差。训练过程中整体的标准差分布不断变化,固定的阈值可能会在不同训练阶段导致过滤过严或过松的问题。为解决此问题,采用指数移动均值,利用每个训练步的平均标准差来动态更新过滤阈值 β\betaβ。通过过滤掉奖励标准差小于 β\betaβ的prompts,实现一种自适应课程学习机制,提升训练稳定性的同时也提高最终性能。

总结

待补充…

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/90137.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/90137.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

odoo欧度小程序——添加用户

odoo欧度小程序添加登录用户 1. 直接在登录用户页面添加用户点击 添加登录用户输入用户和密码,点击登录验证进入odoo页面2. 在用户切换页面添加用户点击选择切换用户点击域名弹出菜单点击添加新用户输入用户和密码,点击登录验证进入odoo页面

Docker 应用数据备份、迁移方案

一、为什么要做Docker数据备份1、保障数据与配置的安全性防止数据丢失:Docker 容器本身是 “临时性” 的(基于镜像创建,删除后数据默认丢失),但容器中运行的应用(如数据库、日志服务)会产生持久…

【PTA数据结构 | C语言版】强连通分量

本专栏持续输出数据结构题目集,欢迎订阅。 文章目录题目代码题目 本题请你编写程序,输出给定有向图中的各个强连通分量,并统计强连通分量的个数。 输入格式: 输入首先在第一行给出 2 个整数,依次为有向图的顶点数 n&…

idea部署新项目时,用自定义的maven出现的问题解决

出现这个问题是因为maven版本和idea版本不兼容,例如图示是maven3.9和idea2021.3的版本不兼容,maven换成3.8.x即可解决

OCR 身份识别:让身份信息录入场景更高效安全

在银行柜台开户、线上平台实名认证等场景中,身份信息录入是基础环节,OCR 身份识别产品正成为提升效率与安全性的关键。​传统人工录入身份证信息,不仅耗时久,还易因手误导致姓名、号码出错,影响业务办理进度。而 OCR 身…

Web 服务器和Web 中间件

一、什么是 Web 中间件 Web 中间件(Web Middleware)是运行在 Web 服务器与实际业务程序之间的一层“胶水”软件,用来统一处理公共事务,让开发者专注写业务逻辑。常见职责: 请求/响应拦截(鉴权、日志、跨域、…

Paimon的部分更新以及DeleteVector实现

背景 本文基于 Paimon 0.9 出于对与Paimon内部的DeleteVctor的实现以及部分更新的实现进行的源码阅读。 关于 DeleteVector的介绍可以看这里 说明 对于Paimon来说无论是Spark中使用还是Flink使用,后面的逻辑都是一样的,所以我们以Spark为例来说。所以…

Redis 的事务机制是怎样的?

Redis 的事务机制 Redis支持事务机制,其主要目的是确保多个命令执行的原子性,即这些命令会作为一个不可分割的操作单元执行。 需要注意的是,Redis事务不支持回滚操作。从Redis 2.6.5版本开始,服务器会在命令累积阶段检测错误。在执行EXEC命令时,若发现错误则会拒绝执行事…

网安学习NO.17

1. VPN 概述定义:在公用网络(如 Internet、帧中继、ATM 等)中,通过技术手段虚拟出的一条企业内部专线,能像私有网络一样提供安全性、可靠性和可管理性。核心特征:利用公共网络构建,具备 “虚拟性…

MCU芯片AS32S601在卫星光纤放大器(EDFA)中的应用探索

摘要:本文聚焦于国科安芯推出的AS32S601型MCU芯片在卫星光纤放大器(EDFA)中的潜在应用,探讨其技术特性、抗辐射性能及适用性。通过分析其在单粒子效应脉冲激光试验中的表现,结合EDFA系统对控制芯片的要求,评…

Hexo - 免费搭建个人博客02 - 创建个人博客

导言我的博客:https://q164129345.github.io/ 开始一步一步地完成博客的创建。 一、初始化Hexo博客以上所示,运行以下指令在myCode文件夹里初始化一个hexo博客。 hexo init myblog二、安装依赖如上所示,完成依赖的安装。 cd myblog npm insta…

单片机-----基础知识整合

一、基础知识1)单片机的组成:中央处理器CPU、随机存储器RAM、只读存储器ROM、定时器、多种I/O接口、中断系统等2)STM32U575RIT6采用ARM Cortex-M33内核架构ARM是什么?①ARM是一家公司,ARM公司是一家芯片知识产权&#…

双流join 、 Paimon Partial Update 和 动态schema

背景 Paimon 通过其独特的 partial-update 合并引擎和底层的 LSM 存储结构,巧妙地将传统双流 Join 中对 Flink State 的高频随机读/写,转换为了对 Paimon 表的顺序写和后台的高效合并,从而一站式地解决了 Flink 作业状态过大、依赖外部 KV 系…

7.3.1 进程调度机制那些事儿

一:task_struct结构体分析 1、进程有两种特殊形式:没有用户虚拟地址空间的进程叫内核线程,共享用户虚拟地址空间的进程叫作用户线程。共享同一个用户虚拟地址空间的所有用户线程叫线程组。 C语言标准库进程 Linux内核进程 …

基于多种机器学习的水质污染及安全预测分析系统的设计与实现【随机森林、XGBoost、LightGBM、SMOTE、贝叶斯优化】

文章目录有需要本项目的代码或文档以及全部资源,或者部署调试可以私信博主项目介绍总结每文一语有需要本项目的代码或文档以及全部资源,或者部署调试可以私信博主 项目介绍 随着工业化和城市化的不断推进,水质污染问题逐渐成为影响生态环境…

Linux第三天Linux基础命令(二)

1.grep命令可以通过grep命令,从文件中通过关键字过滤文件行。grep [-n] 关键字 文件路径选项-n,可选,表示在结果中显示匹配的行的行号。参数,关键字,必填,表示过滤的关键字,带有空格或其它特殊符…

Linux Debian操作系统、Deepin深度操作系统手动分区方案参考

以下是Linux Debian操作系统、Deepin深度操作系统安装过程中手动分区的建议,按UEFI、swap、boot、根分区、home分区划分,以下是详细的分区配置参考建议: 一、手动分区方案(UEFI模式)分区名称分区类型大小建议挂载点文件…

jmeter如何做自动化接口测试?

全网最全流程!JmeterAntAllureJenkins搭建属于你的接口自动化流水线,CI/CD直接起飞!1.什么是jmeter? JMeter是100%完全由Java语言编写的,免费的开源软件,是非常优秀的性能测试和接口测试工具,支…

MyBatis整合SpringBoot终极指南

以下是一份系统化的 ​MyBatis 整合 Spring Boot 学习笔记&#xff0c;结合官方文档与最佳实践整理&#xff0c;涵盖配置、核心功能、实战示例及常见问题解决。 一、整合基础与依赖配置 1. ​核心依赖​ 在 pom.xml 中添加&#xff1a; <dependency><groupId>or…

企业微信ipad协议接口解决方案最新功能概览

支持最新版本企业微信&#xff0c;安全稳定0封号免费试用&#xff0c;技术支持&#xff1a;string wechat"Mrzhu0107"企微ipad协议接口最新功能升级如下&#xff1a;【初始化】初始化企业微信&#xff0c;设置消息回调地址&#xff0c;获取运行中的实例&#xff0c;根…