LUFFY(路飞): 使用DeepSeek指导Qwen强化学习

论文标题

Learning to Reason under Off-Policy Guidance

论文地址

https://arxiv.org/pdf/2504.14945

代码地址

https://github.com/ElliottYan/LUFFY

作者背景

上海人工智能实验室,西湖大学,南京大学,香港中文大学

动机

目前大模型的后训练方法有 SFT 和 RL 两种形式,前者强调模仿,后者强调探索。两类后训练方法各有千秋,基于模仿的训练能够快速调整模型的行为模式,但这种调整很可能流于表面而非真正掌握解题策略;基于探索的训练能够使模型自行找出奖励最高的行为策略,但受限于基础模型本身的能力,探索时很可能只是反复尝试当前已掌握的行为模式,难以利用全新的思路去解决问题,实践中我们也经常遇到RL训练进入瓶颈的问题

在这里插入图片描述

于是作者希望结合“模仿”与“探索”两种学习方式,让模型自主探索解题策略的同时,也有机会模仿外部强模型的行为模式,从而使大模型获得超越其初始认知边界的推理能力

本文方法

本文提出 LUFFY(Learning to reason Under oFF-policY guidance),核心思想是引入外部强模型(deepseek-R1)作为off-policy,与当前策略模型(on-policy)一同参与采样,从而指导 RL 进行更高效的学习,避免纯 on-policy 模型在面临复杂问题时迟迟探索不出有效策略

一、LUFFY流程与优化目标

在这里插入图片描述

如上图所示,对于问题q,由当前策略模型与外部强模型共同采样一组输出,然后使用统一的奖励函数对所有采样评分(检查格式正确性与答案正确性)

和标准GRPO一样,对所有回答的奖励分数做标准化作为优势,即高于均值的优势为正,低于均值的优势为负或较小。由于外部强模型采样得更少,只有当策略模型难以独立生成正确解时它才占据产生梯度的主导地位,一旦策略模型能够产生成功的推理轨迹, GRPO便开始鼓励自主探索

grpo算法通常需要进行重要性采样,因为它在策略更新过程中,使用旧策略上采样的数据去预估新策略的期望回报

在这里插入图片描述

LUFFY中使用了off-policy模型,更需要进行这一校准,其优化目标如下所示:
在这里插入图片描述

为了更好地模拟外部强模型的行为,作者最终移除了梯度裁剪

二、梯度塑形

作者发现,直接按照上述流程将外部强模型引入RL训练后,尽管利用重要性采样加速了收敛,但模型表现出低熵、探索行为明细变少。这是因为策略模型在模仿外部模型时,对不同概率的token存在偏差,即策略模型倾向于强化那些【同时常见于 onPolicy 分布与 offPolicy 分布的token】,忽略了【不常见于 OnPolicy 分布的 token】,即便这些token在offPolicy中出现概率很高。如此一来,模型便忽略了这部分体现强模型关键推理能力的低概率token

教师正在认真纠正学生的错误想法,但学生只想着“求同存异”,迅速理解了老师的思想与自己的共同之处,而没关注到老师的独特之处

为了解决这一问题,作者提出了“梯度塑形”方法,本质上便是根据 token 不同的概率对梯度进行加权。具体地,作者使用了 f(x)=γ/(γ+x) 这一变换函数(γ为超参数,实验中取0.1),其函数图像为:

在这里插入图片描述

加入梯度塑形后,训练过程中策略模型的熵始终保持在一个较高的状态,即具有更好的探索能力,并且有效避免了 Entropy Collapse

在这里插入图片描述

实验结果

基于 Qwen2.5-Math-7B 模型,在OpenR1-Math-220k上进行训练,外部强模型使用DeepSeek-R1,在6个常用的数学推理基准上测试

在这里插入图片描述

可见 LUFFY 方法全面超越了各类on-policy与off-policy方法

实验各策略的资源开销对比

在这里插入图片描述

其他模型实验结果

在这里插入图片描述

LUFFY与on-policy RL训练动态对比

在这里插入图片描述

LUFFY 在困难问题上能够问答训练,而on-policy 方法崩溃

在这里插入图片描述

各组件消融实验

在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/news/908601.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android Camera Hal中通过Neon指令优化数据拷贝

背景描述: Camera apk普通相机模式录像操作时,一般是同时请求两个流,即预览流和录像流。对于两个流输出图像格式和分辨率相同的情况下,是不是可以通过一个流拷贝得到另一个流的数据,进而节省掉一个Sensor输出处理两次…

WPS word 已有多级列表序号

wps的word中,原来已生成的文档里,已存在序号。比如,存在2、2.1、2.1.1、2.1.1.1、2.1.1.1.1 5层序号,而且已分为5级。但增加内容的时候,并不会自动增加序号,应该如何解决? 原来长这样&#xff…

从零开始制作小程序简单概述

以下是结合案例的“从零制作小红书风格小程序”的全流程指南,采用小红书爆款笔记的结构呈现,并附CSDN参考资源👇: 一、核心开发步骤(附工具推荐) 账号与定位 ✅ 注册类型选择:个人店&#xff08…

【Go语言基础【13】】函数、闭包、方法

文章目录 零、概述一、函数基础1、函数基础概念2、参数传递机制3、返回值特性3.1. 多返回值3.2. 命名返回值3.3. 错误处理 二、函数类型与高阶函数1. 函数类型定义2. 高阶函数(函数作为参数、返回值) 三、匿名函数与闭包1. 匿名函数(Lambda函…

网络编程之服务器模型与UDP编程

一、服务器模型 在网络通信中,通常要求一个服务器连接多个客户端 为了处理多个客户端的请求,通常有多种表现形式 1、循环服务器模型 一个服务器可以连接多个客户端,但同一时间只能连接并处理一个客户的请求 socket() 结构体 bind() listen() …

open3D:三维点云处理

open3d 点云数据处理 爆肝5万字❤️Open3D 点云数据处理基础(Python版)_python 点云 焊缝-CSDN博客 如何用NumPy读取和保存点云数据 - 知乎 读取并可视化点云 np.loadtxt 从txt中读取点集,并open3d显示单个点云 txt内容:每行皆…

使用联邦多轨迹图神经网络(GNNs)结合稀缺数据预测婴儿脑连接|文献速递-深度学习医疗AI最新文献

Title 题目 Predicting infant brain connectivity with federated multi-trajectory GNNs using scarce data 使用联邦多轨迹图神经网络(GNNs)结合稀缺数据预测婴儿脑连接 01 文献速递介绍 多模态影像下的婴儿脑连接演化预测:联邦学习与…

[特殊字符] 深入理解 Linux 内核进程管理:架构、核心函数与调度机制

Linux 内核作为一个多任务操作系统,其进程管理子系统是核心组成部分之一。无论是用户应用的运行、驱动行为的触发,还是系统调度决策,几乎所有操作都离不开进程的创建、调度与销毁。本文将从进程的概念出发,深入探讨 Linux 内核中进…

第16节 Node.js 文件系统

Node.js 提供一组类似 UNIX(POSIX)标准的文件操作API。 Node 导入文件系统模块(fs)语法如下所示: var fs require("fs") 异步和同步 Node.js 文件系统(fs 模块)模块中的方法均有异步和同步版本&#xff…

《探秘局域网广播:网络世界的 “大喇叭”》

揭开局域网广播的神秘面纱 在当今数字化时代,网络已成为人们生活和工作中不可或缺的一部分。从日常的网页浏览、社交媒体互动,到企业级的数据传输、云计算应用,网络通信无处不在。在这个庞大而复杂的网络世界里,数据如同信息流在各个节点之间穿梭,而局域网广播则是其中一种…

基于Ubuntu22.04安装SVN服务器之仓库迁移

基于Ubuntu22.04安装SVN服务器之仓库迁移 第一步: 停止svn服务器 第一步: 停止svn服务器 1)建议迁移的时候先把SN服务器停掉,以免操作失败。 svnserve -d -r /usr/svn第二步:dump出svn代码库 1)通过dump出旧的svn服务器上的代码…

Unity UI 性能优化终极指南 — Image篇

🎯 Unity UI 性能优化终极指南 — Image篇 🧩 Image 是什么? Image 是UGUI中最常用的基本绘制组件支持显示 Sprite,可以用于背景、按钮图标、装饰等是UI性能瓶颈的头号来源之一,直接影响Draw Call和Overdraw &#x1…

「Java基本语法」代码格式与注释规范

Java代码的基本格式 Java代码的规范格式是编写和维护Java程序的基础,其中包括类定义、方法定义、代码缩进、大括号位置等。 1.核心规则 每个Java文件必须包含一个公共类(public class),且Java源文件的文件名必须和这…

2025年AI编程工具推荐

目录 👑 **一、全能型AI开发环境(IDE)**🛠️ **二、AI代码助手与插件**🎯 **三、垂直领域工具**🇨🇳 **四、国产工具精选**🔮 **五、创新前沿工具**⚖️ **选型建议** 2025年&#x…

【工具使用】STM32CubeMX-FreeRTOS操作系统-信号标志、互斥锁、信号量篇

一、概述 无论是新手还是大佬,基于STM32单片机的开发,使用STM32CubeMX都是可以极大提升开发效率的,并且其界面化的开发,也大大降低了新手对STM32单片机的开发门槛。     本文主要讲述STM32芯片FreeRTOS信号标志、互斥锁和信号…

ArrayList和LinkedList(深入源码加扩展)

ArrayList 和 LinkedList 是 Java 集合框架中两种常用的列表实现,它们在底层数据结构、性能特点和适用场景上有显著的区别。以下是它们的详细对比以及 ArrayList 的扩容机制。 1. ArrayList 和 LinkedList 的底层区别 (1) 底层数据结构 ArrayList: 基于动态数组(Dynamic Ar…

浅谈 React Suspense

React Suspense 是 React 中用于处理异步操作的功能。它可以让你"等待"某些操作,如数据获取或组件加载完成,然后再渲染组件。Suspense 的核心理念是让组件在准备好之前显示一个备用的 UI,例如加载指示器,从而提高用户体…

机器学习的数学基础:线性模型

线性模型 线性模型的基本形式为: f ( x ) ω T x b f\left(\boldsymbol{x}\right)\boldsymbol{\omega}^\text{T}\boldsymbol{x}b f(x)ωTxb 回归问题 利用最小二乘法,得到 ω \boldsymbol{\omega} ω和 b b b的参数估计$ \boldsymbol{\hat{\omega}}…

Linux【4】------RK3568启动和引导顺序

引导顺序 RK3568 的启动流程如下: 加电后,芯片首先执行 BootROM 中的代码; BootROM 会尝试从配置好的外部设备(如 NOR/NAND/eMMC/SD 卡)加载启动程序; 如果这些设备都没有有效的启动代码,Bo…

Deepseek/cherry studio中的Latex公式复制到word中

需要将Deepseek/cherry studio中公式复制到word中,但是deepseek输出Latex公式,比如以下Latex代码段,需要通过Mathtype翻译才能在word中编辑。 $$\begin{aligned}H_1(k1) & H_1(k) \frac{1}{A_1} \left( Q_1 u_1(k) Q_{i1} - Q_2 u_2(k…