SPARKLE:深度剖析强化学习如何提升语言模型推理能力

摘要:强化学习(Reinforcement Learning,RL)已经成为赋予语言模型高级推理能力的主导范式。尽管基于 RL 的训练方法(例如 GRPO)已经展示了显著的经验性收益,但对其优势的细致理解仍然不足。为了填补这一空白,我们引入了一个细粒度的分析框架,以剖析 RL 对推理的影响。我们的框架特别研究了被认为可以从 RL 训练中受益的关键要素:(1)计划遵循和执行,(2)问题分解,以及(3)改进的推理和知识利用。通过这个框架,我们获得了超越单纯准确率的见解。例如,为模型提供明确的分步计划,令人惊讶地在最具挑战性的基准测试中降低了性能,然而经过 RL 调优的模型表现出更强的鲁棒性,其性能下降幅度明显小于基础模型。这表明 RL 可能不是主要增强模型执行外部计划的能力,而是赋予模型制定和遵循更适合自己推理过程的内部策略的能力。相反,我们观察到 RL 增强了模型将提供的知识整合到其推理过程中的能力,从而在各种任务中实现了性能提升。我们还研究了难度,通过开发利用难题的新方法来改进训练。

本文目录

一、背景动机

二、核心贡献

三、实现方法

3.1 SPARKLE分析框架

3.2 多阶段RL训练

四、实验结果

4.1 RL提升性能的细粒度分析

4.2 多阶段RL的效果

五、结论与启示


一、背景动机

论文题目:Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning

论文地址:https://arxiv.org/pdf/2506.04723

近年来,强化学习(RL)已成为赋予语言模型高级推理能力的主导范式。尽管基于RL的训练方法(如GRPO)展现出显著的实证增益,但对其优势的细粒度理解仍显不足。现有评估大多局限于整体准确率,无法揭示RL在推理过程中的具体作用机制。例如,当模型在数学推理任务上表现提升时,我们无法确定这是由于计划执行能力增强、知识利用效率提高,还是问题分解策略优化所致。

为解决这一 问题,本文提出了SPARKLE分析框架,旨在系统剖析RL对推理能力的影响。该框架聚焦三个关键维度:(1)计划遵循与执行,(2)问题分解,(3)推理与知识利用改进。通过这一框架,研究人员能够超越简单的准确率指标,深入理解RL如何塑造模型的推理行为。

图1:强化学习基本框架示意图,展示智能体与环境的交互循环

二、核心贡献

  • SPARKLE分析框架:首次提出从计划执行、知识利用和问题分解三个维度评估推理能力的细粒度框架,克服了传统准确率指标的局限性。
  • 多阶段RL训练方法:设计了一种新的两阶段RL训练 pipeline,首先在多样化数学问题上进行RL训练,然后针对困难问题进行微调,并辅以部分解决方案提示,有效提升了模型在复杂任务上的表现。
  • 通过SPARKLE框架发现:
    • RL增强了模型制定和遵循内部策略的能力,而非执行外部提供的计划
    • RL显著提升了模型整合外部知识的能力,尤其在困难任务上效果更明显
    • 即使最终答案正确,模型在子问题解决链中仍存在推理缺陷

三、实现方法

3.1 SPARKLE分析框架

SPARKLE框架通过三个互补维度解析推理能力:

1. 计划遵循与执行 评估模型在有无外部计划指导下的表现差异。实验中为问题提供详细的步骤规划(如数学证明的关键步骤),比较模型在有/无计划条件下的准确率变化。

2. 知识利用 分离知识检索与推理过程,通过有无外部知识提供(如数学定理、公式)的对比实验,评估模型对知识的整合能力。

3. 子问题分解链 将复杂问题分解为一系列相互关联的子问题,要求模型逐步解决,定位推理失败的具体环节。例如,在解方程问题中,先要求模型确定变量范围,再求解具体值。

图2:语言模型推理能力评估示例,展示数学问题的分步解决过程

3.2 多阶段RL训练

研究采用两阶段训练策略:

  • 第一阶段:在40K多样化数学问题上使用GRPO算法进行RL训练
  • 第二阶段:针对第一阶段未解决的6.5K困难问题,采用三种策略进一步微调:
    • 仅使用困难问题
    • 混合难度问题
    • 困难问题+部分解决方案提示(提示中间步骤或关键提示)

四、实验结果

4.1 RL提升性能的细粒度分析

1. 计划遵循能力

  • 基础模型在提供外部计划时性能下降(在AIME24上从16.7%→16.7%,无提升)
  • RL调优模型表现出更强的稳健性,性能下降幅度显著减小(Stage 2模型在AIME24上仅从50.4%→47.9%)
  • 关键发现:RL增强的是模型制定内部策略的能力,而非执行外部计划的能力

2. 知识整合能力

  • 基础模型在提供外部知识时性能平均下降5.4%
  • RL调优模型在提供外部知识时性能平均提升4.2%
  • 知识增益随问题难度增加而显著提高(困难问题上增益达15.0%)

3. 子问题解决能力

所有模型在完整问题与子问题链上存在巨大性能差距:

  • 基础模型在AIME24上:完整问题准确率16.7% vs 子问题链准确率3.3%
  • RL调优模型在AIME24上:完整问题准确率50.4% vs 子问题链准确率17.5%
  • 关键发现:RL主要提升整体问题解决能力,但在细粒度子问题推理上仍有明显缺陷

4.2 多阶段RL的效果

对比不同训练策略的性能(Avg@8指标):

模型

AIME24

AMC23

MATH500

GSM8K

OlympiadBench

平均

基础模型

16.67

42.50

44.03

42.53

28.65

35.23

Stage 1

46.67

67.50

80.00

91.77

39.11

65.01

Stage 2-困难问题

41.67

65.94

80.50

92.45

37.39

63.59

Stage 2-混合难度

40.00

63.44

80.78

92.52

38.85

63.12

Stage 2-困难+提示

50.42

71.25

81.00

92.38

40.11

67.03

表1:不同训练策略下模型在各 benchmark 上的性能对比

结果显示,困难问题+部分解决方案提示的两阶段训练效果最佳,在最难的AIME24上达到50.42%的准确率,接近32B模型的性能水平。

五、结论与启示

本研究通过SPARKLE框架揭示了RL提升语言模型推理能力的细粒度机制,主要发现包括:

  • RL的核心优势:增强模型制定和执行内部策略的灵活性,而非遵循外部计划;提升知识整合能力,尤其在困难任务上效果显著。
  • 仍存挑战:即使RL调优模型,在子问题链解决上仍有明显缺陷,表明细粒度推理能力仍是未来研究的关键方向。
  • 实用启示:多阶段RL训练结合困难问题+提示策略可有效提升模型性能,为推理模型的训练提供了新范式。

未来工作可将SPARKLE框架扩展到数学以外的领域,并探索更有效的子问题推理增强方法,进一步推动语言模型推理能力的发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/89715.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/89715.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Linux服务器】-MySQL数据库参数调优

一、基础配置 [mysqld] # 声明以下配置属于MySQL服务器(mysqld)[mysqld]:配置文件的模块标识,表示这是 MySQL 服务器的配置段。 二、路径与基础设置 datadir/var/lib/mysql socket/var/lib/mysql/mysql.sock pid-file/var/run/mys…

sqli-labs靶场通关笔记:第32-33关 宽字节注入

第32关 宽字节注入查看一下本关的源代码:function check_addslashes($string) // 定义一个用于过滤特殊字符的函数,目的是转义可能用于注入的特殊符号 {$string preg_replace(/. preg_quote(\\) ./, "\\\\\\", $string); // 转义…

基于Eureka和restTemple的负载均衡

在微服务架构中,基于 Eureka(服务注册中心)和 RestTemplate(HTTP 客户端)实现负载均衡是常见的方案,核心是通过 Eureka 获取服务实例列表,再结合负载均衡策略选择具体服务实例进行调用。以下是详…

子线程不能直接 new Handler(),而主线程可以

在 Android 中,子线程不能直接 new Handler(),而主线程可以,原因在于 Looper 机制。下面详细解释:1. 为什么主线程可以直接 new Handler()? 主线程(UI 线程)在启动时,系统会自动调用…

Android无需授权直接访问Android/data目录漏洞

从android11开始,访问/sdcard/Android/data目录需要URI授权,而从更高的版本开始甚至URI权限也被收回,返回“无法使用此文件夹”的提示,这里提供一种方法,可以越权强制访问data目录,当然也包括obb、media等目…

本地部署 Kimi K2 全指南(llama.cpp、vLLM、Docker 三法)

Kimi K2 是 Moonshot AI 于2025年7月11日发布的高性能多专家语言模型(MoE),支持最大 128K 上下文,激活参数规模为 32B,具备极强的推理、代码生成与多轮对话能力。自从其权重以多种格式开源以来,许多开发者希…

使用python的pillow模块将图片转化为灰度图和相关的操作

使用python的pillow模块可以将图片转化为灰度图, 可以获取灰度图的特定点值,区域值, 修改值并保存到图片 图片转换为灰度图 from PIL import Image# 打开图片 image Image.open("d://python//2//1.jpg")gray_image image.convert…

【网络安全】大型语言模型(LLMs)及其应用的红队演练指南

未经许可,不得转载。 文章目录 什么是红队演练? 为什么 RAI 红队演练是一项重要实践? 如何开展和规划 LLM 的红队演练 1.测试前的准备 规划:由谁负责测试 规划:测试内容 规划:测试方式 规划:数据记录方式 2.测试过程中 3.每轮测试后 报告数据 区分“识别”与“测量” 本…

ROS2安装ros-humble-usb-cam 404错误导致失败的解决方法

ROS2安装ros-humble-usb-cam遇到404错误导致安装失败,如图:解决方法: 备份 sources.list sudo cp /etc/apt/sources.list.d/ros2.list /etc/apt/sources.list.d/ros2.list.bak替换为清华源 sudo sed -i s|http://packages.ros.org/ros2/ubunt…

OllyDbg技巧学习

1 尝试在反汇编代码中找到一个函数的二进制代码 有的时候需要一个函数的二进制代码,注入到另外的一些地方;以此程序为示例, 八叉树的C实现与原理解析-CSDN博客 Ollydbg打开可执行文件,我想先找到此函数的二进制代码体&#xff0…

数据分析智能体:让AI成为你的数据科学家

数据分析智能体:让AI成为你的数据科学家 🌟 嗨,我是IRpickstars! 🌌 总有一行代码,能点亮万千星辰。 🔍 在技术的宇宙中,我愿做永不停歇的探索者。 ✨ 用代码丈量世界&#xff0c…

K8s与Helm实战:从入门到精通

Kubernetes 简介 Kubernetes(简称 K8s)是一个开源的容器编排平台,用于自动化部署、扩展和管理容器化应用。最初由 Google 设计并捐赠给云原生计算基金会(CNCF),现已成为容器编排领域的事实标准。 核心功能 自动化容器部署:支持声明式配置和自动化部署,减少人工干预。…

根据ARM手册,分析ARM架构中,原子操作的软硬件实现的底层原理

目录 1.问题背景: 2.原子操作 2.1 硬件操作 2.1.1 LDREX/LDXR指令 2.1.2 STREX/STXR指令 2.2 软件操作 2.3 软件硬件操作的各性能对比 3.总结 1.问题背景: 我们知道,RTOS的任务调度算法是抢占式优先级调度算法。 既然是抢占了&…

iOS 抓包工具选择与配置指南 从零基础到高效调试的完整流程

iOS 抓包:复杂网络调试的必要技能 随着移动端应用越来越依赖网络交互,iOS 抓包作为核心调试工具之一,变得尤为重要。无论是调试 App 与后端的接口通信、排查 HTTPS 请求加密问题,还是定位网络连接超时、请求异常,抓包都…

Java使用FastExcel实现Excel文件导入

依赖配置 (Maven pom.xml)<dependencies><!-- FastExcel 核心库 --><dependency><groupId>cn.idev.excel</groupId><artifactId>fastexcel</artifactId><version>1.0.0</version></dependency><!-- Apache POI…

【60】MFC入门到精通——运行后 button按键上不显示 按键名, 控件上的文字不显示

文章目录运行后&#xff0c;button按键上不显示 “Test”原因是属性&#xff0c;图标–>True&#xff0c;改为False就好了。

抖音回应:没有自建外卖,就是在团购的基础上增加的配送功能

今年以来&#xff0c;外卖行业竞争愈加激烈&#xff0c;市场格局风云变幻。在这一背景下&#xff0c;外卖行业动向备受关注。近日&#xff0c;针对抖音上线团购版外卖的消息引发公众关注。为此&#xff0c;大公科技以商家身份咨询了抖店客服&#xff0c;对方回应称&#xff0c;…

中间件安全攻防全解:从Tomcat到Weblogic反序列化漏洞介绍

本文仅用于技术研究&#xff0c;禁止用于非法用途。 Author:枷锁 文章目录什么是中间件中间件漏洞(1) Tomcat(2) Weblogic(3) JBoss漏洞什么是中间件 中间件&#xff08;Middleware&#xff09;是指一种软件组件&#xff0c;其作用是在不同的系统、应用程序或服务之间传递数据…

现代前端开发流程:CI/CD与自动化部署实战

目录 引言现代前端开发面临的挑战CI/CD基础概念前端CI/CD流程设计实战案例&#xff1a;构建前端CI/CD管道自动化部署策略监控与回滚机制最佳实践与优化建议总结 引言 随着前端技术的飞速发展&#xff0c;现代Web应用变得越来越复杂。前端项目不再只是简单的HTML、CSS和JavaS…

MySQL EXPLAIN深度解析:优化SQL性能的核心利器

MySQL EXPLAIN深度解析&#xff1a;优化SQL性能的核心利器 引言&#xff1a;数据库性能优化的关键 在数据库应用开发中&#xff0c;SQL查询性能往往是系统瓶颈的关键所在。当面对慢查询问题时&#xff0c;EXPLAIN命令就像数据库工程师的X光机&#xff0c;能够透视SQL语句的执行…