强化学习新发现:仅需更新5%参数的稀疏子网络可达到全模型更新效果

摘要:强化学习(RL)已成为大语言模型(LLM)在完成预训练后与复杂任务及人类偏好对齐的关键步骤。人们通常认为,要通过 RL 微调获得新的行为,就必须更新模型的大部分参数。本研究对这一假设提出了挑战,并给出令人惊讶的发现:RL 微调实际上只改变了 LLM 中的一条小子网络(通常仅占 5%–30% 的参数),而绝大多数权重几乎保持不变。我们将这种现象称为“RL 诱导的参数更新稀疏性”。该稀疏性是自发产生的,没有施加任何显式的稀疏约束,也未采用参数高效微调技术。我们在 7 种不同的 RL 算法(PPO、GRPO、ORPO、KTO、DPO、SimPO 和 PRIME)以及多种模型家族(如 OpenAI、Meta 以及开源 LLM)中一致地观察到该稀疏性。更有趣的是,RL 所更新的这条子网络在不同随机种子、训练数据集甚至不同 RL 算法之间都表现出显著的重叠,远高于随机预期,表明预训练模型中存在部分可迁移的结构。我们发现,仅对这条子网络进行微调(冻结其余所有权重)即可恢复完整 RL 微调模型的性能,并且在参数空间中几乎与全模型微调得到的模型无异。最后,我们分析了 RL 为何仅更新一条稀疏子网络。证据表明,主要原因是 RL 微调所用的数据靠近模型自身的分布,只需进行微小且针对性的参数调整;而保持策略接近预训练模型(如 KL 正则化)以及其他实现细节(如梯度裁剪、on-policy 与 off-policy 更新)对整体稀疏性的影响有限。这些发现加深了我们对 RL 驱动模型适应的理解,表明 RL 将训练集中在一条小而始终活跃的子网络上,同时令大多数权重保持惰性,也为 RL 微调为何比监督微调更能保留预训练能力提供了新的解释。这为利用这种内在更新稀疏性的更高效 RL 微调方法(例如将计算集中在该子网络)打开了大门,并在大模型对齐的背景下为“彩票假设”提供了新的视角。

一句话总结文章

强化学习(RL)微调大语言模型时,仅更新模型中5-30%的参数形成稀疏子网络,且该子网络在不同随机种子、数据集和算法下具有高度一致性,独立训练即可达到全模型性能

论文信息

论文标题: "Reinforcement Learning Fine-Tunes a Sparse Subnetwork in Large Language Models"
作者: "Andrii Balashov"
会议/期刊: "arXiv preprint"
发表年份: 2025
原文链接: "https://www.arxiv.org/pdf/2507.17107"
代码链接: ""
关键词: ["强化学习微调", "稀疏子网络", "大语言模型", "参数高效微调", "RLHF"]
引用: "@article{balashov2025rlsparse,title={Reinforcement Learning Fine-Tunes a Sparse Subnetwork in Large Language Models},author={Balashov, Andrii},journal={arXiv preprint arXiv:2507.17107},year={2025}
}"

一、研究背景

近年来,大语言模型(LLMs)的对齐技术如RLHF(基于人类反馈的强化学习)已成为提升模型能力的关键手段。然而,现有方法存在两大痛点:

  1. 全模型微调效率低下:传统观点认为RL需要更新所有参数以实现行为对齐,但这导致计算成本高昂(尤其是70B等大模型)。
  2. 监督微调(SFT)的副作用:SFT会对模型参数进行密集更新(仅5-15%参数保持不变),可能破坏预训练知识,导致泛化能力下降。

尽管业界观察到RL微调比SFT更能保留预训练能力,但背后的机制一直是未解之谜。本文通过系统性实验揭示:RL微调本质上仅调整模型中的"关键旋钮"(稀疏子网络),这解释了为何它能在高效对齐的同时保留原有能力。

二、核心要点

“文章发现所有主流RL微调算法(PPO、DPO、PRIME等)在7B-70B规模模型上均表现出内在稀疏性——仅5-30%参数被显著更新。更惊人的是,这些更新并非随机:不同实验条件下更新的子网络重叠度高达60%,且仅训练该子网络就能达到全模型99.9%的性能。”

图1: SFT与RL微调的稀疏性对比
图1显示:RL微调后70-95%参数保持不变(蓝色柱),而SFT仅5-15%参数不变(红色柱)。误差条表示层间差异。

  • 现象发现:RL微调大语言模型时存在内在稀疏更新现象(70-95%参数不变)
  • 机制揭示:稀疏性源于RL对近分布数据的微调需求,非显式约束
  • 实用价值:子网络独立训练可降低70-95%计算成本,性能无损
  • 理论意义:为"彩票假说"提供新证据——预训练模型中存在可迁移的对齐子网络

三、深度拆解:稀疏子网络的四大发现

3.1 参数更新的"三分类"模式

图2: 参数更新类别分布
图2显示PRIME算法在7B模型上的参数更新分布:72%未更新(Untouched),20%持续更新(Effective),8%临时更新后回退(Cancelled)。

通过追踪参数变化轨迹,研究发现RL训练过程中参数更新呈现三种模式:

  • 未更新参数(72%):始终保持初始值,对RL目标无贡献
  • 有效更新参数(20%):持续调整并稳定在新值,构成核心子网络
  • 临时更新参数(8%):训练中期短暂变化,最终回退到初始值(图5的"瞬态更新"现象)

这种模式类似于人类学习:仅聚焦关键知识点,摒弃干扰信息

3.2 层间稀疏性的均匀分布

图3: 层稀疏性分布
图3显示DPO(左)和PRIME(右)算法在各层的稀疏性分布。所有Transformer层保持70-90%稀疏性,仅LayerNorm参数接近100%不变。

关键发现:

  • 均匀稀疏:稀疏性在所有Transformer层间均匀分布,非集中于输入/输出层
  • 特殊模块:LayerNorm参数几乎完全不变(99%+稀疏性),暗示RL微调不改变模型的基础归一化能力
  • 矩阵差异:Q/K/V投影矩阵稀疏性相近(75-80%),前馈层略低

这解释了为何RL微调能局部调整行为而不破坏整体架构

3.3 训练动态的"探索-收敛"过程

图4: 训练损失曲线
图4显示全模型微调(蓝色实线)与仅子网络微调(红色虚线)的损失曲线几乎重合,证明子网络足以完成优化目标。

图5: 瞬态更新比例
图5显示训练过程中"临时更新"参数比例先升后降,表明RL在早期探索后收敛到稳定子网络。

训练动态分析揭示:

  1. 早期探索:前20%训练步骤中,模型会尝试更新大量参数(瞬态更新比例达60%)
  2. 中期收敛:随着训练推进,非关键参数逐渐回退到初始值
  3. 稳定阶段:最终仅保留5-30%的核心参数更新

这种"先探索后聚焦"的机制,类似于科研中的假设验证过程

3.4 高秩更新的"精准手术"

表2显示RL更新矩阵的平均秩接近99.5%,远高于LoRA等低秩方法,表明稀疏但全维度的参数调整。

与LoRA等显式低秩方法不同,RL微调表现出:

  • 高秩特性:更新矩阵秩占最大可能秩的96.3-99.8%
  • 精准性:在稀疏更新的同时,覆盖参数矩阵的全维度空间
  • 效率平衡:以5-30%的参数更新实现接近全模型的表示能力

这如同用微创手术替代开腹手术——创伤小但效果等同。

四、实验结果:三大关键证据

4.1 子网络性能超越全模型微调

表3: 子网络与全模型性能对比
表3显示:仅训练RL识别的子网络(θ_sub)在所有任务上达到或超过全模型微调(θ_full)性能,尤其在高难度任务(如MATH Level 5)提升5.2%。

关键数据:

  • 平均性能提升:+1.6(DPO混合任务)、+2.4(PRIME数学任务)
  • 参数一致性:99.93-99.99%参数值与全模型微调完全一致
  • 计算效率:训练成本降低70-95%(仅更新5-30%参数)

4.2 子网络的跨条件一致性

图6: 子网络重叠度分析
图6显示不同实验条件下子网络重叠度(o1/o2)显著高于随机基线(rand o1/rand o2),证明子网络的内在一致性。

跨三种变异条件的重叠度:

  • 不同随机种子:60.5%重叠(随机基线36.7%)
  • 不同数据集:26.7-67.1%重叠(随机基线14.6-36.7%)
  • 不同算法:33.2-59.1%重叠(随机基线12.9-23.0%)

这种一致性暗示:预训练模型中存在固定的"对齐敏感"参数子集

4.3 稀疏性与任务难度的正相关

表3: 子网络与全模型性能对比

在数学推理任务中:

  • 简单任务(Level 1-2):子网络性能与全模型完全一致(0.0%差异)
  • 高难任务(Level 5):子网络性能提升5.2%,参数变化更集中

这表明:任务越复杂,RL越倾向于聚焦核心子网络,避免无关参数干扰。

五、未来工作:从发现到应用

5.1 文章展望

  • 开发动态子网络定位算法,实时识别并更新关键参数
  • 探索跨模型子网络迁移,实现知识复用
  • 结合剪枝技术,构建稀疏对齐专用模型

5.2 问题探讨

  1. 可视化研究:子网络是否对应特定注意力头/神经元集群?
  2. 对抗鲁棒性:稀疏子网络是否更易受参数攻击?
  3. 多任务场景:不同任务是否共享同一子网络?5.3 论文信息

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/90604.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/90604.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

electron 使用记录

目录 代理设置以打包成功 参考文档 代理设置以打包成功 参考文档 使用 JavaScript、HTML 和 CSS 构建跨平台桌面应用 |电子 --- Build cross-platform desktop apps with JavaScript, HTML, and CSS | Electron

Spring boot Grafana优秀的监控模板

JVM (Micrometer) | Grafana Labs 1 SLS JVM监控大盘 | Grafana Labs Spring Boot 2.1 Statistics | Grafana Labs springboot granfana 监控接口指定接口响应的 在Spring Boot应用中,使用Grafana进行监控通常涉及以下几个步骤: 设置Prometheus作…

LeetCode11~30题解

LeetCode11.盛水最多的容器: 题目描述: 给定一个长度为 n 的整数数组 height 。有 n 条垂线,第 i 条线的两个端点是 (i, 0) 和 (i, height[i]) 。 找出其中的两条线,使得它们与 x 轴共同构成的容器可以容纳最多的水。 返回容器…

计算机结构-逻辑门、存储器、内存、加法器、锁存器、程序计数器

逻辑门 逻辑门简单地理解即通过特定的条件实现与、或、非、异或等相关逻辑二极管 这些最基础的逻辑门都是通过电路元器件进行搭建的,即半导体材料搭建的二极管二极管有个特点,一定条件下才可以导通,即得接对正负极,具体的原理可以…

连锁店铺巡查二维码的应用

在连锁店铺的运营管理中,巡查工作是保障各门店规范运作、提升服务质量的关键环节。巡查二维码的出现,为这一环节带来了高效、便捷且规范的解决方案,其应用场景广泛,优势显著。在如今的繁杂且效果参差不齐电子二维码市场中&#xf…

各种前端框架界面

前端技术更新迭代很快,已经有不少新的前端框架问世,而且像geeker-admin风格的界面设计也挺不错的。 今天去面试了前端开发岗位,感觉希望不大。毕竟中间空了一段时间没接触,得赶紧把新的知识点补上,这样哪怕是居家办公也…

DApp 开发者 学习路线和规划

目录 🚀 一、学习路线图 阶段 1:基础知识(1~2 周) 阶段 2:智能合约开发(3~4 周) 阶段 3:前端与区块链交互(2~3 周) 阶段 4:进阶与生态系统(持续学习) 📅 二、学习规划建议(3~4 个月) 🧰 三、工具推荐 💡 四、附加建议 🚀 一、学习路线图 阶段 …

数据结构 二叉树(3)---层序遍历二叉树

在上篇文章中我们主要讲了关于实现二叉树的内容,包括遍历二叉树,以及统计二叉树等内容。而在这篇文章中我们将详细讲解一下利用队列的知识实现层序遍历二叉树。那么层序遍历是什么?以及利用队列遍历二叉树又是怎么遍历的?下面让我…

【橘子分布式】gRPC(番外篇-拦截器)

一、简介 我们之前其实已经完成了关于grpc的一些基础用法,实际上还有一些比较相对进阶的使用方式。比如: 拦截器:包括客户端和服务端的拦截器,进而在每一端都可以划分为流式的拦截器和非流式的拦截器。和以前我们在spring web中的…

深入探索嵌入式仿真教学:以酒精测试仪实验为例的高效学习实践

引言:嵌入式技术普及下的教学革新 嵌入式系统作为现代科技的核心驱动力,其教学重要性日益凸显。然而,传统硬件实验面临设备成本高、维护难、时空受限等挑战。如何突破这些瓶颈,实现高效、灵活、专业的嵌入式教学?本文将…

三种深度学习模型(GRU、CNN-GRU、贝叶斯优化的CNN-GRU/BO-CNN-GRU)对北半球光伏数据进行时间序列预测

代码功能 该代码实现了一个光伏发电量预测系统,采用三种深度学习模型(GRU、CNN-GRU、贝叶斯优化的CNN-GRU/BO-CNN-GRU)对北半球光伏数据进行时间序列预测对北半球光伏数据进行时间序列预测,并通过多维度评估指标和可视化对比模型性…

PostgreSQL对象权限管理

本文记述在postgreSQL中对用户/角色操作库、模式、表、序列、函数、存储过程的权限管理针对数据库的授权 授权:grant 权限 on database 数据库 to 用户/角色; 撤权:revoke 权限 on database 数据库 from 用户/角色; 针对模式的授权 授权:gran…

Wordpress主题配置

一、下载主题 主题下载地址:https://www.iztwp.com/tag/blog-theme 二、主题安装 三、上传主题安装即可 四、安装完成启动主题

lock 和 synchronized 区别

1. 引言 在多线程编程中,我们经常需要确保某些代码在同一时刻只由一个线程执行。这种机制通常叫做“互斥锁”或“同步”。Java 提供了两种主要的同步机制:synchronized 关键字和 Lock 接口。尽管它们的作用相似,都用于实现线程的同步&#xf…

Tkinter - Python图形界面开发指南

作者:唐叔在学习 专栏:唐叔学python 标签:Python GUI编程 Tkinter教程 图形界面开发 Python实战 界面设计 事件监听 Python入门 唐叔Python 编程学习 软件开发 文章目录一、Tkinter是什么?为什么选择它?二、Tkinter基础…

Java基础day15

目录 一、Java集合简介 1.什么是集合? 2.集合接口 3.小结 二、List集合 1.List集合简介 三、ArrayList容器类 1.初始化 1.1无参初始化 1.2有参初始化 2.数据结构 3.常用方法 3.1增加元素 3.2查找元素 3.3 修改元素 3.4 删除元素 3.5 其他方法 4.扩…

React Three Fiber 实现昼夜循环:从光照过渡到日月联动的技术拆解

在 3D 场景中用 React Three Fiber 实现自然的昼夜循环,核心难点在于光照的平滑过渡、日月运动的联动逻辑、昼夜状态下的光影差异处理,以及性能与视觉效果的平衡。本文以一个 ReactThree.js 的实现为例,详细解析如何通过三角函数计算日月位置…

进阶向:基于Python的简易屏幕画笔工具

用Python打造你的专属屏幕画笔工具:零基础也能轻松实现你是否曾在观看网课或参加远程会议时,想要直接在屏幕上标注重点?或者作为设计师,需要快速绘制创意草图?现在,只需几行Python代码,你就能轻…

Elasticsearch-ik分析器

CLI 安装步骤 1、停止 Elasticsearch(如果正在运行): 在安装插件之前,确保 Elasticsearch 没有在运行。 命令: systemctl stop elasticsearch2、安装插件: 使用 elasticsearch-plugin 命令安装 IK 插件。进…

MySQL八股篇

查询关键字执行先后顺序FROM(及 JOIN)WHEREGROUP BYHAVINGSELECTDISTINCTORDER BYLIMIT / OFFSETCHAR 和 VARCHAR 的区别?使用场景?特性CHARVARCHAR​存储方式​​定长,存储时填充空格至定义长度变长,存储实际数据 长…