论文阅读:强化预训练

大型语言模型 (LLMs) 的惊人能力很大程度上归功于在海量文本语料库上进行下一词元预测 (Next-Token Prediction, NTP) 的规模化训练。与此同时,强化学习 (Reinforcement Learning, RL) 已成为微调 LLMs、使其与人类偏好对齐或增强特定技能(如复杂推理)的强大技术。然而,当前的 RL 应用面临规模化和泛化挑战。RLHF (基于人类反馈的强化学习) 依赖昂贵的人类标注数据,且易受奖励欺骗 (reward hacking)。RLVR (基于可验证奖励的强化学习) 虽然减轻了奖励欺骗,但通常受限于带有可验证答案的标注数据稀缺性,难以泛化到通用预训练。为此研究者提出了强化学习预训练。

论文地址:https://www.arxiv.org/pdf/2506.08007

这篇论文引入了强化预训练 (Reinforcement Pre-Training, RPT),这是一个连接可规模化的自监督预训练和 RL 强大能力的新范式。

核心思想:将下一词元预测重塑为推理任务

RPT 的核心思想是,将基础的下一词元预测任务重新定义为一个下一词元推理过程。对于预训练语料库中的任何给定上下文,模型被激励在预测下一个词元之前进行推理。模型会根据其对下一个词元的预测是否正确获得一个可验证的内在奖励,这个奖励直接来源于语料库中的真实下一词元。

这就像从只追求做出美味的“樱桃顶蛋糕”(仅预测下一词元)转变为制作美味的“樱桃蛋糕”(通过推理来预测下一词元)(如图 1 所示)。
在这里插入图片描述

图 1: 强化预训练 (RPT) 将下一词元预测重塑为推理任务。

在标准的下一词元预测中,模型直接估计下一个词元。而在下一词元推理中(如图 2 所示),模型在预测之前会生成一个思维链 (chain-of-thought)

在这里插入图片描述

图 2: 标准下一词元预测与下一词元推理的对比。

标准的下一词元预测目标是最大化给定上下文下真实下一词元的对数概率:

I N T P ( θ ) = ∑ t = 1 T log ⁡ P ( x t ∣ x 0 , x 1 , . . . , x t − 1 ; θ ) I_{NTP}(\theta) = \sum_{t=1}^{T} \log P(x_t | x_0, x_1, ..., x_{t-1}; \theta) INTP(θ)=t=1TlogP(xtx0,x1,...,xt1;θ)

其中 θ \theta θ 代表语言模型的参数, x 0 , . . . , x T x_0, ..., x_T x0,...,xT 是训练语料库中的序列。

在 RPT 中,模型 π θ \pi_\theta πθ 接收上下文 x < t x_{<t} x<t 后,生成包含思维链 c t c_t ct 和最终预测 y t y_t yt 的响应 o t = ( c t , y t ) o_t = (c_t, y_t) ot=(ct,yt)。奖励 r r r 的设定是基于预测 y y y 是否精确匹配真实后续序列 x > t x_{>t} x>t 的某个有效词元边界前缀(如图 3 所示):

在这里插入图片描述

图 3: 强化预训练过程示意图。

形式上,对于第 i 个输出 o i = ( c i , y i ) o_i = (c_i, y_i) oi=(ci,yi),奖励 r i r_i ri 定义为:

r i = { 1 if  y i = x > t [ 1 : l ] and  l ∈ L g t 0 otherwise r_i = \begin{cases} 1 & \text{if } y_i = x_{>t}[1:l] \text{ and } l \in \mathcal{L}_{gt} \\ 0 & \text{otherwise} \end{cases} ri={10if yi=x>t[1:l] and lLgtotherwise

其中 y i y_i yi 是预测的字节序列, x > t x_{>t} x>t 是真实后续序列的字节序列, l l l y i y_i yi 的字节长度, L g t \mathcal{L}_{gt} Lgt 是真实后续序列中词元的累积字节长度边界集合。如果预测的字节序列是真实后续序列的一个精确前缀且长度匹配某个有效词元边界,则奖励为 1,否则为 0。

模型训练的目标是最大化期望奖励:

J R P T ( θ ) = E ( x < t , x > t ) ∼ D , o ∼ π θ ( ⋅ ∣ x < t ) [ r ] J_{RPT}(\theta) = E_{(x_{<t}, x_{>t}) \sim \mathcal{D}, o \sim \pi_\theta(\cdot|x_{<t})} [r] JRPT(θ)=E(x<t,x>t)D,oπθ(x<t)[r]

其中 D \mathcal{D} D 是所有上下文-后续序列对的集合。

这种方法将海量的未标注文本数据转化为通用 RL 的大规模数据集,而无需外部标注。

RPT 的优势

RPT 提供了几个关键优势:

  1. 规模化和通用性: RPT 利用用于标准下一词元预测的未标注文本数据,将其转化为通用的 RL 数据集,无需外部标注。
  2. 最小化奖励欺骗: 使用直接的、基于规则的奖励信号(即预测下一个词元的正确性)能有效最小化复杂学习奖励模型常伴随的奖励欺骗风险。
  3. 促进理解和泛化: 通过明确鼓励下一词元推理模式,RPT 促进更深入的理解和泛化,而非仅仅死记硬背词元级的关联。
  4. 训练时推理: 预训练期间的内部推理过程使得模型能够为每个预测步骤分配更多“思考”或计算资源,这有助于提高下一词元预测准确性。

实验结果

论文通过实验验证了 RPT 的有效性:

  1. 语言建模性能: RPT 显著提高了下一词元预测的准确性。在 OmniMATH 数据集上,根据词元位置的难度划分,RPT-14B 在所有难度级别上都持续优于 R1-Distill-Qwen-14B。特别是在推理模式下,RPT-14B 的表现优于 R1-Distill-Qwen-14B 的标准预测和推理模式基线。甚至接近了更大模型 R1-Distill-Qwen-32B 的性能(见表 1 和图 4)。
EasyMediumHard
Standard next-token prediction
Qwen2.5-14B41.9030.0320.65
R1-Distill-Qwen-14B41.6029.4620.43
Next-token reasoning
R1-Distill-Qwen-14B3.311.661.41
RPT-14B45.1133.5623.75

表 1: 不同难度测试集上的下一词元预测准确性。

关键点: RPT 显著提高了下一词元预测准确性,尤其是在有挑战性的词元上。

  1. 规模化特性: RPT 的性能随着训练计算资源的增加而持续提升,表现出良好的规模化特性。通过幂律形式拟合(公式 5)验证了这一趋势(见图 5)。

P ( C ) = A C a + P ∗ P(C) = \frac{A}{C^a} + P^* P(C)=CaA+P

其中 P ( C ) P(C) P(C) 是验证集上的下一词元预测准确性, C C C 是训练计算资源, A , a , P ∗ A, a, P^* A,a,P 是估计参数。拟合曲线的高 R² 值表明其能准确捕捉性能趋势。

在这里插入图片描述

图 5: 强化预训练的下一词元预测准确性随训练计算资源增加而持续提升。

关键点: RPT 性能随训练计算资源增加而持续提升,展现出良好的规模化特性。

  1. RL 微调基础: RPT 为后续的强化学习微调提供了更强大的基础。在 RLVR 任务上的实验表明,经过 RPT 预训练的模型在进一步 RL 微调后能达到更高的性能上限,优于仅通过标准下一词元目标持续预训练的模型(见表 2)。
Before RLAfter RL
R1-Distill-Qwen-14B51.252.7
+ Continual NTP training10.713.0
RPT-14B56.358.3

表 2: 不同模型的强化学习微调性能。

关键点: RPT 为后续强化学习微调提供了更强大的预训练基础。

  1. 零样本任务性能: RPT 增强了模型在通用下游任务上的零样本性能。在 SuperGPQA 和 MMLU-Pro 等基准测试上,RPT-14B 在推理模式下持续优于基线模型(包括更大的 R1-Distill-Qwen-32B 的标准下一词元预测性能)(见表 3)。
SuperGPQAMMLU-Pro
Standard next-token prediction mode
R1-Distill-Qwen-14B32.048.4
R1-Distill-Qwen-32B37.256.5
Reasoning mode
R1-Distill-Qwen14B36.168.9
RPT-14B39.071.1

表 3: 通用领域零样本任务性能。

关键点: RPT 提升了模型在通用下游任务上的零样本性能

  1. 推理模式分析: RPT 训练的模型展现出与结构化问题解决不同的推理模式。例如,RPT-14B 在下一词元推理中更多使用了假设生成和演绎推理,而不是像解决问题时那样侧重分解问题(见图 6 和表 9)。这表明 RPT 能够诱导更具推断性的过程。

在这里插入图片描述

图 6: R1-Distill-Qwen-14B 在问题解决和 RPT-14B 在下一词元推理中使用的推理模式统计。

Pattern GroupKeywords
Transitionalternatively, think differently
Reflectionwait, initial answer, original answer, looking back, thought process
Breakdownbreak down, break this down
Hypothesisprobably, something like
Divergent Thinkingetc., or something, either, sometimes it refers, otherwise, exploring, options
Deductionsummarize, conclusion, conclude, finally, logically, consequently

表 9: 推理模式分组及关键词。

关键点: RPT 鼓励更具推断性的推理模式

贡献总结

这篇论文的主要贡献可以总结为:

  • 引入了强化预训练 (RPT),这是一个将下一词元预测重塑为基于强化学习的推理任务的新范式,利用了直接从预训练语料库中获得的内在可验证奖励
  • RPT 提供了一种可规模化且通用的 RL 预训练方法,通过基于规则的奖励最小化奖励欺骗,并通过鼓励下一词元推理模式促进泛化
  • RPT 显著提高了下一词元预测准确性并展现出良好的规模化特性,性能随训练计算资源的增加而持续提升。
  • RPT 为后续的强化学习微调提供了更强大的预训练基础,并增强了各种下游任务的零样本性能。

结论与未来工作

强化预训练 (RPT) 为大型语言模型的预训练提供了一个新颖且有前景的方向。通过将下一词元预测框定为一个可验证的推理任务并应用基于正确性的强化学习,RPT 使 LLMs 能够在预训练期间利用扩展的计算资源来构建更强的基础推理能力。实验证明了 RPT 在提高下一词元预测准确性、增强零样本性能以及为后续 RL 微调提供更好起点方面的有效性。

尽管如此,RPT 的初步探索也存在一些限制,例如主要使用了数学领域的语料库,并且预训练是从一个具备基础推理能力的模型初始化的。未来的工作可以进一步探索在更广泛的通用领域文本上的有效性,并研究从标准基础语言模型进行 RPT 训练的影响。

未来的方向包括:扩大训练语料库的大小和领域覆盖;增加训练计算资源以推进性能边界;建立强化预训练的规模化法则;以及探索将混合思维与 RPT 相结合,以实现细粒度的自适应推理。

Reference

https://www.arxiv.org/pdf/2506.08007

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/diannao/86746.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java 大视界——Java大数据在智能安防视频监控中的异常事件快速响应与处理机制

​​摘要&#xff1a;​​ 在智慧城市和工业4.0浪潮下&#xff0c;智能安防系统日均产生PB级视频流数据。如何在实时性、准确性、成本三者间取得平衡&#xff0c;成为行业核心挑战。本文将深入探讨​​Java技术栈在大规模视频分析系统中的核心作用​​&#xff1a;基于FlinkJav…

华为云Flexus+DeepSeek征文| 基于Dify-LLM平台应用实践:创建智能知识库问答助手

华为云FlexusDeepSeek征文&#xff5c; 基于Dify-LLM平台应用实践&#xff1a;创建智能知识库问答助手 前言一、相关名词介绍1.1 华为云Flexus X实例介绍1.2 华为云ModelArts Studio介绍 二、本次实践介绍2.1 本次实践环境介绍2.2 Dify平台介绍 三、搭建Dify-LLM开发平台3.1 进…

Spark on yarn的作业提交流程

一、YarnClient 二、YarnCluster 三、详细描述 客户端&#xff08;Client&#xff09;通过YARN的ResourceManager提交应用程序。在此过程中&#xff0c;客户端进行权限验证&#xff0c;生成Job ID和资源上传路径&#xff0c;并将这些信息返回给客户端。客户端将jar包、配置…

MySQL 主从复制与一主多从架构实战详解

文章目录 一、MySQL 主从复制的本质原理 数据同步流程&#xff1a; 主从复制三大线程&#xff1a; 二、主从复制的三种模式 三、一主多从架构设计与应用 应用场景&#xff1a; 优势&#xff1a; 四、单机模拟主从复制&#xff08;实战配置&#xff09; 环境准备&#xff1a…

分布式光纤测温及红外测温系统的区别?

在现代工业监控系统中&#xff0c;温度监测是保障设备安全运行的关键环节。分布式光纤测温&#xff08;DTS&#xff09;和红外测温&#xff08;IR&#xff09;是两种常见的温度监测技术。 本文将介绍这两种技术的原理、优势以及应用场景的区别。 光纤测温技术的原理是利用光纤…

sql优化:使用 exists 优化 in () 或 = ()

1、使用 exists 优化 in () 优化前&#xff1a; select id, order_no, apply_time, apply_dept, apply_operator, purpose, stage, remark from BranchWarehouseApplyMaster where stage 0 and warehouse_id 1 and apply_dept in ( select emp_DeptID from Employee where …

HTTP 响应状态码

HTTP 响应状态码&#xff08;Response Status Codes&#xff09; HTTP 响应状态码用于表示服务器对客户端请求的处理结果&#xff0c;由3位数字 组成&#xff0c;分为5类&#xff1a; 状态码 类别 常见状态码 说明 1xx 信息响应 100&#xff08;Continue&#xff09; …

如何通过插件系统打造个性化效率工作流

在现代工作流中&#xff0c;快速调用工具与自动化操作已成为提升生产力的核心环节。一款真正出色的效率工具&#xff0c;不仅要在响应速度和跨平台兼容性上表现出色&#xff0c;更需要具备高度的可扩展性&#xff0c;以满足多样化的使用场景。 它不仅轻量高效&#xff0c;还支…

Spring上下文模块设计

经过此前我们设计的如&#xff1a;IoC、Web、数据访问、AOP等模块的设计&#xff0c;我们从设计上已经搭建好了Spring的基础骨架了&#xff0c;但聪明的码友会思考想到&#xff1a;作为一个基础框架而言&#xff0c;目前应该是已经够用了的&#xff0c;但是上进的码友怎么会就此…

keil5怎么关闭工程

在project里面有一个close project&#xff0c;点击后就关掉了&#xff0c;之前还按照其他软件的操作习惯&#xff0c;右键工程选项&#xff0c;但是始终没有发现关闭选项。

腾讯云:6月30日起,自动禁用,及时排查

大家好&#xff0c;我是小悟。 腾讯云发布公告&#xff0c;宣布从2025年6月30日开始&#xff0c;对长期未使用的AccessKey&#xff08;API访问密钥&#xff09;进行自动禁用。 简单来说&#xff0c;如果你的密钥在90天内没动静&#xff0c;系统就会把它关掉&#xff0c;不管是…

【C++】多重继承与虚继承

多重继承与虚继承 1.单继承和多重继承的区别2.语法规则示例代码&#xff1a;多重继承子类指定父类的构造示例代码&#xff1a;多重继承子类隐藏父类的同名方法 3.虚继承解决多重继承遇到的bug示例代码&#xff1a;环状继承引发的问题 3.1 虚基类&#xff1a;3.2 语法规则&#…

GCC编译/连接/优化等选项

1. GCC编译/连接/优化等选项 1. GCC编译/连接/优化等选项 1.1. 简介1.2. 常用选项 1.2.1. -c -E -S -o1.2.2. -L<path> -l<library>1.2.3. -D<macro>1.2.4. -I<path> 1.3. 代码生成和优化 1.3.1. -std<standard>1.3.2. -shared1.3.3. -fPIC1.3.…

FFmpeg 压缩视频文件

文章目录 FFmpeg 压缩视频文件基本压缩命令&#xff08;保持 MP4 格式&#xff09;转换为其他格式示例&#xff1a;关键参数说明&#xff1a;额外优化选项&#xff1a; 在FFmpeg中使用多线程加速1. 帧级多线程 (frame-level multithreading)2. 切片级多线程 (slice-level multi…

Ubuntu 系统通过防火墙管控 Docker 容器

Ubuntu 系统通过防火墙管控 Docker 容器指南 一、基础防火墙配置 # 启用防火墙 sudo ufw enable# 允许 SSH 连接&#xff08;防止配置过程中断联&#xff09; sudo ufw allow 22/tcp二、Docker 配置调整 # 编辑 Docker 配置文件 sudo vim /etc/docker/daemon.json配置文件内…

虚拟机新增硬盘,与数据挂载

我有个虚拟机&#xff0c;当时选择了独立文件&#xff0c;现在遇到个问题&#xff0c;硬盘不够了&#xff0c;索性加了一个新硬盘&#xff0c;现在想把数据库的数据映射到这个新的硬盘处理。 罗列硬盘 lsblk我得是sdb是新硬盘 2. 分区 sudo fdisk /dev/sdb交互操作&#xff…

go语言学习 第10章:面向对象编程

第10章&#xff1a;面向对象编程 面向对象编程&#xff08;OOP&#xff09;是一种编程范式&#xff0c;它使用“对象”来表示数据和方法&#xff0c;并通过类来定义对象的结构和行为。Go语言虽然不是传统的面向对象语言&#xff0c;但它通过结构体&#xff08;struct&#xff…

android计算器代码

本次作业要求实现一个计算器应用的基础框架。以下是布局文件的核心代码&#xff1a; <LinearLayout xmlns:android"http://schemas.android.com/apk/res/android"android:layout_width"match_parent"android:layout_height"match_parent"andr…

Go 语言接口详解

Go 语言接口详解 核心概念 接口定义 在 Go 语言中&#xff0c;接口是一种抽象类型&#xff0c;它定义了一组方法的集合&#xff1a; // 定义接口 type Shape interface {Area() float64Perimeter() float64 } 接口实现 Go 接口的实现是隐式的&#xff1a; // 矩形结构体…

我们来学mysql -- 8.4版本记录慢查询

记录慢查询 开启慢查询的配置查看慢查询状态动态开启慢查询日志永久开启配置log_throttle_queries_not_using_indexes 记录慢查询对性能的影响实际案例说明第一条记录第二条记录第三条记录第四条记录 开启慢查询的配置 查看慢查询状态 - 执行 show variables like slow_quer…