本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!
✨ 1. dapo概述:开源llm强化学习系统的重要突破
dapo(decoupled clip and dynamic sampling policy optimization,解耦剪辑与动态采样策略优化)是由清华大学智能产业研究院(air) 与字节跳动联合实验室sia-lab在2025年3月开源发布的一个大规模大型语言模型(llm)强化学习系统。这一系统在纯强化学习(rl)端的比较中,超越了deepseed r1模型所使用的grpo(group relative policy optimization)算法,取得了新的sota(state-of-the-art)结果。
dapo的诞生源于一个重要背景:尽管openai和deepseek等机构通过大规模强化学习训练出了先进的推理模型(如openai的o1和deepseek的r1),但其核心训练算法与关键技术细节却仍不明朗,导致广大研究人员难以复现这些效果。dapo则致力于打破这种技术壁垒,完全开源了其算法设计、训练代码和数据集,为整个ai研究社区提供了一个完整、可复现的解决方案。
本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!
往期文章推荐:
- 20.eniac:世界上第一台通用电子计算机的传奇
- 19.冯·诺依曼架构:现代计算机的基石与瓶颈
- 18.密码破译机bombe:二战中破解enigma的传奇设备
- 17.波兰密码破译机bomba:二战密码战的隐形功臣
- 16.注意力机制:捕获长距离依赖关系的革命性技术
- 15.康威生命游戏:零玩家游戏的元胞自动机奇迹
- 14.OpenHands:开源AI软件开发代理平台的革命性突破
- 13.NoCode-bench:自然语言驱动功能添加的评估新基准
- 12.中文房间悖论:人工智能理解力的哲学拷问
- 11.曼彻斯特Mark I:世界上第一台存储程序计算机的革命性创新
- 10.AdaCoT:基于强化学习的帕累托最优自适应思维链触发机制
- 9.GThinker多模态大模型:线索引导式反思的突破
- 8.Auto-CoT:大型语言模型的自动化思维链提示技术
- 7.传统概率信息检索模型:理论基础、演进与局限
- 6.Poisson分布:稀有事件建模的理论基石与演进
- 5.Jina Embeddings:高性能多模态向量模型的演进之路
- 4.GitHub Copilot:AI编程助手的架构演进与真实世界影响
- 3.SWE-bench:真实世界软件工程任务的“试金石”
- 2.StarCoder:开源代码大语言模型的里程碑
- 1.EvalPlus:代码生成大模型的“严格考官”——基于测试增强的评估框架
⚙️ 2. 技术背景与研发动机:为什么需要dapo?
2.1 现有技术的局限性
尽管grpo等算法能够提升llm的强化学习效率,但其在长链式思维(cot)场景中面临着几大关键问题:
- 熵崩溃(entropy collapse):策略的熵迅速下降,探索不足
- 奖励噪声(reward noise):特别是过长响应截断引入的噪声
- 训练不稳定:梯度信号有效性低,收敛困难
许多研究团队在尝试复现deepseek的结果时,都遇到了类似的难题,这表明工业级、大规模且可重现的强化学习系统需要关键训练细节。
2.2 dapo的使命与目标
dapo的开发旨在解决上述挑战,其核心目标包括:
- 提供一个开源可复现的大规模llm rl系统
- 提出新型算法,解决长cot场景下的rl优化难题
- 在数学推理等复杂任务上实现卓越性能
🔧 3. dapo的核心技术:四大创新点解析
dapo通过四项关键技术革新,解决了大规模rl训练中的核心难题。
3.1 clip-higher:解耦高低剪辑范围,促进探索与利用的平衡
- 问题:传统ppo/grpo的固定剪裁范围(如ε=0.2)限制了低概率token的探索,导致策略快速收敛(熵崩溃),生成样本同质化。
- 解决方案:将上下剪裁阈值解耦为
ε_low=0.2
(抑制高概率token的过度利用)和ε_high=0.28
(放宽低概率token的探索限制)。 - 效果:模型生成多样性提升,熵值稳定,aime准确率从基线30%提升至40%+。
3.2 dynamic sampling:动态过滤无效样本,提升训练效率
- 问题:当所有样本奖励相同(如全正确或全错误),优势函数为零,梯度信号消失(zero advantage),训练效率下降。
- 解决方案:预采样时过滤掉奖励为0或1的样本,仅保留梯度有效的样本填充批次。
- 效果:收敛速度提升,相同性能所需步骤减少,训练时间未显著增加但效率更高。
3.3 token-level policy gradient loss:精准优化长序列
- 问题:传统grpo的样本级损失平均导致长序列token梯度稀释,难以捕捉关键推理步骤,且无法有效惩罚长序列中的低质量模式(如重复、乱码)。
- 解决方案:按token计算损失,加权求和(而非样本平均),强化长序列中的关键token学习。
- 效果:训练稳定性提升,响应长度增长更健康。
3.4 overlong reward shaping:长度感知的奖励修正,减少噪声
- 问题:过长响应的截断惩罚(如直接-1)引入噪声,干扰有效推理步骤的奖励(正确推理因超长被误判)。
- 解决方案:采用软惩罚策略,根据超长程度逐步增加惩罚,并过滤截断样本的损失。定义一个惩罚区间,响应越长,受到的惩罚越大。
rlength(y)={0,∣y∣≤lmax−lcache(lmax−lcache)−∣y∣lcache,lmax−lcache<∣y∣≤lmax−1,∣y∣>lmaxr_{\text{length}}(y) = \begin{cases} 0, & |y| \leq l_{\text{max}} - l_{\text{cache}} \\ \frac{(l_{\text{max}} - l_{\text{cache}}) - |y|}{l_{\text{cache}}}, & l_{\text{max}} - l_{\text{cache}} < |y| \leq l_{\text{max}} \\ -1, & |y| > l_{\text{max}} \end{cases} rlength(y)=⎩⎨⎧0,lcache(lmax−lcache)−∣y∣,−1,∣y∣≤lmax−lcachelmax−lcache<∣y∣≤lmax∣y∣>lmax
其中l_max = 20480
tokens,l_cache = 4096
。 - 效果:训练稳定性显著提升,aime准确率波动减小。
📊 4. 实验效果与性能表现
dapo系统在数学推理任务上进行了全面验证,取得了令人瞩目的成果。
4.1 aime 2024基准测试结果
在被誉为数学竞赛"奥林匹克"的aime 2024测试中:
- 使用qwen2.5-32b基础模型的dapo系统达到了50分的成绩
- 超越了之前业界最佳的deepseek-r1-zero-qwen-32b的47分表现
- 仅用了后者一半的训练时间
作为对比,使用grpo的qwen2.5-32b模型在aime 2024上只能获得30分。
4.2 各技术组件的贡献分析
研究团队通过详细的对比实验,验证了各项技术的有效性:
表:dapo中各技术对aime性能的贡献
技术组件 | aime 2024 分数 | 性能提升 |
---|---|---|
基础grpo | 30分 | - |
+ 超长过滤(overlong filtering) | 36分 | +6分 |
+ clip-higher | 38分 | +2分 |
+ 软性超长惩罚(soft punishment) | 41分 | +3分 |
+ token级别损失(token-level loss) | 42分 | +1分 |
完整dapo系统 | 50分 | +8分 |
4.3 训练动态与模型行为演化
在训练过程中,研究团队观察到一些有趣的现象:
- 响应长度变化:生成长度逐渐增加,为模型提供更大探索空间,允许采样更复杂的推理行为。
- 奖励动态:奖励增加趋势相对稳定,表明语言模型可以稳健地拟合训练集的分布。
- 熵值维持:dapo通过clip-higher策略有效解决了熵崩塌问题,保持熵的缓慢上升趋势有助于提升模型性能。
- 推理模式演化:策略模型的推理模式会随着时间动态演变。rl算法不仅会强化有助于正确解决问题的现有推理模式,还会逐渐催生原本不存在的全新推理模式。例如,模型后期自发出现了"反思和修正"的能力,如产生"等等,让我重新考虑一下"这样的表述。
🌐 5. 系统设计与开源生态
dapo致力于构建一个完整、可复现的开源生态系统。
5.1 训练框架与配置
- 基础框架:基于verl开源框架构建
- 优化器:adamw,学习率设定为1×10⁻⁶,配备线性预热机制
- 批次设置:每批训练包含512个问题,每个问题生成16个不同回答
- 基础模型:qwen2.5-32b
5.2 数据集:dapo-math-17k
研究团队特别开发了一个包含17000个数学问题的训练数据集,名为dapo-math-17k。为了确保训练过程的准确性,他们将所有答案都转换成了整数形式,这样既便于计算机处理,又能确保评估的准确性。
5.3 开源资源
dapo项目完全开源,提供了丰富的资源:
- 项目主页:https://dapo-sia.github.io/
- 论文地址:https://arxiv.org/abs/2503.14476
- 代码仓库:https://github.com/bytedtsinghua-sia/dapo
- 数据集:https://huggingface.co/datasets/bytedtsinghua-sia/dapo-math-17k
🔮 6. 意义与影响:dapo对ai研究社区的贡献
dapo系统的推出具有多重重要意义:
- 技术透明度:打破了顶尖ai技术被严密保护的现状,提供了完整、可复现的解决方案
- 性能标杆:在数学推理任务上设立了新的性能标杆
- 系统优化:针对大规模rl训练中的实际问题提供了有效解决方案
- 社区推动:为整个ai研究社区提供了宝贵的资源和工具,可能激发更多的创新和突破
📈 7. 局限性未来展望
尽管dapo取得了显著成功,但研究团队也坦诚地指出了当前技术的局限性:
- 任务范围:dapo系统主要在数学推理任务上进行了验证,在其他类型的复杂推理任务(如代码生成、科学推理)上的表现还需要进一步验证。
- 泛化能力:虽然系统在aime测试中表现优异,但这种能力是否能够泛化到更广泛的现实世界问题中,仍然是一个开放的研究问题。
未来工作可能包括:
- 将dapo扩展到更多元化的任务领域
- 探索与其他先进模型架构的结合
- 进一步优化训练效率和稳定性
- 研究更好的奖励塑形策略
💎 结论
dapo代表了ai推理能力研究的一个重要里程碑。它证明了通过精心设计的强化学习技术,确实可以显著提升语言模型的推理能力,让ai在复杂的数学和逻辑问题上达到接近人类专家的水平。
这项研究不仅在于其优异的性能表现,更在于其开源精神和对技术透明度的承诺。在当前大多数顶尖ai技术都被严密保护的情况下,dapo为整个ai研究社区提供了一个完整、可复现的解决方案,包括算法细节、训练代码和精心整理的数据集。这种做法可能会激发更多的创新和突破,加速整个领域的发展进程。
随着技术的不断成熟和普及,这种强大的推理能力有望以各种形式进入我们的日常生活,从智能教育助手到专业咨询服务,都可能因为这种技术而变得更加智能和有效。
本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!