dapo：开源大规模llm强化学习系统的突破与实现

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

✨ 1. dapo概述：开源llm强化学习系统的重要突破

dapo（decoupled clip and dynamic sampling policy optimization，解耦剪辑与动态采样策略优化）是由清华大学智能产业研究院（air） 与字节跳动联合实验室sia-lab在2025年3月开源发布的一个大规模大型语言模型（llm）强化学习系统。这一系统在纯强化学习（rl）端的比较中，超越了deepseed r1模型所使用的grpo（group relative policy optimization）算法，取得了新的sota（state-of-the-art）结果。

dapo的诞生源于一个重要背景：尽管openai和deepseek等机构通过大规模强化学习训练出了先进的推理模型（如openai的o1和deepseek的r1），但其核心训练算法与关键技术细节却仍不明朗，导致广大研究人员难以复现这些效果。dapo则致力于打破这种技术壁垒，完全开源了其算法设计、训练代码和数据集，为整个ai研究社区提供了一个完整、可复现的解决方案。

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

往期文章推荐:

20.eniac：世界上第一台通用电子计算机的传奇
19.冯·诺依曼架构：现代计算机的基石与瓶颈
18.密码破译机bombe：二战中破解enigma的传奇设备
17.波兰密码破译机bomba：二战密码战的隐形功臣
16.注意力机制：捕获长距离依赖关系的革命性技术
15.康威生命游戏：零玩家游戏的元胞自动机奇迹
14.OpenHands：开源AI软件开发代理平台的革命性突破
13.NoCode-bench：自然语言驱动功能添加的评估新基准
12.中文房间悖论：人工智能理解力的哲学拷问
11.曼彻斯特Mark I：世界上第一台存储程序计算机的革命性创新
10.AdaCoT：基于强化学习的帕累托最优自适应思维链触发机制
9.GThinker多模态大模型：线索引导式反思的突破
8.Auto-CoT：大型语言模型的自动化思维链提示技术
7.传统概率信息检索模型：理论基础、演进与局限
6.Poisson分布：稀有事件建模的理论基石与演进
5.Jina Embeddings：高性能多模态向量模型的演进之路
4.GitHub Copilot：AI编程助手的架构演进与真实世界影响
3.SWE-bench：真实世界软件工程任务的“试金石”
2.StarCoder：开源代码大语言模型的里程碑
1.EvalPlus：代码生成大模型的“严格考官”——基于测试增强的评估框架

⚙️ 2. 技术背景与研发动机：为什么需要dapo？

2.1 现有技术的局限性

尽管grpo等算法能够提升llm的强化学习效率，但其在长链式思维（cot）场景中面临着几大关键问题：

熵崩溃（entropy collapse）：策略的熵迅速下降，探索不足
奖励噪声（reward noise）：特别是过长响应截断引入的噪声
训练不稳定：梯度信号有效性低，收敛困难

许多研究团队在尝试复现deepseek的结果时，都遇到了类似的难题，这表明工业级、大规模且可重现的强化学习系统需要关键训练细节。

2.2 dapo的使命与目标

dapo的开发旨在解决上述挑战，其核心目标包括：

提供一个开源可复现的大规模llm rl系统
提出新型算法，解决长cot场景下的rl优化难题
在数学推理等复杂任务上实现卓越性能

🔧 3. dapo的核心技术：四大创新点解析

dapo通过四项关键技术革新，解决了大规模rl训练中的核心难题。

3.1 clip-higher：解耦高低剪辑范围，促进探索与利用的平衡

问题：传统ppo/grpo的固定剪裁范围（如ε=0.2）限制了低概率token的探索，导致策略快速收敛（熵崩溃），生成样本同质化。
解决方案：将上下剪裁阈值解耦为ε_low=0.2（抑制高概率token的过度利用）和ε_high=0.28（放宽低概率token的探索限制）。
效果：模型生成多样性提升，熵值稳定，aime准确率从基线30%提升至40%+。

3.2 dynamic sampling：动态过滤无效样本，提升训练效率

问题：当所有样本奖励相同（如全正确或全错误），优势函数为零，梯度信号消失（zero advantage），训练效率下降。
解决方案：预采样时过滤掉奖励为0或1的样本，仅保留梯度有效的样本填充批次。
效果：收敛速度提升，相同性能所需步骤减少，训练时间未显著增加但效率更高。

3.3 token-level policy gradient loss：精准优化长序列

问题：传统grpo的样本级损失平均导致长序列token梯度稀释，难以捕捉关键推理步骤，且无法有效惩罚长序列中的低质量模式（如重复、乱码）。
解决方案：按token计算损失，加权求和（而非样本平均），强化长序列中的关键token学习。
效果：训练稳定性提升，响应长度增长更健康。

3.4 overlong reward shaping：长度感知的奖励修正，减少噪声

问题：过长响应的截断惩罚（如直接-1）引入噪声，干扰有效推理步骤的奖励（正确推理因超长被误判）。
解决方案：采用软惩罚策略，根据超长程度逐步增加惩罚，并过滤截断样本的损失。定义一个惩罚区间，响应越长，受到的惩罚越大。
$rlength(y)={0,∣y∣≤lmax−lcache(lmax−lcache)−∣y∣lcache,lmax−lcache<∣y∣≤lmax−1,∣y∣>lmaxr_{\text{length}}(y) = \begin{cases} 0, & |y| \leq l_{\text{max}} - l_{\text{cache}} \\ \frac{(l_{\text{max}} - l_{\text{cache}}) - |y|}{l_{\text{cache}}}, & l_{\text{max}} - l_{\text{cache}} < |y| \leq l_{\text{max}} \\ -1, & |y| > l_{\text{max}} \end{cases}$
其中 l_max = 20480 tokens，l_cache = 4096。
效果：训练稳定性显著提升，aime准确率波动减小。

📊 4. 实验效果与性能表现

dapo系统在数学推理任务上进行了全面验证，取得了令人瞩目的成果。

4.1 aime 2024基准测试结果

在被誉为数学竞赛"奥林匹克"的aime 2024测试中：

使用qwen2.5-32b基础模型的dapo系统达到了50分的成绩
超越了之前业界最佳的deepseek-r1-zero-qwen-32b的47分表现
仅用了后者一半的训练时间

作为对比，使用grpo的qwen2.5-32b模型在aime 2024上只能获得30分。

4.2 各技术组件的贡献分析

研究团队通过详细的对比实验，验证了各项技术的有效性：

表：dapo中各技术对aime性能的贡献

技术组件	aime 2024 分数	性能提升
基础grpo	30分	-
+ 超长过滤(overlong filtering)	36分	+6分
+ clip-higher	38分	+2分
+ 软性超长惩罚(soft punishment)	41分	+3分
+ token级别损失(token-level loss)	42分	+1分
完整dapo系统	50分	+8分

4.3 训练动态与模型行为演化

在训练过程中，研究团队观察到一些有趣的现象：

响应长度变化：生成长度逐渐增加，为模型提供更大探索空间，允许采样更复杂的推理行为。
奖励动态：奖励增加趋势相对稳定，表明语言模型可以稳健地拟合训练集的分布。
熵值维持：dapo通过clip-higher策略有效解决了熵崩塌问题，保持熵的缓慢上升趋势有助于提升模型性能。
推理模式演化：策略模型的推理模式会随着时间动态演变。rl算法不仅会强化有助于正确解决问题的现有推理模式，还会逐渐催生原本不存在的全新推理模式。例如，模型后期自发出现了"反思和修正"的能力，如产生"等等，让我重新考虑一下"这样的表述。