dapo:开源大规模llm强化学习系统的突破与实现

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

✨ 1. dapo概述:开源llm强化学习系统的重要突破

dapo(decoupled clip and dynamic sampling policy optimization,解耦剪辑与动态采样策略优化)是由清华大学智能产业研究院(air)字节跳动联合实验室sia-lab在2025年3月开源发布的一个大规模大型语言模型(llm)强化学习系统。这一系统在纯强化学习(rl)端的比较中,超越了deepseed r1模型所使用的grpo(group relative policy optimization)算法,取得了新的sota(state-of-the-art)结果

dapo的诞生源于一个重要背景:尽管openai和deepseek等机构通过大规模强化学习训练出了先进的推理模型(如openai的o1和deepseek的r1),但其核心训练算法与关键技术细节却仍不明朗,导致广大研究人员难以复现这些效果。dapo则致力于打破这种技术壁垒,完全开源了其算法设计、训练代码和数据集,为整个ai研究社区提供了一个完整、可复现的解决方案

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

往期文章推荐:

  • 20.eniac:世界上第一台通用电子计算机的传奇
  • 19.冯·诺依曼架构:现代计算机的基石与瓶颈
  • 18.密码破译机bombe:二战中破解enigma的传奇设备
  • 17.波兰密码破译机bomba:二战密码战的隐形功臣
  • 16.注意力机制:捕获长距离依赖关系的革命性技术
  • 15.康威生命游戏:零玩家游戏的元胞自动机奇迹
  • 14.OpenHands:开源AI软件开发代理平台的革命性突破
  • 13.NoCode-bench:自然语言驱动功能添加的评估新基准
  • 12.中文房间悖论:人工智能理解力的哲学拷问
  • 11.曼彻斯特Mark I:世界上第一台存储程序计算机的革命性创新
  • 10.AdaCoT:基于强化学习的帕累托最优自适应思维链触发机制
  • 9.GThinker多模态大模型:线索引导式反思的突破
  • 8.Auto-CoT:大型语言模型的自动化思维链提示技术
  • 7.传统概率信息检索模型:理论基础、演进与局限
  • 6.Poisson分布:稀有事件建模的理论基石与演进
  • 5.Jina Embeddings:高性能多模态向量模型的演进之路
  • 4.GitHub Copilot:AI编程助手的架构演进与真实世界影响
  • 3.SWE-bench:真实世界软件工程任务的“试金石”
  • 2.StarCoder:开源代码大语言模型的里程碑
  • 1.EvalPlus:代码生成大模型的“严格考官”——基于测试增强的评估框架

⚙️ 2. 技术背景与研发动机:为什么需要dapo?

2.1 现有技术的局限性

尽管grpo等算法能够提升llm的强化学习效率,但其在长链式思维(cot)场景中面临着几大关键问题:

  • 熵崩溃(entropy collapse):策略的熵迅速下降,探索不足
  • 奖励噪声(reward noise):特别是过长响应截断引入的噪声
  • 训练不稳定:梯度信号有效性低,收敛困难

许多研究团队在尝试复现deepseek的结果时,都遇到了类似的难题,这表明工业级、大规模且可重现的强化学习系统需要关键训练细节

2.2 dapo的使命与目标

dapo的开发旨在解决上述挑战,其核心目标包括:

  • 提供一个开源可复现的大规模llm rl系统
  • 提出新型算法,解决长cot场景下的rl优化难题
  • 数学推理等复杂任务上实现卓越性能

🔧 3. dapo的核心技术:四大创新点解析

dapo通过四项关键技术革新,解决了大规模rl训练中的核心难题。

3.1 clip-higher:解耦高低剪辑范围,促进探索与利用的平衡

  • 问题:传统ppo/grpo的固定剪裁范围(如ε=0.2)限制了低概率token的探索,导致策略快速收敛(熵崩溃),生成样本同质化。
  • 解决方案:将上下剪裁阈值解耦ε_low=0.2(抑制高概率token的过度利用)和ε_high=0.28(放宽低概率token的探索限制)。
  • 效果:模型生成多样性提升,熵值稳定,aime准确率从基线30%提升至40%+。

3.2 dynamic sampling:动态过滤无效样本,提升训练效率

  • 问题:当所有样本奖励相同(如全正确或全错误),优势函数为零,梯度信号消失(zero advantage),训练效率下降。
  • 解决方案预采样时过滤掉奖励为0或1的样本,仅保留梯度有效的样本填充批次。
  • 效果收敛速度提升,相同性能所需步骤减少,训练时间未显著增加但效率更高。

3.3 token-level policy gradient loss:精准优化长序列

  • 问题:传统grpo的样本级损失平均导致长序列token梯度稀释,难以捕捉关键推理步骤,且无法有效惩罚长序列中的低质量模式(如重复、乱码)。
  • 解决方案按token计算损失,加权求和(而非样本平均),强化长序列中的关键token学习。
  • 效果:训练稳定性提升,响应长度增长更健康

3.4 overlong reward shaping:长度感知的奖励修正,减少噪声

  • 问题:过长响应的截断惩罚(如直接-1)引入噪声,干扰有效推理步骤的奖励(正确推理因超长被误判)。
  • 解决方案:采用软惩罚策略,根据超长程度逐步增加惩罚,并过滤截断样本的损失。定义一个惩罚区间,响应越长,受到的惩罚越大。
    rlength(y)={0,∣y∣≤lmax−lcache(lmax−lcache)−∣y∣lcache,lmax−lcache<∣y∣≤lmax−1,∣y∣>lmaxr_{\text{length}}(y) = \begin{cases} 0, & |y| \leq l_{\text{max}} - l_{\text{cache}} \\ \frac{(l_{\text{max}} - l_{\text{cache}}) - |y|}{l_{\text{cache}}}, & l_{\text{max}} - l_{\text{cache}} < |y| \leq l_{\text{max}} \\ -1, & |y| > l_{\text{max}} \end{cases} rlength(y)=0,lcache(lmaxlcache)y,1,ylmaxlcachelmaxlcache<ylmaxy>lmax
    其中 l_max = 20480 tokens,l_cache = 4096
  • 效果训练稳定性显著提升,aime准确率波动减小。

📊 4. 实验效果与性能表现

dapo系统在数学推理任务上进行了全面验证,取得了令人瞩目的成果。

4.1 aime 2024基准测试结果

在被誉为数学竞赛"奥林匹克"的aime 2024测试中:

  • 使用qwen2.5-32b基础模型的dapo系统达到了50分的成绩
  • 超越了之前业界最佳的deepseek-r1-zero-qwen-32b的47分表现
  • 仅用了后者一半的训练时间

作为对比,使用grpo的qwen2.5-32b模型在aime 2024上只能获得30分。

4.2 各技术组件的贡献分析

研究团队通过详细的对比实验,验证了各项技术的有效性:

表:dapo中各技术对aime性能的贡献

技术组件aime 2024 分数性能提升
基础grpo30分-
+ 超长过滤(overlong filtering)36分+6分
+ clip-higher38分+2分
+ 软性超长惩罚(soft punishment)41分+3分
+ token级别损失(token-level loss)42分+1分
完整dapo系统50分+8分

4.3 训练动态与模型行为演化

在训练过程中,研究团队观察到一些有趣的现象:

  • 响应长度变化:生成长度逐渐增加,为模型提供更大探索空间,允许采样更复杂的推理行为。
  • 奖励动态:奖励增加趋势相对稳定,表明语言模型可以稳健地拟合训练集的分布。
  • 熵值维持:dapo通过clip-higher策略有效解决了熵崩塌问题,保持熵的缓慢上升趋势有助于提升模型性能。
  • 推理模式演化:策略模型的推理模式会随着时间动态演变。rl算法不仅会强化有助于正确解决问题的现有推理模式,还会逐渐催生原本不存在的全新推理模式。例如,模型后期自发出现了"反思和修正"的能力,如产生"等等,让我重新考虑一下"这样的表述。

🌐 5. 系统设计与开源生态

dapo致力于构建一个完整、可复现的开源生态系统

5.1 训练框架与配置

  • 基础框架:基于verl开源框架构建
  • 优化器:adamw,学习率设定为1×10⁻⁶,配备线性预热机制
  • 批次设置:每批训练包含512个问题,每个问题生成16个不同回答
  • 基础模型:qwen2.5-32b

5.2 数据集:dapo-math-17k

研究团队特别开发了一个包含17000个数学问题的训练数据集,名为dapo-math-17k。为了确保训练过程的准确性,他们将所有答案都转换成了整数形式,这样既便于计算机处理,又能确保评估的准确性。

5.3 开源资源

dapo项目完全开源,提供了丰富的资源:

  • 项目主页:https://dapo-sia.github.io/
  • 论文地址:https://arxiv.org/abs/2503.14476
  • 代码仓库:https://github.com/bytedtsinghua-sia/dapo
  • 数据集:https://huggingface.co/datasets/bytedtsinghua-sia/dapo-math-17k

🔮 6. 意义与影响:dapo对ai研究社区的贡献

dapo系统的推出具有多重重要意义:

  1. 技术透明度:打破了顶尖ai技术被严密保护的现状,提供了完整、可复现的解决方案
  2. 性能标杆:在数学推理任务上设立了新的性能标杆
  3. 系统优化:针对大规模rl训练中的实际问题提供了有效解决方案
  4. 社区推动:为整个ai研究社区提供了宝贵的资源和工具,可能激发更多的创新和突破

📈 7. 局限性未来展望

尽管dapo取得了显著成功,但研究团队也坦诚地指出了当前技术的局限性:

  • 任务范围:dapo系统主要在数学推理任务上进行了验证,在其他类型的复杂推理任务(如代码生成、科学推理)上的表现还需要进一步验证。
  • 泛化能力:虽然系统在aime测试中表现优异,但这种能力是否能够泛化到更广泛的现实世界问题中,仍然是一个开放的研究问题。

未来工作可能包括:

  • 将dapo扩展到更多元化的任务领域
  • 探索与其他先进模型架构的结合
  • 进一步优化训练效率和稳定性
  • 研究更好的奖励塑形策略

💎 结论

dapo代表了ai推理能力研究的一个重要里程碑。它证明了通过精心设计的强化学习技术,确实可以显著提升语言模型的推理能力,让ai在复杂的数学和逻辑问题上达到接近人类专家的水平。

这项研究不仅在于其优异的性能表现,更在于其开源精神和对技术透明度的承诺。在当前大多数顶尖ai技术都被严密保护的情况下,dapo为整个ai研究社区提供了一个完整、可复现的解决方案,包括算法细节、训练代码和精心整理的数据集。这种做法可能会激发更多的创新和突破,加速整个领域的发展进程。

随着技术的不断成熟和普及,这种强大的推理能力有望以各种形式进入我们的日常生活,从智能教育助手专业咨询服务,都可能因为这种技术而变得更加智能和有效。

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/96866.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/96866.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【车载开发系列】ParaSoft集成测试环境配置(五)

【车载开发系列】ParaSoft集成测试环境配置(五) 【车载开发系列】ParaSoft集成测试环境配置(五) 【车载开发系列】ParaSoft集成测试环境配置(五) 一. 剥离硬件环境的设置 二. 灵活使用编译开关 三. 导入修改后的bdf文件 四. 自动生成底层桩函数 五. 开始跑集成测试用例 六…

大模型(一)什么是 MCP?如何使用 Charry Studio 集成 MCP?

目录一、什么是 MCP&#xff1f;1.1 &#x1f914; 开始之前的思考1.2 MCP 的定义1.3 MCP 结构二、MCP 的使用2.1 uv 的安装2.2 MCP 广场2.3 MCP 的配置2.4 MCP 的依赖安装2.5 Charry Studio2.6 测试结果背景&#xff1a; MCP 这个概念大概是 2025 年上半年火起来的&#xff0c…

源码导航页

一、Python捕捉动作发送到Unity驱动模型跟着动&#xff08;获取源码&#xff09; 二、AI输入法源码&#xff08;获取源码&#xff09; 三、Java企业级后台管理系统-登录授权角色菜单&#xff08;获取源码&#xff09; 四、Jetson实现纯视觉导航&#xff08;获取源码&#xff09…

HTTP/2 性能提升的核心原因

一、协议架构优化‌‌二进制分帧&#xff08;Binary Framing&#xff09;‌HTTP/2 将传统文本格式的报文&#xff08;如请求头、数据体&#xff09;拆分为独立的二进制帧&#xff08;Frame&#xff09;&#xff0c;每个帧包含流标识符&#xff08;Stream ID&#xff09;&#x…

vulnhub-billu_b0x靶机渗透

一、靶场详情 Billu_b0x 是 Vulnhub 上的经典中等难度靶机&#xff0c;主要考察从信息收集到提权的完整渗透流程&#xff1a;先通过端口和目录扫描发现网站入口&#xff0c;利用 SQL 注入或文件包含进入后台并上传 WebShell&#xff0c;再通过反弹 Shell 获取低权限用户&#…

C# 相机内存复用(减少图像采集耗时)以及行数复用

背景我们在做图像处理时&#xff0c;都会对一些相机的SDK进行开发完成图像采集的操作&#xff0c;为后续图像处理做准备。本文主要的目的是降低图像采集的耗时&#xff0c;应用在一些高速检测的场景下。利用循环队列内存复用的方式&#xff0c;去掉或者减少新建内存的时间。线扫…

MTK Linux DRM分析(十三)- Mediatek KMS实现mtk_drm_drv.c(Part.1)

一、简介 MediaTek (MTK) 的DRM驱动(基于mtk_drm_drv.c)是为MediaTek SoC(如MT6985、MT6895等)设计的显示子系统(Display Subsystem)驱动程序。它实现了Linux DRM/KMS框架,支持多CRTC、多平面(plane)、连接器(connector)和编码器(encoder)的显示管道。驱动处理硬…

Wireshark笔记-DHCP流程与数据包解析

背景DHCP从大学上网络课时就开始知道了&#xff0c;当时只知道&#xff0c;能让计算机上网&#xff0c;要不就静态配IP&#xff0c;要不就DHCP获取&#xff0c;就能上网。2021年时&#xff0c;毕业好几年了&#xff0c;想学习下网络知识&#xff0c;就准备考一个软考网工。按要…

Coze用户账号设置修改用户头像-前端源码

概述 Coze Studio的用户头像修改功能是用户账号设置中的重要组成部分&#xff0c;允许用户上传和更新个人头像。本文将深入分析该功能的前端实现&#xff0c;包括组件架构、文件上传处理、API设计和用户体验优化等方面。 技术架构 整体架构设计 Coze Studio采用现代化的前端架构…

新手Github提交PR(Pull requests)详细教程

一、什么是Pull requests&#xff1f; Pull Requests&#xff08;PR&#xff09;是代码协作平台&#xff08;如 GitHub、GitLab 等&#xff09;中的一种功能&#xff0c;用于提议将某分支的代码变更合并到另一个分支&#xff08;通常是主分支&#xff09;。它允许开发者在合并…

本地通过跳板机连接无公网IP的内网服务器

本地环境&#xff1a;SSH client 堡垒机&#xff1a;有公网IP&#xff0c;有连接内网服务器的秘钥 SSH配置&#xff1a; Host jmsHostName [堡垒机的公网IP]Port 22User rootIdentityFile ~/.ssh/id_rsaHost appHostName 10.0.0.14Port 22User rootIdentityFile ~/.ssh/svc-p…

B树,B+树,B*树

下面我们来详细讲解一下 B树、B树、B*树 这三种非常重要的多路平衡查找树。它们在数据库和文件系统中有着极其广泛的应用。一、为什么需要这些树结构&#xff1f;在开始之前&#xff0c;我们先思考一个问题&#xff1a;为什么已经有了二叉搜索树&#xff08;BST&#xff09;、A…

汽车零部件工厂ESOP系统工业一体机如何选型

在汽车零部件工厂的生产管理中&#xff0c;ESOP 系统发挥着至关重要的作用。而工业一体机作为 ESOP 系统的关键硬件支撑&#xff0c;其选型的合理性直接关系到生产效率的提升、生产过程的精准控制以及生产数据的可靠采集与分析。因此&#xff0c;为汽车零部件工厂选择一款适合的…

​维基框架 (Wiki Framework) 1.1.0 版本发布​ 提供多模型AI辅助开发

介绍 多模型AI辅助开发​ 维基框架1.1.0集成了主流AI引擎的统一接口&#xff0c;支持开发者按需调用不同模型的优势能力&#xff1a; ​DeepSeek​&#xff1a;专注代码生成与重构&#xff0c;擅长复杂业务逻辑实现 ​ChatGPT​&#xff1a;多模态推理能力&#xff0c;适用于…

LabVIEW调用MATLAB 的分形生成

LabVIEW 调用 MATLAB&#xff0c;可借前者可视化流程与硬件交互优势&#xff0c;结合后者强数值计算、算法能力&#xff0c;复用成熟算法提速开发&#xff0c;还能灵活改代码。但需匹配版本、装运行环境&#xff0c;数据传递有性能损耗&#xff0c;脚本出错需跨软件调试。​优点…

ubuntu20.04开发ros2,使用docker安装部署的详细教程

学习docker的教程&#xff1a;可以直接在菜鸟教程上学习即可阶段 0&#xff1a;系统检查| 内容 | 建议 | |------|------| | 操作系统 | Ubuntu 22.04&#xff08;与 ROS2 Humble 最匹配&#xff09; | | 用户权限 | 能执行 sudo |&#x1f9e9; 阶段 1&#xff1a;在 Ubuntu 上…

SQL Server缩小日志文件.ldf的方法(适用于开发环境)

SQL Server缩小日志文件.ldf的方法&#xff08;适用于开发环境&#xff09; 核心概念&#xff1a;为什么日志文件会变大&#xff1f; 首先&#xff0c;理解原因至关重要。事务日志文件在以下情况下会增长&#xff1a; 大量操作&#xff1a;执行了大批量插入、更新或删除操作&am…

2.3零基础玩转uni-app轮播图:从入门到精通 (咸虾米总结)

还在uni-app中的轮播图组件头疼吗&#xff1f;看完这篇&#xff0c;让你轻松掌握swiper的所有秘密&#xff01;轮播图的重要性 在现代移动应用开发中&#xff0c;轮播图&#xff08;Swiper&#xff09;已成为展示焦点内容、广告推广和产品展示的首选组件。无论是电商平台的商品…

FPGA学习笔记——AHT20温湿度读取并在串口显示(IIC协议)

目录 一、任务 二、分析 1.需要了解的 2.需要用到的模块 3.流程分析 三、Visio图 四、代码 五、实验现象 一、任务 使用IIC协议通信的AHT20&#xff0c;将温湿度数据读取出来&#xff0c;并在串口助手上显示。 二、分析 1.需要了解的 需要了解IIC协议简介 也可以看看E…

Pycharm SSH连接

添加远程服务器文件——>设置——>项目下的Python解释器——>添加解释器——>SSH在弹出的弹窗中&#xff0c;输入远程的主机、端口和用户名、一直下一步&#xff0c;得到如下图所示的结果&#xff1a;选择Conda 环境&#xff1a;第一步选择Conda环境&#xff1b;第…