【AI论文】MiroMind-M1:通过情境感知多阶段策略优化实现数学推理的开源新进展

摘要:近期,大型语言模型已从流畅的文本生成发展至能在多个领域进行高级推理,由此催生了推理语言模型(RLMs)。在众多领域中,数学推理堪称代表性基准,因为它需要精确的多步骤逻辑与抽象推理能力,且这种能力可推广至其他任务。虽然像GPT-o3这样的闭源推理语言模型展现出了惊人的推理能力,但其专有属性限制了透明度和可复现性。尽管许多开源项目旨在弥补这一差距,但其中多数因省略了数据集和详细训练配置等关键资源而缺乏足够的开放性,进而阻碍了可复现性。为推动推理语言模型开发实现更高透明度,我们推出了MiroMind-M1系列模型,这是一套基于Qwen-2.5主干构建的完全开源的推理语言模型,其性能可媲美或超越现有的开源推理语言模型。具体而言,我们的模型分两个阶段进行训练:先在精心整理的、包含71.9万个数学推理问题及已验证思维链(CoT)轨迹的语料库上进行监督微调(SFT),随后在6.2万个具有挑战性且可验证的问题上进行基于验证的强化学习(RLVR)。为增强RLVR过程的稳健性和效率,我们引入了情境感知多阶段策略优化算法,该算法将渐进式长度训练与自适应重复惩罚相结合,以鼓励基于情境感知的强化学习训练。我们的模型在AIME24、AIME25和MATH基准测试中,在基于Qwen-2.5的开源70亿(7B)和320亿(32B)参数模型中取得了最先进或具有竞争力的性能,且具有更高的标记(token)效率。为便于复现,我们公开了全套资源:模型(MiroMind-M1-SFT-7B、MiroMind-M1-RL-7B、MiroMind-M1-RL-32B);数据集(MiroMind-M1-SFT-719K、MiroMind-M1-RL-62K);以及所有训练和评估配置。我们希望这些资源能支持进一步的研究并推动社区发展。Huggingface链接:Paper page,论文链接:2507.14683

研究背景和目的

研究背景
近年来,大型语言模型(LLMs)在自然语言处理领域取得了显著进展,尤其是基于Transformer架构的模型,通过大规模预训练和上下文学习能力,在规划、推理和问题解决等方面表现出色。然而,尽管这些模型在文本生成上非常流畅,但在复杂推理任务上仍面临挑战。推理语言模型(RLMs)作为专门训练以产生多步思维链(CoT)的模型,逐渐成为研究热点。特别是在数学推理领域,由于其需要精确的多步骤逻辑和抽象推理能力,成为评估RLMs性能的理想基准。

尽管闭源RLMs如GPT-o3和Claude Sonnet 4展示了令人印象深刻的推理能力,但其专有性限制了透明度和可复现性。虽然许多开源项目试图弥补这一差距,但大多数项目因缺乏关键资源(如精心整理的数据集和详细的训练配置)而不足以支持完全的可复现性。这种不透明性阻碍了科学创新的进一步发展,尤其是在需要高度透明度和可验证性的推理任务中。

研究目的
本研究旨在通过开发一个完全开源的RLMs系列——MiroMind-M1,来提高RLMs开发的透明度,并推动该领域的进一步研究。具体目标包括:

  1. 构建一个高质量的数学推理数据集,用于监督微调(SFT)和基于验证的强化学习(RLVR)。
  2. 提出一种情境感知多阶段策略优化(CAMPO)算法,以提高RLVR过程的稳健性和效率。
  3. 开发一系列基于Qwen-2.5主干的开源RLMs,在数学推理基准测试上达到或超过现有开源模型的性能。
  4. 公开所有模型、数据集和训练配置,以支持进一步的研究和社区发展。

研究方法

数据集构建
研究从多个公开来源收集数学推理问题,包括OpenR1、OpenThoughts、Light-R1和Synthetic-1等数据集。通过严格的去重和去污染处理,确保数据质量,并避免与评估基准的数据泄露。最终构建了包含71.9万个数学推理问题的SFT数据集(MiroMind-M1-SFT-719K)和6.2万个具有挑战性且可验证问题的RLVR数据集(MiroMind-M1-RL-62K)。

模型训练

  1. 监督微调(SFT): 使用Qwen-2.5-Math-7B作为初始检查点,在71.9万个数学推理问题上进行了3个epoch的SFT训练。采用无填充(no-packing)策略,设置峰值学习率为5.0×10^-5,批量大小为128,最大位置嵌入增加到32,768。
  1. 基于验证的强化学习(RLVR): 在6.2万个具有挑战性且可验证的问题上进行了RLVR训练。采用多阶段训练策略,逐步增加最大响应长度,从初始的16,384逐步增加到32,768和49,152。引入CAMPO算法,通过长度渐进式训练和自适应重复惩罚,提高训练的稳健性和效率。

CAMPO算法
CAMPO算法通过多阶段训练策略,结合长度渐进式训练和自适应重复惩罚,鼓励情境感知的强化学习训练。具体实现包括:

  • 多阶段训练: 逐步增加最大响应长度,提高训练效率。
  • 自适应重复惩罚: 通过动态调整重复惩罚系数,减少冗余输出,提高输出多样性。
  • 准确的验证器: 改进数学验证器,提高奖励信号的准确性,减少验证错误对训练的干扰。

研究结果

模型性能
MiroMind-M1系列模型在AIME24、AIME25和MATH基准测试上取得了显著性能提升。具体而言:

  • MiroMind-M1-RL-32B在AIME24上达到了77.5%的准确率,在AIME25上达到了65.6%,在MATH500上达到了96.4%。
  • MiroMind-M1-RL-7B在AIME24上达到了73.4%的准确率,在AIME25上达到了57.8%,在MATH500上达到了96.7%。

效率提升
通过CAMPO算法,MiroMind-M1系列模型在保持高性能的同时,显著提高了标记效率。特别是在较短的响应长度下,MiroMind-M1-RL-32B和MiroMind-M1-RL-7B均表现出比基准模型更高的准确率。

开源贡献
研究公开了所有模型、数据集和训练配置,包括MiroMind-M1-SFT-7B、MiroMind-M1-RL-7B和MiroMind-M1-RL-32B模型,MiroMind-M1-SFT-719K和MiroMind-M1-RL-62K数据集,以及详细的训练和评估配置。这些资源为进一步的研究和社区发展提供了有力支持。

研究局限

尽管MiroMind-M1系列模型在数学推理任务上取得了显著进展,但研究仍存在一些局限性:

  1. 数据集覆盖有限: 尽管研究构建了大规模的数学推理数据集,但仍可能无法覆盖所有类型的数学问题。特别是某些高度专业化或复杂的数学领域,可能需要更多的数据进行训练。
  1. 模型规模限制: 当前研究主要基于Qwen-2.5系列的7B和32B参数模型。虽然这些模型在数学推理任务上表现出色,但更大规模的模型可能进一步提高性能。然而,更大规模模型的训练需要更多的计算资源和数据支持。
  1. 评估稳定性: 在AIME24和AIME25等具有挑战性的基准测试上,评估结果的稳定性成为一个问题。由于这些基准测试包含的问题数量较少,微小的正确答案数量变化可能导致性能波动较大。

未来研究方向

针对上述研究局限,未来研究可以从以下几个方面展开:

  1. 扩展数据集覆盖: 进一步收集和整理更多类型的数学推理问题,特别是那些高度专业化或复杂的数学领域。同时,考虑引入多语言和多领域的推理问题,提高模型的泛化能力。
  1. 开发更大规模的模型: 利用更多的计算资源和数据支持,开发基于更大规模预训练模型的RLMs。通过增加模型参数和复杂度,进一步提高模型在数学推理任务上的性能。
  1. 提高评估稳定性: 探索更稳定的评估方法和指标,减少因问题数量较少导致的性能波动。例如,可以增加评估问题数量、采用多次运行取平均值等方法,提高评估结果的可靠性和稳定性。
  1. 探索其他推理任务: 将MiroMind-M1系列模型的研究方法应用于其他类型的推理任务,如科学推理、逻辑推理和代码生成等。通过扩展模型的应用领域,进一步验证CAMPO算法的有效性和普适性。
  1. 优化训练过程: 进一步研究CAMPO算法的优化策略,如更精细的长度渐进式训练计划、更智能的自适应重复惩罚机制等。通过优化训练过程,提高模型的训练效率和性能表现。

总之,本研究通过开发完全开源的MiroMind-M1系列模型,提高了RLMs开发的透明度,并在数学推理任务上取得了显著进展。未来研究可以从扩展数据集覆盖、开发更大规模的模型、提高评估稳定性、探索其他推理任务和优化训练过程等方面展开,进一步推动RLMs领域的发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/90738.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/90738.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《使用Qt Quick从零构建AI螺丝瑕疵检测系统》——6. 传统算法实战:用OpenCV测量螺丝尺寸

目录一、概述1.1 背景介绍:从“看见”到“看懂”1.2 学习目标二、图像预处理:让目标更突出三、轮廓发现与尺寸测量四、总结与展望一、概述 1.1 背景介绍:从“看见”到“看懂” 在上一篇文章中,我们成功地为应用程序安装了“眼睛…

《人性的弱点》重构【01】

手上有本《人性的弱点》(韩文桥 译,浙江文艺出版社,2017.1出版),前些年买的,近期翻出来看看。这门书虽成书于80多年前,但卡耐基对人性洞察之深刻,时至今日,并未觉得过时。…

k8s开启审计日志

k8s默认是关闭审计功能的,想看的话需要到apiserver的pod中才可以。 开启此功能是为了进行k8s审计日志的收集,方便我们查看k8s中用户的各自操作。 开启此功能之前,我们要先创建个审计策略文件audit-policy.yaml 例如以下的测验文件 apiVersion…

Kafka MQ 消费者应用场景

Kafka MQ 消费者应用场景 1 消费者自动提交的时机 在 Kafka 中默认的消费位移的提交方式是自动提交,这个由消费者客户端参数 enable.auto.commit 配置,默认值为 true。当然这个默认的自动提交不是每消费一条消息就提交一次,而是定期提交,这个定期的周期时间由客户端参数 …

Git版本控制系统

Git作为目前最流行的分布式版本控制系统,已经成为开发者必备的技能之一。本文将全面介绍Git的核心概念、基本操作、分支管理以及与GitHub的协作开发,帮助读者从零开始掌握Git的使用。 一、Git概述 1.1 Git发展历史 Git诞生于2005年,由Linu…

如何编译RustDesk(Unbuntu 和Android版本)

编译Linux版本的RustDesk备注:官方文档上,一边都是基于sciter,这个在后面已经不建议使用了,但是依然可以编译刚开始的时候看官方的文档,涉及的东西比较多,也搞的一头雾水,通过B站上一个视频&…

Spring中的循环依赖:解密、破局与架构启示

> 当两个Bean紧紧相拥,Spring容器却陷入死锁——这是Java开发者的经典噩梦 某电商平台凌晨上线时突然宕机,日志里反复滚动着`BeanCurrentlyInCreationException`的报错。经排查,**优惠券服务与库存服务在初始化时相互依赖**,形成致命闭环。这个价值百万的故障案例,揭开…

DataFrame​(数据框)

一种二维表格型数据结构,类似于电子表格(如 Excel)或 SQL 表,由行(记录)​和列(字段)​组成。它是数据分析、机器学习和科学计算中最常用的数据结构之一,尤其在 ​Python…

B站视频评论数据爬取

爬取B站视频评论数据爬取与分析 如果只要单纯的脚本可以直接看项目结构里的b_comments.py 一、技术架构 1、环境配置 Python 3.8PyCharm 2、模块配置 requests:用于发送HTTP请求time:用于处理时间相关的操作csv:用于读写CSV文件json&#xff…

OpenAI最新大模型GPT-4o体验之Code Copilot AI编程大模型

一、前言GPT-4o("o"代表"全能")具备处理各种文本、声音和图像资料的能力,能够输出多种格式的文本、声音和图像。GPT-4o 的推出标志着 AI 技术的重大突破。它不再局限于单一媒介,而是首次实现了文本、语音和图…

社交电商推客系统全栈开发指南:SpringCloud+分润算法+Flutter跨端

一、推客系统概述与市场背景推客系统(TuiKe System)是一种基于社交关系的营销推广平台,通过用户分享商品或服务链接,实现裂变式传播和精准营销。近年来,随着社交电商的蓬勃发展,推客系统已成为企业获客的重…

网安-中间件-Redis未授权访问漏洞

目录 Redis Redis持久化 动态修改配置 使用反弹连接的情况 常见监听端口的方式 常见建立反弹连接的方式 流程 Linux crontab cron文件存储路径 利用Redis实现攻击 1.webshell提权案例 2.定时任务shell反弹案例 3.SSH Key getshell案例 ​编辑Redis其他利用方式 …

【c++深入系列】:万字详解栈和队列和deque(附模拟实现的源码)

🔥 本文专栏:c 🌸作者主页:努力努力再努力wz 💪 今日博客励志语录: 石头能被水滴穿,不是因为水有多强,而是因为它从未停过。 ★★★ 本文前置知识: 模版 栈 那么栈这个…

速通python加密之RSA加密

RSA加密 RSA加密是一种非对称加密算法(与AES等对称加密不同),由罗纳德李维斯特(Ron Rivest)、阿迪萨莫尔(Adi Shamir)和伦纳德阿德曼(Leonard Adleman)于1977年提出&…

Java BeanUtils 类详解:作用、语法与示例

一、BeanUtils 的核心作用BeanUtils 是 Apache Commons 和 Spring Framework 提供的工具类,主要用于简化 JavaBean 的操作。核心功能包括:属性拷贝:对象间同名属性自动复制动态访问:通过字符串名称操作属性类型转换:自…

PyCharm高效开发全攻略

安装与基础配置下载PyCharm专业版或社区版(免费)并完成安装。首次启动时选择默认设置或自定义主题、字体大小等界面偏好。配置Python解释器路径(推荐使用虚拟环境),确保项目依赖隔离。快捷键与导航熟悉核心快捷键能大幅…

Pycharm 给 python 程序打包EXE的配置和方法

前言: Python 语言的设计变得越来越简单,它有很多可以使用的库,所以尤其在人工智能时代,Python语言被广泛应用。但是Python语言和windows系统的兼容性稍微偏弱,如何生成windows可以执行的exe文件。是要一个很复杂的配置过程,本文就会做一个介绍。 本文,通过一个Python…

【Linux | 网络】传输层(UDP和TCP)

目录一、再谈端口号1.1 端口号1.2 端口号的范围划分1.3 常见知名端口号1.4 netstat 命令1.5 进程与端口号的关系1.6 pidof 命令二、UDP协议2.1 UDP协议段格式2.2 如何理解UDP报头和UDP报文2.2.1 UDP报头2.2.2 UDP报文和UDP报文的管理2.2.3 UDP封装过程2.3 UDP的特点2.4 UDP的缓…

mybatisX的自定义模板生成

在idea中使用mybtais的自定义模板生成,可以帮我们省去很多重复的代码。 打开一个项目,我们要修改的主要就两个文件,一个是生成的mapper接口,另一个是xml文件: 相应的mapper接口模板为: package ${mapper…

miniz:一个轻量级、高性能的开源压缩库

目录 1.简介 2.核心特性 3.基本使用示例 4.与 ZLIB 的对比 5.使用场景 6.注意事项 1.简介 miniz 是一个轻量级、高性能的开源压缩库,专注于提供 ZLIB/GZIP 兼容的压缩和解压缩功能。它的核心优势在于体积小巧(单文件实现)、跨平台支持和…