【开源模型】高考数学139分!小米MiMo开源模型:7B参数突出重围

小米 MiMo:7 B 参数撬动推理巅峰,开源模型的技术突围

70 亿参数超越 320 亿对手,高考数学 139 分的背后是训练策略的全面革新。

2025 年 4 月 30 日,小米开源的首个推理大模型 Xiaomi MiMo-7 B 横空出世,以​​仅 7 B 参数​​在数学推理(AIME 24-25)和代码生成(LiveCodeBench v 5)等权威测评中,超越 OpenAI 闭源模型 o 1-mini 和阿里 320 亿参数的 QwQ-32 B-Preview。

更令人惊讶的是,其多模态版本​​MiMo-VL-7 B 在 2025 年高考数学新课标 I 卷中斩获 139 分​​,与 2350 亿参数的 Qwen 3-235 B 持平,仅比 OpenAI o 3 低 1 分,并将同尺寸的 Qwen 2.5-VL-7 B 甩开 56 分差距。


一、技术架构:小模型的“密度革命”

MiMo 的核心突破在于​​用算法密度替代参数规模​​,通过预训练与后训练的联动创新实现推理能力跃迁:

  1. ​预训练阶段:推理数据的精炼合成​

    • 构建​​2000 亿 Token 专项推理语料库​​,涵盖数学证明、算法竞赛等高阶场景
    • 采用三阶段渐进训练:
      • 阶段一:基础逻辑训练(如代数运算)
      • 阶段二:中级推理(如几何证明)
      • 阶段三:复杂问题求解(如组合优化)
    • 引入​​Multiple Token Prediction (MTP)​​ 技术提升生成准确性
    • 总训练量达 25 万亿 Token,是同等规模模型的 3 倍以上
  2. ​后训练阶段:强化学习的稳定性突破​

    • ​Test Difficulty Driven Reward (TDDR)​​:根据题目难度动态分配奖励系数,高难度题奖励提升 40%,缓解梯度震荡
    • ​Easy Data Re-Sampling 策略​​:将低难度样本训练比例从 60%压缩至 30%,高难度样本训练频率提高 2 倍
    • 自研​​Seamless Rollout 系统​​:通过模型并行与数据并行混合调度,RL 训练速度提升 2.29 倍
      architecture.png

二、性能实测:颠覆规模定律

MiMo 以 7 B 参数实现对大模型的跨级超越:

测试集MiMo-7 BQwQ-32 Bo 1-mini
AIME-24(数学推理)68.2%50.7%55.4%
LiveCodeBench v 5(代码)74.8%41.9%53.8%
高考数学客观题(73 分)68 分-65 分
curve.png

数据来源:

在特定领域表现尤为突出:

  • ​动态规划算法题​​:代码生成效率比 QwQ-32 B 快 1.5 倍,内存占用降低 40%
  • ​多模态推理​​:MiMo-VL-7 B 在 OlympiadBench 数学竞赛基准得分 59.4%,超越 720 亿参数的 QVQ-72 B(20.4%)
  • ​GUI 任务​​:在 OSWorld-G 测评达 56.1 分,超越专用模型 UI-TARS

三、部署实践:消费级硬件的福音

MiMo 系列已全模型开源,提供灵活部署方案:

  1. ​Hugging Face 模型库​

    # 基础推理示例
    from transformers import AutoTokenizer, AutoModelForCausalLMtokenizer = AutoTokenizer.from_pretrained("XiaomiMiMo/MiMo-7B-Base")
    model = AutoModelForCausalLM.from_pretrained("XiaomiMiMo/MiMo-7B-Base")input_text = "求解:若x²+y²=25,x+y=7,则x-y=?"
    inputs = tokenizer(input_text, return_tensors="pt")
    outputs = model.generate(**inputs, max_new_tokens=100)
    print(tokenizer.decode(outputs[0]))
    
  2. ​端侧部署优化​

    • 支持​​RTX 3060 显卡推理​​,延迟<300 ms
    • 通过 INT 8 量化+CUDA kernel 优化,在 RTX 4090 实现​​30 token/s 生成速度​
    • 中文场景专项优化:适配数学符号(√/∑)和 Python 缩进规范
  3. ​多模态推理实践​
    高考数学题实测流程:

    # MiMo-VL-7B图像推理示例
    from PIL import Image
    from transformers import pipelinevl_pipe = pipeline("visual-question-answering", model="XiaomiMiMo/MiMo-VL-7B-SFT")
    image = Image.open("math_problem.jpg")
    result = vl_pipe(image, "求椭圆阴影面积", temperature=0.3, top_p=0.95)
    

四、技术启示:效率优先的新范式

MiMo 的成功验证了三条技术路径的可行性:

  1. ​推理数据定向合成​​:
    2000 亿 Token 的专项语料库证明,​​数据质量比规模更重要​​。通过拒绝采样生成的长链推理(CoT)数据,显著提升多步推理能力。
  2. ​难度驱动的 RL 训练​​:
    TDDR 机制打破传统 RL 的奖励稀疏困境,使模型在奥赛级难题上获得稳定提升。
  3. ​系统工程优化​​:
    Seamless Rollout 系统实现​​训练-验证加速比>2×​​,大幅降低实验迭代成本。

小米的混合在线强化学习(MORL)框架融合文本推理、多模态感知和 RLHF 信号,尽管面临多域干扰挑战,但在 OlympiadBench 等复杂任务中展现出显著优势。


从手机端侧到高考考场,MiMo 的技术突围印证了雷军的判断:“​​设备多样化的时代,需要把大模型能力下放到端侧​​”。其开源的​​Seamless Rollout 系统​​和​​混合强化学习框架​​已吸引超过 50 家硬件厂商测试端侧部署。

随着小米计划在 2025 年 Q 3 推出 700 亿参数的 MiMo-Pro,并整合米家智能生态,这场以“​​算法密度对抗参数规模​​”的技术革命,正在重构大模型的竞争规则。

在 Hugging Face 的 Open LLM 数学推理榜单上,7 B 的 MiMo 已稳居前三——千亿模型的护城河,第一次被轻量化技术凿开了裂缝。

模型开源地址:
https://huggingface.co/XiaomiMiMo
技术报告:
https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf


往期回顾:
🔥【三维重建】VGGT:告别漫长等待,几秒解锁3D世界的CVPR黑马
🔥【图片转 3D 模型】北大·字节跳动·CMU携手——单图15 秒生成结构化3D模型!
🔥【开源项目】FastMCP 让 MCP 服务器开发像搭积木一样简单

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/86212.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/86212.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

用vscode破解最新typora1.10.8

1.下载格式化插件防止打开文件一团乱 1&#xff09;下载vscode&#xff1a; Download Visual Studio Code - Mac, Linux, Windows 2&#xff09;vscode下载中文插件重启 如果没变中文&#xff0c;在vscode界面按下&#xff1a; ctrl shift p 调出命令行 再输入&#xff…

在 CI/CD 流程中使用 Jenkins 与 Docker 集成

在 CI/CD 流程中&#xff0c;Jenkins 与 Docker 的集成可以实现自动构建、测试、打包、发布容器镜像&#xff0c;并部署到测试/生产环境。下面是从概念到落地操作的完整集成方案。 一、常见的集成方式有哪些&#xff1f; 方式描述1️⃣ Jenkins 主机安装 DockerJenkins 可以直…

闲庭信步使用SV搭建图像测试平台:第十课——继续说说类

&#xff08;本系列只需要modelsim即可完成数字图像的处理&#xff0c;每个工程都搭建了全自动化的仿真环境&#xff0c;只需要双击top_tb.bat文件就可以完成整个的仿真&#xff0c;大大降低了初学者的门槛&#xff01;&#xff01;&#xff01;&#xff01;如需要该系列的工程…

如何改进复杂推理 - 从提示词设计入手

引言&#xff08;动机&#xff09; 在使用大语言模型&#xff08;如 GPT-4、Claude、DeepSeek 等&#xff09;构建智能问答、辅助决策或复杂任务代理系统时&#xff0c;可能遇到这些问题&#xff1a; 模型回答跳步骤、思路混乱同样问题&#xff0c;模型表现高度不稳定新任务一…

如何解决和各个经销商不同软件对接的问题?汤臣案例分享

一、项目背景 汤臣倍健作为健康产品行业的领军企业&#xff0c;其营销云系统与全国经销商 ERP 系统的数据无缝对接&#xff0c;对于提升业务运营效率和营销精准度至关重要。传统数据集成方法在面对经销商 ERP 系统的多样性和复杂性时&#xff0c;暴露出诸多问题&#xff0c;如…

Wordvice AI:Wordvice 推出的免费,基于先进的 AI 技术帮助用户提升英文写作质量

Wordvice AI&#xff1a;智能写作助手&#xff0c;助力高效英文写作 在当今全球化时代&#xff0c;英文写作已成为众多学生、研究人员、职场人士必备技能。然而&#xff0c;语法错误、表达不流畅、词汇匮乏等问题常困扰着大家。别担心&#xff0c;今天就来给大家介绍一款强大的…

【UE5】如何开发安卓项目的udp客户端

1关于如何打包安卓项目这里就不赘述了 2代码举例。最重要的就是这两句 #if PLATFORM_ANDROID #endif#if PLATFORM_WINDOWS #endif全部代码如下&#xff1a; Button_Sheng.h: // Fill out your copyright notice in the Description page of Project Settings.#pragma once#in…

2025年6月21和22日复习和预习(python)

一、作业内容 &#xff08;一&#xff09;知识点回顾 用户输入处理 使用input()函数获取用户输入的字符串&#xff0c;并存储到变量中。 条件判断语句 if-elif-else结构&#xff1a;根据不同条件执行相应代码块&#xff0c;适用于多分支判断。 语音合成技术 导入pyttsx3库实现…

Vue 样式穿透语法大全(涵盖 Vue2、Vue3、Less、Scss 等)

1. 什么是样式穿透&#xff1f; 样式穿透是在使用 Vue 组件时&#xff0c;为了修改子组件或第三方组件的样式而使用的一种特殊语法。当我们使用 scoped 样式时&#xff0c;由于样式被限制在当前组件内&#xff0c;要修改子组件的样式就需要使用样式穿透。 2. 为什么需要样式穿…

Python 属性查找:深入理解__getattribute__与__getattr__

目录 一、__getattribute__方法详解 1.1 基本概念 1.2 示例分析 1.3 注意事项 二、__getattr__方法详解 2.1 基本概念 2.2 示例分析 2.3 注意事项 三、__getattribute__与__getattr__的区别对比 3.1 调用时机 3.2 应用场景 3.3 性能影响 四、属性查找顺序 属性查找…

打表法从原理到实战详解

打表法结合经典案例从原理到实战详解 一、打表法基本信息1.1 打表法定义1.2 打表法适用场景1.3 打表法的优缺点 二、打表法经典案例解析2.1 快速计算斐波那契数列2.1.1 问题描述2.1.2 打表思路2.1.3 Java代码实现2.1.4 复杂度分析 2.2 快速判断质数&#xff08;埃氏筛法结合打表…

(LeetCode 面试经典 150 题 )121. 买卖股票的最佳时机 (遍历)

题目&#xff1a;121. 买卖股票的最佳时机 思路&#xff1a;遍历&#xff0c;维护已遍历过的元素中的最小值&#xff0c;时间复杂度0(n)。 C版本&#xff1a; class Solution { public:int maxProfit(vector<int>& prices) {int mnprices[0];int mx0;for(int i1;i&…

(洛谷)P4447 [AHOI2018初中组] 分组

题目描述 小可可的学校信息组总共有 n 个队员&#xff0c;每个人都有一个实力值 ai​。现在&#xff0c;一年一度的编程大赛就要到了&#xff0c;小可可的学校获得了若干个参赛名额&#xff0c;教练决定把学校信息组的 n 个队员分成若干个小组去参加这场比赛。 但是每个队员都…

PLA/PHA生物降解化妆品包装材料的稳定性与货架期契合性研究

更多案例&#xff1a;https://npmatc.niicapm.com/ 在可持续发展理念的推动下&#xff0c;化妆品行业正经历一场绿色变革。环保聚合物在包装领域的应用已成为重要趋势&#xff0c;这不仅源于消费者对生态友好产品的需求&#xff0c;更基于全球塑料污染治理的紧迫性。化妆品包装…

STM32[笔记]--4.嵌入式硬件基础

4.嵌入式硬件基础 4.1认识上官二号开发板 主控芯片:STM32F103C8T6高速晶振:8M低速晶振:32.768kLED:5颗KEY:3个 主控芯片内部的资源如下项目介绍内核Cortex-M3Flsah64K*8bitSRAM20K*8bitGPIO37个GPIO,分别为PA0-PB15,PC13-PC15,PD0-PD1ADC2个12bitADC合计12了通道,外部通…

【LLaMA-Factory 实战系列】一、数据准备篇 - 从文本到多模态的完整流程

【LLaMA-Factory 实战系列】一、数据准备篇 - 从文本到多模态的完整流程 1. 引言2. LLaMA-Factory 数据格式概述2.1 Alpaca 格式2.2 ShareGPT 格式 3. 文本数据准备3.1 Alpaca 格式示例3.2 ShareGPT 格式示例3.3 预训练数据格式 4. 多模态数据准备4.1 图像数据准备4.2 视频数据…

JuiceFS 集群部署详细指南:使用 SeaweedFS 作为数据存储,ETCD 作为元数据存储

1. 概述 本指南将详细介绍如何部署一个 JuiceFS 集群,其中数据存储层采用高性能的分布式对象存储 SeaweedFS,元数据存储层采用强一致性的分布式键值存储 ETCD。这种组合方案旨在为用户提供一个高性能、高可用、易于扩展且数据强一致的分布式文件系统解决方案,特别适用于云原…

【数字后端】- 什么是NDR规则?

NDR是指与工艺库的默认规则&#xff08;DR&#xff09;不同的特殊物理规则&#xff1a; 常见的有&#xff1a; 间距规则&#xff08;spacing&#xff09;&#xff1a;增加信号线与邻近线之间的距离&#xff0c;降低Crosstalk串扰。线宽规则&#xff08;width&#xff09;&…

B2B 商城定制的优势:解锁企业数字化转型新动力

精准适配业务流程&#xff0c;贴合企业运营特色​ 每一家企业都有独特的业务流程、运营模式与管理需求。标准化的 B2B 商城往往难以完全满足企业个性化的业务需求&#xff0c;而定制化商城则能够深入剖析企业业务细节&#xff0c;从采购、销售、库存管理到财务管理等全流程&am…

osg实例绘制

#include <osg/Geometry> #include <osg/Geode> #include <osg/Program> #include <osg/VertexAttribDivisor> #include <osgViewer/Viewer> #include <osgViewer/ViewerEventHandlers> #include <random> // 创建单个立方体几何体&…