摘要
我们开源了 MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL 两个强大的视觉语言模型,它们在通用视觉理解和多模态推理方面均展现出最先进的性能。MiMo-VL-7B-RL 在 40 项评估任务中的 35 项上优于 Qwen2.5-VL-7B,并在 OlympiadBench 上获得 59.4 分,超越了参数量高达 780 亿的模型。对于 GUI 定位应用,它在 OSWorld-G 上达到了 56.1 分,树立了新的标准,甚至超越了 Ui-TARS 等专业模型。我们的训练方法结合了四阶段预训练(2.4 万亿个 token)与混合在线策略强化学习(MORL),后者整合了多种奖励信号。我们发现,在预训练阶段融入高质量、长思维链(Chain-of-Thought)的推理数据至关重要,同时混合强化学习虽能带来性能提升,但在多领域同步优化方面仍面临挑战。我们还贡献了一个涵盖 50 多项任务的综合评估套件,以促进可重复性和推动领域发展。模型检查点和完整评估套件可在 https://github.com/XiaomiMiMo/MiMo-VL 获取。
1 引言
视觉语言模型(VLMs)已成为多模态 AI 系统的基础骨干,使自主智能体能够感知视觉世界、对多模态内容进行推理(Yue 等,2024b),并与数字(Xie 等,2024;OpenAI,2025)和物理环境(Zitkovich 等,2023;Black 等,2024)进行交互。这些能力的重要性促使研究者在多个维度上进行了广泛探索,包括新颖的架构设计(Alayrac 等,2022;Team,2024;Ye 等,2025)以及采用优化数据配方的创新训练方法(Karamcheti 等,2024;Dai 等,2024),从而推动了该领域的快速发展(Liu 等,2023;Tong 等,2024;Bai 等,2025a)。
在本报告中,我们分享了构建紧凑而强大的 VLM 模型 MiMo-VL-7B 的经验。MiMo-VL-7B 包含三个组件:(1) 一个保留精细视觉细节的原生分辨率视觉 Transformer(ViT)编码器;(2) 一个用于高效跨模态对齐的多层感知机(MLP)投影器;(3) 专为复杂推理任务优化的 MiMo-7B(Xiaomi,2025)语言模型。
MiMo-VL-7B 的开发涉及两个连续的训练过程:(1) 四阶段预训练阶段,包括投影器预热、视觉-语言对齐、通用多模态预训练以及长上下文监督微调(SFT)。在这些阶段中,我们通过战略性地组合开源数据集和合成数据生成技术来策划高质量数据集,消耗了 2.4 万亿个 token,并在不同阶段调整数据分布以促进训练。该阶段生成 MiMo-VL-7B-SFT 模型。(2) 后续的后训练阶段,我们引入了混合在线策略强化学习(MORL),这是一种新型框架,能够无缝整合涵盖感知准确性、视觉定位精度、逻辑推理能力和人类偏好的多样化奖励信号。我们采用了 GRPO(Shao 等,2024)的理念,并通过在此阶段仅执行在线策略梯度更新来增强训练稳定性。该阶段生成 MiMo-VL-7B-RL 模型。
在此过程中,我们发现:
-
(1) 从预训练阶段开始融入高质量、覆盖广泛的推理数据对提升模型性能至关重要。在当前"思考型"模型的时代,大量的多模态预训练数据正经历显著的重新评估。传统的问答(QA)数据因其直接、简短的答案,往往限制模型仅进行表面的模式匹配,导致过拟合。相比之下,带有长思维链(CoT)的合成推理数据使模型能够学习复杂的逻辑关系和可泛化的推理模式,提供更丰富的监督信号,显著提升性能和训练效率。为了利用这一优势,我们通过识别多样化问题、使用大型推理模型重新生成带有长思维链的响应,并应用拒绝采样来确保质量,从而策划高质量推理数据。此外,我们不是将其视为补充性的微调数据,而是将大量此类合成推理数据直接融入后期预训练阶段,通过扩展训练持续提升性能而不出现饱和。
-
(2) 混合在线策略强化学习进一步提升了模型性能,但实现稳定的同步改进仍具挑战性。我们在包括推理、感知、定位和人类偏好对齐在内的多样化能力上应用强化学习,涵盖文本、图像和视频等多种模态。虽然这种混合训练方法进一步释放了模型潜力,但不同数据域之间的干扰仍然是一个挑战。响应长度和任务难度水平的增长趋势差异阻碍了所有能力的稳定同步提升。
MiMo-VL-7B-RL 在全方位多模态能力上表现出色。
- (1) 在基础视觉感知任务中,它在同等规模的开源 VLM 中实现了最先进的性能,在 MMMU(Yue 等,2024b)上获得 66.7 分,并在 40 项评估任务中的 35 项上优于 Qwen2.5-VL-7B(Bai 等,2025a)。
- (2) 对于复杂的多模态推理,MiMo-VL-7B-RL 表现出色,在 OlympiadBench(He 等,2024)上获得 59.4 分,超越了高达 720 亿参数的模型。
- (3) 在面向智能体应用的 GUI 定位方面,我们的模型通过在 OSWorld-G(Xie 等,2025)上达到 54.7 分树立了新标准,甚至超过了 Ui-TARS(Qin 等,2025b)等专业模型。
- (4) 在用户体验和偏好方面,MiMo-VL-7B-RL 在我们的内部用户偏好评估中获得了所有开源 VLM 中最高的 Elo 评分,与 Claude 3.7 Sonnet 等专有模型相比也具有竞争力。
这些结果验证了我们的方法:通过我们的 MORL 框架结合强大的感知能力、复杂的推理能力和精确的定位能力,MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL 为开源视觉语言模型树立了新标准。为了促进透明度和可重复性,我们还贡献了一个涵盖 50 多项任务的综合评估套件,包含完整的提示词和协议,使社区能够在此基础上继续发展。
2 预训练
本节将介绍 MiMo-VL-7B 的架构设计,随后阐述预训练阶段的数据构建流程与训练策略。
2.1 架构设计
MiMo-VL-7B 由三部分组成:(1) 用于编码图像和视频等视觉输入的视觉 Transformer(ViT);(2) 将视觉编码映射至与大语言模型(LLM)对齐的潜在空间的投影器;(3) 执行文本理解与推理的 LLM 本体。为支持原生分辨率输入,我们采用 Qwen2.5-ViT(Bai 等,2025a)作为视觉编码器。LLM 骨干网络以 MiMo-7B-Base(Xiaomi,2025)初始化以继承其强大推理能力,投影器则使用随机初始化的多层感知机(MLP)。整体架构如图 2 所示,模型配置详见附录 B。
2.2 预训练数据
MiMo-VL-7B 预训练数据集包含 2.4 万亿 token 的高质量、多样化多模态数据,涵盖图像、视频及文本。该综合数据集包括通用图像描述、交错数据、光学字符识别(OCR)数据、定位数据、视频内容、GUI 交互、推理示例及纯文本序列。
为确保各模态数据质量,我们针对不同数据类型特性设计了专用数据构建流程。训练过程中,我们系统性地调整各阶段不同模态数据的比例,以优化训练效率与模型稳定性。此外,采用基于感知哈希(phash)的图像去重技术,消除训练数据与评估基准间的潜在重叠,最大限度避免数据污染。
以下详述各类型数据的具体处理流程:
2.2.1 图像描述数据
图像描述数据集构建采用多阶段流程以确保高质量与分布均衡:
- 数据聚合:从网络来源收集大量公开描述数据
- 严格去重:结合图像感知哈希(phash)与文本过滤,生成精简版原始描述集
- 重描述生成:以图像及原始文本为先验,调用专用描述模型对原始数据集重新生成描述
- 质量过滤:基于语言一致性与重复模式对生成描述进行过滤
- 分布优化:采用 MetaCLIP(Xu 等,2023)方法构建中英双语元数据,修正描述分布,缓解高频条目过表达问题并降低数据噪声
此流程最终生成均衡、高质量且多样化的描述数据集。实证表明,此类丰富数据显著提升模型泛化能力与定性表现,其价值在现有专项基准测试中未必完全体现。
2.2.2 交错数据
我们从网页、书籍及学术论文等多源渠道构建大规模图像-文本交错数据集:
- 内容提取:对书籍/论文内容采用高级 PDF 解析工具进行提取与清洗
- 数据筛选:优先保留蕴含世界知识的数据类型(教材、百科、手册、指南、专利、传记)
- 文本评估:基于知识密度与可读性指标筛选文本片段
- 图像过滤:剔除尺寸过小、比例异常、含不安全内容或视觉信息稀疏的图像(如装饰性章节标题)
- 配对评分:从相关性、互补性及信息密度平衡性三维度对图文对评分,确保保留高质量数据
此数据集显著扩充模型知识库,为后续推理能力奠定坚实基础。
2.2.3 OCR 与定位数据
为提升模型在 OCR 与对象定位方面的能力,我们整合开源数据集构建大规模预训练语料:
- OCR 数据:
- 图像来源:文档、表格、通用场景、产品包装及数学公式
- 增强难度:除标准印刷文本外,特别纳入手写体、变形字体及模糊/遮挡文本图像
- 定位标注:部分数据标注文本区域边界框,使模型能同步预测位置
- 定位数据:
- 场景覆盖:包含单/多对象场景
- 复杂表达:在定位提示中使用复杂对象表述,提升模型理解复杂指代表达的能力
- 坐标表示:所有定位场景均采用绝对坐标表示
2.2.4 视频数据
视频数据集主要源自公开网络视频,覆盖广泛领域、类型及时长:
- 细粒度重描述:设计视频重描述流程,生成带精确起止时间戳的事件级描述,培养模型时序感知能力
- 时序定位:从描述数据集中筛选事件时长分布均衡的子集用于时序定位预训练
- 深度分析:构建视频分析数据,提炼全局语义(叙事结构、风格要素、隐含意图),提升模型深度理解能力
- 对话增强:收集多样化视频挑战性问题并合成响应,结合开源视频描述与对话数据集,强化模型对话连贯性
2.2.5 图形用户界面数据
为增强模型在图形用户界面(GUI)导航能力:
- 数据来源:整合开源移动端/网页端/桌面端跨平台数据,辅以合成数据引擎弥补开源数据局限
- 中文优化:构建海量中文 GUI 数据以提升中文场景处理能力
- 定位训练:
- 元素定位:基于文本描述精确定位界面元素,强化静态界面感知
- 指令定位:根据用户指令识别截图中的目标对象,提升 GUI 交互逻辑理解
- 动作预测:新增基于前后截图预测中间动作的预训练任务,显著增强动态界面感知能力
- 动作标准化:将跨平台操作统一至标准化动作空间(详见附录 D),既避免动作冲突又保留平台特性
2.2.6 合成推理数据
合成推理数据生成流程:
- 问题收集:整合开源问题库,覆盖感知问答、文档问答、视频问答及视觉推理任务,补充网络与文学作品中的问答对
- 初筛过滤:对原始问题进行基础质量筛选
- 推理生成:调用大型推理模型生成含显式推理链的答案
- 多级质控:
- 验证答案事实正确性
- 严格评估推理过程(逻辑清晰度、冗余消除、格式一致性)
此高保真数据集使模型有效继承 MiMo-7B-Base(Xiaomi,2025)的强推理能力,并无缝迁移适配多模态场景,最终在广泛领域展现强大且通用的多模态推理能力。
2.3 预训练阶段
如表 1 所示,模型经历四阶段预训练:
第一阶段:投影器预热
冻结 ViT 与 LLM 组件,仅用图像-描述对预热随机初始化的投影器。确保投影器有效学习视觉概念到语言模型表征空间的映射,为后续阶段提供有效梯度信号而非不良投影器导致的噪声更新。
第二阶段:视觉-语言对齐
解冻 ViT 并引入交错数据,强化视觉-语言对齐。交错数据中复杂多样的图像提升 ViT 性能与鲁棒性。
第三阶段:多模态预训练
开放全部参数训练,引入 OCR、定位、视频、GUI 等 1.4 万亿 token 多样化数据,增强模型通用多模态能力。为确保中期评估稳定性,少量纳入 QA、指令遵循及推理数据;同时保留少量纯文本数据以维持 MiMo-7B-Base 文本能力。
第四阶段:长上下文 SFT
- 将训练序列长度从 8K 扩展至 32K token
- 引入长纯文本、高分辨率图像、长文档、扩展视频及长推理数据
- 因长上下文打包显著增加有效批量,学习率从 1e-5 调整至 2.5e-5
- 相比第三阶段大幅提高推理数据比例,并引入长形式推理模式
通过四阶段训练,最终生成强大模型 MiMo-VL-7B-SFT。尤其在第四阶段,模型推理能力得到充分释放,可解决高度复杂的 STEM 问题,且该能力有效泛化至通用感知任务,使模型在各类下游基准测试中均表现卓越。
3 后训练
在预训练建立的视觉感知能力和多模态推理基础上,我们进行后训练以进一步提升 MiMo-VL-7B。我们的方法采用了一种新型混合在线策略强化学习(MORL)框架,无缝整合了基于可验证奖励的强化学习(RLVR)(邵等人,2024;Lambert 等人,2025)与基于人类反馈的强化学习(RLHF)(欧阳等人,2022),以提升 MiMo-VL-7B 在挑战性推理任务上的表现并使其与人类偏好保持一致。
3.1 基于可验证奖励的强化学习
RLVR 完全依赖于基于规则的奖励函数,使模型能够持续自我改进。在 MiMo-VL-7B 的后训练中,我们设计了多种可验证的推理和感知任务,其中最终解决方案可以使用预定义规则进行精确验证。
视觉推理 视觉推理能力对于多模态模型理解并解决需要视觉感知和逻辑思维的复杂问题至关重要。为促进这一能力,我们从开源社区和专有 K-12 题库中收集多样化的可验证 STEM 问题。通过提示大型语言模型筛选基于证明的问题,并将选择题重写为自由回答格式(包含数值或符号答案),从而缓解潜在的奖励作弊问题。我们进一步通过全面的基于模型的难度评估来优化问题质量,排除那些高级 VLM 无法解决或过于简单的问题(MiMo-VL-7B rollout 通过率超过 90%)。此外,我们还移除了即使没有图像输入也能解决的问题。经过数据清洗和类别平衡后,我们整理出包含 8 万个问题的视觉推理数据集。在评估时,我们使用基于规则的 Math-Verify 库来确定响应的正确性。
文本推理 由于大多数视觉推理数据仅限于 K-12 级别问题,经 RL 训练的模型在推理性能上可能受到限制。相比之下,纯文本推理数据集包含更多需要大学或竞赛级别智力的挑战性问题。为充分释放模型的推理潜力,我们整合了来自小米(2025)的数学推理数据。奖励使用相同的基于规则的 Math-Verify 库计算,确保视觉和文本推理任务评估的一致性。
图像定位 精确的空间定位对于模型理解图像中对象关系和空间推理至关重要。我们在 RLVR 框架中包含一般和 GUI 定位任务,以增强 MiMo-VL-7B 的定位能力。对于边界框预测,奖励通过预测框与真实框之间的广义交并比(GIoU)(Rezatofighi 等人,2019)计算。对于点式输出,奖励取决于预测点是否落在真实边界框内。
视觉计数 精确的计数能力对于视觉环境中的定量视觉理解和数学推理至关重要(Chen 等人,2025a)。我们通过 RL 训练增强视觉计数能力,其中奖励定义为模型计数预测与真实计数的准确性。
时序视频定位 除了静态图像理解和推理外,我们将 RLVR 框架扩展到动态视频内容,以捕捉时间依赖性。我们整合了时序视频定位任务,要求模型定位与自然语言查询相对应的视频片段(Wang 等人,2025)。模型以 [mm:ss, mm:ss] 格式输出时间戳,指示目标视频片段的开始和结束时间。奖励通过预测和真实时间片段之间的交并比(IoU)计算。
3.2 基于人类反馈的强化学习
为使模型输出与人类偏好保持一致并减少不良行为,我们将基于人类反馈的强化学习(RLHF)作为可验证奖励框架的补充方法。
查询收集 查询多样性对 RLHF 的成功至关重要。我们的方法首先从开源指令微调数据集和内部人工编写来源收集多模态和纯文本查询。所有收集到的查询(包括文本和多模态)随后经过专门的筛选过程。为进一步增强多样性,我们采用基于嵌入的查询聚类技术并分析结果模式。关键的是,我们在策划最终查询集之前平衡了中文和英文查询的比例,以及针对有用性和无害性的查询比例。对于每个选定的查询,MiMo-VL-7B 和多个其他顶级 VLM 生成响应。这些响应随后由高级 VLM 进行成对排序,以构建奖励模型训练的最终数据集。值得注意的是,为减轻潜在的奖励作弊问题,同一查询集同时用于奖励模型训练和 RLHF 过程。
奖励模型 我们开发了两个专门针对不同输入模态的奖励模型,使用 Bradley-Terry 奖励建模目标(欧阳等人,2022)进行训练。纯文本奖励模型从 MiMo-7B(小米,2025)初始化,以利用其强大的语言理解能力,而多模态奖励模型则基于 MiMo-VL-7B 构建,以有效处理包含视觉输入的查询。这种双模型方法确保在文本和多模态评估场景中均能实现最佳性能。
3.3 混合在线策略强化学习
在 MiMo-VL-7B 的后训练阶段,我们实施混合在线策略强化学习(MORL),以同时优化 RLVR 和 RLHF 目标。如图 3 所示,我们在 verl 框架(Sheng 等人,2024)中将基于规则和基于模型的奖励集成到统一服务中,并通过无缝 Rollout 引擎(小米,2025)进行增强。
在线策略 RL 方案 我们采用 GRPO(邵等人,2024)的完全在线策略变体作为 RL 算法,该算法展现出稳健的训练稳定性和有效的探索能力(Chen 等人,2025b)。对于每个问题 q,该算法从策略 πθ\pi_{\theta}π