【MLLM】多模态理解Ovis2.5模型架构和训练流程

note

模型架构：延续 Ovis 系列创新的结构化嵌入对齐设计。
Ovis2.5 由三大组件构成：动态分辨率 ViT 高效提取视觉特征，Ovis 视觉词表模块实现视觉与文本嵌入的结构对齐，最后由强大的 Qwen3 作为语言基座，处理多模态嵌入并生成文本输出。
训练策略：采用更精细的五阶段训练范式，从基础的视觉预训练、多模态预训练、大规模指令微调，到利用DPO和GRPO等算法进行偏好对齐和推理能力强化，循序渐进构建模型能力。同时，通过多模态数据打包和混合并行等优化，实现了3-4倍的端到端训练加速。
数据工程：Ovis2.5的数据规模相比Ovis2增加了50%，重点聚焦视觉推理、图表、OCR、Grounding等关键方向。尤其是合成了大量与Qwen3深度适配的“思考（thinking）”数据，有效激发了模型的反思与推理潜能。

文章目录

note
一、多模态理解Ovis2.5模型
- 1. 原生分辨率感知：看得清，看得全
- 2. 深度推理能力：引入可选的“思考模式”
- 3. SOTA性能表现：登顶开源模型榜单
- 4. 高效训练架构：速度与规模兼得
二、模型架构
三、模型训练
- 第一阶段：VET预训练 (视觉基础启蒙)
- 第二阶段：多模态预训练 (图文对话入门)
- 第三阶段：多模态指令微调 (能力全面拓展)
- 第四阶段：多模态 DPO (与人类对齐)
- 第五阶段：多模态强化学习 (推理能力冲刺)
四、模型评测
Reference

一、多模态理解Ovis2.5模型

论文名称：Ovis2.5 Technical Report
第一作者：阿里 - Ovis Team
论文链接：https://arxiv.org/pdf/2508.11737
最新日期：2025年8月15日
github：https://github.com/AIDC-AI/Ovis.git
在这里插入图片描述

主流模型痛点：一是“视力不佳”，在处理复杂图表或高清大图时，往往需要把图片切成小块，像通过一根吸管看世界，丢失了全局信息；二是“思维线性”，习惯于一步到位的“思维链”（Chain-of-Thought），缺乏自我反思和纠错的能力，遇到复杂问题容易“一条道走到黑”。

1. 原生分辨率感知：看得清，看得全

Ovis2.5最大的革新之一，就是整合了原生分辨率视觉变换器（NaViT）。这意味着它不再需要将图片“大卸八块”，而是可以直接处理任意原始尺寸和长宽比的图像。这就像从一个定焦镜头升级到了一个能自由变焦、拥有超广角的全能相机，无论是精细的图表数据点还是复杂的全局页面布局，都能一览无余。

2. 深度推理能力：引入可选的“思考模式”

为了突破线性思维的局限，Ovis2.5在训练中引入了一种特殊的“反思式”数据，教会模型在回答前进行自我检查和修正。这个能力在推理时以一个可选的“思考模式”（Thinking Mode）开放给用户。对于简单问题，可以关闭它追求速度；对于复杂难题，可以开启它，让模型“多想一会儿”，以延迟换取更高的准确率。

3. SOTA性能表现：登顶开源模型榜单

Ovis2.5-9B在权威的OpenCompass多模态综合排行榜上，以78.3分的平均成绩，登顶40B参数规模以下的开源模型榜首。更令人印象深刻的是，其2B版本也取得了73.9的高分，在同量级模型中一骑绝尘，完美诠释了“小模型，大性能”的理念。

4. 高效训练架构：速度与规模兼得

如此强大的模型背后，是一套高效的训练基础设施。通过多模态数据打包和混合并行等优化技术，Ovis2.5的端到端训练速度提升了3到4倍，为模型快速迭代和扩展提供了坚实的基础。

二、模型架构

在这里插入图片描述

模型架构：延续 Ovis 系列创新的结构化嵌入对齐设计。
Ovis2.5 由三大组件构成：动态分辨率 ViT 高效提取视觉特征，Ovis 视觉词表模块实现视觉与文本嵌入的结构对齐，最后由强大的 Qwen3 作为语言基座，处理多模态嵌入并生成文本输出。

训练策略：采用更精细的五阶段训练范式，从基础的视觉预训练、多模态预训练、大规模指令微调，到利用DPO和GRPO等算法进行偏好对齐和推理能力强化，循序渐进构建模型能力。同时，通过多模态数据打包和混合并行等优化，实现了3-4倍的端到端训练加速。

数据工程：Ovis2.5的数据规模相比Ovis2增加了50%，重点聚焦视觉推理、图表、OCR、Grounding等关键方向。尤其是合成了大量与Qwen3深度适配的“思考（thinking）”数据，有效激发了模型的反思与推理潜能。

三、模型训练

训练数据示例：

问题：[一个复杂的数学问题]
回答：
<think>
好的，我们来分析这个问题。首先，我需要识别出所有的已知条件...
第一步，我尝试用公式A来计算，得到结果X。
等一下，我检查一下这个结果。似乎公式A在这里的应用前提不满足，这会导致错误。
我应该换个思路，使用公式B。
好的，用公式B重新计算第一步... 这样就合理了。
接下来进行第二步...
</think>
[最终的、经过修正的解题步骤和答案]

第一阶段：VET预训练 (视觉基础启蒙)

• 目标：教会模型最基础的“看图识物”，即训练好VET这个“视觉词典”。

• 方法：使用海量“图像-标题”数据对。为保证学习稳定，此阶段会冻结视觉编码器的大部分参数，只微调最后几层和VET。分辨率较低，且暂时关闭。

第二阶段：多模态预训练 (图文对话入门)

• 目标：打通视觉和语言的连接，让模型具备基础的对话和理解能力。

• 方法：开放所有模块的参数进行全量训练，并引入OCR、定位等更多样的任务。关键是，大幅提升了支持的图像分辨率，并全面启用了，为处理复杂视觉任务打下基础。

第三阶段：多模态指令微调 (能力全面拓展)

• 目标：让模型学会听懂并执行各种复杂的指令，并掌握深度推理能力。

• 方法：在这一阶段，训练数据变得极其丰富，包括单图、多图、视频、纯文本等多种模态。最重要的是，正式引入了带有<think>...</think>标签的反思式推理数据，开始培养模型的“思考模式”。

第四阶段：多模态 DPO (与人类对齐)

• 目标：让模型的输出更符合人类的偏好和价值观。

• 方法：采用当前主流的直接偏好优化（Direct Preference Optimization, DPO）技术。通过学习人类对不同回答的偏好数据（哪个回答更好，哪个更差），对模型进行微调，使其言行举止更像一个可靠的助手。

第五阶段：多模态强化学习 (推理能力冲刺)

• 目标：在已对齐的基础上，进一步拔高模型的逻辑推理上限。

• 方法：使用组相对策略优化（Group Relative Policy Optimization, GRPO），在大量可验证答案的推理任务（如数学题）上进行强化学习。此阶段会冻结视觉模块，将全部优化资源集中在LLM的“大脑”上，进行最后的推理能力冲刺。

四、模型评测

OpenCompass是一个综合性的多模态能力评测套件，涵盖了从常识问答、幻觉评估到专业学科推理的8个主流基准。• Ovis2.5-9B：取得了78.3分的惊人成绩，不仅远超其前代Ovis2-8B（71.8分），也超过了包括GLM-4.1V-9B-Thinking（76.1分）、Keye-VL-8B（76.7分）在内的所有同级别开源对手。

Ovis2.5-2B：以73.9分的成绩，刷新了2B级别模型的SOTA记录，甚至超过了许多体量远大于它的模型，展现出极高的效率。
在这里插入图片描述

Reference

[1] 登顶开源榜首，阿里Ovis2.5深度解读，多模态模型如何拥有原生视觉与深度思考能力？
[2] 阿里国际Ovis2.5重磅发布：以小博大，刷新开源模型性能新高度
[3] 论文名称：Ovis2.5 Technical Report
第一作者：阿里 - Ovis Team
论文链接：https://arxiv.org/pdf/2508.11737
最新日期：2025年8月15日
github：https://github.com/AIDC-AI/Ovis.git

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/bicheng/95118.shtml
繁体地址，请注明出处：http://hk.pswp.cn/bicheng/95118.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！