【MLLM】多模态理解Ovis2.5模型架构和训练流程

note

  • 模型架构:延续 Ovis 系列创新的结构化嵌入对齐设计。
    Ovis2.5 由三大组件构成:动态分辨率 ViT 高效提取视觉特征,Ovis 视觉词表模块实现视觉与文本嵌入的结构对齐,最后由强大的 Qwen3 作为语言基座,处理多模态嵌入并生成文本输出。
  • 训练策略:采用更精细的五阶段训练范式,从基础的视觉预训练、多模态预训练、大规模指令微调,到利用DPO和GRPO等算法进行偏好对齐和推理能力强化,循序渐进构建模型能力。同时,通过多模态数据打包和混合并行等优化,实现了3-4倍的端到端训练加速。
  • 数据工程:Ovis2.5的数据规模相比Ovis2增加了50%,重点聚焦视觉推理、图表、OCR、Grounding等关键方向。尤其是合成了大量与Qwen3深度适配的“思考(thinking)”数据,有效激发了模型的反思与推理潜能。

文章目录

  • note
  • 一、多模态理解Ovis2.5模型
    • 1. 原生分辨率感知:看得清,看得全
    • 2. 深度推理能力:引入可选的“思考模式”
    • 3. SOTA性能表现:登顶开源模型榜单
    • 4. 高效训练架构:速度与规模兼得
  • 二、模型架构
  • 三、模型训练
    • 第一阶段:VET预训练 (视觉基础启蒙)
    • 第二阶段:多模态预训练 (图文对话入门)
    • 第三阶段:多模态指令微调 (能力全面拓展)
    • 第四阶段:多模态 DPO (与人类对齐)
    • 第五阶段:多模态强化学习 (推理能力冲刺)
  • 四、模型评测
  • Reference

一、多模态理解Ovis2.5模型

论文名称:Ovis2.5 Technical Report
第一作者:阿里 - Ovis Team
论文链接:https://arxiv.org/pdf/2508.11737
最新日期:2025年8月15日
github:https://github.com/AIDC-AI/Ovis.git
在这里插入图片描述

主流模型痛点:一是“视力不佳”,在处理复杂图表或高清大图时,往往需要把图片切成小块,像通过一根吸管看世界,丢失了全局信息;二是“思维线性”,习惯于一步到位的“思维链”(Chain-of-Thought),缺乏自我反思和纠错的能力,遇到复杂问题容易“一条道走到黑”。

1. 原生分辨率感知:看得清,看得全

Ovis2.5最大的革新之一,就是整合了原生分辨率视觉变换器(NaViT)。这意味着它不再需要将图片“大卸八块”,而是可以直接处理任意原始尺寸和长宽比的图像。这就像从一个定焦镜头升级到了一个能自由变焦、拥有超广角的全能相机,无论是精细的图表数据点还是复杂的全局页面布局,都能一览无余。

2. 深度推理能力:引入可选的“思考模式”

为了突破线性思维的局限,Ovis2.5在训练中引入了一种特殊的“反思式”数据,教会模型在回答前进行自我检查和修正。这个能力在推理时以一个可选的“思考模式”(Thinking Mode)开放给用户。对于简单问题,可以关闭它追求速度;对于复杂难题,可以开启它,让模型“多想一会儿”,以延迟换取更高的准确率。

3. SOTA性能表现:登顶开源模型榜单

Ovis2.5-9B在权威的OpenCompass多模态综合排行榜上,以78.3分的平均成绩,登顶40B参数规模以下的开源模型榜首。更令人印象深刻的是,其2B版本也取得了73.9的高分,在同量级模型中一骑绝尘,完美诠释了“小模型,大性能”的理念。

4. 高效训练架构:速度与规模兼得

如此强大的模型背后,是一套高效的训练基础设施。通过多模态数据打包和混合并行等优化技术,Ovis2.5的端到端训练速度提升了3到4倍,为模型快速迭代和扩展提供了坚实的基础。

二、模型架构

在这里插入图片描述

模型架构:延续 Ovis 系列创新的结构化嵌入对齐设计。
Ovis2.5 由三大组件构成:动态分辨率 ViT 高效提取视觉特征,Ovis 视觉词表模块实现视觉与文本嵌入的结构对齐,最后由强大的 Qwen3 作为语言基座,处理多模态嵌入并生成文本输出。

训练策略:采用更精细的五阶段训练范式,从基础的视觉预训练、多模态预训练、大规模指令微调,到利用DPO和GRPO等算法进行偏好对齐和推理能力强化,循序渐进构建模型能力。同时,通过多模态数据打包和混合并行等优化,实现了3-4倍的端到端训练加速。

数据工程:Ovis2.5的数据规模相比Ovis2增加了50%,重点聚焦视觉推理、图表、OCR、Grounding等关键方向。尤其是合成了大量与Qwen3深度适配的“思考(thinking)”数据,有效激发了模型的反思与推理潜能。

三、模型训练

训练数据示例:

问题:[一个复杂的数学问题]
回答:
<think>
好的,我们来分析这个问题。首先,我需要识别出所有的已知条件...
第一步,我尝试用公式A来计算,得到结果X。
等一下,我检查一下这个结果。似乎公式A在这里的应用前提不满足,这会导致错误。
我应该换个思路,使用公式B。
好的,用公式B重新计算第一步... 这样就合理了。
接下来进行第二步...
</think>
[最终的、经过修正的解题步骤和答案]

第一阶段:VET预训练 (视觉基础启蒙)

• 目标:教会模型最基础的“看图识物”,即训练好VET这个“视觉词典”。

• 方法:使用海量“图像-标题”数据对。为保证学习稳定,此阶段会冻结视觉编码器的大部分参数,只微调最后几层和VET。分辨率较低,且暂时关闭。

第二阶段:多模态预训练 (图文对话入门)

• 目标:打通视觉和语言的连接,让模型具备基础的对话和理解能力。

• 方法:开放所有模块的参数进行全量训练,并引入OCR、定位等更多样的任务。关键是,大幅提升了支持的图像分辨率,并全面启用了,为处理复杂视觉任务打下基础。

第三阶段:多模态指令微调 (能力全面拓展)

• 目标:让模型学会听懂并执行各种复杂的指令,并掌握深度推理能力。

• 方法:在这一阶段,训练数据变得极其丰富,包括单图、多图、视频、纯文本等多种模态。最重要的是,正式引入了带有<think>...</think>标签的反思式推理数据,开始培养模型的“思考模式”。

第四阶段:多模态 DPO (与人类对齐)

• 目标:让模型的输出更符合人类的偏好和价值观。

• 方法:采用当前主流的直接偏好优化(Direct Preference Optimization, DPO)技术。通过学习人类对不同回答的偏好数据(哪个回答更好,哪个更差),对模型进行微调,使其言行举止更像一个可靠的助手。

第五阶段:多模态强化学习 (推理能力冲刺)

• 目标:在已对齐的基础上,进一步拔高模型的逻辑推理上限。

• 方法:使用组相对策略优化(Group Relative Policy Optimization, GRPO),在大量可验证答案的推理任务(如数学题)上进行强化学习。此阶段会冻结视觉模块,将全部优化资源集中在LLM的“大脑”上,进行最后的推理能力冲刺。

四、模型评测

OpenCompass是一个综合性的多模态能力评测套件,涵盖了从常识问答、幻觉评估到专业学科推理的8个主流基准。• Ovis2.5-9B:取得了78.3分的惊人成绩,不仅远超其前代Ovis2-8B(71.8分),也超过了包括GLM-4.1V-9B-Thinking(76.1分)、Keye-VL-8B(76.7分)在内的所有同级别开源对手。

Ovis2.5-2B:以73.9分的成绩,刷新了2B级别模型的SOTA记录,甚至超过了许多体量远大于它的模型,展现出极高的效率。
在这里插入图片描述

Reference

[1] 登顶开源榜首,阿里Ovis2.5深度解读,多模态模型如何拥有原生视觉与深度思考能力?
[2] 阿里国际Ovis2.5重磅发布:以小博大,刷新开源模型性能新高度
[3] 论文名称:Ovis2.5 Technical Report
第一作者:阿里 - Ovis Team
论文链接:https://arxiv.org/pdf/2508.11737
最新日期:2025年8月15日
github:https://github.com/AIDC-AI/Ovis.git

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/95118.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/95118.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

3.3单链表专题

顺序表这种在标准库已经实现好了&#xff0c;直接调用 pushback pushfront 这些o(1)表示不额外开辟空间src为value继续走&#xff0c;下一个不是value&#xff0c;src值给dst空间&#xff0c;dst&#xff0c;dst刚好等于2&#xff0c;就是新数组长度。若从前向后两个数组元素依…

linux系统学习(15.启动管理)

目录 一、运行级别 1.运行级别 2.运行级别命令 (1)runlevel (2)init 运行级别 3.永久修改启动级别&#xff08;ubantu20.04&#xff09; 二、启动过程 &#x1f539; 总结 三、启动引导程序grub配置文件 一、运行级别 1.运行级别 2.运行级别命令 (1)runlevel (2)ini…

检索优化-混合检索

混合检索&#xff08;Hybrid Search&#xff09;是一种结合了 稀疏向量&#xff08;Sparse Vectors&#xff09; 和 密集向量&#xff08;Dense Vectors&#xff09; 优势的先进搜索技术。旨在同时利用稀疏向量的关键词精确匹配能力和密集向量的语义理解能力&#xff0c;以克服…

Day17(前端:JavaScript基础阶段)

接续上文:Day16(前端:JavaScript基础阶段)_前端题目 csdn-CSDN博客 点关注不迷路哟。你的点赞、收藏&#xff0c;一键三连&#xff0c;是我持续更新的动力哟&#xff01;&#xff01;&#xff01; 主页:一位搞嵌入式的 genius-CSDN博客 系列文章专栏: https://blog.csdn.ne…

OpenCV 轮廓分析实战:从检测到形状匹配的完整指南

轮廓&#xff08;Contour&#xff09;是图像中连续且具有相同灰度值的像素集合&#xff0c;是描述目标形状、位置和结构的核心特征。在计算机视觉中&#xff0c;轮廓分析广泛应用于目标定位、形状识别、尺寸测量等场景&#xff08;如工业零件检测、手写数字识别&#xff09;。本…

2025最新uni-app横屏适配方案:微信小程序全平台兼容实战

以下为uni-app实现微信小程序横屏适配技术方案&#xff0c;包含核心原理、配置方法、代码示例和注意事项&#xff1a;一、横屏适配原理 微信小程序默认采用竖屏模式&#xff0c;横屏适配需通过以下机制实现&#xff1a; 全局配置&#xff1a;在app.json中声明支持横屏页面级配置…

深入解析Nginx常见模块1

在Web服务器和反向代理服务器领域,Nginx凭借其高性能、稳定性和丰富的功能获得了广泛的应用。本文将介绍一些Nginx中常见的模块,帮助你更好地理解和使用它们。 Nginx模块简介 Nginx的模块系统是其强大功能的核心所在,它允许用户根据需要灵活配置服务器的行为。Nginx的模块大…

浅谈new与::operator new

目录 前言 1.为什么C要引入new/delete&#xff1f; 2.operator new与operator delete函数 它们的实际作用 Placement New&#xff08;定位new表达式&#xff09; 总结 前言 在写上一篇博客“vector的模拟实现”时&#xff0c;我一直很好奇vector的private成员为什么要用三个封…

Java中Integer转String

在 Java 中&#xff0c;将 Integer 转换为 String 有多种方法&#xff0c;以下是常见的几种方式&#xff1a;1. 使用 Integer.toString() 方法javaInteger num 123; String str Integer.toString(num); // 直接调用 Integer 的静态方法2. 使用 String.valueOf()javaInteger n…

智能装备如何与软件结合?

一、什么是智能装备&#xff1f; 智能装备是具备“感知-决策-执行-自适应”闭环能力的智能化系统&#xff0c;本质是“传统物理装备”与“数字智能”的深度融合。它不仅能完成预设动作&#xff08;如传统机械臂焊接&#xff09;&#xff0c;还能通过传感器“观察”环境、用算法…

react性能优化有哪些

React 性能优化的手段比较多&#xff0c;既有代码层面的&#xff0c;也有构建层面的&#xff0c;还涉及到运行时调优。我帮你系统性梳理一份&#xff1a;&#x1f539; 一、渲染性能优化1. 减少不必要的渲染React.memo&#xff1a;对函数组件做浅比较&#xff0c;避免相同 prop…

腾讯云OpenCloudOS 9系统部署OpenTenBase数据库详细教程

OpenTenBase简介OpenTenBase是一个关系型数据库集群平台&#xff0c;提供写入可靠性和多节点数据同步功能。可以在一台或多台主机上配置OpenTenBase&#xff0c;并将数据存储在多个物理主机上。OpenTenBase架构组件&#xff1a;Coordinator Node (CN)&#xff1a;应用程序访问入…

【计算机视觉】Pixel逐像素分类Mask掩码分类理解摘要

目标检测和实例分割是计算机视觉的基本任务。目标检测的传统方法中通常利用边界框技术进行对象定位&#xff0c;然后利用逐像素分类为这些本地化实例分配类。但是当处理同一类的重叠对象时&#xff0c;或者在每个图像的对象数量不同的情况下&#xff0c;这些方法通常会出现问题…

C++之stack类的代码及其逻辑详解

1. stack介绍及使用方法stack是一种后进先出的数据结构&#xff0c;所以在C的STL库中也同样遵循了这一点&#xff0c;我们在使用的时候不支持随机访问或迭代器遍历。注意事项调用 top() 或 pop() 前需确保栈非空&#xff0c;否则可能引发未定义行为。stack 没有 clear() 函数&a…

Spring Cache实现简化缓存功能开发

一. 介绍Spring Cache 是 Spring 框架提供的缓存抽象层&#xff0c;它简化了在应用中添加缓存功能的开发工作。通过 Spring Cache&#xff0c;开发者无需关注具体缓存实现的细节&#xff0c;只需通过注解就能快速实现方法级别的缓存管理。核心特点1. 与具体缓存实现解耦&#x…

Lombok(简化Java当中的开发)

Lombok概述 以前的Java项目中,充斥着太多不友好的代码:POJO的getter/setter/toString/构造方法;打印日志;I/O流的关闭操作等等,这些代码既没有技术含量,又影响着代码的美观,Lombok应运而生。 LomBok可以通过注解,帮助开发人员消除JAVA中尤其是POJO类中的冗长代码。 使…

【DeepSeek】公司内网部署离线deepseek+docker+ragflow本地模型实战

企业内部可能有些数据比较敏感&#xff0c;不能连接互联网。本次实验操作是将deepseek完全离线后迁移至内网使用&#xff0c;实验基于Windows server 2022 datacenter系统安装deepseek、docker、ragflow。 目录使用VMware新建WIN2022虚拟机一、安装DeepSeek模型二.安装Docker使…

【软考架构】面向服务的体系结构(SOA)深度解析

面向服务的体系结构&#xff08;SOA&#xff09;深度解析 面向服务的体系结构&#xff08;Service-Oriented Architecture, SOA&#xff09;是一种以服务为核心的软件架构范式&#xff0c;通过标准化接口实现异构系统间的高效集成与协作。以下从概念定义、发展脉络、技术演进、…

centos7中MySQL 5.7.32 到 5.7.44 升级指南:基于官方二进制包的原地替换式升级

目录前言1. 升级概述1.1 升级背景1.2 升级目的1.3 升级方法概述1.4 升级策略与注意事项2. 升级准备2.1 备份工作2.2 下载目标版本2.3 停止 MySQL 服务3. 替换二进制文件3.1 解压官方二进制包3.2 替换核心二进制文件3.3 更新共享库4. 执行升级并验证4.1 启动 MySQL 服务4.2 监控…

数学七夕花礼(MATLAB版)

前言参考的视频在抖音&#xff0c;电脑版的抖音一直登录不了&#xff0c;用手机分享的链接如下所示。4.35 Iv.FH yTl:/ 04/04 复制打开抖音&#x1f440;数学送的七夕花礼&#xff0c;记得查收噢.# 七夕花礼请查收 ... https://v.douyin.com/H-YpOJCyQyg/rho4sin(8theta)公式&a…