【MLLM】多模态理解Ovis2.5模型和训练流程(更新中)

note

  • 模型架构:延续 Ovis 系列创新的结构化嵌入对齐设计。
    Ovis2.5 由三大组件构成:动态分辨率 ViT 高效提取视觉特征,Ovis 视觉词表模块实现视觉与文本嵌入的结构对齐,最后由强大的 Qwen3 作为语言基座,处理多模态嵌入并生成文本输出。
  • 训练策略:采用更精细的五阶段训练范式,从基础的视觉预训练、多模态预训练、大规模指令微调,到利用DPO和GRPO等算法进行偏好对齐和推理能力强化,循序渐进构建模型能力。同时,通过多模态数据打包和混合并行等优化,实现了3-4倍的端到端训练加速。
  • 数据工程:Ovis2.5的数据规模相比Ovis2增加了50%,重点聚焦视觉推理、图表、OCR、Grounding等关键方向。尤其是合成了大量与Qwen3深度适配的“思考(thinking)”数据,有效激发了模型的反思与推理潜能。

文章目录

  • note
  • 一、多模态理解Ovis2.5模型
    • 1. 原生分辨率感知:看得清,看得全
    • 2. 深度推理能力:引入可选的“思考模式”
    • 3. SOTA性能表现:登顶开源模型榜单
    • 4. 高效训练架构:速度与规模兼得
  • 二、模型架构
  • 三、模型训练
    • 第一阶段:VET预训练 (视觉基础启蒙)
    • 第二阶段:多模态预训练 (图文对话入门)
    • 第三阶段:多模态指令微调 (能力全面拓展)
    • 第四阶段:多模态 DPO (与人类对齐)
    • 第五阶段:多模态强化学习 (推理能力冲刺)
  • 四、模型评测
  • Reference

一、多模态理解Ovis2.5模型

论文名称:Ovis2.5 Technical Report
第一作者:阿里 - Ovis Team
论文链接:https://arxiv.org/pdf/2508.11737
最新日期:2025年8月15日
github:https://github.com/AIDC-AI/Ovis.git
在这里插入图片描述

主流模型痛点:一是“视力不佳”,在处理复杂图表或高清大图时,往往需要把图片切成小块,像通过一根吸管看世界,丢失了全局信息;二是“思维线性”,习惯于一步到位的“思维链”(Chain-of-Thought),缺乏自我反思和纠错的能力,遇到复杂问题容易“一条道走到黑”。

1. 原生分辨率感知:看得清,看得全

Ovis2.5最大的革新之一,就是整合了原生分辨率视觉变换器(NaViT)。这意味着它不再需要将图片“大卸八块”,而是可以直接处理任意原始尺寸和长宽比的图像。这就像从一个定焦镜头升级到了一个能自由变焦、拥有超广角的全能相机,无论是精细的图表数据点还是复杂的全局页面布局,都能一览无余。

2. 深度推理能力:引入可选的“思考模式”

为了突破线性思维的局限,Ovis2.5在训练中引入了一种特殊的“反思式”数据,教会模型在回答前进行自我检查和修正。这个能力在推理时以一个可选的“思考模式”(Thinking Mode)开放给用户。对于简单问题,可以关闭它追求速度;对于复杂难题,可以开启它,让模型“多想一会儿”,以延迟换取更高的准确率。

3. SOTA性能表现:登顶开源模型榜单

Ovis2.5-9B在权威的OpenCompass多模态综合排行榜上,以78.3分的平均成绩,登顶40B参数规模以下的开源模型榜首。更令人印象深刻的是,其2B版本也取得了73.9的高分,在同量级模型中一骑绝尘,完美诠释了“小模型,大性能”的理念。

4. 高效训练架构:速度与规模兼得

如此强大的模型背后,是一套高效的训练基础设施。通过多模态数据打包和混合并行等优化技术,Ovis2.5的端到端训练速度提升了3到4倍,为模型快速迭代和扩展提供了坚实的基础。

二、模型架构

在这里插入图片描述

模型架构:延续 Ovis 系列创新的结构化嵌入对齐设计。
Ovis2.5 由三大组件构成:动态分辨率 ViT 高效提取视觉特征,Ovis 视觉词表模块实现视觉与文本嵌入的结构对齐,最后由强大的 Qwen3 作为语言基座,处理多模态嵌入并生成文本输出。

训练策略:采用更精细的五阶段训练范式,从基础的视觉预训练、多模态预训练、大规模指令微调,到利用DPO和GRPO等算法进行偏好对齐和推理能力强化,循序渐进构建模型能力。同时,通过多模态数据打包和混合并行等优化,实现了3-4倍的端到端训练加速。

数据工程:Ovis2.5的数据规模相比Ovis2增加了50%,重点聚焦视觉推理、图表、OCR、Grounding等关键方向。尤其是合成了大量与Qwen3深度适配的“思考(thinking)”数据,有效激发了模型的反思与推理潜能。

三、模型训练

训练数据示例:

问题:[一个复杂的数学问题]
回答:
<think>
好的,我们来分析这个问题。首先,我需要识别出所有的已知条件...
第一步,我尝试用公式A来计算,得到结果X。
等一下,我检查一下这个结果。似乎公式A在这里的应用前提不满足,这会导致错误。
我应该换个思路,使用公式B。
好的,用公式B重新计算第一步... 这样就合理了。
接下来进行第二步...
</think>
[最终的、经过修正的解题步骤和答案]

第一阶段:VET预训练 (视觉基础启蒙)

• 目标:教会模型最基础的“看图识物”,即训练好VET这个“视觉词典”。

• 方法:使用海量“图像-标题”数据对。为保证学习稳定,此阶段会冻结视觉编码器的大部分参数,只微调最后几层和VET。分辨率较低,且暂时关闭。

第二阶段:多模态预训练 (图文对话入门)

• 目标:打通视觉和语言的连接,让模型具备基础的对话和理解能力。

• 方法:开放所有模块的参数进行全量训练,并引入OCR、定位等更多样的任务。关键是,大幅提升了支持的图像分辨率,并全面启用了,为处理复杂视觉任务打下基础。

第三阶段:多模态指令微调 (能力全面拓展)

• 目标:让模型学会听懂并执行各种复杂的指令,并掌握深度推理能力。

• 方法:在这一阶段,训练数据变得极其丰富,包括单图、多图、视频、纯文本等多种模态。最重要的是,正式引入了带有<think>...</think>标签的反思式推理数据,开始培养模型的“思考模式”。

第四阶段:多模态 DPO (与人类对齐)

• 目标:让模型的输出更符合人类的偏好和价值观。

• 方法:采用当前主流的直接偏好优化(Direct Preference Optimization, DPO)技术。通过学习人类对不同回答的偏好数据(哪个回答更好,哪个更差),对模型进行微调,使其言行举止更像一个可靠的助手。

第五阶段:多模态强化学习 (推理能力冲刺)

• 目标:在已对齐的基础上,进一步拔高模型的逻辑推理上限。

• 方法:使用组相对策略优化(Group Relative Policy Optimization, GRPO),在大量可验证答案的推理任务(如数学题)上进行强化学习。此阶段会冻结视觉模块,将全部优化资源集中在LLM的“大脑”上,进行最后的推理能力冲刺。

四、模型评测

OpenCompass是一个综合性的多模态能力评测套件,涵盖了从常识问答、幻觉评估到专业学科推理的8个主流基准。• Ovis2.5-9B:取得了78.3分的惊人成绩,不仅远超其前代Ovis2-8B(71.8分),也超过了包括GLM-4.1V-9B-Thinking(76.1分)、Keye-VL-8B(76.7分)在内的所有同级别开源对手。

Ovis2.5-2B:以73.9分的成绩,刷新了2B级别模型的SOTA记录,甚至超过了许多体量远大于它的模型,展现出极高的效率。
在这里插入图片描述

Reference

[1] 登顶开源榜首,阿里Ovis2.5深度解读,多模态模型如何拥有原生视觉与深度思考能力?
[2] 阿里国际Ovis2.5重磅发布:以小博大,刷新开源模型性能新高度
[3] 论文名称:Ovis2.5 Technical Report
第一作者:阿里 - Ovis Team
论文链接:https://arxiv.org/pdf/2508.11737
最新日期:2025年8月15日
github:https://github.com/AIDC-AI/Ovis.git

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/94948.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/94948.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mysql中的通用语法及分类

MySQL 是一种广泛使用的关系型数据库管理系统&#xff08;RDBMS&#xff09;&#xff0c;其语法设计遵循 SQL 标准&#xff0c;但也有一些特有的扩展。以下从​​通用语法规范​​和​​SQL 语句分类​​两个维度系统梳理 MySQL 的核心语法体系。一、MySQL 通用语法规范通用语法…

Linux-搭建NFS服务器

Linux-搭建NFS服务器前言一、网络配置二、在nfs服务器上安装nfs-utils软件包三、设置共享目录四、挂载NFS共享目录前言 NFS&#xff08;Network File System&#xff0c;网络文件系统&#xff09; 是一种分布式文件系统协议&#xff0c;最初由 Sun Microsystems 于 1984 年开发…

eslasticsearch+ik分词器+kibana

eslasticsearch 下载地址:https://www.elastic.co/cn/downloads/past-releases ik分词器 下载地址&#xff1a;https://release.infinilabs.com/analysis-ik/stable/ kibana 下载地址&#xff1a;https://www.elastic.co/cn/downloads/kibana 1、解压安装包 将下载的 zi…

SOME/IP-SD IPv4组播的通信参数由谁指定?

<摘要> 在AUTOSAR SOME/IP-SD协议中&#xff0c;组播通信参数&#xff08;地址、协议、端口&#xff09;的协商机制。其核心在于明确规定了组播流的发布者和接收者之间由谁来“指定”通信路径&#xff0c;从而确保双方能够成功会合&#xff0c;实现高效的一对多事件分发。…

新手首次操作SEO核心要点

内容概要 初次接触SEO的新手朋友们&#xff0c;面对浩瀚的网络优化知识&#xff0c;难免感到无从下手。这份2025年的零基础入门指南&#xff0c;正是为你们量身打造。它清晰地规划了学习路径&#xff0c;从最基础的网站搭建注意事项开始&#xff0c;帮助你避开常见陷阱&#xf…

AI、人工智能基础: 模型剪枝的概念与实践(PyTorch版)

胡说八道: 各位观众老爷&#xff0c;大家好&#xff0c;我是诗人啊_&#xff0c;今天和各位分享模型剪枝的相关知识和操作&#xff0c;一文速通&#xff5e; &#xff08;屏幕前的你&#xff0c;帅气低调有内涵&#xff0c;美丽大方很优雅… 所以&#xff0c;求个点赞、收藏、关…

Kubernetes 服务发现与健康检查详解

Kubernetes 提供了多种机制来管理服务发现、负载均衡和容器健康状态监控。本文将围绕以下几个方面展开&#xff1a;Service 类型&#xff1a;ClusterIP、NodePort、Headless Service、LoadBalancer&#xff08;MetallB&#xff09;Ingress 的实现原理健康检查探针&#xff1a;L…

如何规划一年、三年、五年的IP发展路线图?

‍在知识付费领域&#xff0c;规划 IP 发展路线&#xff0c;需要从短期、中期、长期不同阶段&#xff0c;系统地布局内容、运营与商业变现&#xff0c;逐步提升 IP 影响力与商业价值。一年目标&#xff1a;立足定位&#xff0c;夯实基础精准定位&#xff0c;打磨内容利用创客匠…

C++从入门到实战(二十)详细讲解C++List的使用及模拟实现

C从入门到实战&#xff08;二十&#xff09;C List的使用及模拟实现前言一、什么是List1.1 List的核心特性1.2 List与vector的核心差异1.3 List的构造、拷贝构造与析构1.3.1 常用构造函数1.3.2 析构函数1.4 List的迭代器1.4.1 迭代器类型与用法示例1&#xff1a;正向迭代器遍历…

人工智能学习:机器学习相关面试题(一)

1、 机器学习中特征的理解 def: 特征选择和降维 特征选择&#xff1a;原有特征选择出子集 &#xff0c;不改变原来的特征空间 降维&#xff1a;将原有的特征重组成为包含信息更多的特征&#xff0c; 改变了原有的特征空间降维的主要方法 Principal Component Analysis (主成…

亚马逊巴西战略升级:物流网络重构背后的生态革新与技术赋能之路

在全球电商版图中&#xff0c;拉美市场正以惊人的增长速度成为新的战略高地&#xff0c;而巴西作为其中的核心市场&#xff0c;凭借庞大的人口基数、高速发展的数字经济以及不断提升的消费能力&#xff0c;吸引着众多电商巨头争相布局。近日&#xff0c;亚马逊宣布将于2025年底…

PS自由变换

自由变换 自由变换用来对图层、选区、路径或像素内容进行灵活的像素调整。可以进行缩放、旋转、扭曲等多种操作。快捷键&#xff1a;CtrlT&#xff0c;操作完成后使用Enter键可以确认变换自由变换过程中如果出现失误&#xff0c;可以按ESC退出&#xff1b;满意可以按enter确定。…

【K8s】整体认识K8s之存储--volume

为什么要用volume&#xff1f;首先。容器崩溃或重启时&#xff0c;所有的数据都会丢失&#xff0c;我们可以把数据保存到容器的外部&#xff0c;比如硬盘nfs&#xff0c;这样&#xff0c;即使容器没了&#xff0c;数据还在&#xff1b;第二就是容器之间是隔离的。我们如果想共享…

flutter工程

安装flutter 在VSCode中安装flutter extension、flutter组件 国内源下载flutter 3.35.2的SDK&#xff0c;安装&#xff0c;官网下载不了 将flutter安装目录加入环境变量中 D:\program\flutter_sdk\flutter\bin 执行 C:\Windows\System32>flutter --version Flutter 3.35.2 •…

C/C++ 高阶数据结构 —— 二叉搜索树(二叉排序树)

​ &#x1f381;个人主页&#xff1a;工藤新一 ​ &#x1f50d;系列专栏&#xff1a;C面向对象&#xff08;类和对象篇&#xff09; ​ &#x1f31f;心中的天空之城&#xff0c;终会照亮我前方的路 ​ &#x1f389;欢迎大家点赞&#x1f44d;评论&#x1f4dd;收藏⭐文章…

stm32F4挂载emmc以及重定义printf

1.Cubemx SDIO USART 使用串口输出调试信息 FATFS Clock Configuration 防止堆栈溢出 2.Keil5 新建自定义文件夹及文件 将文件夹添加进工程 新建.c与.h文件&#xff0c;保存到自定义的文件夹&#xff0c;并添加到工程中 bsp_emmc.c #include "bsp_emmc.h" #include…

基于AI的大模型在S2B2C商城小程序中的应用与定价策略自我评估

摘要&#xff1a;本文聚焦电商行业&#xff0c;结合开源AI大模型与AI智能名片S2B2C商城小程序的技术特性&#xff0c;提出基于行业数据挖掘与自我评估的定价策略。通过分析行业价格分布与销量占比&#xff0c;结合商品设计、品牌创意度、商品丰富度及内功等评估指标&#xff0c…

中国移动云电脑一体机-创维LB2004_瑞芯微RK3566_2G+32G_开ADB安装软件教程

中国移动云电脑一体机-创维LB2004_瑞芯微RK3566_2G32G_开ADB安装软件教程简介&#xff1a;中国移动云电脑一体机-创维LB2004&#xff0c;显示器是23.8英寸1920x1080分辨率&#xff0c;安卓盒子配置是瑞芯微RK3566-四核-1.8GHz处理器-2G32G&#xff0c;预装Android11系统。具体操…

普蓝自研AutoTrack-4X导航套件平台适配高校机器人实操应用

在当前高校机器人工程、人工智能、自动化等专业的教学与科研中&#xff0c;师生们常常面临一个核心痛点&#xff1a;缺乏一套 “开箱即用、可深研、能落地” 的自主移动导航平台 —— 要么是纯仿真环境脱离实际硬件&#xff0c;要么是硬件零散需大量时间搭建&#xff0c;要么是…

2025年工会证考试题库及答案

一、单选题1.工会法人资格审查登记机关自收到申请登记表之日起(  )日内对有关申请文件进行审查&#xff0c;对审查合格者&#xff0c;办理登记手续&#xff0c;发放《工会法人资格证书》及其副本和《工会法人法定代表人证书》。A.二十B.十五C.六十D.三十答案:D 解析:第七条基…