清华大学视觉空间智能新突破!Spatial-MLLM:提升多模态大语言模型的视觉空间智能能力

  • 作者:Diankun Wu, Fangfu Liu, Yi‑Hsin Hung, Yueqi Duan

  • 单位:清华大学

  • 论文标题:Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence

  • 论文链接:https://arxiv.org/pdf/2505.23747

  • 项目主页:https://diankun-wu.github.io/Spatial-MLLM/

  • 代码链接:https://github.com/diankun-wu/Spatial-MLLM

主要贡献

  • 提出了Spatial-MLLM,一种能够显著提升现有视频多模态大语言模型(MLLM)在基于视觉的空间智能方面的能力的方法,无需任何3D或2.5D数据输入,即可实现强大的空间理解和推理能力。

  • 设计了双编码器架构和连接器,有效整合了标准2D视觉编码器提取的语义信息和空间编码器提取的结构信息,空间编码器是基于前馈视觉几何基础模型初始化的。

  • 充分利用前馈视觉几何模型提供的额外信息,设计了一种空间感知的帧采样策略,在输入长度受限的情况下,能够选择具有空间信息的帧,从而提升模型性能。

  • 构建了Spatial-MLLM-120k数据集,并采用两阶段训练流程对其进行训练。大量实验表明,该方法在一系列基于视觉的空间理解和推理任务中均取得了最先进的性能。

研究背景

  • 多模态大语言模型(MLLM)在处理多模态输入以生成上下文相关且语义连贯的响应方面取得了显著进展,尤其在2D视觉任务上表现出色。然而,它们在空间智能方面,即对3D场景的感知、理解和推理能力仍然有限。

  • 现有的3D MLLM通常依赖额外的3D或2.5D数据(如点云、相机参数或深度图)来增强空间感知能力,这限制了它们在只有2D输入(如图像或视频)的场景中的应用。

  • 视频MLLM的视觉编码器主要在图像-文本数据上进行预训练,遵循CLIP范式,擅长捕捉高级语义内容,但在只有2D视频输入时缺乏结构和空间信息,导致其在空间推理任务上的表现不如在其他任务上,且与人类能力仍有较大差距。

研究方法

Spatial-MLLM架构

Spatial-MLLM的架构基于Qwen2.5-VL-3B模型,通过引入双编码器架构和连接器来增强其空间理解能力。

双编码器架构
  • 2D编码器(E2D):采用Qwen2.5-VL的视觉编码器,负责从输入视频帧中提取语义丰富的特征。它将输入帧编码为2D特征,这些特征在空间和时间维度上对齐,以便与3D特征进行融合。

  • 空间编码器(ESpatial):基于VGGT模型的特征提取器,从2D视频输入中恢复隐含的3D结构信息。它通过交替的帧内自注意力和全局自注意力,聚合不同帧之间的空间信息,生成密集的3D特征。

  • 连接器(Connector):将2D特征和3D特征融合为统一的视觉标记。通过两个轻量级的多层感知机(MLP),将2D和3D特征相加,生成最终的视觉标记,供大型语言模型(LLM)使用。

空间感知帧采样策略

由于GPU内存限制,视频MLLM通常只能处理有限的帧数。因此,论文提出了一种空间感知的帧采样策略,以选择最具空间信息的帧。

  • 预处理:从原始视频中均匀采样一定数量的候选帧(例如128帧)。

  • 特征提取:利用空间编码器提取这些帧的3D特征和相机特征。

  • 体素化和覆盖计算:将场景的3D点云离散化为体素,并计算每个帧覆盖的体素。

  • 最大覆盖问题:将帧选择问题转化为最大覆盖问题,即选择覆盖最多独特体素的帧。通过贪婪算法加速求解,最终选择出最具空间信息的帧(例如16帧)。

训练

为了训练Spatial-MLLM,论文构建了一个新的数据集Spatial-MLLM-120k,并采用两阶段训练流程。

数据集构建
  • 数据集包含约12万对问答,涵盖多种空间理解和推理任务。

  • 数据来源包括ScanQA、SQA3D以及自创建的问答数据。

  • 问答对的生成基于ScanNet的场景和语义注释,覆盖了目标计数、目标尺寸、房间尺寸、绝对距离、出现顺序、相对距离和相对方向等任务。

训练流程
  • 监督微调(SFT):在Spatial-MLLM-120k数据集上进行监督微调,冻结2D和空间编码器,训练连接模块和LLM骨干网络。采用标准的交叉熵损失函数,优化模型对空间任务的理解和推理能力。

  • 冷启动(Cold Start):在强化学习训练之前,通过生成少量的推理路径和答案,筛选出正确的推理路径,帮助模型适应正确的推理格式。

  • 强化学习(RL)训练:采用组相对策略优化(GRPO)训练,增强模型的长链推理能力。通过设计任务相关的奖励函数,确保模型的预测结果与真实答案尽可能接近。

实验

实现细节

  • Spatial-MLLM基于Qwen2.5-VL和VGGT构建,总参数量约为4B。

  • 训练时,视频帧的分辨率为640×480,输入帧数限制为16帧。

  • 在SFT阶段,使用Adam优化器训练一个epoch,学习率峰值为1e-5。

  • 在RL阶段,进行8次rollout,学习率为1e-6,训练1000步。

VSI-Bench基准测试对比

  • 基准测试介绍:VSI-Bench包含超过5000对问答,涵盖多种任务类型,包括多项选择题和数值题。

  • 对比结果:Spatial-MLLM在VSI-Bench上的表现显著优于其他专有和开源MLLM,包括参数量更大的模型。例如,与Gemini-1.5 Pro相比,Spatial-MLLM在平均准确率上高出3.0%,尽管其输入帧数较少。

ScanQA和SQA3D基准测试对比

  • 基准测试介绍:ScanQA和SQA3D是基于ScanNet构建的3D问答基准测试,包含大量的问答对,涉及空间关系理解和3D场景中的目标识别。

  • 对比结果:Spatial-MLLM在ScanQA和SQA3D上均取得了优异的成绩,显著优于所有仅使用视频输入的模型,甚至超过了部分依赖额外3D或2.5D输入的模型。

消融研究与分析

  • 强化学习训练的有效性:通过对比监督微调版本和最终版本的Spatial-MLLM,验证了强化学习训练对提升模型性能的作用。

  • 空间感知帧采样策略的有效性:通过对比不同帧采样策略下的性能,证明了空间感知帧采样策略在有限输入帧数下优于均匀采样。

  • 架构的有效性:通过在相同数据集上训练Qwen2.5-VL模型,验证了Spatial-MLLM架构在提升空间推理能力方面的优势。

结论与未来工作

  • 结论
    • Spatial-MLLM通过结合语义2D编码器和结构感知的空间编码器,能够从纯2D视觉输入中有效实现空间理解和推理。

    • 其双编码器设计能够捕捉语义和空间线索,空间感知帧采样策略在输入受限的情况下进一步提升了性能。

    • 在多个基准测试中,Spatial-MLLM均取得了最先进的结果。

  • 未来工作
    • 尽管Spatial-MLLM在视觉空间智能方面取得了显著进展,但仍存在扩展模型规模和训练数据的潜力。

    • 此外,未来工作可以探索将空间结构信息整合到更广泛的视频理解和推理任务中,以进一步提升模型的性能和泛化能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/bicheng/84852.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI与机器学习ML:利用Python 从零实现神经网络

自线性回归以来,我们已经涵盖了很多领域。在本期中,我们将开始了解神经网络内部工作原理的旅程*。* 如果一个人试图了解任何使用生成式 AI 的工具、应用程序、网站或其他系统的内部工作原理,那么掌握神经网络的架构至关重要。在这个故事中&a…

Vim 匹配跳转与搜索命令完整学习笔记

Vim 匹配跳转与搜索命令完整学习笔记 文章目录 Vim 匹配跳转与搜索命令完整学习笔记1. 括号/结构匹配% - 括号匹配跳转[[ / ]] - 函数定义跳转[{ / ]} - 代码块边界跳转 2. 精确单词搜索* - 向下精确搜索# - 向上精确搜索 3. 模糊单词搜索g* - 向下模糊搜索g# - 向上模糊搜索 4…

安卓9.0系统修改定制化____系列 ROM解打包 修改 讲解 导读篇

专栏系列前言: 💝💝💝本专栏作者从事rom系统修改以及手机维修 刷机多年。从当年山寨机开始。历经安卓4.--至目前的安卓15.合作伙伴遍及各类工作室以及PDA商家 私人玩友等。在广告机 平板 pda设备 会议机 车机的rom修改中略有经…

Vue3本地存储实现方案

在 Vue 3 中实现本地存储(如用户配置数据),主要通过浏览器提供的 localStorage 或 sessionStorage API。以下是详细实现方案: 基础实现(原生 API) javascript 复制 下载 // 存储数据 localStorage.set…

计算机视觉与深度学习 | 2024年至2025年图像匹配算法总结(原理,公式,代码,开源链接)

图像匹配算法 一、核心算法分类与技术路线1. **传统局部特征 + 匹配优化**(鲁棒性强,适合资源受限场景)2. **端到端密集匹配网络**(高精度,适合复杂形变/弱纹理)3. **基于光流思想的匹配网络**4. **2024-2025年新趋势**二、核心开源工具库汇总三、典型代码流程(以LoFTR为…

瑞芯微 MIPI D-PHY 接收器(RX)驱动学习笔记

驱动文件位置 driver/phy/rockchip/phy-rockchip-mipi-rx.c 1 重要结构体 struct mipidphy_priv {struct device *dev;//表示与驱动程序关联的设备。它用于设备管理,如设备注册、注销等。struct regmap *regmap_grf;//用于映射和访问通用寄存器文件(Gen…

MySQL从入门到DBA深度学习指南

目录 引言 MySQL基础入门 数据库基础概念 MySQL安装与配置 SQL语言进阶 数据库设计与规范化 数据库设计原则 表结构设计 MySQL核心管理 用户权限管理 备份与恢复 性能优化基础 高级管理与高可用 高可用与集群 故障诊断与监控 安全与审计 DBA实战与运维 性能调…

多个机器人同时加载在rviz及gazebo同一个场景中

1. 配置launch文件 gazebo的加载相对容易,但rviz中加载,需要构建完整的tf树(world → map(或map_merged)→ odom → base_footprint → base_link → base_scan)才能正常显示,launch文件主要是…

Text2SQL、Text2API基础

你有一个能力超强但“不太懂行”的助手(大语言模型LLM)。它能说会道,知识渊博,但它: 不懂你的数据库: 不知道你的数据库里有哪些表,表里有哪些字段,这些字段代表什么意思。不懂你的…

JDK 8u231安装教程 - Windows 64位下载安装及环境变量配置指南

下载安装包 把jdk-8u231-windows-x64.exe这个文件下载下来,下载链接:https://pan.quark.cn/s/a610ca7e5e9d,随便放哪儿,比如桌面或者下载文件夹。 双击运行安装 找到下载好的那个exe文件,直接双击打开。可能会弹个窗口…

LatentSync V8版 - 音频驱动视频生成数字人说话视频 更新V1.6版模型 支持50系显卡 支持批量 一键整合包下载

LatentSync 是字节跳动开源的一款"AI口型同步神器",简单来说就是能让视频里的人物嘴巴动得和声音完美匹配的工具。比如你给一段配音,它能自动调整视频人物的嘴型,按照配音里的声音说出来,就像真人说话一样自然。简单说就…

从一组线段中得出四边形的算法

原始的需求是使用OpenCV的直线检测算法(例如LSD)之后,得到一组线段。然后需要从这些线段得到类似矩形的四边形,用于检测经过透视变换的矩形物体。这些线段不一定首尾相接,彼此之间可能相交或有一定距离。 以下是需求图…

提示词Prompts(2)

摘要: 本文介绍了langchain.prompts中基础的提示词模板的高级用法,包括利用PipelinePrompt组合Prompt使用,多模态场景、动态占位符的使用等进行了介绍。 文章目录 1. 背景2. PipelinePrompt2.1 组合两个Prompt模板2.2 多模态模板 3. 聊天提示…

服务器代码知识点补充

目录 UdpServer: 观察者模式: remove_if算法 管道补充: 文件的标准输出 ,标准输入,标准错误 UdpServer: 数据接收模块关心Adduser 和Deleuser 两个模块 线程池关心Route模块 将这三个方法注册进服务器 ,但是有临界区问题(线程池与数据接受模块可能同时访问用户管理模块,所…

R语言缓释制剂QBD解决方案之二

药物层优化研究 在药物层工艺中水溶剂蒸发起到重要的作用。湿的环境会使丸子聚集,而干的环境影响药物与MCC的粘合。输入变量如气流量,喷雾速率,雾化压力,和产品温度对MCC沉着和包衣溶剂蒸发的平衡有影响。进行了带3个中心点的24-…

Html实现图片上传/裁剪/马赛克/压缩/旋转/缩放

cropper下载 https://download.csdn.net/download/dongyan3595/90970115 前端代码 <!doctype html> <html lang"en"> <head><base href"/aishop/"><meta name"viewport" content"widthdevice-width, initial…

springboot项目中整合高德地图

一&#xff1a;高德开放平台的使用 高德开放平台 | 高德地图API 注册高德地图账号 认证填写个人信息&#xff1a; 认证方式选择“个人认证开发者”即可&#xff0c;然后完善信息 认证成功之后&#xff0c;再次进入控制台&#xff0c;创建关于地图的应用 创建Key&#xff08;y…

鸿蒙开发-视频学习及实用中的一些小结

1.extend 和 styles extend是在styles基础上进行了升级 使用的时候extend是全局的。 styles不加function 局部 加了就是全局。 2.builder 中要引用comp组件 需要在外层嵌套布局 3.ability之间的跳转 want需要加&#xff1b; 4. as 类型断言 &#xff01;跟在xxx! 表示…

网盘直链解析网页版

不支持百度网盘、阿里网盘。 123&#xff0c;蓝奏云&#xff0c;可道云什么的都可以 源码下载地址&#xff1a;https://www.123865.com/s/X91lVv-3l90v

AXI4-Stream Clock Converter IP

一、参考说明 1.没有专门对AXI4-Stream Clock Converter IP说明的文档&#xff1b; 2.可以参考PG085文档&#xff1b; 3.可以参考PG035文档&#xff1b; 二、IP的作用 1.用于stream数据流再不同的时钟域之间的可靠性传输&#xff1b; 2.支持跨时钟域的场景&#xff1b; 3.内部…