AI的“空间盲症“

<------最重要的是订阅“鲁班模锤”------>

当我们看到一张照片时,大脑会自动分析其中的空间关系——哪个物体在前,哪个在后,左边是什么,右边是什么。但对于当今最先进的AI系统来说,这种看似简单的空间理解却是一个巨大的挑战。Meta FAIR和香港中文大学的研究团队最近发布的Multi-SpatialMLLM项目,正在试图解决这个根本性问题。

现有的多模态大语言模型虽然在图像识别和文本理解方面表现出色,但在空间推理上却存在严重缺陷。这些模型往往连最基本的左右区分都会出错,更不用说理解复杂的3D空间关系了。造成这种现象的根本原因在于,绝大多数AI训练都基于单张图像,就像让一个人只通过一扇窗户观察整个世界一样,视野必然受限。

随着AI在机器人技术、自动驾驶、增强现实等领域的应用需求日益增长,空间理解能力的缺失成为了制约其发展的关键瓶颈。机器人需要准确理解环境中物体的位置关系才能有效执行任务,自动驾驶系统必须精确判断道路、车辆和行人的空间分布才能安全行驶。

空间理解的技术突破

Multi-SpatialMLLM的核心创新在于将AI的视觉理解从单张图像扩展到多张图像的协同分析。这种方法模仿了人类的视觉系统——我们通过双眼产生立体视觉,通过头部和身体的移动获得不同视角,然后大脑整合这些信息形成完整的空间认知。

  • 深度感知(Depth Perception):理解物体离镜头的远近;

  • 视觉对应(Visual Correspondence):识别同一物体在不同图像中的位置对应;

  • 动态感知(Dynamic Perception):推断相机或物体的运动方向和幅度。

研究团队设计了一个包含三个核心组件的框架:深度感知、视觉对应和动态感知。深度感知让AI能够判断物体距离的远近,视觉对应使AI能在不同视角间建立像素点的对应关系,动态感知则赋予AI捕捉相机和物体运动信息的能力。这三个组件的协同工作,使AI首次具备了真正的多帧空间理解能力。

MultiSPA

为了训练AI系统,团队构建了MultiSPA数据集,这是一个包含超过2700万样本的大规模空间理解数据集。数据集的构建过程体现了研究团队的匠心独运。

  • 数据来自真实世界的3D/4D图像集,不是合成或模拟数据;

  • 自动采样图像对,确保画面有足够重叠与变化;

  • 利用点云反投影技术建立像素级别的对应关系,实现空间和时间的精准对齐;

  • 借助GPT-4o自动生成问题与答案模板,涵盖定性描述与定量坐标、向量等多种形式;

  • 支持用像素点、语义标签、坐标等多种方式描述问题答案。

相机运动感知任务设计了从粗粒度到细粒度的九种不同难度级别,从简单的方向判断到复杂的位移向量预测。物体运动感知任务则要求AI跟踪特定物体在不同帧间的运动轨迹。最具挑战性的物体尺寸感知任务需要AI整合多张图像的信息来推断物体的真实尺寸。

数据生成过程充分利用了真实世界的3D场景数据,包括室内场景数据集ScanNet和动态场景数据集ADT、Panoptic Studio等。通过精密的3D-2D投影算法,研究团队确保生成的训练数据符合真实的几何约束。他们还设计了巧妙的图像对选择策略,选择重叠度在6%到35%之间的图像对进行训练,既保证了足够的空间关联性,又维持了视角的多样性。

精妙的技术架构

Multi-SpatialMLLM基于InternVL2-8B模型构建,这个选择经过了仔细考量。相比其他流行的多模态模型,InternVL2在遵从指令方面表现更为出色,为后续的空间理解训练奠定了良好基础。

训练策略采用了高效的LoRA(Low-Rank Adaptation)微调方法,只更新语言模型骨干网络的参数,而保持图像编码器和投影层冻结。这种设计既减少了训练成本,又避免了灾难性遗忘问题,确保模型在获得空间理解能力的同时保持原有的通用视觉理解能力。

数据格式遵循标准的多模态大语言模型训练范式,采用问答对的形式。为了处理多样化的输出格式,团队设计了统一的答案提取机制,支持从定性描述到精确坐标的各种回答类型。像素坐标的归一化处理解决了不同分辨率图像的兼容性问题,确保模型能够处理各种尺寸的输入图像。

Multi-SpatialMLLM在MultiSPA基准测试中展现出了令人瞩目的性能提升。相比基础模型,该系统在所有空间理解任务上都实现了显著改进,平均准确率提升了36%。在相对简单的定性任务上,模型达到了80-90%的准确率,而基础模型仅能达到50%左右。

更为重要的是,在极具挑战性的相机运动向量预测任务上,Multi-SpatialMLLM达到了18%的准确率,而其他基线模型的表现几乎为零。这种定量的空间推理能力对于实际应用具有重要意义,为机器人导航、自动驾驶等应用提供了技术基础。

为了验证模型的泛化能力,研究团队在外部基准BLINK上进行了零样本评估。结果显示,Multi-SpatialMLLM在从未见过的数据上仍然保持了优异性能,平均准确率比基础模型提升26.4%,甚至超越了GPT-4o、Claude-3.5等大型商业模型。这表明模型学到的空间理解能力具有良好的可迁移性。

同时,在标准的视觉问答基准测试中,Multi-SpatialMLLM保持了与原始模型相当的性能,证明专业化训练并没有损害模型的通用能力。这种平衡对于实际部署至关重要,用户既需要专业的空间理解能力,也需要保持AI助手的全面性。

可扩展性与顿悟现象

研究团队通过系统性实验验证了Multi-SpatialMLLM的可扩展性。随着训练数据从50万样本增加到250万样本,26B参数模型在相机运动向量预测任务上的准确率从0.67%大幅提升至44%。这种线性的性能提升表明,更大规模的数据训练有望带来进一步的性能改进。

更有趣的是,研究发现了类似大语言模型的顿悟现象。在多选视觉对应任务中,只有26B参数的大型模型能够有效学习困难样本,而8B和13B的模型即使在困难样本上训练也无法获得提升。这种现象表明,某些高级的空间推理能力可能需要足够大的模型容量才能顿悟。

多任务学习的协同效应也得到了验证。当将相机运动任务与其他任务的数据混合训练时,模型在相机运动预测上的表现从9.3%提升到18%。类似地,物体运动预测任务在加入其他任务数据后,准确率从17.5%提升到22.04%。这种跨任务的正向迁移表明,不同类型的空间理解能力之间存在内在联系,多样化的训练任务能够相互促进。

真实世界应用验证

研究团队通过实际的机器人场景验证了Multi-SpatialMLLM的实用性。

在一个涉及机械臂堆叠积木的任务中,当被问及静态蓝色积木的移动情况时,GPT-4o和基础模型都给出了错误答案,而Multi-SpatialMLLM准确识别出积木并未移动。这种准确的空间感知能力对于机器人的安全操作至关重要。

Multi-SpatialMLLM的成功不仅仅是一个技术指标的提升,更代表了AI理解世界方式的根本性变革。Multi-SpatialMLLM通过多帧协同分析,实现了从"看图识物"到"立体思维"的跨越。这种技术突破的意义在于,它首次让AI具备了类似人类的空间认知能力。人类的视觉系统天然具备整合多视角信息的能力,这种能力是我们在3D世界中导航和操作的基础。

Multi-SpatialMLLM通过技术手段复现了这种能力,为AI在现实世界的广泛应用铺平了道路。在自动驾驶领域,这种多帧空间理解能力对于环境感知和路径规划具有重要价值。传统的自动驾驶系统主要依赖激光雷达等专用传感器获取3D信息,而Multi-SpatialMLLM展示了仅通过摄像头就能实现复杂空间理解的可能性,有望降低自动驾驶系统的成本和复杂度。

在增强现实和虚拟现实应用中,精确的空间理解能力是实现自然交互的关键。Multi-SpatialMLLM能够帮助AR系统更准确地在现实场景中放置虚拟物体,为VR系统提供更真实的空间感知。

医疗影像领域也是一个重要的应用方向。Multi-SpatialMLLM的多视角整合能力可以帮助医生从多个2D影像重建3D解剖结构,为手术规划和导航提供更精确的空间信息。

更多专栏请看:

  • LLM背后的基础模型

  • 如何优雅的谈论大模型

  • 体系化的通识大模型

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/web/81594.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据拟合实验

实验类型&#xff1a;●验证性实验 ○综合性实验 ○设计性实验 实验目的: 进一步熟练掌握最小二乘多项式拟合算法&#xff0c;提高编程能力和解决拟合问题的实践技能。 实验内容&#xff1a; 1 对下列数据&#xff0c;求解最小二乘抛物线f(x)Ax2BxC x -3 -1 1 3 y 15 5 …

系统思考:心智模式与业务创新

在最近的项目交付讨论中&#xff0c;我频繁听到一个词&#xff1a;“缺合适的人”。这让我陷入了深思&#xff1a;我们是否还在传统的生产力概念&#xff1f;纳瓦尔提出的三种杠杆&#xff1a;劳动力、资本、零边际成本产品。在当今这个信息化、全球化的商业世界中&#xff0c;…

python分步合并处理excel数据

文章目录 概要整体架构流程技术名词解释技术细节小结概要 客户需求 1. 背景与目标 用户需要将三个包含农业实验数据的Excel表格(AK、AN、AP)合并为一个结构化数据集,用于后续分析。每个表格包含相同类型的字段(如对照组与PSB处理组的样本数、均值、标准差),但需通过字…

Python爬虫实战:研究PyQuery库相关技术

1. 引言 1.1 研究背景与意义 随着互联网的快速发展,网络上的数据量呈爆炸式增长。如何高效地从海量的网页数据中提取有价值的信息,成为当前信息技术领域的一个重要研究方向。网络爬虫作为一种自动获取网页内容的程序,能够按照一定的规则,自动地抓取万维网信息,在搜索引擎…

深度学习---注意力机制(Attention Mechanism)

一、核心概念与发展背景 注意力机制是深度学习中模拟人类注意力选择能力的关键技术&#xff0c;旨在从海量信息中筛选关键特征&#xff0c;解决长序列信息处理中的瓶颈问题&#xff08;如RNN的梯度消失&#xff09;。其核心思想是&#xff1a;对输入序列的不同部分分配不同权重…

Jenkins分配对应项目权限与用户管理

在日常开发过程中经常会出现用户和权限管理问题&#xff0c;没有配置trigger时&#xff0c;通常需要我们手动构建&#xff0c;但此时前端和后端的朋友没有build权限&#xff0c;导致每次dev环境测试都需要麻烦我们手动去构建&#xff0c;消息传达不及时则会降低开发效率。 现有…

XCTF-web-file_include

解析 <?php highlight_file(__FILE__); // 高亮显示当前PHP文件源代码 include("./check.php"); // 包含检查文件&#xff08;可能包含安全过滤逻辑&#xff09;if(isset($_GET[filename])) { // 检查是否传入filename参数$filename $_GET[f…

matlab全息技术中的菲涅尔仿真成像

matlab全息技术中的菲涅尔仿真成像程序。 傅里叶法&#xff08;重建距离得大&#xff09;/Fresnel.m , 545 傅里叶法&#xff08;重建距离得大&#xff09;/FresnelB.m , 548 傅里叶法&#xff08;重建距离得大&#xff09;/Fresnel_solution.m , 1643 傅里叶法&#xff08;重…

CS144 - LAB0

CS144 - Lab 0 telnet 发送请求 如图&#xff0c;很简单&#xff0c;但是注意输入时间太久会超时 发邮箱 首先我们需要用命令行去发邮箱&#xff0c;这里我用企业微信邮箱给自己的 qq 邮箱发送~ 整个命令如下&#xff01; 对于其中的参数&#xff0c;其实从英文就可以看出来…

kafka SASL/PLAIN 认证及 ACL 权限控制

一、Zookeeper 配置 SASL/PLAIN 认证&#xff08;每个zookeeper节点都要做&#xff09; 1.1 在 zookeeper 的 conf 目录下&#xff0c;创建 zk_server_jaas.conf 文件&#xff0c;内容如下 Server {org.apache.kafka.common.security.plain.PlainLoginModule requiredusernam…

20250528-C#知识:函数简介及函数重载

C#知识&#xff1a;函数简介及函数重载 本文主要介绍函数参数和函数重载相关的知识点 1、函数 函数一般写在类中 一般函数调用 static int Add(int num, int value){num value;return num;}//一般函数调用&#xff0c;发生值类型参数的复制int num 1;Add(num, 1); //调用…

Vue内置指令与自定义指令

一、前言 在 Vue 开发中&#xff0c;指令&#xff08;Directives&#xff09; 是一种非常强大的特性&#xff0c;它允许我们以声明式的方式操作 DOM。Vue 提供了一些常用的内置指令&#xff0c;如 v-if、v-show、v-bind、v-on 等&#xff0c;同时也支持开发者根据需求创建自己…

华为AP6050DN无线接入点瘦模式转胖模式

引言 华为AP6050DN是一款企业级商用的无线接入点。由于产品定位原因,其默认工作在瘦模式下,即须经AC统一控制和管理,是不能直接充当普通的无线路由器来使用的。 而本文的目的,就是让其能脱离AC的统一控制和管理,当作普通无线路由器来使用。 硬件准备 华为AP6050DN无线接…

程序员出海之英语-使用手册

为什么现在实时翻译工具这么牛逼了&#xff0c;AI转译这么准确了&#xff0c;我还在这里跟老古董一样吭哧吭哧学英语呢&#xff1f; 这是因为我们始终是和人打交道&#xff0c;不仅仅是为了考试&#xff0c;看懂官方文章&#xff0c;听懂官方视频。这里为什么说官方&#xff0c…

Java 事务管理:在分布式系统中实现可靠的数据一致性

Java 事务管理&#xff1a;在分布式系统中实现可靠的数据一致性 在当今的软件开发领域&#xff0c;分布式系统逐渐成为主流架构。然而&#xff0c;这也给事务管理带来了巨大的挑战。本文将深入探讨 Java 事务管理在分布式系统中的关键要点&#xff0c;并通过详细代码实例展示如…

微信小程序关于截图、录屏拦截

1.安卓 安卓&#xff1a; 在需要禁止的页面添加 onShow() {if (wx.setVisualEffectOnCapture) {wx.setVisualEffectOnCapture({visualEffect: hidden,complete: function(res) {}})}},// 页面隐藏和销毁时需要释放防截屏录屏设置onHide() {if (wx.setVisualEffectOnCapture) {w…

使用 PySpark 从 Kafka 读取数据流并处理为表

使用 PySpark 从 Kafka 读取数据流并处理为表 下面是一个完整的指南&#xff0c;展示如何通过 PySpark 从 Kafka 消费数据流&#xff0c;并将其处理为可以执行 SQL 查询的表。 1. 环境准备 确保已安装: Apache Spark (包含Spark SQL和Spark Streaming)KafkaPySpark对应的Ka…

第十天的尝试

目录 一、每日一言 二、练习题 三、效果展示 四、下次题目 五、总结 一、每日一言 哈哈&#xff0c;十天缺了两天&#xff0c;我写的文章现在质量不高&#xff0c;所以我可能考虑&#xff0c;应该一星期或者三四天出点高质量的文章&#xff0c;同时很开心大家能够学到知识&a…

mediapipe标注视频姿态关键点(基础版加进阶版)

前言 手语视频流的识别有两种大的分类&#xff0c;一种是直接将视频输入进网络&#xff0c;一种是识别了关键点之后再进入网络。所以这篇文章我就要来讲讲如何用mediapipe对手语视频进行关键点标注。 代码 需要直接使用代码的&#xff0c;我就放这里了。环境自己配置一下吧&…

Redis数据迁移方案及持久化机制详解

#作者&#xff1a;任少近 文章目录 前言Redis的持久化机制RDBAOF Redis save和bgsave的区别redis数据迁移redis单机-单机数据迁移redis 主从-主从数据迁移redis 单机-cluster数据迁移redis cluster –redis cluster数据迁移 前言 Redis数据迁移是常见需求&#xff0c;主要包括…