视觉语言模型的“视而不见“

这项研究发现,号称能“看图说话”的视觉语言模型(VLMs),在处理需要真正“看”懂图片的纯视觉任务(如判断深度、找对应点、认物体材质等)时,表现远不如它们自己内部的“眼睛”(视觉编码器),甚至接近瞎猜的水平!问题不在于“眼睛”不好,而在于负责“说话”的语言模型(LLM)不会好好用“眼睛”看到的信息,还总带着自己的语言偏见。


  1. 研究背景:VLMs 是什么?

    • 一个AI有一只厉害的“眼睛”(视觉编码器,如 DINOv2, CLIP),负责看懂图片;还有一个“大脑”(大型语言模型 LLM),负责理解语言和生成文字。
    • 视觉语言模型(VLMs) 就是把这两者结合起来,目标是让AI既能看懂图又能理解文字描述,并能回答关于图片的问题(比如“图片里有什么?”,“狗在追什么?”)。
    • 大家都以为这种结合很完美:视觉编码器提供视觉信息,LLM 负责理解和表达。
  2. 惊人发现:VLMs “视而不见”

    • 研究人员想测试VLMs的“视力”到底有多好,测试的不是常识问答,而是纯视觉任务
      • 深度估计: 图片里哪个地方离我们近,哪个地方远?
      • 对应关系: 两张相似图片里,同一个点在另一张图的哪里?(比如左右眼看到的同一个点)
      • 物体属性: 物体表面是光滑的还是粗糙的(纹理)?物体是方的还是圆的(形状)?
      • 艺术风格: 这张画是什么风格的?
    • 测试方法对比:
      • 方法A (直接问“眼睛”): 绕过LLM,直接用技术手段“读取”视觉编码器内部对图片的表示(特征),然后用简单的分类器判断任务结果。这代表了视觉编码器本身的能力上限
      • 方法B (问整个VLM): 像正常用户一样,用文字提问VLM(例如:“图片A的点X在图片B的对应点是A, B, C, D中的哪一个?”),让它输出文字答案。
    • 震撼结果:
      • 视觉编码器(“眼睛”)自己看时表现超棒! 在深度估计等任务上准确率接近90%(远超随机猜测)。
      • 一旦让整个VLM(“眼睛”+“大脑”)来回答,表现暴跌! 很多任务上准确率掉到接近随机瞎猜(比如25%或33%,取决于选项数),甚至比瞎猜还差(因为有偏见)。
      • 下降幅度巨大: 从“眼睛”的优异表现到VLM的糟糕表现,差距非常显著。最强“眼睛”DINOv2 搭配的VLM,表现反而不如一些较弱的“眼睛”搭配的VLM。
    • 结论: VLMs在处理这些需要精确视觉理解的任务时,严重浪费了视觉编码器提供的高质量信息,表现得像“视而不见”。
  3. 刨根问底:为什么“视而不见”?问题出在哪?
    研究人员做了大量分析,排除了几种可能,锁定了核心原因:

    • 原因1:视觉信息在传递中丢失/损坏了?(被排除)
      • 检查点: 他们检查了信息从“眼睛”(视觉编码器)出来后,经过连接器(投影层)到“大脑”(LLM)的每一站。
      • 发现: 视觉信息在投影层和LLM的早期层依然保持得很好!用方法A去“读”这些中间层的表示,依然能很好解决视觉任务。
      • 结论: 问题不是视觉信息在传递过程中被破坏或丢失了。信息还在,LLM能接触到。
    • 原因2:问题问得不对?(部分影响,非主因)
      • 测试: 尝试微调提问方式(提示调整),在问题前面加几个可学习的“提示词”嵌入,希望能引导VLM更好地理解任务。
      • 发现: 微调提示词能带来一点点提升,但效果非常有限,离视觉编码器本身的水平差得远。换不同问法(提示工程)也难以显著改善。
      • 结论: 提示方式有影响,但不是性能暴跌的核心瓶颈
    • 核心原因:LLM 不会用/不想用“眼睛”看,还自带“语言偏见”
      • “不会用/不想用”:
        • 分析发现,即使高质量视觉信息就在LLM面前,LLM没有有效地利用这些信息来完成纯视觉任务。
        • 关键实验: 在少量数据上微调VLM的不同部分:
          • 微调“眼睛”(ViT)或连接器(投影层) -> 效果提升很小。
          • 微调“大脑”(LLM) -> 效果提升巨大!
        • 这说明,LLM本身是瓶颈。它没学会如何根据视觉信息精准回答这类视觉问题。
      • “自带偏见”:
        • “盲测”实验: 不给VLM看任何图片(输入空白图),只让它回答选择题。
        • 发现: 这种情况下VLM的答案分布(偏向选某些选项),和有图片时VLM给出的答案分布高度相似
        • 这证明,VLMs在回答这类问题时,很大程度上忽略了图片内容,而是依赖于LLM内部固有的语言偏好和偏见(比如更倾向于选某个顺眼的选项)。
      • 注意力机制佐证: 微调LLM后,LLM在决策时更关注图片中与问题相关的关键区域(如需要找对应的点)。微调前,它的注意力是分散或不相关的。
  4. 重要澄清:不是“眼睛”的错!

    • 过去一些研究认为VLMs视觉能力弱是因为视觉编码器不够好(比如CLIP不如DINOv2看空间关系准),并建议用更强的编码器或融合多个编码器。
    • 这项研究颠覆了这种看法:
      • 最强的视觉编码器(DINOv2)在独立测试中表现最好。
      • 但把它放进VLM后,搭配LLM的整体表现反而下降得最多,导致在VLM排名中不再是第一。
      • 这说明,视觉编码器本身能力很强,问题出在LLM如何利用它。单纯升级“眼睛”不能根本解决VLM“视而不见”的问题。
  5. 研究的启示与影响:

    • 对VLMs能力的重新认识: VLMs在需要语言知识或常识的任务上可能很出色,但在需要精确实时视觉感知的任务上表现可能极差。不能简单认为VLMs继承了视觉编码器的所有视觉能力。
    • 诊断VLM问题的新视角: 当VLM表现不佳时,不能只归咎于视觉部分。要重点检查LLM是否有效利用了视觉信息,以及是否存在语言偏见。
    • 未来改进方向:
      • 提升LLM的视觉理解能力: 如何让LLM更好地“看懂”并利用视觉信息是关键(微调LLM有效)。可能需要设计新的架构或训练方法,让LLM学会真正依赖视觉输入来做视觉判断。
      • 缓解语言偏见: 需要机制让LLM在视觉任务中抑制其固有的语言偏好,强制其基于图像作答。
      • 谨慎评估视觉能力: 评估视觉编码器时,避免依赖VLM问答作为指标(结果不可靠且有误导性)。应使用更直接的视觉评估方法。
    • 对VLM应用的警示: 在涉及精确视觉感知的应用场景(如机器人视觉引导、医学影像初步分析、工业质检等),直接使用现成的VLMs(如 LLaVA, Qwen-VL)进行视觉问答可能不可靠。需要针对性优化或考虑替代方案。

这项研究揭示了一个VLMs的“阿喀琉斯之踵”:它们的语言大脑(LLM)在处理纯视觉任务时,既不善于利用高质量的眼睛(视觉编码器)看到的信息,又深受自身语言偏见的影响,导致在需要真正“看”图的场景下表现糟糕,远不如单独测试“眼睛”的能力。问题的核心在于LLM与视觉信息的整合方式,而非视觉编码器本身。 这项研究为理解和改进VLMs的视觉能力提供了关键诊断和方向。

https://mp.weixin.qq.com/s/ghexA89mk7KLdO0UEGOB2w
https://www.arxiv.org/abs/2506.08008

“阿喀琉斯之踵”(Achilles’ Heel)是一个源自希腊神话的著名典故,用来比喻一个看似强大的人或事物身上存在致命的弱点或缺陷

故事背景(神话来源)
  • 阿喀琉斯是谁?
    他是希腊神话中半人半神的英雄,海洋女神忒提斯(Thetis)与凡人国王珀琉斯(Peleus)的儿子。他英勇善战,参与了特洛伊战争,是希腊联军中最强大的战士。

  • “踵”为什么是弱点?
    阿喀琉斯出生时,母亲忒提斯握着他的脚踵将他浸入冥河(Styx)的圣水中,使他全身刀枪不入。唯独被手握住的脚踵没有沾到圣水,成了他唯一的致命弱点
    ➠ 特洛伊战争中,阿喀琉斯所向无敌,但最终被敌人帕里斯(Paris)一箭射中脚踵而死。

如今,“阿喀琉斯之踵”被广泛用于描述:

  1. 强大个体/系统的隐蔽缺陷
    (例如:某科技公司市场占有率极高,但过度依赖单一供应商是其“阿喀琉斯之踵”)
  2. 无法克服的关键短板
    (例如:一名运动员身体素质顶尖,但心理抗压能力是“阿喀琉斯之踵”)

用“阿喀琉斯之踵”形容视觉语言模型(VLMs)的缺陷:

  • 强大之处:VLMs融合了顶尖的视觉编码器(“眼睛”)和语言模型(“大脑”),整体能力强劲。
  • 致命弱点:语言模型(LLM)无法有效利用视觉信息,反而依赖语言偏见,导致在纯视觉任务中表现崩塌——如同阿喀琉斯被一支射中脚踵的箭摧毁。

环保组织指出:“快速工业化是发展中国家的经济引擎,但污染治理的缺失正成为其阿喀琉斯之踵。” (比喻:工业化虽强,但环境问题是致命短板)

“阿喀琉斯之踵” = “再强大的存在,也可能因一个微小缺陷而崩溃”。这个比喻生动提醒我们:优势中可能潜藏危机,完美背后或有致命软肋。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/news/909466.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Wyn 商业智能与 3D 大屏的深度融合应用

引言 在当今数字化快速发展的时代,数据可视化对于企业的决策和管理变得至关重要。商业智能软件作为数据可视化的重要工具,能够帮助企业将海量的数据转化为直观、易懂的信息。而 3D 大屏以其沉浸式、立体的展示效果,为数据可视化带来了全新的…

使用docker compose部署netmaker打通内网

准备 我看官网推荐都是使用ssl然后要ssl证书,不想走弯路了 一、docker-compose.yml version: "3.4"services:netmaker:container_name: netmakerimage: gravitl/netmaker:v0.90.0restart: unless-stoppedports:- "18081:18082"- "50051…

Linux集市采购指南[特殊字符]:yum和apt的“抢货”大战!

Linux集市采购指南🍅:yum和apt的“抢货”大战! ✨ 欢迎来到 Linux软件生态集市!这里分两大阵营: 🥬 CentOS/RHEL传统菜市场:派稳重的 yum 大叔当采购员,做事一板一眼;✨…

DataX 框架学习笔记

官方仓库: https://github.com/alibaba/DataX?tabreadme-ov-file 1. 介绍 1.1. 基本介绍: DadaX 是阿里云 DataWorks 数据集成 的开源版本(异构数据同步、离线数据同步工具 / 平台)。主要抽象为 Reader 和 Writer 插件&#…

MaxCompute的Logview分析详解

文章目录 一、Logview简介1、概述2、标题与功能3、基础信息 二、作业详情1、Job Details2、Fuxi Sensor3、Result①当前作业运行成功,显示的为运行结果。②当前作业运行失败,显示的为失败原因。 4、SourceXML5、SQL Script6、History7、SubStatusHistory…

HTML5白云飘飘动态效果教程

HTML5白云飘飘动态效果教程 这里写目录标题 HTML5白云飘飘动态效果教程效果介绍实现步骤步骤一:创建HTML结构步骤二:设计CSS样式步骤三:添加JavaScript交互 代码解析HTML结构解析CSS样式解析JavaScript功能解析 自定义调整总结 效果介绍 本教…

tcp高难度问题

以下是针对这些问题,在面试场景下,既保证理论扎实、逻辑清晰,又具备交流延展性的回答思路与内容,可根据实际面试节奏和面试官反馈灵活调整展开: 1. 客户端端口号如何确定的? 面试官您好,客户端…

广东省省考备考(第二十八天6.13)—资料分析(第二节课)

基期与现期 官方定义:作为对比参照的是基期,而相对于基期比较的是现期 通俗说法:时间靠前的为基期,时间靠后的为现期 增长量与增长率 增长量用来表述基期量与现期量变化的绝对量; 增长率用来表述基期量与现期量变化…

pytorch 中前向传播和后向传播的自定义函数

系列文章目录 文章目录 系列文章目录一、torch.autograd.function代码实例 在开始正文之前,请各位姥爷动动手指,给小店增加一点访问量吧,点击小店,同时希望我的文章对你的学习有所帮助。本文也很简单,主要讲解pytorch的…

【项目实训#08】HarmonyOS知识图谱前端可视化实现

【项目实训#08】HarmonyOS知识图谱前端可视化实现 文章目录 【项目实训#08】HarmonyOS知识图谱前端可视化实现一、背景简介二、技术方案与架构设计2.1 技术选型2.2 组件架构设计 三、知识图谱可视化组件实现3.1 KGResultTab组件设计组件模板结构不同状态的处理用户交互控制节点…

【软件开发】什么是DSL

什么是DSL DSL(Domain-Specific Language,领域特定语言)是一种为特定领域或任务设计的编程语言,目的在于提高该领域中的表达能力与开发效率。 1 在脚本语言中的 DSL 是什么? 在脚本语言(如 Python、Lua、…

JasperReport生成PDF/A类型文档

当JasperReport导出的文档为PDF/A模式时,该PDF为只读可以防止被修改。 设置导出参数 JRPdfExporter exporter new JRPdfExporter();exporter.setExporterInput(SimpleExporterInput.getInstance(jasperPrints));exporter.setExporterOutput(new SimpleOutputStre…

微信小程序使用画布实现飘落泡泡功能

微信小程序使用画布实现飘落泡泡功能:从组件封装到页面调用的完整实践 先看示例截图: 一、背景与技术选型 在微信小程序中实现类似于飘落的泡泡或者樱花飘落的功能,一般主要有 Canvas 和图片两种方案: (1&#xff…

使用STM32设置GPIO中断

使用S™ 32设置GPIO中断 中断示例按键中断实例设计:EXTI0和EXTI9硬件连接分析STM32代码实现代码说明 中断示例 设计一个按键中断的实例。设置两个中断:EXTI0、EXTI9, 在EXTI9的中断服务之程序中实现LED灯的控制 按键中断实例设计&#xff…

解决在微信小程序中view组件下的text和images设置了样式display: flex; align-items: center;对不齐

原始代码的问题 <view style"display: flex; align-items: center;"><text style"line-height: 1;">全国</text><image src"/images/xia.png" style"height: 20rpx; width: 20rpx; display: block;"></im…

归并排序详解:优雅的分治艺术

什么&#xff1f;归并排序&#xff1f;这让博主想起了大学那会被《数据结构与算法》支配的恐惧… 哈哈言归正传&#xff0c;一直想对算法做一个专栏&#xff0c;因为其实工作中很少很少有机会用到算法&#xff0c;倒是很多工具方法底层会使用&#xff0c;工作被各种需求业务“折…

新零售视域下实体与虚拟店融合的技术逻辑与商业模式创新——基于开源AI智能名片与链动2+1模式的S2B2C生态构建

摘要&#xff1a;新零售的核心在于打破线上线下边界&#xff0c;构建“人、货、场”的全场景融合生态。本文提出&#xff0c;实体线下店与虚拟店的协同发展是新零售的重要演进方向&#xff0c;其底层逻辑在于满足消费者作为“现实人”的体验需求与“虚拟人”的效率需求。通过引…

可视化图解算法51:寻找第K大(数组中的第K个最大的元素)

牛客网 面试笔试 TOP101 | LeetCode 215. 数组中的第K个最大元素 1. 题目 描述 有一个整数数组&#xff0c;请你找出数组中第 k 大的数。 给定一个整数数组 a ,同时给定它的大小n和要找的 k &#xff0c;请返回第 k 大的数(包括重复的元素&#xff0c;不用去重)&…

DataWhale-零基础网络爬虫技术(一)

课程链接先给各位 ↓↓↓ &#xff08;点击即可食用.QAQ Datawhale-学用 AI,从此开始 一、引言 还是在笔记的开始&#xff0c;唠唠一些自己的故事 十年前第一次接触网络&#xff0c;也可以说是第一次接触计算机的时候&#xff0c;那时候还是在中学阶段&#xff0c;那时候大…

Linux02

目录 linux常用命令 用户和权限 压缩和解压缩 其他相关命令 Linux中安装常用软件 1.1. jdk的安装 1.1.1. 卸载linux中自带的open-jdk 1.1.2. 把安装包上传到 linux上 1.1.3. 解压安装包 1.1.4. 配置环境变量 1.1.5 验证环境变量 1.3 安装mysql 1.3.1. 检查依赖 1.…