视觉语言模型的“视而不见“

这项研究发现，号称能“看图说话”的视觉语言模型（VLMs），在处理需要真正“看”懂图片的纯视觉任务（如判断深度、找对应点、认物体材质等）时，表现远不如它们自己内部的“眼睛”（视觉编码器），甚至接近瞎猜的水平！问题不在于“眼睛”不好，而在于负责“说话”的语言模型（LLM）不会好好用“眼睛”看到的信息，还总带着自己的语言偏见。

研究背景：VLMs 是什么？
- 一个AI有一只厉害的“眼睛”（视觉编码器，如 DINOv2, CLIP），负责看懂图片；还有一个“大脑”（大型语言模型 LLM），负责理解语言和生成文字。
- 视觉语言模型（VLMs） 就是把这两者结合起来，目标是让AI既能看懂图又能理解文字描述，并能回答关于图片的问题（比如“图片里有什么？”，“狗在追什么？”）。
- 大家都以为这种结合很完美：视觉编码器提供视觉信息，LLM 负责理解和表达。
惊人发现：VLMs “视而不见”
- 研究人员想测试VLMs的“视力”到底有多好，测试的不是常识问答，而是纯视觉任务：
  - 深度估计： 图片里哪个地方离我们近，哪个地方远？
  - 对应关系： 两张相似图片里，同一个点在另一张图的哪里？（比如左右眼看到的同一个点）
  - 物体属性： 物体表面是光滑的还是粗糙的（纹理）？物体是方的还是圆的（形状）？
  - 艺术风格： 这张画是什么风格的？
- 测试方法对比：
  - 方法A (直接问“眼睛”)： 绕过LLM，直接用技术手段“读取”视觉编码器内部对图片的表示（特征），然后用简单的分类器判断任务结果。这代表了视觉编码器本身的能力上限。
  - 方法B (问整个VLM)： 像正常用户一样，用文字提问VLM（例如：“图片A的点X在图片B的对应点是A, B, C, D中的哪一个？”），让它输出文字答案。
- 震撼结果：
  - 视觉编码器（“眼睛”）自己看时表现超棒！ 在深度估计等任务上准确率接近90%（远超随机猜测）。
  - 一旦让整个VLM（“眼睛”+“大脑”）来回答，表现暴跌！ 很多任务上准确率掉到接近随机瞎猜（比如25%或33%，取决于选项数），甚至比瞎猜还差（因为有偏见）。
  - 下降幅度巨大： 从“眼睛”的优异表现到VLM的糟糕表现，差距非常显著。最强“眼睛”DINOv2 搭配的VLM，表现反而不如一些较弱的“眼睛”搭配的VLM。
- 结论： VLMs在处理这些需要精确视觉理解的任务时，严重浪费了视觉编码器提供的高质量信息，表现得像“视而不见”。
刨根问底：为什么“视而不见”？问题出在哪？
研究人员做了大量分析，排除了几种可能，锁定了核心原因：
- 原因1：视觉信息在传递中丢失/损坏了？（被排除）
  - 检查点： 他们检查了信息从“眼睛”（视觉编码器）出来后，经过连接器（投影层）到“大脑”（LLM）的每一站。
  - 发现： 视觉信息在投影层和LLM的早期层依然保持得很好！用方法A去“读”这些中间层的表示，依然能很好解决视觉任务。
  - 结论： 问题不是视觉信息在传递过程中被破坏或丢失了。信息还在，LLM能接触到。
- 原因2：问题问得不对？（部分影响，非主因）
  - 测试： 尝试微调提问方式（提示调整），在问题前面加几个可学习的“提示词”嵌入，希望能引导VLM更好地理解任务。
  - 发现： 微调提示词能带来一点点提升，但效果非常有限，离视觉编码器本身的水平差得远。换不同问法（提示工程）也难以显著改善。
  - 结论： 提示方式有影响，但不是性能暴跌的核心瓶颈。
- 核心原因：LLM 不会用/不想用“眼睛”看，还自带“语言偏见”
  - “不会用/不想用”：
    - 分析发现，即使高质量视觉信息就在LLM面前，LLM没有有效地利用这些信息来完成纯视觉任务。
    - 关键实验： 在少量数据上微调VLM的不同部分：
      - 微调“眼睛”（ViT）或连接器（投影层） -> 效果提升很小。
      - 微调“大脑”（LLM） -> 效果提升巨大！
    - 这说明，LLM本身是瓶颈。它没学会如何根据视觉信息精准回答这类视觉问题。
  - “自带偏见”：
    - “盲测”实验： 不给VLM看任何图片（输入空白图），只让它回答选择题。
    - 发现： 这种情况下VLM的答案分布（偏向选某些选项），和有图片时VLM给出的答案分布高度相似！
    - 这证明，VLMs在回答这类问题时，很大程度上忽略了图片内容，而是依赖于LLM内部固有的语言偏好和偏见（比如更倾向于选某个顺眼的选项）。
  - 注意力机制佐证： 微调LLM后，LLM在决策时更关注图片中与问题相关的关键区域（如需要找对应的点）。微调前，它的注意力是分散或不相关的。
重要澄清：不是“眼睛”的错！
- 过去一些研究认为VLMs视觉能力弱是因为视觉编码器不够好（比如CLIP不如DINOv2看空间关系准），并建议用更强的编码器或融合多个编码器。
- 这项研究颠覆了这种看法：
  - 最强的视觉编码器（DINOv2）在独立测试中表现最好。
  - 但把它放进VLM后，搭配LLM的整体表现反而下降得最多，导致在VLM排名中不再是第一。
  - 这说明，视觉编码器本身能力很强，问题出在LLM如何利用它。单纯升级“眼睛”不能根本解决VLM“视而不见”的问题。
研究的启示与影响：
- 对VLMs能力的重新认识： VLMs在需要语言知识或常识的任务上可能很出色，但在需要精确实时视觉感知的任务上表现可能极差。不能简单认为VLMs继承了视觉编码器的所有视觉能力。
- 诊断VLM问题的新视角： 当VLM表现不佳时，不能只归咎于视觉部分。要重点检查LLM是否有效利用了视觉信息，以及是否存在语言偏见。
- 未来改进方向：
  - 提升LLM的视觉理解能力： 如何让LLM更好地“看懂”并利用视觉信息是关键（微调LLM有效）。可能需要设计新的架构或训练方法，让LLM学会真正依赖视觉输入来做视觉判断。
  - 缓解语言偏见： 需要机制让LLM在视觉任务中抑制其固有的语言偏好，强制其基于图像作答。
  - 谨慎评估视觉能力： 评估视觉编码器时，避免依赖VLM问答作为指标（结果不可靠且有误导性）。应使用更直接的视觉评估方法。
- 对VLM应用的警示： 在涉及精确视觉感知的应用场景（如机器人视觉引导、医学影像初步分析、工业质检等），直接使用现成的VLMs（如 LLaVA, Qwen-VL）进行视觉问答可能不可靠。需要针对性优化或考虑替代方案。

这项研究揭示了一个VLMs的“阿喀琉斯之踵”：它们的语言大脑（LLM）在处理纯视觉任务时，既不善于利用高质量的眼睛（视觉编码器）看到的信息，又深受自身语言偏见的影响，导致在需要真正“看”图的场景下表现糟糕，远不如单独测试“眼睛”的能力。问题的核心在于LLM与视觉信息的整合方式，而非视觉编码器本身。 这项研究为理解和改进VLMs的视觉能力提供了关键诊断和方向。

https://mp.weixin.qq.com/s/ghexA89mk7KLdO0UEGOB2w
https://www.arxiv.org/abs/2506.08008

“阿喀琉斯之踵”（Achilles’ Heel）是一个源自希腊神话的著名典故，用来比喻一个看似强大的人或事物身上存在致命的弱点或缺陷。

故事背景（神话来源）

阿喀琉斯是谁？
他是希腊神话中半人半神的英雄，海洋女神忒提斯（Thetis）与凡人国王珀琉斯（Peleus）的儿子。他英勇善战，参与了特洛伊战争，是希腊联军中最强大的战士。
“踵”为什么是弱点？
阿喀琉斯出生时，母亲忒提斯握着他的脚踵将他浸入冥河（Styx）的圣水中，使他全身刀枪不入。唯独被手握住的脚踵没有沾到圣水，成了他唯一的致命弱点。
➠ 特洛伊战争中，阿喀琉斯所向无敌，但最终被敌人帕里斯（Paris）一箭射中脚踵而死。

如今，“阿喀琉斯之踵”被广泛用于描述：