多模态大语言模型arxiv论文略读（五十）

请添加图片描述

Pensieve: Retrospect-then-Compare Mitigates Visual Hallucination

➡️ 论文标题：Pensieve: Retrospect-then-Compare Mitigates Visual Hallucination
➡️ 论文作者：Dingchen Yang, Bowen Cao, Guang Chen, Changjun Jiang
➡️ 研究机构: 同济大学、北京大学
➡️ 问题背景：多模态大型语言模型（MLLMs）在各种视觉-语言任务中表现出色。然而，这些模型容易出现视觉幻觉，即生成的响应与提供的图像不符。视觉幻觉可能表现为生成冲突或虚构的内容，或忽略关键的视觉细节。
➡️ 研究动机：研究发现，MLLMs在视觉幻觉时可能并非完全忽视准确的视觉线索，而是对准确和错误的内容都有一定的支持。为了减少视觉幻觉，研究团队提出了一种新的方法Pensieve，该方法通过回顾相似图像作为参考，并通过比较这些参考图像与测试图像的置信度分数来识别准确的视觉线索。
➡️ 方法简介：Pensieve是一种无需训练的方法，通过构建一个包含多种视觉概念的参考数据库，使MLLMs能够回顾相关图像。具体来说，Pensieve在推理过程中使MLLMs能够回顾与测试图像具有相似语义和外观的图像，并通过置信度分数的对比来突出准确的候选词。
➡️ 实验设计：研究团队在四个基准数据集上进行了实验，包括Whoops、LLaVA Bench、POPE和MME。实验结果表明，Pensieve在减少视觉幻觉方面优于其他先进的解码策略，显著提高了FaithScore和总分。此外，Pensieve还帮助MLLMs识别图像中的视觉细节，增强了生成的图像描述的特异性。

MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?

➡️ 论文标题：MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?
➡️ 论文作者：Renrui Zhang, Dongzhi Jiang, Yichi Zhang, Haokun Lin, Ziyu Guo, Pengshuo Qiu, Aojun Zhou, Pan Lu, Kai-Wei Chang, Peng Gao, Hongsheng Li
➡️ 研究机构: CUHK MMLab、Shanghai Artificial Intelligence Laboratory、University of California, Los Angeles
➡️ 问题背景：多模态大语言模型（MLLMs）在视觉上下文中表现出色，但其在解决涉及图表的数学问题方面的能力尚未得到充分评估和理解。当前的基准测试中，文本问题中包含过多的视觉内容，这可能帮助MLLMs在不真正解释输入图表的情况下推导出答案。
➡️ 研究动机：研究团队发现，现有的数学基准测试在评估MLLMs的视觉数学问题解决能力时存在三个主要问题：1) MLLMs是否真正看到了数学图表；2) 仅通过最终答案评估是否公平；3) 是否专门针对数学推理评估。为了解决这些问题，研究团队引入了MATHVERSE，一个全面的视觉数学基准，旨在公平和深入地评估MLLMs的多模态数学推理能力。
➡️ 方法简介：MATHVERSE包含2,612个高质量的多学科数学问题，每个问题由人类注释者转换成六个不同版本，每个版本提供不同程度的多模态信息，总共生成15,000个测试样本。研究团队还提出了一个Chain-of-Thought (CoT) 评估策略，通过GPT-4提取和评估每个关键推理步骤，提供详细的错误分析。
➡️ 实验设计：研究团队在MATHVERSE上对流行的闭源和开源MLLMs进行了广泛的实验。实验设计了不同版本的问题，以评估MLLMs在不同信息内容下的表现。实验结果表明，大多数现有的MLLMs在解决数学问题时依赖于文本信息，而不是视觉图表。GPT-4V和ShareGPT4V在视觉内容理解方面表现较好，而其他一些模型在没有视觉输入的情况下表现更好。

Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models

➡️ 论文标题：Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models
➡️ 论文作者：Qiong Wu, Weihao Ye, Yiyi Zhou, Xiaoshuai Sun, Rongrong Ji
➡️ 研究机构: Xiamen University (Key Laboratory of Multimedia Trusted Perception and Efficient Computing, Ministry of Education of China, Institute of Artificial Intelligence)
➡️ 问题背景：多模态大型语言模型（MLLMs）在学术界和工业界引起了广泛关注。然而，这些模型在下游任务应用中不仅需要更新大量参数，还消耗了过多的计算资源。因此，如何在保持模型性能的同时，减少参数和计算开销，成为了一个重要的研究课题。
➡️ 研究动机：现有的研究已经提出了一些参数和计算高效的调优方法，但这些方法在减少参数和计算开销方面仍有改进空间。特别是，多头注意力机制（MHAs）在MLLMs中占据了主要的计算资源，但这些注意力机制在特定任务中往往是冗余的。因此，研究团队提出了一种新的方法，通过有效跳过多余的注意力机制，来提高模型的效率和性能。
➡️ 方法简介：研究团队提出了一种名为有效注意力跳过（EAS）的新方法。EAS首先评估MLLMs中MHAs的冗余性，并跳过多余的MHAs以加速推理。此外，EAS还引入了一种新的传播信息适配器（PIA），该适配器不仅可以在跳过MHAs时保持参数效率，还可以在推理时重新参数化为前馈网络（FFNs），从而实现零额外延迟。
➡️ 实验设计：研究团队将EAS应用于最近提出的MLLM LaVIN，并在ScienceQA等多个视觉-语言基准数据集上进行了广泛的实验。实验设计了不同的参数和计算效率评估指标，以全面评估EAS在减少参数更新规模和加速推理速度方面的效果。实验结果表明，EAS不仅能够保持LaVIN的高性能，还能显著减少参数更新规模并加速推理速度。例如，LaVIN-EAS在ScienceQA上的准确率达到了89.98%，同时推理速度提高了2.2倍。

Elysium: Exploring Object-level Perception in Videos via MLLM

➡️ 论文标题：Elysium: Exploring Object-level Perception in Videos via MLLM
➡️ 论文作者：Han Wang, Yanjie Wang, Yongjie Ye, Yuxiang Nie, Can Huang
➡️ 研究机构: ByteDance Inc.
➡️ 问题背景：多模态大语言模型（MLLMs）在处理静态图像中的对象感知任务方面表现出色，但在视频相关任务中的应用，如对象跟踪，仍处于研究初期。主要挑战包括需要大规模视频数据集进行预训练以理解跨帧关系，以及在大语言模型（LLMs）的上下文窗口中处理大量帧带来的计算负担。
➡️ 研究动机：为了克服上述挑战，研究团队构建了一个大规模视频数据集ElysiumTrack-1M，并提出了一种视觉令牌压缩网络T-Selector，旨在提高MLLMs在视频对象感知任务中的性能，同时减少计算负担。
➡️ 方法简介：研究团队构建了ElysiumTrack-1M数据集，包含127万个标注视频帧及其对应的对象框和描述，支持单对象跟踪（SOT）、指代单对象跟踪（RSOT）和视频指代表达生成（Video-REG）任务。此外，他们提出了Elysium模型，结合了视觉编码器、大语言模型（LLM）和T-Selector，以实现对象级别的视频任务。
➡️ 实验设计：实验在多个数据集上进行，包括图像接地（Image Grounding）和视频问答（VideoQA）任务。实验设计了不同的任务类型，如SOT、RSOT和Video-REG，以全面评估Elysium在不同任务中的表现。实验结果表明，Elysium在图像接地和视频问答任务中均达到了最先进的性能。

Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning

➡️ 论文标题：Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning
➡️ 论文作者：Hao Shao, Shengju Qian, Han Xiao, Guanglu Song, Zhuofan Zong, Letian Wang, Yu Liu, Hongsheng Li
➡️ 研究机构: The Chinese University of Hong Kong、SenseTime Research、University of Toronto、Shanghai Artificial Intelligence Laboratory、CPII under InnoHK
➡️ 问题背景：多模态大语言模型（MLLMs）在各种视觉问答任务中表现出色，但它们在处理复杂视觉输入时往往缺乏解释性和准确性，尤其是在输入图像分辨率高或关键信息区域较小时。此外，现有的MLLMs和相关基准主要基于静态图像上下文输入，缺乏对特定局部区域的动态关注能力。
➡️ 研究动机：为了提高MLLMs的解释性和准确性，研究团队开发了一个大规模的视觉链式思维（Visual CoT）数据集，包含438,000个问题-答案对，每个对都标注了关键区域的边界框。此外，约98,000个问题-答案对还包含详细的推理步骤。研究团队还提出了一种多轮处理管道，旨在动态关注视觉输入并提供可解释的中间思考过程。
➡️ 方法简介：研究团队构建了一个名为VisCoT的框架，该框架通过在问题中添加链式思维提示，要求模型识别图像中最关键的区域并生成其边界框。在训练阶段，使用真实边界框提取视觉信息，而不是预测的边界框。视觉采样器从原始图像中提取包含详细信息的局部图像，视觉编码器和投影器提取视觉标记，MLLMs则整合来自原始图像和局部图像的视觉标记，以提供更精确和全面的答案。
➡️ 实验设计：研究团队在多个公开数据集上进行了实验，包括文本/文档、细粒度理解、图表、通用VQA和关系推理等五个领域。实验评估了不同模型在不同任务中的表现，特别是在需要关注特定局部区域或原因以识别对象的场景中。实验结果表明，VisCoT框架显著提高了MLLMs的性能和解释性。