多模态大语言模型arxiv论文略读（148）

在这里插入图片描述

A Comprehensive Survey and Guide to Multimodal Large Language Models in Vision-Language Tasks

➡️ 论文标题：A Comprehensive Survey and Guide to Multimodal Large Language Models in Vision-Language Tasks
➡️ 论文作者：Chia Xin Liang, Pu Tian, Caitlyn Heqi Yin, Yao Yua, Wei An-Hou, Li Ming, Tianyang Wang, Ziqian Bi, Ming Liu
➡️ 研究机构: JTB Technology Corp.、Stockton University、University of Wisconsin-Madison、AppCubic USA、Nomad Sustaintech LTD、Georgia Institute of Technology、University of Liverpool、Indiana University、Purdue University
➡️ 问题背景：多模态大型语言模型（Multimodal Large Language Models, MLLMs）在视觉-语言任务中迅速发展，这些模型能够整合文本、图像、视频和音频等多种数据类型，实现跨模态理解和生成。MLLMs在视觉故事讲述、内容创作、跨模态检索和增强无障碍性等多个领域展现出巨大的应用潜力。
➡️ 研究动机：尽管MLLMs在多个领域取得了显著进展，但它们在模型架构、可扩展性、跨模态学习、模型鲁棒性和可靠性、解释性和伦理考虑等方面仍面临诸多挑战。研究团队通过全面的调查和案例分析，旨在探讨这些挑战，并为未来的MLLMs发展提供理论框架和实践指导。
➡️ 方法简介：研究团队通过文献综述和案例研究，系统地分析了MLLMs的架构、训练方法、应用领域以及面临的挑战。研究涵盖了从基础概念到具体应用的各个方面，包括模型的训练策略、跨模态任务的处理、模型的鲁棒性和解释性等。
➡️ 实验设计：研究团队在多个实际应用案例中评估了MLLMs的性能，包括图像生成、代码生成、搜索和信息检索、多模态助手和聊天机器人、视频分析和生成、音频和语音处理、机器人和具身AI等。通过详细的案例分析，研究团队探讨了MLLMs在不同应用场景中的表现和潜在问题。

Learning from Feedback: Semantic Enhancement for Object SLAM Using Foundation Models

➡️ 论文标题：Learning from Feedback: Semantic Enhancement for Object SLAM Using Foundation Models
➡️ 论文作者：Jungseok Hong, Ran Choi, John J. Leonard
➡️ 研究机构: MIT CSAIL
➡️ 问题背景：当前的语义同时定位与建图（Semantic SLAM）系统在处理语义相似的物体时存在困难，尤其是在杂乱的室内环境中。这些系统通常只能提供通用的标签（如“鞋”），导致相似的物体被融合成单一的地标。此外，错误的地标和物体检测器的固有偏差也是维持地图一致性的重要挑战。
➡️ 研究动机：为了克服这些挑战，研究团队提出了一种新的SLAM系统——SEO-SLAM，该系统利用视觉-语言模型（VLM）和多模态大语言模型（MLLM）来增强物体级别的语义映射。SEO-SLAM通过生成更具体和描述性的开放词汇物体标签、同时纠正导致错误地标的因素，并动态更新多类混淆矩阵，从而提高了语义映射的准确性和鲁棒性。
➡️ 方法简介：SEO-SLAM系统集成了图像标记、基于标签的定位和分割模型，以实现描述性的开放词汇物体检测和地标语义信息的细化。该系统利用MLLM生成更描述性的地标标签，并通过MLLM的反馈更新多类预测混淆矩阵，识别重复地标。具体来说，系统通过将3D地标投影到当前相机帧上，生成每个地标的边界框，并将这些边界框叠加到当前的RGB图像上，形成复合图像。MLLM通过评估这些复合图像来识别消失的物体、纠正错误标签的物体，并选择最合适的地标标签。
➡️ 实验设计：研究团队在六个包含日常物体的室内环境数据集上进行了实验，这些数据集根据物体数量分为小（约10个）、中（约20个）和大（约30个）三类。实验评估了地标语义准确性、错误地标数量和绝对姿态误差（APE）。实验结果表明，SEO-SLAM在语义准确性和地标估计数量方面均优于其他方法，尤其是在处理复杂环境中的相似物体时表现出色。

CapeLLM: Support-Free Category-Agnostic Pose Estimation with Multimodal Large Language Models

➡️ 论文标题：CapeLLM: Support-Free Category-Agnostic Pose Estimation with Multimodal Large Language Models
➡️ 论文作者：Junho Kim, Hyungjin Chung, Byung-Hoon Kim
➡️ 研究机构: EverEx, KAIST, Yonsei University
➡️ 问题背景：传统的类别特定姿态估计（Category-Specific Pose Estimation, CSP）主要集中在训练模型以识别单一类别（如人类、车辆或动物）的关键点。然而，这些模型无法处理未见过的类别和关键点。类别无关姿态估计（Category-Agnostic Pose Estimation, CAPE）旨在通过利用输入图像和一组支持数据来预测新类别对象的关键点位置。然而，支持数据的使用存在固有的局限性，如依赖于支持图像和关键点注释，导致模型性能受支持数据质量的影响。
➡️ 研究动机：为了克服传统CAPE方法的局限性，研究团队提出了一种新的方法CapeLLM，该方法利用多模态大语言模型（Multimodal Large Language Model, MLLM）进行支持图像无关的CAPE。通过仅使用查询图像和详细的文本描述作为输入，CapeLLM能够预测未见过类别对象的关键点位置，从而提高了模型的泛化能力和鲁棒性。
➡️ 方法简介：CapeLLM结合了一个预训练的视觉编码器和一个大语言模型（LLM）。视觉编码器用于提取图像特征，而LLM则用于处理文本描述并生成关键点坐标。研究团队定义了各类别关键点的名称和描述，并将其转换为适合CAPE的指令格式。通过这种方式，CapeLLM能够在没有支持图像的情况下，仅依赖查询图像和文本描述来预测关键点位置。
➡️ 实验设计：研究团队在MP-100基准数据集上进行了实验，该数据集包含100个类别和约20,000张图像。实验设计了不同的训练策略，包括将关键点分组为固定大小的单元，并允许图像重复以确保所有关键点在训练中都被覆盖。实验结果表明，CapeLLM在1-shot设置下超越了现有的5-shot性能，达到了新的最先进水平。

Zer0-Jack: A Memory-efficient Gradient-based Jailbreaking Method for Black-box Multi-modal Large Language Models

➡️ 论文标题：Zer0-Jack: A Memory-efficient Gradient-based Jailbreaking Method for Black-box Multi-modal Large Language Models
➡️ 论文作者：Tiejin Chen, Kaishen Wang, Hua Wei
➡️ 研究机构: Arizona State University, USA
➡️ 问题背景：多模态大语言模型（MLLMs）在处理文本和图像输入方面表现出色，但这些模型的安全性引起了广泛关注。研究发现，通过精心设计的提示，可以“越狱”这些模型，使其生成有害内容。现有的越狱方法主要依赖于梯度方法，这些方法在白盒设置下表现良好，但在黑盒设置下效果不佳，因为黑盒模型不提供内部参数访问权限。
➡️ 研究动机：现有的越狱方法在黑盒设置下效果有限，因为这些方法通常依赖于转移攻击，即在白盒模型上生成恶意输入，然后应用于黑盒模型，但这种方法的攻击成功率较低。为了克服这一挑战，研究团队提出了一种新的方法——Zer0-Jack，该方法利用零阶优化技术直接生成恶意图像输入，以攻击黑盒MLLMs，显著降低了内存使用量，并提高了攻击成功率。
➡️ 方法简介：Zer0-Jack利用零阶优化技术，通过估计梯度而不访问模型参数，来生成能够绕过安全机制的恶意图像输入。为了减少高维输入的估计误差，Zer0-Jack优化图像的特定部分，而不是整个图像，从而显著降低了内存使用量。具体来说，Zer0-Jack使用了SPSA-P方法，即在每个迭代中仅扰动图像的一个小块（patch），并根据估计的梯度更新该小块。
➡️ 实验设计：研究团队在三个公开数据集上进行了实验，包括Harmful Behaviors Multi-modal Dataset和MM-SafetyBench-T。实验评估了Zer0-Jack在不同模型上的攻击成功率，并与现有的白盒和转移攻击方法进行了比较。实验结果表明，Zer0-Jack在黑盒设置下能够达到与白盒方法相当的攻击成功率，例如在MiniGPT-4上使用Harmful Behaviors Multi-modal Dataset时，Zer0-Jack的攻击成功率达到95%。此外，Zer0-Jack还能够直接攻击商业MLLMs，如GPT-4o。

Is Cognition consistent with Perception? Assessing and Mitigating Multimodal Knowledge Conflicts in Document Understanding

➡️ 论文标题：Is Cognition consistent with Perception? Assessing and Mitigating Multimodal Knowledge Conflicts in Document Understanding
➡️ 论文作者：Zirui Shao, Chuwei Luo, Zhaoqing Zhu, Hangdi Xing, Zhi Yu, Qi Zheng, Jiajun Bu
➡️ 研究机构: 浙江大学、阿里巴巴集团
➡️ 问题背景：多模态大语言模型（MLLMs）在文档理解等多模态任务中展现了显著的能力。然而，这些模型在感知（perception）和认知（cognition）之间经常面临冲突。例如，在文档视觉问答（VQA）任务中，模型可能生成与OCR识别的视觉内容不匹配的答案，这表明模型在“看到”和“理解”之间存在内在连接的困难。
➡️ 研究动机：当前的MLLMs在感知和认知之间存在显著的冲突，这些冲突不仅影响模型的性能，还降低了模型的可解释性。为了系统地评估这些冲突，并提出有效的缓解方法，研究团队定义了认知与感知知识冲突（Cognition and Perception, C&P knowledge conflicts），并评估了现有MLLMs在这方面的表现。
➡️ 方法简介：研究团队提出了一种新的方法——多模态知识一致性微调（Multimodal Knowledge Consistency Fine-tuning），该方法通过三个阶段的微调任务来提高模型在认知和感知任务之间的一致性。具体包括：感知一致性任务、认知一致性任务和C&P连接任务。这些任务旨在确保任务内部的一致性，并建立认知和感知知识之间的内在联系。
➡️ 实验设计：实验在六个公开的文档理解数据集上进行，包括DocVQA、DeepForm、KLC、FUNSD、ChartQA和WTQ。实验评估了模型在认知任务一致性、感知任务一致性和C&P一致性方面的表现。结果表明，多模态知识一致性微调方法显著提高了所有测试模型的C&P一致性，尤其是在Qwen-VL-Chat、InternVL2-2b和InternVL2-8b等模型上表现尤为明显。