多模态大语言模型arxiv论文略读（124）

在这里插入图片描述

MediConfusion: Can you trust your AI radiologist? Probing the reliability of multimodal medical foundation models

➡️ 论文标题：MediConfusion: Can you trust your AI radiologist? Probing the reliability of multimodal medical foundation models
➡️ 论文作者：Mohammad Shahab Sepehri, Zalan Fabian, Maryam Soltanolkotabi, Mahdi Soltanolkotabi
➡️ 研究机构: University of Southern California, University of Utah
➡️ 问题背景：多模态大型语言模型（Multimodal Large Language Models, MLLMs）在医疗领域的应用具有巨大的潜力，可以提高医疗的准确性、可用性和成本效益。然而，这些模型的能力和局限性尚未完全理解。现有的医疗基准数据集虽然测试了模型在不同医疗领域的通用知识，但未能充分揭示这些模型在安全关键领域的系统性故障模式和漏洞。
➡️ 研究动机：为了深入理解医疗MLLMs的故障模式，并探索其背后的原因，研究团队开发了MediConfusion，这是一个具有挑战性的医疗视觉问答（VQA）基准数据集，旨在从视觉角度探测医疗MLLMs的故障模式。研究发现，即使是视觉上明显不同的图像对，这些模型也容易混淆，这引发了对现有医疗MLLMs在医疗部署中可靠性的严重担忧。
➡️ 方法简介：研究团队提出了一种系统的方法，通过构建MediConfusion数据集，来评估医疗MLLMs在处理视觉上明显不同但特征空间相似的图像对时的表现。该数据集包括一系列从ROCO数据集中提取的图像对，这些图像对在视觉上明显不同，但在医疗MLLMs的特征空间中高度相似。通过与放射科医生的合作，研究团队生成了一系列多选题，旨在测试模型区分这些图像对的能力。
➡️ 实验设计：研究团队在MediConfusion数据集上评估了多种最先进的医疗和通用领域MLLMs，包括开源模型和专有模型。实验设计了多种评估技术，包括基于前缀的评分（PS）、多选题提示（MC）、自由形式评估（FF）和贪婪解码评估（GD），以全面评估模型在不同条件下的表现。实验结果表明，所有评估的模型在MediConfusion上的表现均低于随机猜测，尤其是在区分视觉上明显不同的图像对时，模型的混淆率极高。

M $^2$ PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning

➡️ 论文标题：M $^2$ PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning
➡️ 论文作者：Taowen Wang, Yiyang Liu, James Chenhao Liang, junhan zhao, Yiming Cui, Yuning Mao, Shaoliang Nie, Jiahao Liu, Fuli Feng, Zenglin Xu, Cheng Han, Lifu Huang, Qifan Wang, Dongfang Liu
➡️ 研究机构: Rochester Institute of Technology, Harvard Medical School, ByteDance, Meta AI, Meituan, University of Science and Technology of China, Shanghai Academy of AI for Science, Fudan University, University of Missouri - Kansas City, University of California - Davis, U.S. Naval Research Laboratory
➡️ 问题背景：多模态大语言模型（Multimodal Large Language Models, MLLMs）在多个领域展现了卓越的性能，特别是在零样本泛化能力方面。然而，随着模型规模和复杂性的增加，针对特定领域知识的微调变得越来越具有挑战性，训练开销呈指数级增长。现有的参数高效微调（Parameter-Efficient Finetuning, PEFT）方法大多仅关注单一模态，忽略了多模态特性，这限制了它们在多模态任务中的应用。
➡️ 研究动机：为了克服现有PEFT方法的局限性，研究团队提出了一种新的多模态提示调优（Multimodal Prompt Tuning, M2PT）方法，旨在通过引入视觉和文本提示，实现对MLLMs的有效和高效的微调，从而增强模型在零样本设置下的多模态任务处理能力。
➡️ 方法简介：M2PT方法通过在视觉编码器和语言处理器中分别引入视觉提示和文本提示，促进跨模态特征的提取和对齐。具体来说，M2PT设计了两个提示集：视觉提示和文本提示，这些提示在微调过程中被嵌入到相应的层中。通过跨模态交互层，M2PT增强了视觉和文本特征之间的对齐，从而提高了模型的多模态理解和生成能力。
➡️ 实验设计：研究团队在多个多模态数据集上进行了实验，包括Vision-Flan、MME、Text-VQA、VSR、SNLI-VE、CIFAR-10、CIFAR-100、MNIST和POPE。实验评估了M2PT在不同任务上的性能，包括感知和认知能力。实验结果表明，M2PT在多个基准测试中表现出色，尤其是在零样本设置下，仅微调了0.09%的参数，性能接近全量微调的LLaVA模型。

EAGLE: Towards Efficient Arbitrary Referring Visual Prompts Comprehension for Multimodal Large Language Models

➡️ 论文标题：EAGLE: Towards Efficient Arbitrary Referring Visual Prompts Comprehension for Multimodal Large Language Models
➡️ 论文作者：Jiacheng Zhang, Yang Jiao, Shaoxiang Chen, Jingjing Chen, Yu-Gang Jiang
➡️ 研究机构: Fudan University, Meituan
➡️ 问题背景：多模态大语言模型（Multimodal Large Language Models, MLLMs）因其在内容推理和指令跟随方面的卓越能力而受到广泛关注。这些模型通过图像-文本对的训练，能够连接视觉世界与语言空间，从而扩展其在多个学科领域的应用。然而，现有的MLLMs在处理特定区域理解任务时，通常依赖于专门的区域特征编码模块和精心策划的指令数据集，这导致了架构冗余和泛化能力差的问题。
➡️ 研究动机：为了克服现有MLLMs在处理任意引用视觉提示（referring visual prompts）时的局限性，研究团队提出了一种新的MLLM——EAGLE。EAGLE旨在通过增强原始图像特征的局部信息，提高模型对任意引用视觉提示的理解能力，同时减少训练努力和避免引入额外的区域编码模块。
➡️ 方法简介：EAGLE包含两个核心设计：1) 将不同格式的引用视觉提示以彩色补丁的形式渲染到图像上，作为指令数据集的图像资源，以进行指令调优。2) 提出了一种几何无关学习范式（Geometry-Agnostic Learning, GAL），通过将多样化的引用视觉提示转换为一组格式统一的代表性点，来解耦区域级识别与引用视觉提示的几何形状，从而提高模型对不规则区域注释的处理能力。
➡️ 实验设计：研究团队在多个数据集上进行了实验，包括不同格式的引用视觉提示（点、框、掩码等）。实验设计了不同的因素（如点的颜色、大小、透明度等），以及不同类型的测试数据（如真实用户绘制的不规则掩码），以全面评估EAGLE在处理不规则区域注释时的有效性和鲁棒性。实验结果表明，EAGLE在处理任意引用视觉提示方面表现出色，显著优于现有的方法。

Pruning Multilingual Large Language Models for Multilingual Inference

➡️ 论文标题：Pruning Multilingual Large Language Models for Multilingual Inference
➡️ 论文作者：Hwichan Kim, Jun Suzuki, Tosho Hirasawa, Mamoru Komachi
➡️ 研究机构: Tokyo Metropolitan University、Tohoku University、Hitotsubashi University
➡️ 问题背景：多语言大型语言模型（MLLMs）在多种下游任务中表现出色，尤其是在非英语语言的零样本学习任务中。然而，这些模型在非英语语言上的性能仍然低于英语，这限制了它们在多语言环境中的应用。研究发现，MLLMs在翻译任务中表现出色，这表明它们在对齐不同语言方面具有较高的能力。
➡️ 研究动机：为了提高MLLMs在非英语语言上的零样本学习性能，研究团队探索了如何利用这些模型在英语和非英语语言之间的对齐能力。通过分析MLLMs在执行翻译任务时的行为，研究团队发现了一些具有大值特征的隐藏状态，这些特征在翻译过程中起着关键作用。基于这一发现，研究团队提出了一种剪枝策略，保留与大值特征相关的权重，剪枝其他权重，以迫使MLLMs在执行其他任务时依赖这些特征。
➡️ 方法简介：研究团队首先分析了MLLMs在执行翻译任务时的行为，发现了一些具有大值特征的隐藏状态。然后，研究团队提出了一个剪枝策略，保留与大值特征相关的权重，剪枝其他权重。通过这种方式，研究团队希望迫使MLLMs在执行其他任务时依赖这些大值特征，从而提高非英语语言的零样本学习性能。
➡️ 实验设计：研究团队在XGLM、mGPT和BLOOM三个多语言大型语言模型上进行了实验，任务包括跨语言自然语言推理（XNLI）和多语言亚马逊评论语料库（MARC）。实验设计了不同的剪枝比例，并评估了剪枝前后模型在非英语语言上的零样本学习性能。实验结果表明，剪枝策略在XGLM和mGPT上显著提高了非英语语言的性能，但在BLOOM上效果不明显。研究团队进一步分析了BLOOM的特殊性，发现其在生成编程语言时引入了噪声，通过针对性的剪枝策略，成功提高了BLOOM在非英语语言上的性能。

Turn Every Application into an Agent: Towards Efficient Human-Agent-Computer Interaction with API-First LLM-Based Agents

➡️ 论文标题：Turn Every Application into an Agent: Towards Efficient Human-Agent-Computer Interaction with API-First LLM-Based Agents
➡️ 论文作者：Junting Lu, Zhiyang Zhang, Fangkai Yang, Jue Zhang, Lu Wang, Chao Du, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang
➡️ 研究机构: Peking University、Nanjing University、Microsoft
➡️ 问题背景：随着个人电脑、移动设备和互联网成为日常生活和工作不可或缺的一部分，应用行业面临着快速进化软件应用以满足人们日益增长需求的压力。然而，新应用的使用往往需要用户投入大量的时间和认知努力来熟悉用户界面（UI）和功能。尽管应用提供商和研究社区已经意识到这一痛点，但现有的努力主要集中在提供详细的教程和建立互动学习平台，这些措施在减轻用户的认知负担方面效果有限。
➡️ 研究动机：大型语言模型（LLMs）展示了接近人类的推理、规划和协作能力，有望在完成复杂任务中发挥作用。然而，基于UI的LLM代理在执行任务时面临高延迟、低可靠性和UI泛化等挑战。为了解决这些问题，研究团队提出了一种新的基于API的LLM代理框架AXIS，旨在通过优先使用API调用而非多步骤UI交互来提高任务完成效率和可靠性。
➡️ 方法简介：AXIS框架能够自动探索现有应用，从支持文档和操作轨迹中学习，并基于现有API构建新的API（称为“技能”）。AXIS通过减少不必要的多步骤UI交互，简化任务完成过程，从而降低用户的认知负担。实验表明，AXIS在Office Word任务中显著提高了任务完成率，减少了用户的认知负荷。
➡️ 实验设计：研究团队在Office Word上进行了实验，评估了AXIS在任务完成时间、认知负荷和准确性方面的表现。实验设计了不同的任务场景，包括插入表格、格式化文本等，以全面评估AXIS的效率和可靠性。此外，研究还探讨了如何将每个应用转变为代理，为未来的代理操作系统（Agent OS）铺平道路。