多模态大语言模型arxiv论文略读（146）

在这里插入图片描述

Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios

➡️ 论文标题：Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios
➡️ 论文作者：Yunkai Dang, Mengxi Gao, Yibo Yan, Xin Zou, Yanggan Gu, Aiwei Liu, Xuming Hu
➡️ 研究机构: The Hong Kong University of Science and Technology (Guangzhou)、The Hong Kong University of Science and Technology、Tsinghua University
➡️ 问题背景：多模态大语言模型（MLLMs）在各种基准测试中展示了令人印象深刻的能力。然而，现有的基准测试中包含许多样本，所有MLLMs在遇到误导信息时表现出高度的响应不确定性，需要5-15次响应尝试才能有效评估不确定性。因此，研究团队提出了一种两阶段的管道：首先收集没有误导信息的MLLMs响应，然后通过特定的误导指令收集误导信息。通过计算误导率，并捕捉正确到错误和错误到正确的响应转变，可以有效度量模型的响应不确定性。
➡️ 研究动机：现有的研究已经揭示了MLLMs在处理高误导率数据时表现出显著的不确定性。为了进一步理解这些威胁，并探索其背后的原因，研究团队全面分析了不同MLLMs在误导信息下的性能变化，旨在为未来的安全防护提供有价值的见解和方法。
➡️ 方法简介：研究团队提出了一种系统的方法，通过构建多模态不确定性基准（MUB），来评估不同类型误导指令对MLLMs的影响。MUB包含了一系列的基础清洁数据、因素修改和不同目标威胁，以全面评估模型在不同条件下的表现。研究团队还提出了显式和隐式误导指令的生成方法，以更全面地评估模型的响应不确定性。
➡️ 实验设计：在九个公开数据集上进行了实验，包括多模态多选题和真假题任务。实验设计了不同因素（如误导指令的类型、强度和位置）的变化，以及不同类型的攻击目标（如保护性、有害性、偏见性和中性内容），以全面评估模型对误导信息的敏感性和抗干扰能力。实验结果表明，所有开源和闭源MLLMs都高度易受误导指令的影响，平均误导率超过86%。通过混合显式和隐式误导数据对所有开源MLLMs进行微调，显著降低了误导率，同时保持了模型的泛化能力。

Multimodal Commonsense Knowledge Distillation for Visual Question Answering

➡️ 论文标题：Multimodal Commonsense Knowledge Distillation for Visual Question Answering
➡️ 论文作者：Shuo Yang, Siwen Luo, Soyeon Caren Han
➡️ 研究机构: University of Melbourne、University of Western Australia
➡️ 问题背景：现有的多模态大型语言模型（MLLMs）和视觉语言预训练模型（VLPMs）在通用视觉问答（VQA）任务中表现出色。然而，这些模型在处理需要外部常识知识的VQA问题时存在困难，主要由于生成高质量提示的挑战和微调的高计算成本。
➡️ 研究动机：为了克服现有模型在处理需要外部常识知识的VQA问题时的局限性，研究团队提出了一种基于图的多模态常识知识蒸馏框架。该框架通过构建统一的关系图，将常识知识、视觉对象和问题通过图卷积网络（GCN）进行关联学习，旨在提高模型在VQA任务中的性能，尤其是在需要外部常识知识的情况下。
➡️ 方法简介：研究团队提出了一种多模态教师-学生知识蒸馏框架，该框架通过构建一个统一的关系图，将图像、问题和常识知识图中的对象实体整合在一起，并通过GCN显式学习它们之间的关系。学习到的图特征被传递给学生模型，用于最终的答案预测。该框架可以灵活地与任何预训练的视觉和文本编码器结合，以实现多样化的特征提取。
➡️ 实验设计：研究团队在ScienceQA数据集上评估了所提出的框架。实验设计了不同大小的基线模型（包括小型MLP、中型Transformer和大型VLPMs），并在这些模型中分别测试了是否集成所提出的图基知识蒸馏框架。实验结果表明，无论是在小型、中型还是大型模型中，集成该框架后，模型的性能都有显著提升，特别是在需要外部常识知识的VQA任务中。

MME-Finance: A Multimodal Finance Benchmark for Expert-level Understanding and Reasoning

➡️ 论文标题：MME-Finance: A Multimodal Finance Benchmark for Expert-level Understanding and Reasoning
➡️ 论文作者：Ziliang Gan, Yu Lu, Dong Zhang, Haohan Li, Che Liu, Jian Liu, Ji Liu, Haipang Wu, Chaoyou Fu, Zenglin Xu, Rongjunchen Zhang, Yong Dai
➡️ 研究机构: HiThink Research、Imperial College London、Beihang University、Nanjing University、Fudan University
➡️ 问题背景：近年来，多模态基准测试在通用领域的发展迅速，推动了多模态模型在通用任务上的进步。然而，金融领域具有独特性，包括特有的图形图像（如K线图、技术指标图）和丰富的金融知识（如期货、换手率）。因此，通用领域的基准测试往往无法有效评估多模态模型在金融领域的表现，也无法有效指导大型金融模型的快速发展。
➡️ 研究动机：为了促进大型金融多模态模型的发展，研究团队提出了MME-Finance，这是一个双语、开放性、实用导向的视觉问答（VQA）基准测试。MME-Finance旨在评估多模态模型在金融领域的感知、推理和认知能力，通过构建反映用户实际使用需求的图表、根据金融领域查询偏好创建问题，并由具有10年以上金融行业经验的专家进行标注，确保了基准测试的质量和专业性。
➡️ 方法简介：研究团队设计了一个多层次的开放性问答任务体系，涵盖了从基本的视觉感知任务（如OCR）到复杂的认知任务（如提供投资建议）。为了确保MME-Finance的质量，团队精心设计了标注流程，并邀请了金融行业的专家进行详细验证。此外，研究团队还开发了一个定制的金融评估系统，首次在多模态评估过程中引入了视觉信息，以提高评估性能。
➡️ 实验设计：研究团队在MME-Finance上对19个主流的多模态大语言模型（MLLMs）进行了广泛的评估，测试了它们在感知、推理和认知方面的能力。实验结果表明，即使在通用基准测试中表现良好的模型，在MME-Finance上的表现也不尽如人意，尤其是在与金融相关的任务上，如K线图和技术指标图的处理。此外，研究还发现，MLLMs在处理移动摄影相关的问题时表现较差，而这类问题是金融问答中相对高频的使用场景。

StreamingBench: Assessing the Gap for MLLMs to Achieve Streaming Video Understanding

➡️ 论文标题：StreamingBench: Assessing the Gap for MLLMs to Achieve Streaming Video Understanding
➡️ 论文作者：Junming Lin, Zheng Fang, Chi Chen, Zihao Wan, Fuwen Luo, Peng Li, Yang Liu, Maosong Sun
➡️ 研究机构: Tsinghua University、Institute for AI Industry Research (AIR)、Beijing University of Posts and Telecommunications
➡️ 问题背景：多模态大语言模型（MLLMs）在视频理解任务中表现出色，但大多数模型主要集中在离线视频理解上，需要处理完所有视频帧后才能进行查询。这与人类实时观看、听、思考和响应流式输入的能力存在显著差距，突显了当前MLLMs的局限性。
➡️ 研究动机：为了评估MLLMs在流式视频理解方面的能力，研究团队开发了StreamingBench，这是第一个全面评估MLLMs流式视频理解能力的基准。StreamingBench旨在评估三个核心方面：实时视觉理解、多源理解、上下文理解。通过这一基准，研究团队希望推动MLLMs在更接近人类水平的视频理解与交互方面的发展。
➡️ 方法简介：StreamingBench包含900个视频和4,500个人工标注的问答对，涵盖了八个不同的视频类别，反映了广泛的真实场景。每个视频包含五个问题，分别在不同的时间点提出，以模拟连续的流式场景。这些问题被分为18个任务，主要分为三个类别：实时视觉理解、多源理解、上下文理解。
➡️ 实验设计：研究团队在StreamingBench上对13个开源和专有的MLLMs进行了实验，包括GPT-4o、Gemini 1.5 Pro和Claude 3.5 Sonnet等。实验设计了不同任务，如实时视觉理解、多源理解、上下文理解等，以全面评估模型在流式视频理解任务中的表现。实验结果显示，即使是性能最好的模型Gemini 1.5 Pro，其平均准确率也只有67.07%，远低于人类水平。研究团队进一步分析了模型在实时处理、上下文理解和主动输出等方面的表现，揭示了当前模型的不足之处。

Improving Bilingual Capabilities of Language Models to Support Diverse Linguistic Practices in Education

➡️ 论文标题：Improving Bilingual Capabilities of Language Models to Support Diverse Linguistic Practices in Education
➡️ 论文作者：Anand Syamkumar, Nora Tseng, Kaycie Barron, Shanglin Yang, Shamya Karumbaiah, Rheeya Uppal, Junjie Hu
➡️ 研究机构: Stony Brook University, University of Wisconsin-Madison
➡️ 问题背景：大型语言模型（LLMs）在生成教育内容、提供教师反馈和减少评估工作量方面展现出巨大潜力。然而，现有的研究主要集中在单语环境，尤其是英语环境，对于双语或多语环境的支持有限。双语学习者在使用语言模型时面临的问题，如语言切换（code-switching）和多语言处理能力不足，需要进一步研究。
➡️ 研究动机：尽管多语言大型语言模型（MLLMs）在处理单一语言任务时表现出色，但在处理双语或多语任务时，尤其是在语言切换方面，表现不佳。研究团队通过评估MLLMs在单语（英语、西班牙语）和双语（Spanglish）学生写作评估中的表现，旨在揭示这些模型在双语环境中的偏见，并探索通过微调等技术提高其性能的方法。
➡️ 方法简介：研究团队构建了平行的英语、西班牙语和Spanglish数据集，用于评估MLLMs在不同语言环境下的表现。通过使用合成数据生成技术，研究团队创建了包含科学和社会科学概念的问答对，并进行了人工评估以确保数据质量。实验设计包括零样本、少样本提示和微调三种方法，以评估模型在不同条件下的性能。
➡️ 实验设计：实验分为三个部分：1) 零样本基线实验，评估MLLMs在英语、西班牙语和Spanglish中的原始性能；2) 提高Spanglish性能实验，通过少样本提示和微调来改进Spanglish任务的性能；3) 跨语言迁移实验，评估在不同语言上微调后的模型在其他语言上的表现。实验使用了Llama 3.1和Mistral NeMo两个开源模型，并通过LoRA技术加速微调过程。