多模态大语言模型arxiv论文略读（152）

在这里插入图片描述

VidComposition: Can MLLMs Analyze Compositions in Compiled Videos?

➡️ 论文标题：VidComposition: Can MLLMs Analyze Compositions in Compiled Videos?
➡️ 论文作者：Yunlong Tang, Junjia Guo, Hang Hua, Susan Liang, Mingqian Feng, Xinyang Li, Rui Mao, Chao Huang, Jing Bi, Zeliang Zhang, Pooyan Fazli, Chenliang Xu
➡️ 研究机构: University of Rochester, Arizona State University
➡️ 问题背景：多模态大语言模型（MLLMs）在理解多模态内容方面取得了显著进展，尤其是在视频内容分析方面。然而，现有的评估基准主要关注抽象的视频理解，缺乏对视频组成（即视觉元素如何在高度编排的视频中结合和互动）的详细评估。
➡️ 研究动机：为了填补这一空白，研究团队引入了VidComposition，这是一个新的基准，旨在评估MLLMs在理解视频组成方面的能力。通过使用精心策划的编排视频和电影级别的注释，VidComposition涵盖了982个视频和1706个多项选择题，涉及摄像技巧、角色理解、叙事理解、场景感知和制作分析等多个方面。
➡️ 方法简介：研究团队构建了一个包含982个编排视频和1706个多项选择题的数据集，这些题目涵盖了视频组成的五个主要方面：摄像技巧分析、角色理解、叙事理解、场景感知和制作分析。每个方面包括多个子任务，如镜头运动感知、镜头大小感知、镜头角度感知、情感感知、动作感知等。
➡️ 实验设计：研究团队在VidComposition数据集上评估了33个开源和专有MLLMs的性能，包括27个开源模型和6个专有模型。实验设计了多个任务，如摄像技巧分析、角色理解、叙事理解、场景感知和制作分析，以全面评估模型在不同任务上的表现。实验结果揭示了当前MLLMs在理解复杂编排视频组成方面的显著性能差距，为未来的模型改进提供了有价值的见解。

Multilingual Large Language Models: A Systematic Survey

➡️ 论文标题：Multilingual Large Language Models: A Systematic Survey
➡️ 论文作者：Shaolin Zhu, Supryadi, Shaoyang Xu, Haoran Sun, Leiyu Pan, Menglong Cui, Jiangcun Du, Renren Jin, António Branco, Deyi Xiong
➡️ 研究机构: TJUNLP Lab, College of Intelligence and Computing, Tianjin University、NLX, Department of Informatics, University of Lisbon
➡️ 问题背景：多语言大型语言模型（MLLMs）不仅能够跨语言理解和生成语言，而且代表了人工智能的重要进展。随着全球化的加深，语言技术的发展和对多语言理解的追求加速了。然而，MLLMs在处理语言多样性时面临诸多挑战，特别是在处理非英语和低资源语言时。
➡️ 研究动机：尽管许多调查研究探讨了MLLMs的具体方面，如训练数据、架构或应用，但对MLLMs的多语言能力、局限性和挑战的全面考察仍然不足。此外，与负责任的人工智能相关的关键问题，如公平性和毒性，也未得到充分解决。本调查旨在填补这一空白，提供对MLLMs研究的全面综述。
➡️ 方法简介：研究团队提出了一种系统的分类方法，将MLLMs的研究领域分为六个基本且相互关联的领域：多语言数据、神经架构选择、预训练和微调方法、评估方法、可解释性技术以及实际应用。通过这一分类方法，研究团队详细分析了MLLMs的架构、训练数据、预训练目标、微调策略、评估方法、可解释性技术及其在不同领域的应用。
➡️ 实验设计：研究团队在多个公开数据集上进行了实验，包括多语言预训练数据集和多语言对齐数据集。实验设计了不同的训练目标（如掩码语言建模和翻译语言建模）和微调技术（如指令微调和偏好微调），以全面评估MLLMs在不同任务中的表现。此外，研究还探讨了多语言评估基准和数据集，以及如何使用MLLMs本身作为评估工具。

MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis

➡️ 论文标题：MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis
➡️ 论文作者：Yingjie Zhou, Zicheng Zhang, Jiezhang Cao, Jun Jia, Yanwei Jiang, Farong Wen, Xiaohong Liu, Xiongkuo Min, Guangtao Zhai
➡️ 研究机构: Shanghai Jiaotong University, Harvard Medical School, PengCheng Laboratory
➡️ 问题背景：当前，人工智能（AI）在多个领域展示了显著的能力，特别是在人机交互（HCI）、具身智能和虚拟数字人的设计与动画中，AI理解和表达情感的能力变得越来越重要。然而，AI是否能够准确解读人类情感仍然是一个关键挑战。现有的AI模型主要分为生成模型和多模态大语言模型（MLLMs），这些模型在情感分析方面的能力需要进一步评估。
➡️ 研究动机：为了评估生成模型和MLLMs在情感分析方面的能力，研究团队引入了MEMO-Bench，这是一个全面的基准测试，包含7,145张由12个文本到图像（T2I）模型生成的肖像图像，每张图像代表六种不同情感之一。MEMO-Bench不仅评估了T2I模型的情感生成能力，还评估了MLLMs的情感理解能力，特别是从粗粒度到细粒度的情感分析。
➡️ 方法简介：研究团队构建了一个包含7,145张情感生成图像的大型数据集MEMO-Bench，这些图像由12个T2I模型生成，每种情感使用100个不同的提示。此外，研究团队还设计了一个渐进式的情感评估方法，从粗粒度的情感分类到细粒度的情感强度分析，以全面评估MLLMs的情感理解能力。
➡️ 实验设计：实验在三个维度上进行了评估：情感类别、情感强度和图像质量。15名男性和14名女性志愿者参与了主观标注，评估了7,145张图像。实验结果表明，现有的T2I模型在生成积极情感方面表现较好，但在生成消极情感方面存在局限。MLLMs在粗粒度情感分类方面表现较好，但在细粒度情感分析方面仍存在不足。

CCExpert: Advancing MLLM Capability in Remote Sensing Change Captioning with Difference-Aware Integration and a Foundational Dataset

➡️ 论文标题：CCExpert: Advancing MLLM Capability in Remote Sensing Change Captioning with Difference-Aware Integration and a Foundational Dataset
➡️ 论文作者：Zhiming Wang, Mingze Wang, Sheng Xu, Yanjing Li, Baochang Zhang
➡️ 研究机构: Beihang University
➡️ 问题背景：遥感图像变化描述（RSICC）旨在生成自然语言描述，解释多时相遥感图像之间的地表变化，包括变化对象的类别、位置和动态。当前方法虽然尝试利用多模态大语言模型（MLLMs）的长序列理解和推理能力，但缺乏全面的数据支持，这些方法往往改变了MLLMs的核心特征传输路径，破坏了模型的内在知识，限制了其在RSICC中的潜力。
➡️ 研究动机：为了增强MLLMs在RSICC领域的性能，同时尽可能保留MLLMs的内在知识结构，研究团队提出了一种新的模型CCExpert。该模型通过数据驱动的持续预训练和专门设计的模块，显式增强视觉上下文特征，从而加强MLLMs在RSICC领域的表现。
➡️ 方法简介：CCExpert基于先进的多模态大模型框架，设计了一个差异感知集成模块（Difference-aware Integration Module），用于捕捉多尺度的双时相图像差异，并将其整合到原始图像特征中，从而提高差异特征的表示能力。此外，研究团队构建了一个大规模的CC-Foundation数据集，包含200,000对遥感图像和1.2百万个描述，以提供丰富的数据支持。最后，通过三阶段的训练过程，确保差异注入模块与现有的多模态大模型深度集成。
➡️ 实验设计：实验在LEVIR-CC等多个公开数据集上进行，评估了CCExpert在不同条件下的表现。实验设计了多种因素（如图像对的复杂度、变化区域的显著性等），以及不同类型的评估目标（如准确性、鲁棒性等），以全面评估模型的性能。实验结果表明，CCExpert在LEVIR-CC基准测试中取得了显著的性能提升，S∗m = 81.80，显著超越了现有的最先进方法。

MAIRA-Seg: Enhancing Radiology Report Generation with Segmentation-Aware Multimodal Large Language Models

➡️ 论文标题：MAIRA-Seg: Enhancing Radiology Report Generation with Segmentation-Aware Multimodal Large Language Models
➡️ 论文作者：Harshita Sharma, Valentina Salvatelli, Shaury Srivastav, Kenza Bouzid, Shruthi Bannur, Daniel C. Castro, Maximilian Ilse, Sam Bond-Taylor, Mercy Prasanna Ranjit, Fabian Falck, Fernando Pérez-García, Anton Schwaighofer, Hannah Richardson, Maria Teodora Wetscherek, Stephanie L. Hyland, Javier Alvarez-Valle
➡️ 研究机构: Microsoft Health Futures, Cambridge, UK; Microsoft Research India; Department of Radiology, University of Cambridge and Cambridge University Hospitals NHS Foundation Trust, Cambridge, UK
➡️ 问题背景：放射学报告生成涉及从医学影像中自动生成自由文本的初步报告。当前的多模态大语言模型（MLLMs）在胸部X光（CXR）报告生成中表现出色，但这些模型通常忽略了与图像一起整合像素级输入，这限制了它们基于区域和细粒度的图像解释能力。在生物医学领域，单个医学影像可能包含多个细微的发现、复杂的结构和相关的上下文，这些都代表了感兴趣的区域（ROI）。这一差距为通过整合分割掩码来增强MLLMs的输出提供了机会。
➡️ 研究动机：研究团队提出了一种新的框架MAIRA-Seg，该框架利用来自语义医学图像分割的细粒度掩码特征，与CXR输入图像一起生成初步的放射学报告。通过在MLLMs的输入中整合像素级知识，研究旨在提高模型的像素级视觉理解和增强生成的放射学报告的质量和准确性。
➡️ 方法简介：研究团队首先训练了结构特定的专家模型，用于分割多个CXR结构。这些模型生成的分割掩码作为伪标签输入到MLLM中进行训练或推理。掩码与图像编码器特征一起用于训练基于Osprey架构的分割令牌提取器，该提取器为每个单独的掩码生成两个额外的分割令牌（掩码令牌和空间令牌）。研究团队探索了将这些令牌整合到大型语言模型（LLM）输入中的方法，并使用可用的掩码信息动态增强输入提示，而无需生成新的指令调优数据集来训练MLLM。
➡️ 实验设计：研究团队在公开的MIMIC-CXR数据集上进行了实验，评估了MAIRA-Seg在单视图和多视图输入下的性能。实验设计了不同的分割令牌整合方法，包括直接连接所有图像和分割令牌、在图像令牌基础上连接分割令牌，以及为图像中的每个结构使用单独的分割令牌。研究团队还进行了在线掩码感知提示，使用输入掩码信息（即当存在正向掩码时的结构名称）和相应的分割令牌，以快速原型化，而无需生成新的指令调优数据集来训练MLLM。实验结果表明，MAIRA-Seg在多个评估指标上优于非分割基线模型。