多模态大语言模型arxiv论文略读（九十八）

在这里插入图片描述

Accelerating Pre-training of Multimodal LLMs via Chain-of-Sight

➡️ 论文标题：Accelerating Pre-training of Multimodal LLMs via Chain-of-Sight
➡️ 论文作者：Ziyuan Huang, Kaixiang Ji, Biao Gong, Zhiwu Qing, Qinglong Zhang, Kecheng Zheng, Jian Wang, Jingdong Chen, Ming Yang
➡️ 研究机构: Ant Group、Huazhong University of Science and Technology
➡️ 问题背景：当前的多模态大语言模型（Multimodal Large Language Models, MLLMs）在视觉-语言任务中展现了卓越的能力，如图像描述、视觉问答和视觉定位。然而，随着数据量的增加，模型的预训练时间显著延长，成为进一步研究和应用的主要障碍。传统的MLLMs在预训练阶段处理大量的视觉token，导致计算成本高昂，且预训练时间过长。
➡️ 研究动机：为了减少预训练时间，同时不牺牲模型性能，研究团队提出了Chain-of-Sight，一种视觉-语言桥接模块。该模块通过多尺度视觉重采样器和复合token扩展策略，显著减少了预训练阶段所需的视觉token数量，从而加速预训练过程。
➡️ 方法简介：Chain-of-Sight的核心机制是多尺度视觉重采样器，该重采样器能够生成多尺度的视觉token。通过在预训练阶段减少视觉token的数量，并在微调阶段扩展token数量，Chain-of-Sight能够在保持或提升模型性能的同时，显著加速预训练过程。具体来说，该方法在预训练阶段使用少量的视觉token，而在微调阶段通过分辨率扩展和窗口扩展策略，将token数量增加到原来的16倍。
➡️ 实验设计：研究团队在多个视觉-语言基准数据集上进行了实验，包括图像描述、视觉问答和文本识别任务。实验结果表明，Chain-of-Sight不仅能够将预训练时间减少约73%，而且在多个任务上达到了与使用全部视觉token的模型相当或更好的性能。此外，通过进一步扩展token数量，模型的性能还可以进一步提升。

UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models

➡️ 论文标题：UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models
➡️ 论文作者：Liu Qi, He Yongyi, Lian Defu, Zheng Zhi, Xu Tong, Liu Che, Chen Enhong
➡️ 研究机构: 中国科学技术大学 & 国家认知智能重点实验室
➡️ 问题背景：多模态实体链接（Multimodal Entity Linking, MEL）是一项关键任务，旨在将多模态上下文中的模糊提及链接到多模态知识库中的实体。现有的方法过于复杂，且忽视了视觉语义信息，导致在处理文本模糊性、冗余和噪声图像等问题时性能严重下降。大型语言模型（LLMs）和多模态大型语言模型（MLLMs）的出现为解决这些问题提供了新的思路。
➡️ 研究动机：尽管LLMs在许多数据任务中表现出色，但它们在处理多模态实体链接任务时仍面临挑战，如有效融合视觉和文本上下文、缺乏领域特定知识等。为了克服这些挑战，研究团队提出了一个统一的框架UniMEL，旨在利用LLMs和MLLMs处理多模态实体链接任务。
➡️ 方法简介：UniMEL框架通过以下方式增强实体链接任务：1) 使用MLLMs处理提及的图像和上下文信息，提取更深层次的语义关系；2) 使用LLMs的总结能力生成简洁的实体描述；3) 使用嵌入模型检索和重新排序候选实体；4) 通过微调LLMs的少量参数来选择最终的实体。
➡️ 实验设计：在三个公开的多模态实体链接数据集上进行了实验，包括Richpedia、WikiMEL和Wikidiverse。实验设计了不同的模块，如LLMs和MLLMs的增强、检索增强和多选选择，以全面评估UniMEL在不同条件下的表现。实验结果表明，UniMEL在这些数据集上取得了最先进的性能。

INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model

➡️ 论文标题：INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model
➡️ 论文作者：Yiwei Ma, Zhibin Wang, Xiaoshuai Sun, Weihuang Lin, Qiang Zhou, Jiayi Ji, Rongrong Ji
➡️ 研究机构: Xiamen University (XMU)
➡️ 问题背景：多模态大语言模型（Multimodal Large Language Models, MLLMs）在各种任务中展现了卓越的能力，但其视觉编码器的二次复杂度限制了输入图像的分辨率。现有的方法通过将高分辨率图像裁剪为较小的子图像来处理这一问题，但这些方法在捕捉全局上下文和局部细节方面存在不足。
➡️ 研究动机：为了克服现有方法的局限性，研究团队提出了一种新的MLLM框架——INF-LLaVA，旨在有效处理高分辨率图像，同时保持全局和局部信息的完整性。
➡️ 方法简介：INF-LLaVA引入了两个创新组件：双视角裁剪模块（Dual-perspective Cropping Module, DCM）和双视角增强模块（Dual-perspective Enhancement Module, DEM）。DCM确保每个子图像从局部和全局视角包含连续的详细信息和全面的信息。DEM通过局部和全局特征的相互增强，使模型能够有效处理高分辨率图像。
➡️ 实验设计：研究团队在多个基准数据集上进行了广泛的消融研究和实验，验证了DCM和DEM的有效性。实验结果表明，INF-LLaVA在处理高分辨率图像时不仅性能优越，而且显著优化了计算效率。

Harmonizing Visual Text Comprehension and Generation

➡️ 论文标题：Harmonizing Visual Text Comprehension and Generation
➡️ 论文作者：Zhen Zhao, Jingqun Tang, Binghong Wu, Chunhui Lin, Shu Wei, Hao Liu, Xin Tan, Zhizhong Zhang, Can Huang, Yuan Xie
➡️ 研究机构: East China Normal University, ByteDance
➡️ 问题背景：当前的多模态生成模型在视觉文本理解与生成任务中表现出色，但同时生成图像和文本时，由于视觉和语言模态之间的固有不一致性，通常会导致性能下降。现有的方法通过模态特定的数据进行监督微调，需要不同的模型实例，这限制了模型的通用性和效率。
➡️ 研究动机：为了克服多模态生成中的模态不一致性问题，并实现单一模型实例中视觉和语言生成的统一，研究团队提出了Slide-LoRA方法。该方法通过动态聚合模态特定和模态无关的LoRA专家，部分解耦多模态生成空间，从而在不显著增加参数的情况下，提升模型的多模态生成能力。
➡️ 方法简介：研究团队提出了TextHarmony，一个统一且多功能的多模态生成模型，擅长理解和生成视觉文本。TextHarmony通过集成视觉编码器、LLM和图像解码器，实现了文本和图像的同步生成。为了缓解视觉和语言模态之间的不一致性，研究团队提出了Slide-LoRA，该方法通过动态调整不同模态生成任务的参数空间，部分解耦多模态生成空间。此外，研究团队还构建了一个高质量的图像字幕数据集DetailedTextCaps-100K，以进一步提升视觉文本生成能力。
➡️ 实验设计：研究团队在多个基准数据集上进行了实验，包括视觉文本理解任务（如DocVQA、TabFact、TextVQA等）和视觉文本生成任务（如AnyText-benchmark-EN、MARIOEval等）。实验结果表明，TextHarmony在视觉文本理解任务上达到了与专门的文本理解模型相当的性能，在视觉文本生成任务上也表现出色。具体来说，TextHarmony在视觉文本理解任务上平均提升了2.5%，在视觉文本生成任务上平均提升了4.0%。

MicroEmo: Time-Sensitive Multimodal Emotion Recognition with Micro-Expression Dynamics in Video Dialogues

➡️ 论文标题：MicroEmo: Time-Sensitive Multimodal Emotion Recognition with Micro-Expression Dynamics in Video Dialogues
➡️ 论文作者：Liyun Zhang
➡️ 研究机构: Osaka University
➡️ 问题背景：现有的多模态大语言模型（MLLMs）在多模态情感识别任务中表现出色，能够整合视觉、声学和语言模态的信息来识别人类的情感状态。然而，这些模型在捕捉微表情的时间动态和话语感知的时间段的上下文依赖性方面存在不足，限制了其在多模态情感识别任务中的有效性。
➡️ 研究动机：为了提高多模态情感识别的准确性和细致度，研究团队提出了MicroEmo，一个时间敏感的MLLM，旨在关注面部微表情的时间动态和话语感知视频片段的上下文依赖性。通过引入全局-局部注意力视觉编码器和话语感知视频Q-Former，MicroEmo能够捕捉更细微和深层次的情感信息，提供更丰富和可靠的情感识别结果。
➡️ 方法简介：研究团队提出了两个关键模块：1) 全局-局部注意力视觉编码器，整合全局帧级时间戳绑定图像特征与局部面部特征的时间动态；2) 话语感知视频Q-Former，通过生成每个话语段和整个视频的视觉令牌序列来捕捉多尺度和上下文依赖性。
➡️ 实验设计：研究团队在新的Explainable Multimodal Emotion Recognition (EMER)任务上进行了初步的定性实验，该任务利用多模态和多方面的线索以开放词汇的方式预测情感。实验结果表明，MicroEmo在捕捉细微情感变化方面优于现有方法，同时保持了上下文的准确性。