多模态大语言模型arxiv论文略读（157）

在这里插入图片描述

Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark

➡️ 论文标题：Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark
➡️ 论文作者：Rong-Cheng Tu, Zi-Ao Ma, Tian Lan, Yuehao Zhao, Heyan Huang, Xian-Ling Mao
➡️ 研究机构: 北京理工大学计算机科学技术学院 (School of Computer Science and Technology, Beijing Institute of Technology)
➡️ 问题背景：随着扩散模型的显著进展，文本到图像生成模型取得了重大突破，但生成的图像往往存在主要实体扭曲和与输入文本提示不一致的问题。自动评估这些生成图像的质量不仅能够为训练生成模型提供有效的损失函数，还能在推理过程中过滤掉低质量的生成图像，从而提升用户体验。因此，迫切需要精确且自动的评估方法来评估生成图像的质量和保真度。
➡️ 研究动机：当前最先进的自动评估方法严重依赖于多模态大型语言模型（MLLMs），尤其是像GPT-4o这样的强大商业模型。虽然这些模型非常有效，但高昂的成本限制了其在大规模评估中的可扩展性。采用开源MLLMs是一个替代方案，但由于其处理多模态数据的能力显著不足，性能较差。为了解决这些问题，研究团队提出了一种任务分解评估框架，通过将复杂的评估任务分解为更简单的子任务，减少学习难度，从而提高开源MLLMs的评估性能。
➡️ 方法简介：研究团队提出了一种基于GPT-4o的任务分解评估框架，用于自动构建训练数据集，将复杂的评估任务分解为更简单的子任务，有效降低了学习难度。基于此数据集，研究团队设计了创新的训练策略，将GPT-4o的评估能力有效地蒸馏到一个7B的开源MLLM，MiniCPM-V-2.6中。此外，为了可靠和全面地评估现有方法和提出的模型，研究团队手动标注了一个元评估基准，包括生成图像的链式思维解释和质量评分。
➡️ 实验设计：实验在多个数据集上进行，包括文本到图像生成任务。实验设计了不同因素的变化，如文本大小、透明度和位置，以及不同类型的评估目标，如保护性、有害性、偏见性和中性内容，以全面评估模型对文本提示注入的敏感性和抗干扰能力。实验结果表明，蒸馏后的开源MLLM在Spearman和Kendall相关性上比当前最先进的GPT-4o基线模型VIEScore提高了4.6%以上。

ZoomEye: Enhancing Multimodal LLMs with Human-Like Zooming Capabilities through Tree-Based Image Exploration

➡️ 论文标题：ZoomEye: Enhancing Multimodal LLMs with Human-Like Zooming Capabilities through Tree-Based Image Exploration
➡️ 论文作者：Haozhan Shen, Kangjia Zhao, Tiancheng Zhao, Ruochen Xu, Zilun Zhang, Mingwei Zhu, Jianwei Yin
➡️ 研究机构: 浙江大学计算机科学与技术学院、Om AI Research、滨江研究院
➡️ 问题背景：多模态大语言模型（MLLMs）在视觉-语言理解方面取得了显著进展，但受限于预训练视觉编码器的输入分辨率限制和图像的密集、复杂背景，这些模型在处理高分辨率图像时，往往只能关注主要对象，而容易忽略细节。这导致了在回答涉及图像细节的问题时，MLLMs的表现不佳。
➡️ 研究动机：为了克服这一限制，研究团队提出了一种名为Zoom Eye的树搜索算法，该算法通过模拟人类的缩放行为，帮助MLLMs在高分辨率图像中捕捉相关细节，从而提高模型在视觉-语言任务中的表现。
➡️ 方法简介：Zoom Eye算法将图像抽象为一棵树，每个节点代表图像的一个局部区域，通过递归分割节点直到满足分辨率限制。算法通过计算节点的优先级值来指导搜索过程，并在模型能够自信地回答问题时停止搜索。Zoom Eye算法无需额外训练，适用于任何MLLMs。
➡️ 实验设计：研究团队在多个高分辨率基准数据集上进行了实验，包括V∗Bench和HR-Bench。实验结果表明，Zoom Eye不仅显著提高了多个MLLMs在这些基准上的表现，还使得小型模型在某些任务上超越了大型模型。例如，LLaVA-v1.5-7B在V∗Bench上的表现提高了34.57%，在HR-Bench 4K上的表现提高了17.88%。此外，实验还揭示了MLLMs在感知方向和识别图像与子图像之间位置关系方面的不足，为未来的研究提供了方向。

Video-Text Dataset Construction from Multi-AI Feedback: Promoting Weak-to-Strong Preference Learning for Video Large Language Models

➡️ 论文标题：Video-Text Dataset Construction from Multi-AI Feedback: Promoting Weak-to-Strong Preference Learning for Video Large Language Models
➡️ 论文作者：Hao Yi, Qingyang Li, Yulan Hu, Fuzheng Zhang, Di Zhang, Yong Liu
➡️ 研究机构: Kuaishou Technology, Beijing, China; Remin University of China, Gaoling School of Artificial Intelligence, Beijing
➡️ 问题背景：高质量的视频-文本偏好数据对于多模态大语言模型（MLLMs）的对齐至关重要。然而，现有的偏好数据非常稀缺，获取VQA偏好数据进行偏好训练成本高昂，且手动标注响应结果的可靠性低，可能导致低质量的数据对。此外，通过温度调整控制的AI生成响应缺乏多样性。这些问题限制了MLLMs的对齐研究。
➡️ 研究动机：为了解决上述问题，研究团队提出了一种高质量的VQA偏好数据集（MMAIP-V），该数据集通过从响应分布集中采样并使用外部评分函数评估响应质量来构建。此外，研究团队还提出了一种迭代弱到强的强化学习框架（Iter-W2S-RLAIF），该框架通过逐步更新参考模型和执行参数外推来增强MLLMs的对齐能力。最后，研究团队提出了一种无偏且信息完整的VQA评估方案，以消除先前评估方法中的偏差和视觉信息损失。
➡️ 方法简介：研究团队通过从多个对齐良好的MLLMs中采样响应，并利用细粒度的外部评分函数评估响应质量，构建了MMAIP-V数据集。基于这些评分，研究团队构建了偏好响应对，增强了对齐信号的多样性和质量。此外，研究团队提出了Iter-W2S-RLAIF框架，通过迭代更新参考模型和参数外推，充分利用AI偏好信号，提高MLLMs的VQA生成能力。
➡️ 实验设计：研究团队在三个领域内和四个领域外的测试数据集上进行了实验，评估了MMAIP-V和Iter-W2S-RLAIF的有效性。实验结果表明，MMAIP-V中的高质量正响应和多样性的负响应对偏好学习有益，而Iter-W2S-RLAIF框架能够有效且充分地利用AI偏好反馈，提高MLLMs的对齐能力。此外，研究团队还提出了一种基于视觉的无偏评估方案，从多个角度评估MLLMs的响应质量，消除了先前评估方法中的偏差和视觉信息损失。

Is ‘Right’ Right? Enhancing Object Orientation Understanding in Multimodal Language Models through Egocentric Instruction Tuning

➡️ 论文标题：Is ‘Right’ Right? Enhancing Object Orientation Understanding in Multimodal Language Models through Egocentric Instruction Tuning
➡️ 论文作者：Ji Hyeok Jung, Eun Tae Kim, Seo Yeon Kim, Joo Ho Lee, Bumsoo Kim, Buru Chang
➡️ 研究机构: Sogang University、Chung-Ang University
➡️ 问题背景：多模态大语言模型（Multimodal Large Language Models, MLLMs）在连接人类与AI技术方面发挥着重要作用，尤其是在需要图像和文本理解的多模态任务中。然而，当前的MLLMs在准确解释图像中物体的方向时面临挑战，这主要是由于训练数据中物体方向标注的不一致性，导致模型难以形成一致的方向理解能力。这种局限性在自动驾驶、机器人操作和增强现实设备的交互中尤为明显，可能导致严重的错误和事故。
➡️ 研究动机：研究团队发现，训练数据中物体方向标注的不一致性是导致MLLMs方向理解能力不足的主要原因。为了解决这一问题，研究团队提出了一种基于用户视角的指令调优方法（Egocentric Instruction Tuning），旨在通过一致的标注标准，使MLLMs的方向理解能力与用户的视角对齐，从而提高模型在实际应用中的表现。
➡️ 方法简介：研究团队首先基于ImageNet数据集，手动标注了物体的方向，这些标注基于用户视角，分为八个方向类别。然后，团队生成了基于这些标注的指令数据，利用MLLMs识别图像细节的能力和LLM的先验知识，通过指令调优来增强模型的方向理解能力。此外，团队还引入了EgoOrientBench基准测试，用于评估MLLMs在不同任务中的方向理解能力。
➡️ 实验设计：研究团队在五个不同的数据集上进行了实验，包括ImageNet、D3、DomainNet、PACS和OmniObject3D。实验设计了三个任务：选择（Choose）、验证（Verify）和自由形式（Freeform），以全面评估模型在不同条件下的方向理解能力。实验结果表明，通过基于用户视角的指令调优，MLLMs的方向理解能力得到了显著提升，同时保持了模型的总体响应生成能力。

Leveraging the Power of MLLMs for Gloss-Free Sign Language Translation

➡️ 论文标题：Leveraging the Power of MLLMs for Gloss-Free Sign Language Translation
➡️ 论文作者：Jungeun Kim, Hyeongwoo Jeon, Jongseong Bae, Ha Young Kim
➡️ 研究机构: Yonsei University
➡️ 问题背景：手语翻译（SLT）是一项具有挑战性的任务，旨在将手语视频转换为口语句子。为了成功完成这一任务，SLT模型需要克服模态差距，识别手语组件的细微变化，并准确理解其含义。现有的基于词汇表的SLT模型虽然通过中层监督提高了性能，但依赖于劳动密集型的词汇注释，存在可扩展性和信息瓶颈的问题。因此，研究团队提出了一种新的无词汇表SLT框架——多模态手语翻译（MMSLT），利用现成的多模态大语言模型（MLLMs）来生成手语组件的详细文本描述，并通过多模态语言预训练模块将这些描述与手语视频特征融合，对齐到口语句子空间。
➡️ 研究动机：现有的无词汇表SLT模型虽然能够提取视觉特征并转换为文本表示，但这些特征可能受到与SLT无关的视觉信息（如背景元素或服装颜色）的影响，限制了其对手语组件的准确表示。为了克服这些挑战，研究团队提出通过多模态大语言模型（MLLMs）生成手语组件的详细文本描述，以提供更准确和易于理解的表示，从而减少模态差距，提高翻译准确性。
➡️ 方法简介：研究团队提出了MMSLT框架，包括两个主要模块：1）通过MLLM生成手语描述（GSD-MLLM）模块，利用预训练的MLLM生成手语视频的详细文本描述；2）多模态语言预训练（MMLP）模块，将手语视频和相应的文本描述融合，并对齐到目标口语句子空间，减少模态差距。此外，为了提高效率，研究团队还引入了一个描述映射器，通过预测描述嵌入特征来减轻推理过程中的计算负担。
➡️ 实验设计：研究团队在两个基准数据集PHOENIX14T和CSL-Daily上进行了广泛的实验，评估了MMSLT在不同条件下的性能。实验设计了不同的提示类型和多模态大语言模型，以全面评估模型生成手语描述的能力和翻译准确性。实验结果表明，MMSLT在两个数据集上均显著优于现有的无词汇表SLT方法，特别是在大规模的CSL-Daily数据集上表现尤为突出，显著提高了BLEU-4和ROUGE分数，表明其在复杂语法和长上下文中的有效翻译能力。