多模态大语言模型arxiv论文略读（117）

在这里插入图片描述

Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity

➡️ 论文标题：Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity
➡️ 论文作者：Ren-Di Wu, Yu-Yen Lin, Huei-Fang Yang
➡️ 研究机构: National Sun Yat-sen University, Kaohsiung, Taiwan
➡️ 问题背景：组合图像检索（Composed Image Retrieval, CIR）通过结合参考图像和修改后的文本，以更准确地捕捉用户意图，成为一种新的图像搜索形式。然而，现有的CIR模型通常需要大量的人工标注数据进行监督训练，这不仅耗时耗力，而且在处理未见过的数据时性能有限。尽管零样本CIR（Zero-shot CIR, ZS-CIR）方法可以避免在特定下游数据集上的训练，但它们仍然需要在大规模图像数据集上进行预训练，这同样需要大量资源。
➡️ 研究动机：为了克服现有ZS-CIR方法的局限性，研究团队提出了一种完全无需训练的ZS-CIR方法。该方法利用预训练的视觉-语言模型（VLMs）和多模态大语言模型（MLLMs），通过简单的加权融合图像和文本模态，直接构建查询表示，从而实现高效的图像检索。此外，通过生成数据库图像的文本描述并将其纳入相似度计算，进一步增强了检索性能。
➡️ 方法简介：研究团队提出了一种名为WeiMoCIR的方法，该方法包括三个模块：加权模态融合模块用于构建查询表示，增强表示模块通过MLLM生成的图像描述来改进数据库图像的表示，加权模态相似度模块则在检索过程中同时考虑图像和文本信息。具体来说，通过预训练的VLM（如CLIP）提取参考图像和文本修改的特征，然后通过加权融合生成查询表示。在检索阶段，不仅比较查询特征与数据库图像的视觉特征，还通过MLLM生成的图像描述来计算查询与数据库图像的文本相似度，最终通过加权平均得到综合相似度。
➡️ 实验设计：实验在两个公开数据集上进行，分别是FashionIQ和CIRR。实验设计了不同的超参数（如α和β）的变化，以评估不同加权策略对检索性能的影响。实验结果表明，WeiMoCIR在FashionIQ和CIRR数据集上均取得了与现有方法相当或更好的性能，特别是在使用较大的CLIP模型时，性能提升更为显著。此外，通过消融实验，研究团队还探讨了不同预训练VLMs对检索性能的影响，发现经过COCO或Flickr30k数据集微调的BLIP模型在两个数据集上均表现更佳。

MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct

➡️ 论文标题：MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct
➡️ 论文作者：Run Luo, Haonan Zhang, Longze Chen, Ting-En Lin, Xiong Liu, Yuchuan Wu, Min Yang, Minzheng Wang, Pengpeng Zeng, Lianli Gao, Heng Tao Shen, Yunshui Li, Xiaobo Xia, Fei Huang, Jingkuan Song, Yongbin Li
➡️ 研究机构: 深圳先进技术研究院、中国科学院大学、阿里巴巴集团、同济大学、独立研究员、悉尼大学
➡️ 问题背景：多模态大语言模型（MLLMs）在多种领域（如多模态代理、具身智能）中展现出显著的发展潜力。然而，随着模型驱动方法的边际收益逐渐减少，数据驱动方法虽然更有效，但面临数据多样性和复杂性不足的挑战。高质量数据的缺乏成为MLLMs发展的主要障碍。
➡️ 研究动机：为了克服数据质量瓶颈，研究团队提出了MMEvol，一种新的多模态指令数据进化框架。该框架通过细粒度感知、认知推理和交互进化相结合的方式，迭代地提高数据质量，生成更复杂和多样的图像-文本指令数据集，以增强MLLMs的能力。
➡️ 方法简介：MMEvol框架从初始指令集SEED-163K开始，通过细粒度感知进化、认知推理进化和交互进化三个方向，系统地扩展指令类型的多样性，延长视觉推理步骤以提高认知推理能力，并深入探索图像中的细粒度信息以增强视觉理解和鲁棒性。每个进化周期包括指令进化和指令消除两个主要步骤，以确保进化数据的质量。
➡️ 实验设计：研究团队在13个视觉-语言任务上进行了广泛的定性和定量实验，验证了MMEvol的有效性。实验结果表明，与使用初始种子数据训练的基线模型相比，MMEvol方法在平均准确率上提高了3.1个百分点，并在九个任务中达到了使用更少数据的最先进性能。此外，还进行了详细的定性分析和消融实验，展示了方法中每个组件的贡献。

Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments

➡️ 论文标题：Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments
➡️ 论文作者：Haritheja Etukuru, Norihito Naka, Zijin Hu, Seungjae Lee, Julian Mehu, Aaron Edsinger, Chris Paxton, Soumith Chintala, Lerrel Pinto, Nur Muhammad Mahi Shafiullah
➡️ 研究机构: New York University, Hello Robot Inc., Meta Inc.
➡️ 问题背景：尽管机器人模型在特定环境中的训练数据充足时可以很好地完成任务，但需要为每个新环境微调模型，这与语言和视觉模型的零样本部署能力形成鲜明对比。这种微调需求限制了机器人模型在新环境中的快速部署能力。
➡️ 研究动机：为了克服这一限制，研究团队开发了Robot Utility Models (RUMs)，这是一种新的框架，旨在训练和部署无需进一步训练或微调即可在新环境中直接使用的通用机器人策略。研究旨在通过大规模数据收集、多模态行为学习算法和自检重试机制，提高机器人在新环境中的零样本部署能力。
➡️ 方法简介：研究团队开发了一种名为Stick-v2的手持数据收集工具，用于快速收集大规模、高质量的演示数据。这些数据被用于训练多模态行为生成模型，模型能够吸收和扩展大规模演示数据。此外，研究团队还设计了一种基于多模态大语言模型（mLLM）的自检和重试系统，以提高模型在新环境中的成功率。
➡️ 实验设计：研究团队在25个未见过的环境中进行了2,950次机器人实验，包括纽约市、新泽西州和宾夕法尼亚州的家庭环境。实验评估了RUMs在不同任务（如开门、抽屉开启、物体重新定向、纸巾拾取和纸袋拾取）中的表现。实验结果表明，RUMs在未见过的环境中平均成功率为90%，其中多模态策略和mLLM自检重试系统是提高成功率的关键技术。

MLLM-LLaVA-FL: Multimodal Large Language Model Assisted Federated Learning

➡️ 论文标题：MLLM-LLaVA-FL: Multimodal Large Language Model Assisted Federated Learning
➡️ 论文作者：Jianyi Zhang, Hao Frank Yang, Ang Li, Xin Guo, Pu Wang, Haiming Wang, Yiran Chen, Hai Li
➡️ 研究机构: Duke University, Johns Hopkins University, University of Maryland College Park, Lenovo Research
➡️ 问题背景：联邦学习（Federated Learning, FL）在处理不同客户端之间的数据异质性时，经常遇到性能下降的问题。尽管已有一些方法尝试解决这一问题，但大多数方法未能在提升性能的同时，有效缓解隐私泄露和增加本地设备计算负担的问题。
➡️ 研究动机：鉴于多模态大语言模型（Multimodal Large Language Models, MLLMs）在多模态任务中的卓越表现，研究团队提出了一种新的联邦学习框架——多模态大语言模型辅助联邦学习（MLLM-LLaVA-FL），旨在利用MLLMs的强大跨模态表示能力和丰富的开放词汇先验知识，解决数据异质性和长尾分布带来的挑战，同时提高数据利用效率和服务器计算能力的利用。
➡️ 方法简介：MLLM-LLaVA-FL框架包含三个关键阶段：1) 全局多模态预训练（Global Multimodal Pretraining），利用MLLMs生成描述，对未标注的在线数据进行预处理；2) 联邦微调（Federated Finetuning），将预训练模型分发给客户端进行本地训练；3) 全局对齐（Global Alignment），在服务器端对聚合后的模型进行进一步优化，以提高模型的性能和安全性。
➡️ 实验设计：研究团队在CIFAR-10-LT、CIFAR-100-LT和ImageNet-LT三个长尾分布数据集上进行了实验。实验结果表明，MLLM-LLaVA-FL框架在处理数据异质性和类别分布不平衡方面，显著优于现有的联邦学习方法，同时在隐私保护和减少本地设备计算负担方面也表现出色。

MIP-GAF: A MLLM-annotated Benchmark for Most Important Person Localization and Group Context Understanding

➡️ 论文标题：MIP-GAF: A MLLM-annotated Benchmark for Most Important Person Localization and Group Context Understanding
➡️ 论文作者：Surbhi Madan, Shreya Ghosh, Lownish Rai Sookha, M. A. Ganaie, Ramanathan Subramanian, Abhinav Dhall, Tom Gedeon
➡️ 研究机构: IIT Ropar、Curtin University、University of Canberra、Flinders University
➡️ 问题背景：在多人群体社交场景中定位最重要的人员（MIP）对于图像标注、社会关系分析、群体活动识别、群体情绪分析和群体中的主导人物识别等实际应用至关重要。然而，由于场景中对象和人类之间的高阶关系、情境影响、相机位置、遮挡、模糊和多人存在等因素，MIP估计在不受限制的环境中极具挑战性。此外，MIP估计的因果方面非常主观和多样。
➡️ 研究动机：现有的MIP数据集规模较小，且主要集中在受控环境下的特定场景，这限制了MIP定位算法在真实世界中的应用。为了克服这些限制，研究团队构建了一个大规模的“在野”数据集MIP-GAF，旨在提供更全面的MIP定位基准，涵盖多样化的场景和上下文理解。
➡️ 方法简介：研究团队提出了一种半自动的多模态大语言模型（MLLM）数据标注策略，通过结合MLLM的初步标注和人工验证，确保数据集的高质量。MIP-GAF数据集包含16,550张图像，每张图像都标注了MIP的边界框及其重要性的解释，这些解释与图像上下文对齐，有助于理解MIP的确定依据。
➡️ 实验设计：研究团队在四个学习范式（零样本、完全监督、半监督和自监督）下，使用最先进的MIP检测算法对MIP-GAF数据集进行了全面的基准测试。实验结果表明，与现有的数据集相比，MIP-GAF数据集在性能上具有显著的挑战性，特别是在“在野”情况下，现有的MIP定位算法需要更加鲁棒。此外，实验还展示了MIP-GAF数据集在不同场景下的适用性和挑战性。