多模态大语言模型arxiv论文略读(117)

在这里插入图片描述

Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity

➡️ 论文标题:Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity
➡️ 论文作者:Ren-Di Wu, Yu-Yen Lin, Huei-Fang Yang
➡️ 研究机构: National Sun Yat-sen University, Kaohsiung, Taiwan
➡️ 问题背景:组合图像检索(Composed Image Retrieval, CIR)通过结合参考图像和修改后的文本,以更准确地捕捉用户意图,成为一种新的图像搜索形式。然而,现有的CIR模型通常需要大量的人工标注数据进行监督训练,这不仅耗时耗力,而且在处理未见过的数据时性能有限。尽管零样本CIR(Zero-shot CIR, ZS-CIR)方法可以避免在特定下游数据集上的训练,但它们仍然需要在大规模图像数据集上进行预训练,这同样需要大量资源。
➡️ 研究动机:为了克服现有ZS-CIR方法的局限性,研究团队提出了一种完全无需训练的ZS-CIR方法。该方法利用预训练的视觉-语言模型(VLMs)和多模态大语言模型(MLLMs),通过简单的加权融合图像和文本模态,直接构建查询表示,从而实现高效的图像检索。此外,通过生成数据库图像的文本描述并将其纳入相似度计算,进一步增强了检索性能。
➡️ 方法简介:研究团队提出了一种名为WeiMoCIR的方法,该方法包括三个模块:加权模态融合模块用于构建查询表示,增强表示模块通过MLLM生成的图像描述来改进数据库图像的表示,加权模态相似度模块则在检索过程中同时考虑图像和文本信息。具体来说,通过预训练的VLM(如CLIP)提取参考图像和文本修改的特征,然后通过加权融合生成查询表示。在检索阶段,不仅比较查询特征与数据库图像的视觉特征,还通过MLLM生成的图像描述来计算查询与数据库图像的文本相似度,最终通过加权平均得到综合相似度。
➡️ 实验设计:实验在两个公开数据集上进行,分别是FashionIQ和CIRR。实验设计了不同的超参数(如α和β)的变化,以评估不同加权策略对检索性能的影响。实验结果表明,WeiMoCIR在FashionIQ和CIRR数据集上均取得了与现有方法相当或更好的性能,特别是在使用较大的CLIP模型时,性能提升更为显著。此外,通过消融实验,研究团队还探讨了不同预训练VLMs对检索性能的影响,发现经过COCO或Flickr30k数据集微调的BLIP模型在两个数据集上均表现更佳。

MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct

➡️ 论文标题:MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct
➡️ 论文作者:Run Luo, Haonan Zhang, Longze Chen, Ting-En Lin, Xiong Liu, Yuchuan Wu, Min Yang, Minzheng Wang, Pengpeng Zeng, Lianli Gao, Heng Tao Shen, Yunshui Li, Xiaobo Xia, Fei Huang, Jingkuan Song, Yongbin Li
➡️ 研究机构: 深圳先进技术研究院、中国科学院大学、阿里巴巴集团、同济大学、独立研究员、悉尼大学
➡️ 问题背景:多模态大语言模型(MLLMs)在多种领域(如多模态代理、具身智能)中展现出显著的发展潜力。然而,随着模型驱动方法的边际收益逐渐减少,数据驱动方法虽然更有效,但面临数据多样性和复杂性不足的挑战。高质量数据的缺乏成为MLLMs发展的主要障碍。
➡️ 研究动机:为了克服数据质量瓶颈,研究团队提出了MMEvol,一种新的多模态指令数据进化框架。该框架通过细粒度感知、认知推理和交互进化相结合的方式,迭代地提高数据质量,生成更复杂和多样的图像-文本指令数据集,以增强MLLMs的能力。
➡️ 方法简介:MMEvol框架从初始指令集SEED-163K开始,通过细粒度感知进化、认知推理进化和交互进化三个方向,系统地扩展指令类型的多样性,延长视觉推理步骤以提高认知推理能力,并深入探索图像中的细粒度信息以增强视觉理解和鲁棒性。每个进化周期包括指令进化和指令消除两个主要步骤,以确保进化数据的质量。
➡️ 实验设计:研究团队在13个视觉-语言任务上进行了广泛的定性和定量实验,验证了MMEvol的有效性。实验结果表明,与使用初始种子数据训练的基线模型相比,MMEvol方法在平均准确率上提高了3.1个百分点,并在九个任务中达到了使用更少数据的最先进性能。此外,还进行了详细的定性分析和消融实验,展示了方法中每个组件的贡献。

Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments

➡️ 论文标题:Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments
➡️ 论文作者:Haritheja Etukuru, Norihito Naka, Zijin Hu, Seungjae Lee, Julian Mehu, Aaron Edsinger, Chris Paxton, Soumith Chintala, Lerrel Pinto, Nur Muhammad Mahi Shafiullah
➡️ 研究机构: New York University, Hello Robot Inc., Meta Inc.
➡️ 问题背景:尽管机器人模型在特定环境中的训练数据充足时可以很好地完成任务,但需要为每个新环境微调模型,这与语言和视觉模型的零样本部署能力形成鲜明对比。这种微调需求限制了机器人模型在新环境中的快速部署能力。
➡️ 研究动机:为了克服这一限制,研究团队开发了Robot Utility Models (RUMs),这是一种新的框架,旨在训练和部署无需进一步训练或微调即可在新环境中直接使用的通用机器人策略。研究旨在通过大规模数据收集、多模态行为学习算法和自检重试机制,提高机器人在新环境中的零样本部署能力。
➡️ 方法简介:研究团队开发了一种名为Stick-v2的手持数据收集工具,用于快速收集大规模、高质量的演示数据。这些数据被用于训练多模态行为生成模型,模型能够吸收和扩展大规模演示数据。此外,研究团队还设计了一种基于多模态大语言模型(mLLM)的自检和重试系统,以提高模型在新环境中的成功率。
➡️ 实验设计:研究团队在25个未见过的环境中进行了2,950次机器人实验,包括纽约市、新泽西州和宾夕法尼亚州的家庭环境。实验评估了RUMs在不同任务(如开门、抽屉开启、物体重新定向、纸巾拾取和纸袋拾取)中的表现。实验结果表明,RUMs在未见过的环境中平均成功率为90%,其中多模态策略和mLLM自检重试系统是提高成功率的关键技术。

MLLM-LLaVA-FL: Multimodal Large Language Model Assisted Federated Learning

➡️ 论文标题:MLLM-LLaVA-FL: Multimodal Large Language Model Assisted Federated Learning
➡️ 论文作者:Jianyi Zhang, Hao Frank Yang, Ang Li, Xin Guo, Pu Wang, Haiming Wang, Yiran Chen, Hai Li
➡️ 研究机构: Duke University, Johns Hopkins University, University of Maryland College Park, Lenovo Research
➡️ 问题背景:联邦学习(Federated Learning, FL)在处理不同客户端之间的数据异质性时,经常遇到性能下降的问题。尽管已有一些方法尝试解决这一问题,但大多数方法未能在提升性能的同时,有效缓解隐私泄露和增加本地设备计算负担的问题。
➡️ 研究动机:鉴于多模态大语言模型(Multimodal Large Language Models, MLLMs)在多模态任务中的卓越表现,研究团队提出了一种新的联邦学习框架——多模态大语言模型辅助联邦学习(MLLM-LLaVA-FL),旨在利用MLLMs的强大跨模态表示能力和丰富的开放词汇先验知识,解决数据异质性和长尾分布带来的挑战,同时提高数据利用效率和服务器计算能力的利用。
➡️ 方法简介:MLLM-LLaVA-FL框架包含三个关键阶段:1) 全局多模态预训练(Global Multimodal Pretraining),利用MLLMs生成描述,对未标注的在线数据进行预处理;2) 联邦微调(Federated Finetuning),将预训练模型分发给客户端进行本地训练;3) 全局对齐(Global Alignment),在服务器端对聚合后的模型进行进一步优化,以提高模型的性能和安全性。
➡️ 实验设计:研究团队在CIFAR-10-LT、CIFAR-100-LT和ImageNet-LT三个长尾分布数据集上进行了实验。实验结果表明,MLLM-LLaVA-FL框架在处理数据异质性和类别分布不平衡方面,显著优于现有的联邦学习方法,同时在隐私保护和减少本地设备计算负担方面也表现出色。

MIP-GAF: A MLLM-annotated Benchmark for Most Important Person Localization and Group Context Understanding

➡️ 论文标题:MIP-GAF: A MLLM-annotated Benchmark for Most Important Person Localization and Group Context Understanding
➡️ 论文作者:Surbhi Madan, Shreya Ghosh, Lownish Rai Sookha, M. A. Ganaie, Ramanathan Subramanian, Abhinav Dhall, Tom Gedeon
➡️ 研究机构: IIT Ropar、Curtin University、University of Canberra、Flinders University
➡️ 问题背景:在多人群体社交场景中定位最重要的人员(MIP)对于图像标注、社会关系分析、群体活动识别、群体情绪分析和群体中的主导人物识别等实际应用至关重要。然而,由于场景中对象和人类之间的高阶关系、情境影响、相机位置、遮挡、模糊和多人存在等因素,MIP估计在不受限制的环境中极具挑战性。此外,MIP估计的因果方面非常主观和多样。
➡️ 研究动机:现有的MIP数据集规模较小,且主要集中在受控环境下的特定场景,这限制了MIP定位算法在真实世界中的应用。为了克服这些限制,研究团队构建了一个大规模的“在野”数据集MIP-GAF,旨在提供更全面的MIP定位基准,涵盖多样化的场景和上下文理解。
➡️ 方法简介:研究团队提出了一种半自动的多模态大语言模型(MLLM)数据标注策略,通过结合MLLM的初步标注和人工验证,确保数据集的高质量。MIP-GAF数据集包含16,550张图像,每张图像都标注了MIP的边界框及其重要性的解释,这些解释与图像上下文对齐,有助于理解MIP的确定依据。
➡️ 实验设计:研究团队在四个学习范式(零样本、完全监督、半监督和自监督)下,使用最先进的MIP检测算法对MIP-GAF数据集进行了全面的基准测试。实验结果表明,与现有的数据集相比,MIP-GAF数据集在性能上具有显著的挑战性,特别是在“在野”情况下,现有的MIP定位算法需要更加鲁棒。此外,实验还展示了MIP-GAF数据集在不同场景下的适用性和挑战性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/diannao/86678.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何正确的配置eureka server集群

将 Eureka Server 实例的 hostname 都配置成相同的值,在 Eureka Server 集群环境下同样是不推荐且通常会导致严重问题的, 核心问题:Eureka Server 集群的工作机制 Eureka Server 集群通过相互注册(Peering)来实现高可…

AI支持下的-ArcGIS数据处理、空间分析、可视化及多案例综合应用

查看原文>>> 从入门到精通-AI支持下的-ArcGIS数据处理、空间分析、可视化及多案例综合应用 结合ArcGIS和GPT的优势,本文重点进行AI大模型应用、ArcGIS工作流程及功能、Prompt使用技巧、AI助力工作流程、AI助力数据读取与处理、AI助力空间分析、AI助力遥感…

vue3-ts: v-model 和 props 的关系

在 Vue.js 中,v-model 是一个语法糖,它实际上是 :value 和 input 事件的组合。 当你使用 v-model 绑定一个组件时,默认情况下,组件会通过 props 接收 value 这个 prop, 并通过触发 input 事件来更新父组件中的数据。 …

学车笔记 变挡

超15就可以加一档了 有些人对手动挡的档位有一些误解_哔哩哔哩_bilibili 献给所有新司机.开手动档摆脱顿挫的根本方法.学会看转速!没那么复杂!_哔哩哔哩_bilibili 减速到怠速降一档

STM32的DMA简介

STM32的DMA简介 一、DMA概述 DMA(Direct Memory Access,直接存储器存取)是一种硬件机制,它允许外设和存储器之间或者存储器和存储器之间进行高速数据传输,而无需CPU的干预。这种机制可以极大地节省CPU资源&#xff0c…

Spring-AOP知识点

一、AOP简介 1.AOP概念 2.AOP思想实现方案 3.AOP相关概念 二、基于xml配置AOP 1.快速入门 2.AOP配置详解 3.AOP原理剖析 三、基于注解配置AOP 1.快速入门 2.注解方式AOP配置详解 抽取切点表达式

Java@Data 与 @NotNull 注解冲突问题

第一章:核心概念解析 1. Data(Lombok 提供) 自动生成以下方法: gettersettertoString()equals()hashCode() 简化实体类编写,提高开发效率。 示例: import lombok.Data;Data public class User {private…

离线部署openstack 2024.1 glance

控制节点镜像服务 离线下载 apt install --download-only glancemkdir /controller/glance mv /var/cache/apt/archives/*.deb /controller/glance/ dpkg -i /controller/glance/*.deb在一个控制节点操作 CREATE DATABASE glance; GRANT ALL PRIVILEGES ON glance.* TO glan…

.NET AOT 详解

简介 AOT(Ahead-Of-Time Compilation)是一种将代码直接编译为机器码的技术,与传统的 JIT(Just-In-Time Compilation)编译方式形成对比。在.NET 中,AOT 编译可以在应用发布时将 IL(中间语言&…

博客系统自动化测试

基于SSM(Spring Spring MVC MyBatis)框架构建的个人博客系统,通过分层架构实现高效协作:Spring负责依赖注入与事务管理,Spring MVC处理HTTP请求分发,MyBatis完成数据持久化操作。系统包含以下核心功能模块…

animate.css详解:轻松实现网页动画效果

前言 在网页设计中,动画效果不仅仅是视觉上的装饰,更是提升用户体验的重要元素。animate.css 作为一个轻量级的 CSS 动画库,提供了丰富的预设动画效果,本文将探讨 animate.css 使用方法以及在实际项目中的应用案例,帮助…

【多智能体】基于嵌套进化算法的多代理工作流

😊你好,我是小航,一个正在变秃、变强的文艺倾年。 🔔本专栏《人工智能》旨在记录最新的科研前沿,包括大模型、具身智能、智能体等相关领域,期待与你一同探索、学习、进步,一起卷起来叭&#xff…

电源知多少?LDO VS DCDC((下)

首先补充几个上一节没有提到的知识,我们通常说的DCDC同步整流是指什么? 同步是指采用通态电阻极低的专用功率MOS来取代整流二极管以降低整流损耗,,但是同步整流有以下两点需要注意:1、MOS在导通之后的压降比较低&…

数组方法_push()/pop()/数组方法_shift()/unshift()

push 方法用于在数组的末端添加一个或多个元素,并返回添加新元 素后的数组长度。注意,该方法会改变原数组 var arr [];arr.push("颤三") // 1arr.push(itbaizhan) // 2arr.push(true, {}) // 4arr // [颤三 , itbaizhan, true, {}] pop 方法用…

脑机新手指南(八):OpenBCI_GUI:从环境搭建到数据可视化(下)

一、数据处理与分析实战 (一)实时滤波与参数调整 基础滤波操作 60Hz 工频滤波:勾选界面右侧 “60Hz” 复选框,可有效抑制电网干扰(适用于北美地区,欧洲用户可调整为 50Hz)。 平滑处理&…

多头与空头:市场博弈的两面

在金融市场中,多头(Bull)和空头(Bear)代表两种截然相反的投资策略,它们的博弈构成了市场价格波动的核心动力。 1. 概念对比:看涨与看跌的本质区别 多头(Bull)&#xff0…

Excel 发现此工作表中有一处或多处公式引用错误。请检查公式中的单元格引用、区域名称、已定义名称以及到其他工作簿的链接是否均正确无误。弹窗

Excel 提示“发现此工作表中有一处或多处公式引用错误”通常表示公式中存在无效引用。以下是系统化的检查步骤,帮助你定位和修复问题: 1. 检查单元格引用: 无效单元格引用:检查公式中的单元格地址(如 A1、B10&…

变量 varablie 声明- Rust 变量 let mut 声明与 C/C++ 变量声明对比分析

一、变量声明设计:let 与 mut 的哲学解析 Rust 采用 let 声明变量并通过 mut 显式标记可变性,这种设计体现了语言的核心哲学。以下是深度解析: 1.1 设计理念剖析 安全优先原则:默认不可变强制开发者明确声明意图 let x 5; …

【指针】(适合考研、专升本)

指针 &与*是两个作用相反的运算符。 二级指针只能保存一级指针变量的地址和指向指针数组,其余情况不考虑。 int *p[2];int a12;int b15;*p&a;*(p1)&b;printf("%d\n%d\n",**p,**(p1));int **rp;printf("%d\n",**r); 普遍变量…

电路图识图基础知识-行程开关自动往返运行控制电路详解(二十三)

行程开关自动往返运行控制电路详解 在机床设备运行中,部分工作台需在特定距离内自动往复循环,行程开关自动往返运行控制电路可实现该功能,通过行程开关自动控制电动机正反转,保障工作台有序运动,以下展开详细解析。 …