多模态大语言模型arxiv论文略读(105)

在这里插入图片描述

UnifiedMLLM: Enabling Unified Representation for Multi-modal Multi-tasks With Large Language Model

➡️ 论文标题:UnifiedMLLM: Enabling Unified Representation for Multi-modal Multi-tasks With Large Language Model
➡️ 论文作者:Zhaowei Li, Wei Wang, YiQing Cai, Xu Qi, Pengyu Wang, Dong Zhang, Hang Song, Botian Jiang, Zhida Huang, Tao Wang
➡️ 研究机构: ByteDance Inc, Fudan University, University of Science and Technology of China
➡️ 问题背景:多模态大语言模型(MLLMs)在多种任务中展现了卓越的能力,但这些模型通常针对特定任务进行训练,依赖于特定的输入-输出格式,限制了它们在更广泛任务中的应用。这引发了如何开发一种统一的方法来表示和处理不同多模态任务,以最大化MLLMs的通用性的问题。
➡️ 研究动机:现有的多模态大语言模型虽然在特定任务上表现出色,但缺乏处理多种任务的通用性和理解人类意图的能力。为了克服这些限制,研究团队提出了UnifiedMLLM,旨在通过引入任务令牌和定位令牌,实现不同任务的统一表示,从而增强模型的通用性和任务处理能力。
➡️ 方法简介:UnifiedMLLM通过构建任务特定数据集和多任务数据集,采用三阶段训练策略,逐步提升模型的感知理解、任务理解和完成能力。模型结构包括多模态编码器、适配器、统一表示层、任务路由器和专家模型集成。通过这种方式,模型能够理解用户指令的隐含意图,并生成文本响应、任务令牌和定位令牌,指导后续任务的执行。
➡️ 实验设计:实验在多个公开数据集上进行,包括参考分割任务(RefCOCO, RefCOCO+, RefCOCOg)和图像推理编辑任务。实验评估了模型在不同任务中的性能,特别是在复杂场景下的任务理解和完成能力。实验结果表明,UnifiedMLLM在多个任务中表现出色,超越了现有的方法。

Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions

➡️ 论文标题:Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions
➡️ 论文作者:Xinbei Ma, Yiting Wang, Yao Yao, Tongxin Yuan, Aston Zhang, Zhuosheng Zhang, Hai Zhao
➡️ 研究机构: Shanghai Jiao Tong University, Meta
➡️ 问题背景:多模态大型语言模型(Multimodal Large Language Models, MLLMs)在图形用户界面(GUI)环境中展现了显著的潜力,能够执行复杂的交互任务。然而,这些模型在面对环境中的干扰内容时,是否能够保持对用户目标的忠诚度,仍是一个开放的问题。研究发现,环境中的干扰内容(如广告、弹窗等)可能会导致GUI代理偏离用户目标,执行不相关的操作,甚至表现出不受控制的行为。
➡️ 研究动机:尽管现有研究主要关注多模态代理的有用性(即行动准确性),但本研究旨在探讨这些代理在面对环境干扰时的忠诚度问题。研究团队通过构建模拟数据集,评估了不同MLLMs在干扰环境中的表现,揭示了代理在面对干扰时的脆弱性,并提出了环境注入的对抗性设置,展示了这些干扰可以被恶意利用,导致不可预测的风险。
➡️ 方法简介:研究团队定义了环境干扰问题,并提出了三种行动类型:正确行动、干扰行动和无效行动。通过构建包含四种常见干扰场景(弹窗、搜索、推荐和聊天)的模拟数据集,研究团队评估了不同MLLMs在干扰环境中的表现。实验设计了三种工作模式,分别对应不同的环境感知水平,以全面评估代理在不同条件下的表现。
➡️ 实验设计:实验在10个流行的MLLMs上进行,包括通用代理和专门的GUI代理。实验结果表明,无论是通用代理还是专门的GUI代理,都容易受到环境干扰的影响。研究团队进一步提出了环境注入的对抗性设置,证明了通过利用这些干扰,可以对代理进行攻击,导致其行为偏离用户目标。

Targeted Visual Prompting for Medical Visual Question Answering

➡️ 论文标题:Targeted Visual Prompting for Medical Visual Question Answering
➡️ 论文作者:Sergio Tascon-Morales, Pablo Márquez-Neila, Raphael Sznitman
➡️ 研究机构: University of Bern, Bern, Switzerland
➡️ 问题背景:医疗视觉问答(Med-VQA)近年来迅速发展,多模态大语言模型(MLLMs)因其能够将视觉信息融入预训练的语言模型中,为图像解释带来了新的能力。然而,简单的视觉错误引发了对这些模型实际视觉理解能力的质疑。为了评估和增强模型的视觉理解能力,研究提出了基于区域的问题(Region-based Questions),通过组合评估来实现。
➡️ 研究动机:尽管MLLMs在Med-VQA中表现出色,但其视觉理解能力的不足仍然存在。为了检测这些视觉理解失败并提高模型的解释性,研究团队引入了目标视觉提示(Targeted Visual Prompting),旨在通过提供区域及其上下文的定制视觉提示,增强MLLMs处理局部问题的能力。
➡️ 方法简介:研究团队提出了一种新的方法,通过设计包含全局和局部视觉标记的定制视觉提示,使模型能够从两个角度编码图像:仅包含图像区域的视角和包含区域上下文的视角。该方法允许模型在不增加额外参数的情况下,提高VQA任务的性能。
➡️ 实验设计:研究在三个公开数据集上进行了实验,包括DME-VQA、RIS-VQA和INSEGCAT-VQA。实验设计了多种基线方法,包括不使用区域信息、在问题中指定区域、在图像上标记区域、仅提供上下文、仅提供裁剪区域以及使用二值图像表示区域的方法。实验结果表明,目标视觉提示方法在所有数据集上均优于其他基线方法,特别是在处理局部问题时表现尤为突出。

Optimus: Accelerating Large-Scale Multi-Modal LLM Training by Bubble Exploitation

➡️ 论文标题:Optimus: Accelerating Large-Scale Multi-Modal LLM Training by Bubble Exploitation
➡️ 论文作者:Weiqi Feng, Yangrui Chen, Shaoyu Wang, Yanghua Peng, Haibin Lin, Minlan Yu
➡️ 研究机构: Harvard University, Bytedance
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在多种数据类型(如图像、文本和音频)上取得了显著的性能,广泛应用于多模态翻译、视觉问答和内容生成等领域。然而,现有的分布式训练系统在训练MLLMs时效率低下,主要原因是异构模态模型和3D并行中的复杂数据依赖导致了大量GPU空闲时间(bubbles)。
➡️ 研究动机:现有的优化方法主要针对单模态模型,未能有效解决MLLMs训练中的GPU空闲问题。研究团队通过分析大规模MLLMs训练任务,发现超过48%的GPU周期被浪费。为了提高训练效率,研究团队提出了Optimus系统,通过在LLM空闲时间内调度编码器计算,减少GPU空闲时间,从而加速MLLMs的训练。
➡️ 方法简介:Optimus系统通过以下核心设计决策来实现高效训练:

  1. 编码器和LLM的独立并行计划:每个GPU同时持有编码器和LLM的模型状态,确保所有GPU都能在LLM空闲时间内执行编码器计算。
  2. 双阶段依赖管理:通过局部调度和全局排序来处理MLLM训练中的复杂依赖关系,确保编码器和LLM之间的微批次级依赖。
  3. 内核级调度:将编码器层分解为内核,利用亚毫秒级的空闲时间,同时在LLM计算期间调度编码器通信内核,以减少迭代时间。
    ➡️ 实验设计:研究团队在多个代表性的MLLM模型上进行了实验,包括ViT-22B和GPT-175B模型,使用超过3072个GPU。实验结果表明,Optimus系统在训练过程中平均加速了20.3%,在生产集群中加速了20.5%-21.3%。实验还验证了Optimus在不同模型规模和GPU数量下的良好扩展性。

NatLan: Native Language Prompting Facilitates Knowledge Elicitation Through Language Trigger Provision and Domain Trigger Retention

➡️ 论文标题:NatLan: Native Language Prompting Facilitates Knowledge Elicitation Through Language Trigger Provision and Domain Trigger Retention
➡️ 论文作者:Baixuan Li, Yunlong Fan, Tianyi Ma, Zhiqiang Gao
➡️ 研究机构: 东南大学、密歇根州立大学
➡️ 问题背景:多语言大型语言模型(MLLMs)在非主导语言中的表现不如在主导语言中。尽管现有的翻译-回答方法在一定程度上缓解了这一问题,但其背后的机制尚不明确。研究发现,这些方法虽然提供了足够的语言触发(LTs),但在领域触发(DTs)的保留上存在不足。
➡️ 研究动机:为了进一步理解翻译-回答方法的有效性及其对MLLMs中主导语言知识提取的影响,研究团队通过类比人类认知过程中的语言触发(LTs)和领域触发(DTs),分析了现有方法的局限性,并提出了一种新的方法——原生语言提示(NatLan),以改善非主导语言问答中的知识提取。
➡️ 方法简介:研究团队提出了NatLan,采用多MLLM协作策略,引入了一个增强角色的领域特定MLLM作为翻译者,以提供足够的LTs并最大限度地保留DTs。NatLan通过构建领域特定的角色指令和少量示例(5-shot)来注入领域特定的上下文,从而实现个体增强和联合增强。
➡️ 实验设计:研究在五个非主导语言问答基准上进行了实验,包括多语言MMLU(MMMLU)和C-Eval中文基准。实验设计了不同语言(如阿拉伯语、中文、法语、德语和日语)的问答任务,以评估NatLan在不同条件下的表现。实验结果表明,NatLan在DTs保留和准确性方面均优于现有的顶级方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/pingmian/83827.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SQLServer中的存储过程与事务

一、存储过程的概念 1. 定义 存储过程(Stored Procedure)是一组预编译的 SQL 语句的集合,它们被存储在数据库中,可以通过指定存储过程的名称并执行来调用它们。存储过程可以接受输入参数、输出参数,并且可以返回执行…

使用UDP连接ssh

使用UDP连接ssh mosh简介两端安装moshWindows安装mosh 放行端口使用mosh登录Linuxdebug mosh简介 Mosh最大的特点是基于UDP方式传输,支持在服务端创建一个临时的Key供客户端一次性连接,退出后失效;也支持通过SSH的配置进行认证,但…

软件功能模块归属论证方法

文章目录 **一、核心设计原则****二、论证方法****三、常见决策模式****四、验证方法****五、反模式警示****总结** 在讨论软件功能点应该归属哪些模块时,并没有放之四海而皆准的固定方法,但可以通过系统化的论证和设计原则来做出合理决策。以下是常见的…

ServBay 1.13.0 更新,新增第三方反向代理/内网穿透

ServBay 作为一款简化本地开发环境搭建与管理的强大工具,致力于打造一个开箱即用、稳定可靠的本地开发平台,让用户专注于代码编写,提升开发效率。 ServBay 1.13.0 正式发布!本次更新聚焦于提升本地开发项目的外部可访问性、增强国…

如何利用乐维网管进行IP管理

IP管理是网络管理中的关键环节,对于保障网络的正常运行、提升资源利用效率以及保障网络安全等方面都具有不可忽视的重要性。乐维网管在IP管理方面具有多种实用功能,以下从IP规划与分配、IP状态监测、IP冲突处理、IP审计与报表生成四个方面,介…

Go语言学习-->go的跨平台编译

Go语言学习–>go的跨平台编译 默认我们go build的可执行文件都是当前操作系统可执行的文件,Go语言支持跨平台编译——在当前平台下编译其他平台的可执行文件。 eg:在windows界面的代码,编译完成后在linux上面运行 实现方式&#…

SpringBoot自动配置原理深度解析

一、引言 SpringBoot的"约定优于配置"理念极大地简化了Spring应用的开发流程,而其核心魔法就是自动配置(Auto-Configuration)。本文将深入剖析自动配置的实现原理,帮助开发者更好地理解和定制SpringBoot应用。 二、自动配置核心机制 1. Ena…

使用阿里云百炼embeddings+langchain+Milvus实现简单RAG

使用阿里云百炼embeddingslangchainMilvus实现简单RAG 注意测试时,替换其中的key、文档等 import os from langchain_community.embeddings import DashScopeEmbeddings from langchain_community.vectorstores import Milvus from langchain_text_splitters impor…

事件监听 ——CAD C#二次开发

一、AutoCAD .NET API 事件机制 1. 事件监听核心 - Database.ModifyObjects 事件 当数据库中的实体(如图形对象)发生修改时触发,包括: - 几何属性变更(移动、缩放、旋转)。 - 非几何属性变更&#xff08…

动量及在机器人控制中的应用

动量是物理学中的一个基本概念,在机器人学中也有重要应用。以下是详细解释: 1. 动量的基本定义 动量(Momentum)是描述物体运动状态的物理量,定义为: 线性动量:$ p mv $ $ m $ 为质量&#xf…

LeetCode 2434.使用机器人打印字典序最小的字符串:贪心(栈)——清晰题解

【LetMeFly】2434.使用机器人打印字典序最小的字符串:贪心(栈)——清晰题解 力扣题目链接:https://leetcode.cn/problems/using-a-robot-to-print-the-lexicographically-smallest-string/ 给你一个字符串 s 和一个机器人,机器人当前有一个…

影楼精修-AI衣服祛褶皱算法解析

注:为避免侵权,本文所用图像均为AIGC生成或无版权网站提供; 衣服祛褶皱功能,目前在像素蛋糕、美图云修、百度网盘AI修图、阿里云都有相关的功能支持,它的价值就是将不平整的衣服图像,变得整齐平整&#xf…

Celery 核心概念详解及示例

Celery 核心概念详解及示例 Celery 是一个简单、灵活且可靠的分布式系统,用于处理大量消息,提供对任务队列的操作,并支持任务的调度和异步执行。它常用于深度优化 Web 应用的性能和响应速度,通过将耗时的操作移到后台异步执行&am…

智能对联网页小程序的仓颉之旅

#传统楹联遇上AI智能体:我的Cangjie Magic开发纪实 引言:一场跨越千年的数字对话 "云对雨,雪对风,晚照对晴空"。昨天晚上星空璀璨,当我用仓颉语言写下第一个智能对联网页小程序的Agent DSL代码时&#xff0…

《ERP原理与应用教程》第3版习题和答案

ERP原理与应用教程是一门系统介绍企业资源计划(Enterprise Resource Planning, ERP)系统核心理论、技术架构及实施应用的综合性课程。它主要面向管理类、信息类、工程类等专业学生及企业管理者,旨在培养对现代企业信息化管理的理解与实践能力。以下是该课程的详细解析: 一…

SOC-ESP32S3部分:32-LVGL显示框架

飞书文档https://x509p6c8to.feishu.cn/wiki/Ly6ywvphqi6HZlk38vHcz2OgnXg LVGL是一个开源的显示框架,使用它可以加速我们开发带显示屏交互的应用。 IDF对于LVGL的支持一直有更新的,我们可以很方便在组件库中搜索到对应版本的LVGL,并把它添…

原理图与 PCB 设计流程及注意事项

原理图与 PCB 设计流程及注意事项 一、原理图设计 1. 首先,需要创建一个新的项目,在此项目中建立原理图。 2. 接着,在原理图中添加元件和芯片。可以从元件库中挑选所需的元件,如电阻、电容等。既可以在元件库中进行搜索查找&…

LeetCode--23.合并k个升序链表

解题思路: 1.获取信息: 给出了多个升序链表,要求合并成一个升序链表,返回首元结点 2.分析题目: 外面在21题的时候,讲了怎样合并两个升序链表为一个升序链表,不了解的,建议去看一下21…

【国产化适配】如何选择高效合规的安全数据交换系统?

一、安全数据交换系统的核心价值与国产化需求 在数字化转型浪潮中,企业数据流动的频率与规模呈指数级增长,跨网文件传输已成为日常运营的刚需,所以安全数据交换系统也是企业必备的工具。然而,数据泄露事件频发、行业合规要求趋严…

JMM初学

文章目录 1,线程间的同步和通信1.1, 共享内存并发模型 (Shared Memory Model)线程通信机制线程同步机制特点 1.2, 消息传递并发模型 (Message Passing Model)线程通信机制线程同步机制特点 适用场景对比 2,Java内存模型JMM2.0,Java内存模型的基础(1)内存…