多模态大语言模型arxiv论文略读(124)

在这里插入图片描述

MediConfusion: Can you trust your AI radiologist? Probing the reliability of multimodal medical foundation models

➡️ 论文标题:MediConfusion: Can you trust your AI radiologist? Probing the reliability of multimodal medical foundation models
➡️ 论文作者:Mohammad Shahab Sepehri, Zalan Fabian, Maryam Soltanolkotabi, Mahdi Soltanolkotabi
➡️ 研究机构: University of Southern California, University of Utah
➡️ 问题背景:多模态大型语言模型(Multimodal Large Language Models, MLLMs)在医疗领域的应用具有巨大的潜力,可以提高医疗的准确性、可用性和成本效益。然而,这些模型的能力和局限性尚未完全理解。现有的医疗基准数据集虽然测试了模型在不同医疗领域的通用知识,但未能充分揭示这些模型在安全关键领域的系统性故障模式和漏洞。
➡️ 研究动机:为了深入理解医疗MLLMs的故障模式,并探索其背后的原因,研究团队开发了MediConfusion,这是一个具有挑战性的医疗视觉问答(VQA)基准数据集,旨在从视觉角度探测医疗MLLMs的故障模式。研究发现,即使是视觉上明显不同的图像对,这些模型也容易混淆,这引发了对现有医疗MLLMs在医疗部署中可靠性的严重担忧。
➡️ 方法简介:研究团队提出了一种系统的方法,通过构建MediConfusion数据集,来评估医疗MLLMs在处理视觉上明显不同但特征空间相似的图像对时的表现。该数据集包括一系列从ROCO数据集中提取的图像对,这些图像对在视觉上明显不同,但在医疗MLLMs的特征空间中高度相似。通过与放射科医生的合作,研究团队生成了一系列多选题,旨在测试模型区分这些图像对的能力。
➡️ 实验设计:研究团队在MediConfusion数据集上评估了多种最先进的医疗和通用领域MLLMs,包括开源模型和专有模型。实验设计了多种评估技术,包括基于前缀的评分(PS)、多选题提示(MC)、自由形式评估(FF)和贪婪解码评估(GD),以全面评估模型在不同条件下的表现。实验结果表明,所有评估的模型在MediConfusion上的表现均低于随机猜测,尤其是在区分视觉上明显不同的图像对时,模型的混淆率极高。

M 2 ^2 2PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning

➡️ 论文标题:M 2 ^2 2PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning
➡️ 论文作者:Taowen Wang, Yiyang Liu, James Chenhao Liang, junhan zhao, Yiming Cui, Yuning Mao, Shaoliang Nie, Jiahao Liu, Fuli Feng, Zenglin Xu, Cheng Han, Lifu Huang, Qifan Wang, Dongfang Liu
➡️ 研究机构: Rochester Institute of Technology, Harvard Medical School, ByteDance, Meta AI, Meituan, University of Science and Technology of China, Shanghai Academy of AI for Science, Fudan University, University of Missouri - Kansas City, University of California - Davis, U.S. Naval Research Laboratory
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在多个领域展现了卓越的性能,特别是在零样本泛化能力方面。然而,随着模型规模和复杂性的增加,针对特定领域知识的微调变得越来越具有挑战性,训练开销呈指数级增长。现有的参数高效微调(Parameter-Efficient Finetuning, PEFT)方法大多仅关注单一模态,忽略了多模态特性,这限制了它们在多模态任务中的应用。
➡️ 研究动机:为了克服现有PEFT方法的局限性,研究团队提出了一种新的多模态提示调优(Multimodal Prompt Tuning, M2PT)方法,旨在通过引入视觉和文本提示,实现对MLLMs的有效和高效的微调,从而增强模型在零样本设置下的多模态任务处理能力。
➡️ 方法简介:M2PT方法通过在视觉编码器和语言处理器中分别引入视觉提示和文本提示,促进跨模态特征的提取和对齐。具体来说,M2PT设计了两个提示集:视觉提示和文本提示,这些提示在微调过程中被嵌入到相应的层中。通过跨模态交互层,M2PT增强了视觉和文本特征之间的对齐,从而提高了模型的多模态理解和生成能力。
➡️ 实验设计:研究团队在多个多模态数据集上进行了实验,包括Vision-Flan、MME、Text-VQA、VSR、SNLI-VE、CIFAR-10、CIFAR-100、MNIST和POPE。实验评估了M2PT在不同任务上的性能,包括感知和认知能力。实验结果表明,M2PT在多个基准测试中表现出色,尤其是在零样本设置下,仅微调了0.09%的参数,性能接近全量微调的LLaVA模型。

EAGLE: Towards Efficient Arbitrary Referring Visual Prompts Comprehension for Multimodal Large Language Models

➡️ 论文标题:EAGLE: Towards Efficient Arbitrary Referring Visual Prompts Comprehension for Multimodal Large Language Models
➡️ 论文作者:Jiacheng Zhang, Yang Jiao, Shaoxiang Chen, Jingjing Chen, Yu-Gang Jiang
➡️ 研究机构: Fudan University, Meituan
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)因其在内容推理和指令跟随方面的卓越能力而受到广泛关注。这些模型通过图像-文本对的训练,能够连接视觉世界与语言空间,从而扩展其在多个学科领域的应用。然而,现有的MLLMs在处理特定区域理解任务时,通常依赖于专门的区域特征编码模块和精心策划的指令数据集,这导致了架构冗余和泛化能力差的问题。
➡️ 研究动机:为了克服现有MLLMs在处理任意引用视觉提示(referring visual prompts)时的局限性,研究团队提出了一种新的MLLM——EAGLE。EAGLE旨在通过增强原始图像特征的局部信息,提高模型对任意引用视觉提示的理解能力,同时减少训练努力和避免引入额外的区域编码模块。
➡️ 方法简介:EAGLE包含两个核心设计:1) 将不同格式的引用视觉提示以彩色补丁的形式渲染到图像上,作为指令数据集的图像资源,以进行指令调优。2) 提出了一种几何无关学习范式(Geometry-Agnostic Learning, GAL),通过将多样化的引用视觉提示转换为一组格式统一的代表性点,来解耦区域级识别与引用视觉提示的几何形状,从而提高模型对不规则区域注释的处理能力。
➡️ 实验设计:研究团队在多个数据集上进行了实验,包括不同格式的引用视觉提示(点、框、掩码等)。实验设计了不同的因素(如点的颜色、大小、透明度等),以及不同类型的测试数据(如真实用户绘制的不规则掩码),以全面评估EAGLE在处理不规则区域注释时的有效性和鲁棒性。实验结果表明,EAGLE在处理任意引用视觉提示方面表现出色,显著优于现有的方法。

Pruning Multilingual Large Language Models for Multilingual Inference

➡️ 论文标题:Pruning Multilingual Large Language Models for Multilingual Inference
➡️ 论文作者:Hwichan Kim, Jun Suzuki, Tosho Hirasawa, Mamoru Komachi
➡️ 研究机构: Tokyo Metropolitan University、Tohoku University、Hitotsubashi University
➡️ 问题背景:多语言大型语言模型(MLLMs)在多种下游任务中表现出色,尤其是在非英语语言的零样本学习任务中。然而,这些模型在非英语语言上的性能仍然低于英语,这限制了它们在多语言环境中的应用。研究发现,MLLMs在翻译任务中表现出色,这表明它们在对齐不同语言方面具有较高的能力。
➡️ 研究动机:为了提高MLLMs在非英语语言上的零样本学习性能,研究团队探索了如何利用这些模型在英语和非英语语言之间的对齐能力。通过分析MLLMs在执行翻译任务时的行为,研究团队发现了一些具有大值特征的隐藏状态,这些特征在翻译过程中起着关键作用。基于这一发现,研究团队提出了一种剪枝策略,保留与大值特征相关的权重,剪枝其他权重,以迫使MLLMs在执行其他任务时依赖这些特征。
➡️ 方法简介:研究团队首先分析了MLLMs在执行翻译任务时的行为,发现了一些具有大值特征的隐藏状态。然后,研究团队提出了一个剪枝策略,保留与大值特征相关的权重,剪枝其他权重。通过这种方式,研究团队希望迫使MLLMs在执行其他任务时依赖这些大值特征,从而提高非英语语言的零样本学习性能。
➡️ 实验设计:研究团队在XGLM、mGPT和BLOOM三个多语言大型语言模型上进行了实验,任务包括跨语言自然语言推理(XNLI)和多语言亚马逊评论语料库(MARC)。实验设计了不同的剪枝比例,并评估了剪枝前后模型在非英语语言上的零样本学习性能。实验结果表明,剪枝策略在XGLM和mGPT上显著提高了非英语语言的性能,但在BLOOM上效果不明显。研究团队进一步分析了BLOOM的特殊性,发现其在生成编程语言时引入了噪声,通过针对性的剪枝策略,成功提高了BLOOM在非英语语言上的性能。

Turn Every Application into an Agent: Towards Efficient Human-Agent-Computer Interaction with API-First LLM-Based Agents

➡️ 论文标题:Turn Every Application into an Agent: Towards Efficient Human-Agent-Computer Interaction with API-First LLM-Based Agents
➡️ 论文作者:Junting Lu, Zhiyang Zhang, Fangkai Yang, Jue Zhang, Lu Wang, Chao Du, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang
➡️ 研究机构: Peking University、Nanjing University、Microsoft
➡️ 问题背景:随着个人电脑、移动设备和互联网成为日常生活和工作不可或缺的一部分,应用行业面临着快速进化软件应用以满足人们日益增长需求的压力。然而,新应用的使用往往需要用户投入大量的时间和认知努力来熟悉用户界面(UI)和功能。尽管应用提供商和研究社区已经意识到这一痛点,但现有的努力主要集中在提供详细的教程和建立互动学习平台,这些措施在减轻用户的认知负担方面效果有限。
➡️ 研究动机:大型语言模型(LLMs)展示了接近人类的推理、规划和协作能力,有望在完成复杂任务中发挥作用。然而,基于UI的LLM代理在执行任务时面临高延迟、低可靠性和UI泛化等挑战。为了解决这些问题,研究团队提出了一种新的基于API的LLM代理框架AXIS,旨在通过优先使用API调用而非多步骤UI交互来提高任务完成效率和可靠性。
➡️ 方法简介:AXIS框架能够自动探索现有应用,从支持文档和操作轨迹中学习,并基于现有API构建新的API(称为“技能”)。AXIS通过减少不必要的多步骤UI交互,简化任务完成过程,从而降低用户的认知负担。实验表明,AXIS在Office Word任务中显著提高了任务完成率,减少了用户的认知负荷。
➡️ 实验设计:研究团队在Office Word上进行了实验,评估了AXIS在任务完成时间、认知负荷和准确性方面的表现。实验设计了不同的任务场景,包括插入表格、格式化文本等,以全面评估AXIS的效率和可靠性。此外,研究还探讨了如何将每个应用转变为代理,为未来的代理操作系统(Agent OS)铺平道路。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/84354.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/84354.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

nacos的总结

服务发现与健康监测:Nacos 支持多种服务注册方式,包括 API、SDK 和 Annotation 等,服务消费者可以通过 DNS 或 RPC 方式方便地发现服务。其健康检查机制通过主动和被动的方式实时监测服务实例的健康状态,确保流量不会被发送到不健…

低轨导航 | 低轨卫星导航PNT模型,原理,公式,matlab代码

一、PNT模型原理 低轨卫星PNT(定位、导航、授时)模型利用低轨星座的快速几何构型变化和强信号特性,通过三类核心观测值实现增强定位: 几何增强原理 低轨卫星速度7km/s(比GNSS快8-10倍)5分钟内观测几何变化相当于地面站24小时变化量加速模糊度收敛和误差分离信号增强原理…

基于python的查询工具,查询手机号的卡号归属地

本文介绍了一个利用Python进行电话号码归属地查询的代码示例。代码使用requests库发送HTTP请求,伪装浏览器UA头,通过lxml库解析网页数据,并运用XPath提取号码归属地信息。程序构建了查询URL,发送GET请求后解析返回的HTML内容&…

AI面试系统选型HR应考虑哪些问题?

北森人才管理研究院发布的《2025 企业校园招聘 AI 应用实用指南》数据显示:全球 44% 的企业已在招聘环节部署AI技术,72% 的 HR 每周至少使用一次 AI 工具,87% 的 HR 认为 AI 能显著提升招聘效率。 来源于《北森2025 企业校园招聘 AI 应用实用…

Redis02

redis的持久化机制 1.redis为什么需要持久化 redis本身运行时数据保存在内存中,那么在关闭redis的进程或者关闭计算机后数据肯定被会操作系统从内存中清掉。 redis持久化方式有两种: RDB AOF redis默认采用了一种持久化方式,即RDB (Redi…

Gartner发布网络安全组织设计指南:设计网络安全组织的五项原则和六种主要安全组织类型

安全和风险管理领导者经常寻求一种通用的模型来组织其职能,这可能导致效率低下和需求得不到满足。然而,目前并没有一个标准的组织模型。这项研究可以帮助他们根据企业实际情况,设计出最合适的网络安全组织。 主要发现 许多安全和风险管理 (SR…

简述redis的单线程模式

在redis版本6之前,网络IO和键值对读写都是由一个线程来完成的。而redis的其他功能,比如持久化、异步删除、集群数据同步等,是由其他线程完成的。 为什么采用单线程 多线程有助于提升吞吐率(系统同时处理的请求数)&am…

WebSocket深度指南:从零基础到生产级应用

📚目录 1. WebSocket基础概念深度解析 2. WebSocket协议技术详解 3. WebSocket生命周期与状态管理 4. Spring Boot WebSocket完整实现 5. 完整聊天室项目实战 6. 高级功能与扩展应用 1. WebSocket基础概念深度解析 1.1 什么是WebSocket?深度理解 WebSocket是HTML5开…

复现 apache HTTPD 换行解析漏洞(CVE-2017-15715)

一、漏洞环境 docker环境 http://192.168.99.124:8082二、漏洞原理 Apache HTTPD是一款HTTP服务器,它可以通过mod_php来运行PHP网页。其2.4.0~2.4.29版本中存在一个解析漏洞,在解析PHP时,1.php\x0A将被按照PHP后缀进行解析,导致…

创始人 IP 起盘方法论:从 0 到 1 的系统化破局路径

在流量逻辑不断更新的当下,创始人 IP 如何构建可持续的商业闭环?结合行业头部案例的实战经验,可梳理出一套兼顾落地性与前瞻性的起盘策略,帮助 IP 在波动的市场中建立稳定的变现能力。 一、定位:在动态中验证方向 某…

数据结构 6(算法)

一、算法 1、概念 问题的求解方法 2、算法的特性和设计要求 算法的特性: 确定性 有穷性 输入输出 可行性 设计要求: 正确性 高效性 低存储 健壮性 可读性 3、时间复杂度O(n) 用于评估程序执行…

Android 开发问题:android.content.res.Resources$NotFoundException: Resource ID

android.content.res.Resources$NotFoundException: Resource ID #0xff412804问题原因 该异常表示 Android 系统尝试通过资源 ID 查找资源,例如,颜色、图片等,但未查找到对应资源 其中,0xff412804 是一个硬编码的整型颜色值&…

03.自动特征提取(深度学习)核心逻辑:通过多层非线性变换,让模型自动学习从原始数据到高层特征的映射。为什么多层非线性变换可以达到这样的效果?

在深度学习中,多层非线性变换能够实现自动特征提取的核心原因在于其对数据表征的分层学习能力和非线性映射的表达优势。以下从理论基础、数学机制、实际效果三个层面展开解析: 一、非线性变换的本质:突破线性模型的表达局限 线性模型的局限性 线性变换(如矩阵乘法)只能学…

42-Oracle 23 ai 安全新特性(Audit统一审计)

小伙伴们业务和安全运维中需要数据库审计都是由哪些模块来实现的,专门的第三方产品吗?在医疗领域防统方等业务场景和数据库的审计集合很是紧密。 在Oracle逐个版本的演进中,Oracle 23ai 的审计特性在安全领域的重大革新,延续传统…

Python 爬虫入门 Day 4 - 模拟登录爬虫与 Session 维持

Python 第二阶段 - 爬虫入门 🎯 今日目标 学习什么是 Cookie / Session,为什么要维持登录状态掌握 requests.Session 用法模拟登录一个带登录表单的网站获取登录后的页面内容 📘 学习内容详解 🔐 什么是 Session? …

新零售系统商城开发全解析

一、新零售系统商城概述​ (一)新零售的概念​ 新零售依托互联网与物联网技术,以数据驱动为核心,打破线上线下的界限,构建起一体化的全新零售模式。它不再局限于传统的销售渠道,而是通过整合线上电商平台、线下实体店铺以及现代物流配送等多方面资源,实现商品、服务、…

c++基础入门——c++初识

我看的是B站黑马程序员的课《C教程》。准备用这个专栏记录一下学习笔记。 这套c课程的课程安排如下: 阶段内容目标案例第一阶段C基础语法入门对c有初步了解,能够有基础编程能力通讯录管理系统第二阶段c核心编程介绍c面向对象编程,为大型项目…

【css】设置了margin-top为负数,div被img覆盖的解决方法

文章目录 场景默认情况下&#xff0c;层叠顺序是如何工作的&#xff1f;为什么 img 会覆盖 div&#xff1f;解决方法 场景 <img src"image.jpg"> <div>Content</div>有代码如上&#xff0c;img src是一个https网络图片链接。 若div的margin-top为…

4 Studying《ARM System Developer’s Guide》1-7

目录 Preface Chapter1 ARM Embedded Systems 1.1 The RISC design philosophy 1.2 The ARM Design Philosophy 1.3 Embedded System Hardware 1.4 Embedded System Software 1.5 Summary Chapter2 ARM Processor Fundamentals 2.1 Registers 2.2 Current Program St…

Vue3 + Axios + Ant Design Vue 请求封装详解教程(含 Token 鉴权、加密、下载)

Vue3 Axios Ant Design Vue 请求封装详解教程&#xff08;含 Token 鉴权、加密、下载&#xff09; 一、完整源码&#xff08;请先阅读&#xff09; import { message, Modal } from ant-design-vue; import axios from axios; import { localRead } from //utils/local-util…