多模态大语言模型arxiv论文略读(九十)

在这里插入图片描述

Hybrid RAG-empowered Multi-modal LLM for Secure Data Management in Internet of Medical Things: A Diffusion-based Contract Approach

➡️ 论文标题:Hybrid RAG-empowered Multi-modal LLM for Secure Data Management in Internet of Medical Things: A Diffusion-based Contract Approach
➡️ 论文作者:Cheng Su, Jinbo Wen, Jiawen Kang, Yonghua Wang, Yuanjia Su, Hudan Pan, Zishao Zhong, M. Shamim Hossain
➡️ 研究机构: 广东工业大学、南京航空航天大学、广州中医药大学、沙特国王大学
➡️ 问题背景:随着云计算、物联网(IoT)和人工智能(AI)等先进技术的集成,医疗健康系统经历了快速的发展,特别是互联网医疗事物(IoMT)的兴起,使得医疗数据的收集、传输和分析变得更加智能和高效。然而,医疗数据的多模态性和分布式存储、数据安全和隐私问题、以及数据的新鲜度和质量,都是在IoMT中应用多模态大型语言模型(MLLMs)时面临的重大挑战。
➡️ 研究动机:为了应对上述挑战,研究团队提出了一种混合检索增强生成(RAG)赋能的医疗MLLM框架,旨在通过跨链技术实现安全的数据传输,利用混合多模态RAG提高数据检索和分析的质量,同时通过合同理论激励机制鼓励医疗数据持有者分享高质量的数据,从而提高医疗数据管理的效率和安全性。
➡️ 方法简介:研究团队设计了一种基于跨链技术的混合RAG-empowered MLLM框架,该框架通过多模态RAG模块和合同理论激励机制,实现了医疗数据的安全、高效管理和分析。此外,研究还引入了信息年龄(AoI)作为数据新鲜度的评估指标,并采用生成扩散模型(GDM)和深度强化学习(DRL)算法来确定最优的合同设计,以适应数据共享的动态环境。
➡️ 实验设计:研究在多个医疗数据集上进行了实验,验证了所提出的混合RAG-empowered MLLM框架的有效性。实验结果表明,该框架在提高数据管理的安全性和效率方面表现优异,特别是在数据新鲜度评估和合同设计优化方面,相比传统的DRL方案,性能提升了20.35%。

Human-like object concept representations emerge naturally in multimodal large language models

➡️ 论文标题:Human-like object concept representations emerge naturally in multimodal large language models
➡️ 论文作者:Changde Du, Kaicheng Fu, Bincheng Wen, Yi Sun, Jie Peng, Wei Wei, Ying Gao, Shengpei Wang, Chuncheng Zhang, Jinpeng Li, Shuang Qiu, Le Chang, Huiguang He
➡️ 研究机构: 中国科学院自动化研究所、中国科学院脑认知与脑启发智能技术重点实验室、中国科学院脑科学与智能技术卓越创新中心、中国科学院大学、华南理工大学自动化科学与工程学院
➡️ 问题背景:人类对自然物体的概念化和分类是认知科学和神经科学的核心问题,提供了对人类感知和认知的重要见解。近年来,大规模语言模型(LLMs)的快速发展引发了关于这些模型是否也能通过接触大量语言和多模态数据来发展人类类似的对象表示的有趣问题。
➡️ 研究动机:尽管深度学习系统的认知合理性引发了广泛讨论,但一个关键问题仍未解决:是否可以在没有特定任务训练的情况下自然地出现人类类似的心理表示?本研究旨在通过数据驱动的方法,探讨LLMs(如ChatGPT-3.5)和多模态LLMs(如Gemini Pro Vision)是否能够发展出人类类似的概念表示,特别是在自然物体方面。
➡️ 方法简介:研究团队采用了一种新颖的数据驱动方法,通过收集大规模的三元组相似性判断数据集,来揭示LLMs和MLLMs中的核心维度。这些数据集包括470万次三元组判断,涉及1,854个自然物体。通过使用稀疏正相似性嵌入(SPoSE)方法,研究团队识别出了66个稀疏、非负的维度,这些维度能够很好地预测单次试验行为和物体对之间的相似性评分。研究还通过比较模型嵌入与人类认知的核心维度,以及模型嵌入与大脑功能定义的类别选择性ROI(如EBA、PPA、RSC和FFA)中的神经活动模式,验证了这些嵌入的稳定性和预测能力。
➡️ 实验设计:研究团队首先从THINGS数据库中选择了1,854个日常生活中常见的活体和非活体物体。然后,通过三元组“不同项”任务收集了大规模的行为相似性判断数据集。为了验证嵌入的有效性,研究团队使用了自然场景fMRI数据集(NSD)和表征相似性分析(RSA)方法,评估了模型嵌入在未见过的数据集上的泛化能力和与大脑神经活动的相关性。实验结果表明,LLMs和MLLMs的嵌入在预测行为和重建表征空间方面表现出色,且与人类的嵌入有显著的相似性。

ScanReason: Empowering 3D Visual Grounding with Reasoning Capabilities

➡️ 论文标题:ScanReason: Empowering 3D Visual Grounding with Reasoning Capabilities
➡️ 论文作者:Chenming Zhu, Tai Wang, Wenwei Zhang, Kai Chen, Xihui Liu
➡️ 研究机构: The University of Hong Kong、Shanghai AI Laboratory
➡️ 问题背景:尽管3D视觉定位领域取得了显著进展,但当前的模型仍然依赖于显式的文本描述来定位对象,并缺乏从隐式指令中推理人类意图的能力。例如,模型无法处理像“我渴了,可以给我点喝的吗?”这样的隐式指令。
➡️ 研究动机:为了弥补这一差距,并推动具身代理在3D世界中的理解和交互能力,研究团队提出了一个新的任务——3D推理定位(3D Reasoning Grounding),并引入了一个新的基准数据集ScanReason。该任务要求模型在预测目标对象的3D位置之前,对问题和3D环境进行联合推理。
➡️ 方法简介:研究团队设计了一个新的框架ReGround3D,该框架由视觉中心推理模块和3D定位模块组成,其中包含几何增强的回看机制。视觉中心推理模块利用多模态大语言模型(MLLM)对3D场景和指令进行联合推理,并预测一个特殊的标记,该标记包含目标对象的语义和位置信息。3D定位模块使用标记的隐藏嵌入来定位目标对象,通过回看3D场景的细粒度表示。此外,研究团队还提出了一个链式定位机制(Chain-of-Grounding, CoG),在推理和定位之间交替进行多轮操作,以增强3D推理定位能力。
➡️ 实验设计:在提出的ScanReason基准数据集上进行了广泛的实验,该数据集包含超过10K个问题-答案-3D边界框对,涉及五种推理类型:空间推理、功能推理、逻辑推理、情感推理和安全推理。实验设计了不同类型的复杂问题,以全面评估模型在3D推理定位任务中的表现。实验结果验证了ReGround3D的有效性。

Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time

➡️ 论文标题:Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time
➡️ 论文作者:Sanjoy Chowdhury, Sayan Nag, Subhrajyoti Dasgupta, Jun Chen, Mohamed Elhoseiny, Ruohan Gao, Dinesh Manocha
➡️ 研究机构: University of Maryland, College Park、University of Toronto、Mila and Université de Montréal、King Abdullah University of Science and Technology (KAUST)
➡️ 问题背景:当前的多模态大语言模型(Multi-modal Large Language Models, MLLMs)在处理多模态内容方面取得了显著进展,但大多数研究仍集中在需要粗粒度理解的任务上,如图像和音频的描述和问答。然而,对于需要细粒度时空理解的音频-视觉任务,如音频引导的图像定位、图像引导的音频时间定位和音频-视觉事实核查,现有模型的表现仍有待提高。
➡️ 研究动机:为了填补这一研究空白,研究团队提出了Meerkat,这是一个具备细粒度时空理解能力的音频-视觉大语言模型。Meerkat旨在通过引入新的模态对齐模块和跨模态注意力一致性模块,增强模型在处理复杂音频-视觉任务时的表现,从而推动多模态理解的边界。
➡️ 方法简介:Meerkat通过两个关键模块实现其强大的细粒度理解能力:模态对齐模块(Modality Alignment Module, AVOpT)和跨模态注意力一致性模块(Cross-Modal Attention Consistency Enforcement Module, AVACE)。AVOpT模块基于最优传输理论,学习图像和音频补丁之间的弱监督对齐;AVACE模块则通过限制跨模态注意力图在目标对象的边界内,实现区域级别的强监督对齐。此外,研究团队还构建了一个包含300万指令调优样本的大型数据集AVFIT,以及一个统一五个音频-视觉任务的基准测试套件MeerkatBench。
➡️ 实验设计:研究团队在五个音频-视觉任务上进行了广泛的实验,包括音频引导的图像定位、图像引导的音频时间定位、音频-视觉事实核查、音频-视觉问答和音频-视觉描述。实验结果表明,Meerkat在所有任务上均取得了当前最佳的性能,相对改进率最高达到37.12%。

A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding

➡️ 论文标题:A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding
➡️ 论文作者:Jinghui Lu, Haiyang Yu, Yanjie Wang, Yongjie Ye, Jingqun Tang, Ziwei Yang, Binghong Wu, Qi Liu, Hao Feng, Han Wang, Hao Liu, Can Huang
➡️ 研究机构: ByteDance Inc.、Fudan University
➡️ 问题背景:当前的文档理解方法在结合光学字符识别(OCR)提取的文本和空间布局时,存在生成过长的文本序列或未能充分利用大型语言模型(LLMs)的自回归特性等问题。这些问题限制了模型在文档理解任务中的性能,尤其是在处理视觉丰富的文档时。
➡️ 研究动机:为了克服现有方法的局限性,研究团队提出了一种新的方法——LayTextLLM,该方法通过将每个边界框映射到单个嵌入,并将其与文本交织,从而有效地解决了序列长度问题,同时充分利用了LLMs的自回归特性。研究旨在提高文档理解任务中的关键信息提取(KIE)和视觉问答(VQA)性能。
➡️ 方法简介:LayTextLLM引入了空间布局投影器(SLP),将OCR提取的四维坐标转换为单个嵌入,然后与文本交织。此外,研究团队提出了两个定制的训练任务:布局感知的下一个词预测(Layout-aware Next Token Prediction)和打乱的OCR监督微调(Shuffled-OCR Supervised Fine-tuning),以增强模型的布局和文本对齐能力及泛化能力。
➡️ 实验设计:实验在多个公开数据集上进行,包括文档密集描述(DDD)、DocVQA、InfoVQA、ChartQA、VisualMRC、SROIE、CORD和FUNSD等。实验设计了不同的训练集组合,以评估LayTextLLM在不同任务和设置下的性能。结果表明,LayTextLLM在KIE任务上比现有方法提高了27.2%,在VQA任务上提高了12.0%。此外,LayTextLLM在零样本和监督微调场景下均表现出色,特别是在处理高分辨率输入时,能够保留更多文本细节,同时减少输入序列长度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/diannao/84706.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

电脑主板VGA长亮白灯

电脑主板VGA长亮白灯 起因解决方法注意事项: 起因 搬家没有拆机整机在车上晃荡导致显卡松动接触不良(一般VGA长亮白灯都和显卡有关,主要排查显卡) 解决方法 将显卡拆下重新安装即可 注意事项: 不可直接拔下显卡&a…

【监控】pushgateway中间服务组件

Pushgateway 是 Prometheus 生态中的一个中间服务组件,以独立工具形式存在,主要用于解决 Prometheus 无法直接获取监控指标的场景,弥补其定时拉取(pull)模式的不足。 其用途如下: 突破网络限制&#xff1…

打造AI智能旅行规划器:基于LLM和Crew AI的Agent实践

引言 今天来学习大佬开发的一个AI驱动的旅行规划应用程序,它能够自动处理旅行规划的复杂性——寻jni找航班、预订酒店以及优化行程。传统上,这个过程需要手动搜索多个平台,常常导致决策效率低下。 通过利用**代理型人工智能(Age…

21. 自动化测试框架开发之Excel配置文件的测试用例改造

21. 自动化测试框架开发之Excel配置文件的测试用例改造 一、测试框架核心架构 1.1 组件依赖关系 # 核心库依赖 import unittest # 单元测试框架 import paramunittest # 参数化测试扩展 from chap3.po import * # 页面对象模型 from file_reader import E…

如何在电力系统中配置和管理SNTP时间同步?

在电力系统中配置和管理 SNTP 时间同步需结合行业标准(如《DL/T 1100.1-2019》)和分层架构特点,确保安全性、可靠性和精度适配。以下是具体操作指南,涵盖架构设计、设备配置、安全管理、运维监控四大核心环节,并附典型…

MTK-关于HW WCN的知识讲解

前言: 最近做项目过程中和硬件打交道比较多,现在关于整理下硬件的HW wcn的知识点 一 MTK常见的MT6631 Wi-Fi 2.4GHz 匹配调谐指南 ‌拓扑结构选择‌ 推荐采用并联电容拓扑(‌shunt cap topology‌)代替并联电感拓扑(‌shunt inductor topology‌),以减少潜在电路设计…

(1)课堂 1--5,这五节主要讲解 mysql 的概念,定义,下载安装与卸载

(1)谢谢老师: (2)安装 mysql : (3)镜像下载 ,这个网址很好 : (4) 另一个虚拟机的是 zhang 123456 : 接着配置…

U-Boot ARMv8 平台异常处理机制解析

入口点:arch/arm/cpu/armv8/start.S 1. 判断是否定义了钩子,如有则执行,否则往下走。执行save_boot_params,本质就是保存一些寄存器的值。 2. 对齐修复位置无关码的偏移 假设U-Boot链接时基址为0x10000,但实际加载到0…

mysql安装教程--笔记

一、Windows 系统安装 方法1:使用 MySQL Installer(推荐) 1. 下载安装包 访问 MySQL 官网下载页面,选择 MySQL Installer for Windows。 2. 运行安装程序 双击下载的 .msi 文件,选择安装类型: ◦ Developer…

投资策略规划最优决策分析

目录 一、投资策略规划问题详细 二、存在最优投资策略:每年都将所有钱投入到单一投资产品中 (一)状态转移方程 (二)初始条件与最优策略 (三)证明最优策略总是将所有钱投入到单一投资产品中…

NGINX HTTP/3 实验指南安装、配置与调优

一、HTTP/3 简介 基于 QUIC:在 UDP 之上实现的多路复用传输,内置拥塞控制与前向纠错,无需三次握手即可恢复连接。零 RTT 重连:借助 TLS 1.3,实现连接恢复时的 0-RTT 数据发送(视底层库支持)。多…

编程日志5.28

string赋值操作 算法: #include<iostream> using namespace std; int main() { //1.字符串常量的赋值 string s1; s1 = "英雄哪里出来"; cout << s1 << endl; //2.字符串变量的赋值 string s2; s2 = s1; cout <…

AE的ai图层导到Ai

AE的ai图层导到ai 解决方法: 1、打开ai软件&#xff0c;不用新建&#xff0c;留在那就行。 2、在AE里选中任意一个ai文件图层&#xff0c;只需同时按住ctrl和英文字母键&#xff0c;图层就会自动全部导入到ai中 英文字母键的详情可以参考&#xff1a;http://www.yayihouse.co…

【Springboot+LangChain4j】Springboot项目集成LangChain4j(下)

前置条件&#xff1a;根据上篇文章完成springboot初步集成LangChain4j 【SpringbootLangChain4j】根据LangChain4j官方文档&#xff0c;三分钟完成Springboot项目集成LangChain4j&#xff08;上&#xff09;-CSDN博客 但是接口方法中&#xff0c;关于大模型的配置都是写死的&a…

好坏质检分类实战(异常数据检测、降维、KNN模型分类、混淆矩阵进行模型评估)

任务 好坏质检分类实战 task: 1、基于 data_class_raw.csv 数据&#xff0c;根据高斯分布概率密度函数&#xff0c;寻找异常点并剔除 2、基于 data_class_processed.csv 数据&#xff0c;进行 PCA 处理&#xff0c;确定重要数据维度及成分 3、完成数据分离&#xff0c;数据分离…

以少学习:通过无标签数据从大型语言模型进行知识蒸馏

Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data 发表&#xff1a;NNACL-Findings 2025 机构&#xff1a;密歇根州立大学 Abstract 在实际的自然语言处理&#xff08;NLP&#xff09;应用中&#xff0c;大型语言模型&#xff08…

EasyExcel使用

EasyExcel 简介 EasyExcel 是阿里巴巴开源的一个基于 Java 的简单、省内存的读写 Excel 工具。在处理大量数据时&#xff0c;它能极大地减少内存占用&#xff0c;提高性能。下面从依赖配置、模板使用到代码调用&#xff0c;进行详细介绍。 添加依赖 若要在项目里使用 EasyEx…

文件类型汇总

一、文档类文件 Microsoft Office 文档&#xff1a;.doc、.docx&#xff08;Word 文档&#xff09;、.xls、.xlsx&#xff08;Excel 表格&#xff09;、.ppt、.pptx&#xff08;PowerPoint 演示文稿&#xff09; OpenOffice/LibreOffice 文档&#xff1a;.odt&#xff08;文字…

OpenCV CUDA模块图像处理------颜色空间处理之拜耳模式去马赛克函数demosaicing()

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 该函数用于在 GPU 上执行拜耳图像&#xff08;Bayer Pattern&#xff09;的去马赛克操作&#xff08;Demosaicing&#xff09;&#xff0c;将单通…

Linux: 守护进程

Linux&#xff1a; 守护进程 &#xff08;一&#xff09;前台进程和后台进程前台进程后台进程 &#xff08;二&#xff09;会话、进程组、进程的关系&#xff08;三&#xff09;守护进程创建守护进程 &#xff08;一&#xff09;前台进程和后台进程 前台进程 前台进程是指当前…