多模态大语言模型arxiv论文略读(六十)

请添加图片描述

Cantor: Inspiring Multimodal Chain-of-Thought of MLLM

➡️ 论文标题:Cantor: Inspiring Multimodal Chain-of-Thought of MLLM
➡️ 论文作者:Timin Gao, Peixian Chen, Mengdan Zhang, Chaoyou Fu, Yunhang Shen, Yan Zhang, Shengchuan Zhang, Xiawu Zheng, Xing Sun, Liujuan Cao, Rongrong Ji
➡️ 研究机构: Xiamen University、Tencent Youtu Lab
➡️ 问题背景:大型语言模型(LLMs)通过链式思维(CoT)方法在解决推理任务中表现出色。然而,现有的多模态CoT方法在决策生成阶段往往直接输入纯文本,缺乏视觉上下文,导致“确定性幻觉”;在执行阶段,依赖低级视觉感知工具,无法提供抽象总结,限制了模型的推理能力。
➡️ 研究动机:为了克服现有方法的局限性,研究团队提出了一种新的多模态CoT框架——Cantor,旨在通过整合视觉上下文和逻辑推理,提高模型在视觉推理任务中的表现。
➡️ 方法简介:Cantor框架分为两个阶段:决策生成和执行。在决策生成阶段,Cantor通过分析图像和问题,生成详细的决策,包括问题解决策略、专家模块选择及具体任务分配。在执行阶段,Cantor利用单个多模态大型语言模型(MLLM)扮演多个专家角色,执行具体任务,最终生成答案。
➡️ 实验设计:研究团队在两个复杂的视觉推理数据集(ScienceQA和Mathvista)上进行了实验,验证了Cantor框架的有效性。实验结果表明,Cantor在使用Gemini作为决策生成器时,分别在两个数据集上获得了4.11%和5.9%的准确率提升;使用GPT-3.5时,准确率分别提升了2.24%和9.2%。

GUIDE: Graphical User Interface Data for Execution

➡️ 论文标题:GUIDE: Graphical User Interface Data for Execution
➡️ 论文作者:Rajat Chawla, Adarsh Jha, Muskaan Kumar, Mukunda NS, Ishaan Bhola
➡️ 研究机构: SuperAGI Research
➡️ 问题背景:当前的机器人过程自动化(RPA)主要依赖于预定义的脚本和规则,这限制了其适应性和响应性。随着人工智能的发展,特别是多模态大语言模型(MLLMs)的进步,RPA系统有望实现更智能的GUI交互,类似于人类操作员。然而,现有的数据集往往集中在任务的孤立方面,如对象识别或序列预测,而缺乏对行动定位(action grounding)的整合。
➡️ 研究动机:为了克服现有数据集的局限性,研究团队创建了GUIDE(Graphical User Interface Data for Execution)数据集,旨在通过数据驱动的学习来革新RPA模型的训练。GUIDE数据集不仅包含了图像数据、任务描述、行动历史、思维链(COT)和行动的空间定位,还涵盖了多种网络应用和服务,为训练多平台LLMs提供了全面的基础。
➡️ 方法简介:GUIDE数据集的创建过程包括四个阶段:预数据收集、NEXTAG(Next Action Grounding and Annotation Tool)工具的使用、质量检查和后期处理。NEXTAG工具自动记录用户在浏览器中的所有操作,提供精确的行动定位,显著提高了数据标注的效率和准确性。质量检查确保数据的准确性和一致性,而后期处理则通过增加思维链、行动历史和数据增强等步骤,进一步丰富了数据集。
➡️ 实验设计:GUIDE数据集被用于训练V-Zen,这是第一个能够自动化多个网站操作的RPA模型。实验设计了不同任务的复杂度分析,从简单的单步操作到复杂的多步骤工作流,以评估模型在不同任务难度下的表现。此外,数据集还通过多种浏览器、操作系统和显示格式的数据增强,确保模型能够适应多样化的实际应用环境。

Semantically consistent Video-to-Audio Generation using Multimodal Language Large Model

➡️ 论文标题:Semantically consistent Video-to-Audio Generation using Multimodal Language Large Model
➡️ 论文作者:Gehui Chen, Guan’an Wang, Xiaowen Huang, Jitao Sang
➡️ 研究机构: 北京交通大学计算机科学与技术学院、北京交通数据分析与挖掘重点实验室、交通运输大数据与人工智能重点实验室(北京交通大学)、教育部
➡️ 问题背景:现有的视频生成技术虽然取得了显著进展,但生成的视频通常缺乏音效(SFX)和背景音乐(BGM),这限制了观众的沉浸式体验。自动化的音频生成方法能够更高效地为视频内容生成匹配的音频和音乐,从而提升视频生成的整体质量。
➡️ 研究动机:为了克服现有视频生成技术的局限性,研究团队提出了一种基于多模态大语言模型(MLLM)的语义一致的视频到音频生成框架(SVA)。该框架能够自动从视频内容中生成与之语义一致的音频,通过自然语言作为接口,提高了音频生成的效率和质量。
➡️ 方法简介:SVA框架主要包括三个关键步骤:1) 利用MLLM理解视频内容并生成音频和音乐方案;2) 使用生成模型根据方案生成相应的音频或音乐;3) 通过快速噪声检测、噪声减少和混音方法生成高质量的视频音频输出。研究团队通过选择关键帧来代表整个视频内容,利用MLLM生成创意的SFX和BGM方案,并通过AudioGen和MusicGen等模型生成音频,最后进行后处理以确保音频质量。
➡️ 实验设计:研究团队通过案例研究展示了SVA框架的有效性,并讨论了其局限性和未来的研究方向。实验中,研究团队使用了FFmpeg等工具进行关键帧提取、音频生成和后处理,确保生成的音频与视频内容在语义上保持一致,提供了观众沉浸式的视听体验。

Energy-Latency Manipulation of Multi-modal Large Language Models via Verbose Samples

➡️ 论文标题:Energy-Latency Manipulation of Multi-modal Large Language Models via Verbose Samples
➡️ 论文作者:Kuofeng Gao, Jindong Gu, Yang Bai, Shu-Tao Xia, Philip Torr, Wei Liu, Zhifeng Li
➡️ 研究机构: Tsinghua University, Peng Cheng Laboratory, University of Oxford, Tencent Technology (Beijing) Co.Ltd, Tencent Data Platform
➡️ 问题背景:多模态大型语言模型(MLLMs)在多种多模态任务中表现出色,但其部署需要大量的计算资源。恶意用户可以通过诱导高能耗和延迟时间(能量-延迟成本)来耗尽计算资源,从而影响服务的可用性。研究发现,通过最大化生成序列的长度,可以操纵MLLMs的能量-延迟成本。因此,研究团队提出了一种方法,通过构建冗长样本(包括冗长图像和视频)来诱导高能量-延迟成本。
➡️ 研究动机:现有的研究已经揭示了如何通过增加生成序列的长度来操纵高能量-延迟成本。为了进一步探索这一问题,研究团队提出了一种系统的方法,通过设计延迟EOS损失、增加输出不确定性、提高多样性等手段,来诱导MLLMs生成更长的序列,从而增加能量-延迟成本。
➡️ 方法简介:研究团队提出了两种模态非特定损失目标,包括延迟EOS损失和不确定性损失,以及两种模态特定损失目标,即冗长图像的令牌多样性损失和冗长视频的帧特征多样性损失。为了平衡这些损失,研究团队还提出了一种时间权重调整算法。通过这些方法,研究团队构建了冗长样本,以诱导MLLMs生成更长的序列。
➡️ 实验设计:研究团队在MS-COCO、ImageNet、MSVD和TGIF四个数据集上进行了实验,评估了冗长样本对图像和视频模态的MLLMs的影响。实验设计了不同的因素(如扰动幅度、对抗性知识和多模态任务类型),以全面评估冗长样本的有效性和鲁棒性。实验结果表明,冗长样本可以显著增加生成序列的长度,从而诱导高能量-延迟成本。

TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning

➡️ 论文标题:TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning
➡️ 论文作者:Liang Zhang, Anwen Hu, Haiyang Xu, Ming Yan, Yichen Xu, Qin Jin, Ji Zhang, Fei Huang
➡️ 研究机构: 中国人民大学、阿里巴巴集团
➡️ 问题背景:图表是展示和解释复杂数据关系的重要工具,近年来,多模态大语言模型(MLLMs)在各种图表理解任务中展现了显著的能力。然而,这些模型的参数量庞大,计算需求高,限制了它们在资源受限环境中的应用。此外,这些模型在处理涉及数值计算的问题时容易出错,且在高效编码高分辨率图像方面存在挑战。
➡️ 研究动机:尽管现有的图表理解模型在性能上有所提升,但它们的参数量庞大,难以在资源受限的环境中部署。此外,这些模型在数值计算和高分辨率图像编码方面存在不足。为了克服这些限制,研究团队提出了TinyChart,一个参数量仅为3B的高效多模态图表理解模型。
➡️ 方法简介:研究团队提出了两种关键技术来提升TinyChart的性能和效率:

  1. 视觉令牌合并(Visual Token Merging):通过在每个视觉变换器层中合并相似的视觉令牌,显著减少了视觉特征序列的长度,使得模型能够高效地处理高分辨率图像。
  2. 程序思维学习(Program-of-Thoughts Learning):通过训练模型生成Python代码来解决数值计算问题,提高了模型在数值问题上的解答能力。研究团队还构建了ChartQA-PoT数据集,包含140,584个(问题,程序思维答案)对,以支持程序思维学习。
    ➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括ChartQA、Chart-to-Text、Chart-to-Table、OpenCQA等。实验结果表明,TinyChart在这些基准测试中取得了最先进的性能,尤其是在数值计算问题上表现突出。此外,TinyChart在推理速度上也表现出色,由于模型规模较小且视觉编码更高效,其推理吞吐量显著高于其他模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/79718.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/79718.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

面试常问系列(一)-神经网络参数初始化-之自注意力机制为什么除以根号d而不是2*根号d或者3*根号d

首先先罗列几个参考文章,大家之后可以去看看,加深理解: 面试常问系列(一)-神经网络参数初始化面试常问系列(一)-神经网络参数初始化之自注意力机制_注意力机制的参数初始化怎么做-CSDN博客面试常问系列(一)-神经网络参数初始化-之-softmax-C…

第5篇:EggJS中间件开发与实战应用

在Web开发中,中间件(Middleware)是处理HTTP请求和响应的核心机制之一。EggJS基于Koa的洋葱模型实现了高效的中间件机制,本文将深入探讨中间件的执行原理、开发实践以及常见问题解决方案。 一、中间件执行机制与洋葱模型 1. 洋葱模…

树状结构转换工具类

项目中使用了很多树状结构,为了方便使用开发一个通用的工具类。 使用工具类的时候写一个类基础BaseNode,如果有个性化字段添加到类里面,然后就可以套用工具类。 工具类会将id和pid做关联返回一个树状结构的集合。 使用了hutool的工具包判空…

【Python】--装饰器

装饰器(Decorator)本质上是一个返回函数的函数 主要作用是:在不修改原函数代码的前提下,给函数增加额外的功能 比如:增加业务,日志记录、权限验证、执行时间统计、缓存等场景 my_decorator def func():pas…

AI教你学VUE——Gemini版

前端开发学习路线图 (针对编程新手,主攻 Vue 框架) 总原则:先夯实基础,再深入框架。 想象一下建房子,地基不牢,上面的高楼(框架)是盖不起来的。HTML、CSS、JavaScript 就是前端的地基。 阶段一…

神经网络中之多类别分类:从基础到高级应用

神经网络中之多类别分类:从基础到高级应用 摘要 在机器学习领域,多类别分类是解决复杂问题的关键技术之一。本文深入探讨了神经网络在多类别分类中的应用,从基础的二元分类扩展到一对多和一对一分类方法。我们详细介绍了 softmax 函数的原理…

Go Web 后台管理系统项目详解

Go Web 后台管理系统项目详解 一、背景介绍 这是一个基于 Go 语言开发的 Web 后台管理系统,为笔者学习期间练手之作,较为粗糙 二、技术架构 后端 语言 :采用 Go 语言(Golang)编写,因其简洁高效、并发能…

【Python系列】Python 中的 HTTP 请求处理

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

OS7.【Linux】基本指令入门(6)

目录 1.zip和unzip 配置指令 使用 两个名词:打包和压缩 打包 压缩 Linux下的操作演示 压缩和解压缩文件 压缩和解压缩目录 -d选项 2.tar Linux下的打包和压缩方案简介 czf选项 xzf选项 -C选项 tzf选项 3.bc 4.uname 不带选项的uname -a选项 -r选项 -v选项…

windows系统 压力测试技术

一、CPU压测模拟 工具:CpuStres v2.0 官网:https://learn.microsoft.com/en-us/sysinternals/downloads/cpustres 功能:是一个工具类,用来模拟在一个进程中启动最多64个线程,且可以独立控制任何一个线程的启动/暂停、…

64.搜索二维矩阵

给你一个满足下述两条属性的 m x n 整数矩阵: 每行中的整数从左到右按非严格递增顺序排列。每行的第一个整数大于前一行的最后一个整数。 给你一个整数 target ,如果 target 在矩阵中,返回 true ;否则,返回 false 。 示…

在 PyTorch 中借助 GloVe 词嵌入完成情感分析

一. Glove 词嵌入原理 GloVe是一种学习词嵌入的方法,它希望拟合给定上下文单词i时单词j出现的次数。使用的误差函数为: 其中N是词汇表大小,是线性层参数, 是词嵌入。f(x)是权重项,用于平衡不同频率的单词对误差的影响…

kotlin中 热流 vs 冷流 的本质区别

🔥 冷流(Cold Flow) vs 热流(Hot Flow)区别 特性冷流(Cold Flow)热流(Hot Flow)数据生产时机每次 collect 才开始执行启动时就开始生产、始终运行生命周期与 collect 者…

精益数据分析(44/126):深度解析媒体网站商业模式的关键要点

精益数据分析(44/126):深度解析媒体网站商业模式的关键要点 在创业与数据分析的探索道路上,我们不断挖掘不同商业模式的核心要素,今天将深入剖析媒体网站商业模式。希望通过对《精益数据分析》相关内容的解读&#xf…

Android学习总结之Java和kotlin区别

一、空安全机制 真题 1:Kotlin 如何解决 Java 的 NullPointerException?对比两者在空安全上的设计差异 解析: 核心考点:Kotlin 可空类型系统(?)、安全操作符(?./?:)、非空断言&…

[Survey]Remote Sensing Temporal Vision-Language Models: A Comprehensive Survey

BaseInfo TitleRemote Sensing Temporal Vision-Language Models: A Comprehensive SurveyAdresshttps://arxiv.org/abs/2412.02573Journal/Time2024 arxivAuthor北航 上海AI LabCodehttps://github.com/Chen-Yang-Liu/Awesome-RS-Temporal-VLM 1. Introduction 传统遥感局限…

jmeter读取CSV文件中文乱码的解决方案

原因分析​ CSV文件出现中文乱码通常是因为文件编码与JMeter读取编码不一致。常见场景: 文件保存为GBK/GB2312编码,但JMeter以UTF-8读取。文件包含BOM头(如Windows记事本保存的UTF-8),但JMeter未正确处理。脚本读取文…

Webview通信系统学习指南

Webview通信系统学习指南 一、定义与核心概念 1. 什么是Webview? 定义:Webview是移动端(Android/iOS)内置的轻量级浏览器组件,用于在原生应用中嵌入网页内容。作用:实现H5页面与原生应用的深度交互&…

【C++】C++中的命名/名字/名称空间 namespace

C中的命名/名字/名称空间 namespace 1、问题引入2、概念3、作用4、格式5、使用命名空间中的成员5.1 using编译指令( 引进整个命名空间) ---将这个盒子全部打开5.2 using声明使特定的标识符可用(引进命名空间的某个成员) ---将这个盒子中某个成员的位置打…

Arduino IDE中离线更新esp32 3.2.0版本的办法

在Arduino IDE中更新esp32-3.2.0版本是个不可能的任务,下载文件速度极慢。网上提供了离线的办法,提供了安装文件,但是没有3.2.0的版本。 下面提供了一种离线安装方法 一、腾讯元宝查询解决办法 通过打开开发板管理地址:通过在腾…