多模态大语言模型arxiv论文略读(五十)

请添加图片描述

Pensieve: Retrospect-then-Compare Mitigates Visual Hallucination

➡️ 论文标题:Pensieve: Retrospect-then-Compare Mitigates Visual Hallucination
➡️ 论文作者:Dingchen Yang, Bowen Cao, Guang Chen, Changjun Jiang
➡️ 研究机构: 同济大学、北京大学
➡️ 问题背景:多模态大型语言模型(MLLMs)在各种视觉-语言任务中表现出色。然而,这些模型容易出现视觉幻觉,即生成的响应与提供的图像不符。视觉幻觉可能表现为生成冲突或虚构的内容,或忽略关键的视觉细节。
➡️ 研究动机:研究发现,MLLMs在视觉幻觉时可能并非完全忽视准确的视觉线索,而是对准确和错误的内容都有一定的支持。为了减少视觉幻觉,研究团队提出了一种新的方法Pensieve,该方法通过回顾相似图像作为参考,并通过比较这些参考图像与测试图像的置信度分数来识别准确的视觉线索。
➡️ 方法简介:Pensieve是一种无需训练的方法,通过构建一个包含多种视觉概念的参考数据库,使MLLMs能够回顾相关图像。具体来说,Pensieve在推理过程中使MLLMs能够回顾与测试图像具有相似语义和外观的图像,并通过置信度分数的对比来突出准确的候选词。
➡️ 实验设计:研究团队在四个基准数据集上进行了实验,包括Whoops、LLaVA Bench、POPE和MME。实验结果表明,Pensieve在减少视觉幻觉方面优于其他先进的解码策略,显著提高了FaithScore和总分。此外,Pensieve还帮助MLLMs识别图像中的视觉细节,增强了生成的图像描述的特异性。

MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?

➡️ 论文标题:MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?
➡️ 论文作者:Renrui Zhang, Dongzhi Jiang, Yichi Zhang, Haokun Lin, Ziyu Guo, Pengshuo Qiu, Aojun Zhou, Pan Lu, Kai-Wei Chang, Peng Gao, Hongsheng Li
➡️ 研究机构: CUHK MMLab、Shanghai Artificial Intelligence Laboratory、University of California, Los Angeles
➡️ 问题背景:多模态大语言模型(MLLMs)在视觉上下文中表现出色,但其在解决涉及图表的数学问题方面的能力尚未得到充分评估和理解。当前的基准测试中,文本问题中包含过多的视觉内容,这可能帮助MLLMs在不真正解释输入图表的情况下推导出答案。
➡️ 研究动机:研究团队发现,现有的数学基准测试在评估MLLMs的视觉数学问题解决能力时存在三个主要问题:1) MLLMs是否真正看到了数学图表;2) 仅通过最终答案评估是否公平;3) 是否专门针对数学推理评估。为了解决这些问题,研究团队引入了MATHVERSE,一个全面的视觉数学基准,旨在公平和深入地评估MLLMs的多模态数学推理能力。
➡️ 方法简介:MATHVERSE包含2,612个高质量的多学科数学问题,每个问题由人类注释者转换成六个不同版本,每个版本提供不同程度的多模态信息,总共生成15,000个测试样本。研究团队还提出了一个Chain-of-Thought (CoT) 评估策略,通过GPT-4提取和评估每个关键推理步骤,提供详细的错误分析。
➡️ 实验设计:研究团队在MATHVERSE上对流行的闭源和开源MLLMs进行了广泛的实验。实验设计了不同版本的问题,以评估MLLMs在不同信息内容下的表现。实验结果表明,大多数现有的MLLMs在解决数学问题时依赖于文本信息,而不是视觉图表。GPT-4V和ShareGPT4V在视觉内容理解方面表现较好,而其他一些模型在没有视觉输入的情况下表现更好。

Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models

➡️ 论文标题:Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models
➡️ 论文作者:Qiong Wu, Weihao Ye, Yiyi Zhou, Xiaoshuai Sun, Rongrong Ji
➡️ 研究机构: Xiamen University (Key Laboratory of Multimedia Trusted Perception and Efficient Computing, Ministry of Education of China, Institute of Artificial Intelligence)
➡️ 问题背景:多模态大型语言模型(MLLMs)在学术界和工业界引起了广泛关注。然而,这些模型在下游任务应用中不仅需要更新大量参数,还消耗了过多的计算资源。因此,如何在保持模型性能的同时,减少参数和计算开销,成为了一个重要的研究课题。
➡️ 研究动机:现有的研究已经提出了一些参数和计算高效的调优方法,但这些方法在减少参数和计算开销方面仍有改进空间。特别是,多头注意力机制(MHAs)在MLLMs中占据了主要的计算资源,但这些注意力机制在特定任务中往往是冗余的。因此,研究团队提出了一种新的方法,通过有效跳过多余的注意力机制,来提高模型的效率和性能。
➡️ 方法简介:研究团队提出了一种名为有效注意力跳过(EAS)的新方法。EAS首先评估MLLMs中MHAs的冗余性,并跳过多余的MHAs以加速推理。此外,EAS还引入了一种新的传播信息适配器(PIA),该适配器不仅可以在跳过MHAs时保持参数效率,还可以在推理时重新参数化为前馈网络(FFNs),从而实现零额外延迟。
➡️ 实验设计:研究团队将EAS应用于最近提出的MLLM LaVIN,并在ScienceQA等多个视觉-语言基准数据集上进行了广泛的实验。实验设计了不同的参数和计算效率评估指标,以全面评估EAS在减少参数更新规模和加速推理速度方面的效果。实验结果表明,EAS不仅能够保持LaVIN的高性能,还能显著减少参数更新规模并加速推理速度。例如,LaVIN-EAS在ScienceQA上的准确率达到了89.98%,同时推理速度提高了2.2倍。

Elysium: Exploring Object-level Perception in Videos via MLLM

➡️ 论文标题:Elysium: Exploring Object-level Perception in Videos via MLLM
➡️ 论文作者:Han Wang, Yanjie Wang, Yongjie Ye, Yuxiang Nie, Can Huang
➡️ 研究机构: ByteDance Inc.
➡️ 问题背景:多模态大语言模型(MLLMs)在处理静态图像中的对象感知任务方面表现出色,但在视频相关任务中的应用,如对象跟踪,仍处于研究初期。主要挑战包括需要大规模视频数据集进行预训练以理解跨帧关系,以及在大语言模型(LLMs)的上下文窗口中处理大量帧带来的计算负担。
➡️ 研究动机:为了克服上述挑战,研究团队构建了一个大规模视频数据集ElysiumTrack-1M,并提出了一种视觉令牌压缩网络T-Selector,旨在提高MLLMs在视频对象感知任务中的性能,同时减少计算负担。
➡️ 方法简介:研究团队构建了ElysiumTrack-1M数据集,包含127万个标注视频帧及其对应的对象框和描述,支持单对象跟踪(SOT)、指代单对象跟踪(RSOT)和视频指代表达生成(Video-REG)任务。此外,他们提出了Elysium模型,结合了视觉编码器、大语言模型(LLM)和T-Selector,以实现对象级别的视频任务。
➡️ 实验设计:实验在多个数据集上进行,包括图像接地(Image Grounding)和视频问答(VideoQA)任务。实验设计了不同的任务类型,如SOT、RSOT和Video-REG,以全面评估Elysium在不同任务中的表现。实验结果表明,Elysium在图像接地和视频问答任务中均达到了最先进的性能。

Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning

➡️ 论文标题:Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning
➡️ 论文作者:Hao Shao, Shengju Qian, Han Xiao, Guanglu Song, Zhuofan Zong, Letian Wang, Yu Liu, Hongsheng Li
➡️ 研究机构: The Chinese University of Hong Kong、SenseTime Research、University of Toronto、Shanghai Artificial Intelligence Laboratory、CPII under InnoHK
➡️ 问题背景:多模态大语言模型(MLLMs)在各种视觉问答任务中表现出色,但它们在处理复杂视觉输入时往往缺乏解释性和准确性,尤其是在输入图像分辨率高或关键信息区域较小时。此外,现有的MLLMs和相关基准主要基于静态图像上下文输入,缺乏对特定局部区域的动态关注能力。
➡️ 研究动机:为了提高MLLMs的解释性和准确性,研究团队开发了一个大规模的视觉链式思维(Visual CoT)数据集,包含438,000个问题-答案对,每个对都标注了关键区域的边界框。此外,约98,000个问题-答案对还包含详细的推理步骤。研究团队还提出了一种多轮处理管道,旨在动态关注视觉输入并提供可解释的中间思考过程。
➡️ 方法简介:研究团队构建了一个名为VisCoT的框架,该框架通过在问题中添加链式思维提示,要求模型识别图像中最关键的区域并生成其边界框。在训练阶段,使用真实边界框提取视觉信息,而不是预测的边界框。视觉采样器从原始图像中提取包含详细信息的局部图像,视觉编码器和投影器提取视觉标记,MLLMs则整合来自原始图像和局部图像的视觉标记,以提供更精确和全面的答案。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括文本/文档、细粒度理解、图表、通用VQA和关系推理等五个领域。实验评估了不同模型在不同任务中的表现,特别是在需要关注特定局部区域或原因以识别对象的场景中。实验结果表明,VisCoT框架显著提高了MLLMs的性能和解释性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/77972.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/77972.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

智能驾驶新时代:NVIDIA高级辅助驾驶引领未来出行安全

智能驾驶新时代:NVIDIA高级辅助驾驶引领未来出行安全 在全球汽车产业数字化转型的时代潮流中,高级辅助驾驶技术已逐渐成为推动产业革新的核心动力。作为这一领域的领导者之一,NVIDIA通过其先进的技术解决方案,正在积极塑造未来的…

总结小程序的坑

小程序中的wxss中 background不能使用本地图片 解决方法: 使用 Base64 编码(适合小图片)使用网络图片, 网络图片需要用https用 image 标签替代 分包的图片主包不能使用,这是分包中的图片资源默认不能被主包或其他分包直…

供应链管理-国际结算:本币互换 / 数字货币桥 / 我国在沙特发行美债

一、本币互换 本币互换(Local Currency Swap)是指两国(或地区)的央行(货币当局)签订协议,约定在一定条件下,任何一方可以一定数量的本币交换等值的对方货币,用于双边贸易…

湖北理元理律师事务所:从法律视角看债务优化的合规实践

在债务纠纷高发的社会背景下,法律服务机构如何通过合规手段帮助债务人实现债务优化,成为公众关注的议题。湖北理元理律师事务所作为经国家司法局注册登记的债事服务机构,其服务模式与成果为行业提供了可参考的样本。 服务框架:法…

免费在Colab运行Qwen3-0.6B——轻量高性能实战

Qwen一直在默默地接连推出新模型。 每个模型都配备了如此强大的功能和高度量化的规模,让人无法忽视。 继今年的QvQ、Qwen2.5-VL和Qwen2.5-Omni之后,Qwen团队现在发布了他们最新的模型系列——Qwen3。 这次他们不是发布一个而是发布了八个不同的模型——参数范围从6亿到235…

【Java】打印运行环境中某个类引用的jar版本路径

背景 正式环境出现jar版本不匹配问题,不知道正式环境用的哪个jar版本。通过一下可以打印出类调用的jar // 获取 POIFSFileSystem 类的加载器并打印其来源路径 ClassLoader classloaderPOIFS org.apache.poi.poifs.filesystem.POIFSFileSystem.class.getClassLoade…

Python生活手册-元组:保险柜与瑞士军刀

一、元组的本质:数据世界的保险柜 Python元组就像银行金库里的​​智能保险箱​​,一旦存放物品就会自动焊死箱门。当你把结婚戒指和房产证放进保险箱后,任何人都无法替换或破坏这些物品,只能通过特定窗口查看内容。 # 创建家庭…

dameng-mcp-server达梦MCP服务

达梦数据库手写MCP服务 文件名称 server.py 源代码 参考mysql-mcp-server写的dameng数据库版本的 点击访问mysql-mcp-server的github仓库 mcp服务端 import asyncio import logging import os import sys from dmPython import connect from mcp.server import Server from mc…

IntelliJ IDEA 内存优化

优化插件使用 1)卸载不必要插件:进入 “设置”→“插件”→“已安装”,查看并卸载不常用的插件,如代码分析、代码覆盖率等不常用的插件,只保留必要的插件。2)定期清理与更新插件:定期检查插件更…

TCL中环深化全球布局,技术迭代应对行业调整

在全球能源转型加速与光伏行业深度调整的双重背景下,TCL中环凭借前瞻性的全球化布局与核心技术突破,持续巩固行业领先地位。2024年年报显示,报告期内实现营业收入284.19亿元,净利润为-108.06亿元。面对行业周期性亏损与产业链价格非理性竞争带来的业绩压力,公司自2024年下半年起…

dubbo 异步化实践

DubboService public class AsyncOrderFacadeImpl implements AsyncOrderFacade {private Logger logger LoggerFactory.getLogger(AsyncOrderFacadeImpl.class);// 构建线程池ThreadPoolExecutor threadPoolExecutor new ThreadPoolExecutor(1000, 1000, 10, TimeUnit.SECOND…

CSS3布局方式介绍

CSS3布局方式介绍 CSS3布局(Layout)系统是现代网页设计中用于构建页面结构和控制元素排列的一组强大工具。CSS3提供了多种布局方式,每种方式都有其适用场景,其中最常用的是Flexbox和CSS Grid。 先看传统上几种布局方式,再较详细的介绍现代布局方式Flexbox和CSS Grid。 传…

MoonBit支持国产芯片开发--性能媲美C

MoonBit支持国产芯片开发–性能媲美C 在 ESP32-C3 上实现生命游戏 过去,我们曾在文章《硬件实现:在ESP32-C6单片机上运行MoonBit WASM-4小游戏》中,展示了如何通过 WebAssembly (WASM) 将 MoonBit 程序移植到物理硬件,初步探索其…

【RAG 框架部署】LangChain-Chatchat (原 Langchain-ChatGLM) + Ollama

目录 前言 一、什么是RAG? 二、环境准备和Ollama搭建 1、conda虚拟环境配置 2、Ollama搭建 三、LangChain-Chatchat搭建 1、框架安装 2、文件配置 3、初始化知识库 4、启动Langchan-Chatchat 前言 由于LangChain-Chatchat的 0.3.0 版本已修改为支持不同模…

python对接马来西亚股票完整代码

StockTV全球股票数据API对接实战:构建智能金融分析系统 一、StockTV API核心功能解析 StockTV作为覆盖200国家证券市场的数据平台,其API提供三大核心模块的对接能力: 市场列表查询 - 获取指定国家的股票基础数据个股详情检索 - 查询实时行情…

普通IT的股票交易成长史--20250430晚

声明:本文章的内容只是自己学习的总结,不构成投资建议。文中观点基本来自yt站Andylee,美股Alpha姐,综合自己的观点得出。感谢他们的无私分享。 送给自己的话: 仓位就是生命,绝对不能满仓!&…

windows 下 oracle 数据库的备份与还原

1、备份 创建备份出来的文件存放的位置。 创建目录对象,在数据库中创建一个目录对象,该对象指向文件系统中用于存储导出文件的实际目录( sql 命令,可以在 plsql 中执行)。 -- 创建目录对象,\D:\Oracle19c\…

基于单片机的智能药盒系统

标题:基于单片机的智能药盒系统 内容:1.摘要 本文聚焦于基于单片机的智能药盒系统。背景方面,随着人口老龄化加剧,老年人按时准确服药问题愈发凸显,同时现代快节奏生活也使人们容易遗忘服药时间。目的是设计并实现一个能帮助人们按时、按量服…

“100% 成功的 PyTorch CUDA GPU 支持” 安装攻略

#工作记录 一、总述 在深度学习领域,PyTorch 凭借其灵活性和强大的功能,成为了众多开发者和研究者的首选框架。而 CUDA GPU 支持能够显著加速 PyTorch 的计算过程,大幅提升训练和推理效率。然而,安装带有 CUDA GPU 支持的 PyTor…

图数据库榜单网站

图数据库榜单 https://db-engines.com/en/ranking/graphdbms点击跳转