多模态大语言模型arxiv论文略读(103)

在这里插入图片描述

Are Bigger Encoders Always Better in Vision Large Models?

➡️ 论文标题:Are Bigger Encoders Always Better in Vision Large Models?
➡️ 论文作者:Bozhou Li, Hao Liang, Zimo Meng, Wentao Zhang
➡️ 研究机构: 北京大学
➡️ 问题背景:近年来,多模态大语言模型(Multimodal Large Language Models, MLLMs)在现实世界应用中展现出强大的潜力。这些模型因其卓越的多模态信息理解能力和强大的认知推理能力而迅速发展。在MLLMs中,视觉语言模型(Vision Language Models, VLMs)因其理解视觉信息的能力而尤为突出。然而,当前主流范式下的VLMs的扩展趋势尚未得到广泛研究,是否通过训练更大的模型可以实现更好的性能仍不清楚。
➡️ 研究动机:现有的研究尚未充分探讨连接视觉范式(Connected Vision Paradigm)下的VLMs的扩展规律。为了填补这一空白,研究团队通过实验探讨了不同编码器大小和大语言模型(LLMs)大小对VLMs性能的影响,旨在为未来的模型设计和优化提供有价值的见解。
➡️ 方法简介:研究团队采用LLaVA1.5模型作为研究的骨干,利用7亿和13亿参数的模型进行实验。实验数据集包括从CC12M和Laion400M中提取的100万到1000万张图像-文本对。通过这些实验,研究团队系统地评估了不同数据量和模型大小对VLMs性能的影响。
➡️ 实验设计:实验分为两个阶段:多模态预训练(Multimodal Pretraining, MM PT)和多模态指令微调(Multimodal Instruction Fine-tuning, MM IT)。在MM PT阶段,研究团队使用不同的ViT模型大小和Vicuna系列的LLM模型进行训练,通过评估损失函数的变化来分析模型性能。实验结果表明,增加数据量和使用更大的LLM骨干可以提高模型性能,但单纯增加ViT的参数规模并不一定能提升VLMs的性能。此外,高质量的数据集对模型性能的提升至关重要。

Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model

➡️ 论文标题:Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model
➡️ 论文作者:Benlin Liu, Yuhao Dong, Yiqin Wang, Zixian Ma, Yansong Tang, Luming Tang, Yongming Rao, Wei-Chiu Ma, Ranjay Krishna
➡️ 研究机构: University of Washington, Tsinghua University, Tencent, Google Deepmind, Allen Institute for AI, Cornell University
➡️ 问题背景:多模态语言模型(Multimodal Language Models, MLLMs)在现实世界的应用中,需要具备解释3D空间和理解时间动态的能力。然而,现有的方法通常依赖于专门的架构设计或特定任务的微调来实现这一点。这些方法在3D和长视频理解基准测试中的表现仅略好于仅基于文本的基线模型,表明空间-时间推理是MLLMs通向通用视觉智能的主要瓶颈。
➡️ 研究动机:为了增强MLLMs的空间-时间推理能力,研究团队提出了一种简单且无需训练的视觉提示方法——COARSE CORRESPONDENCES。该方法通过2D图像输入,无需修改架构或特定任务的微调,即可显著提升MLLMs的空间-时间推理能力。
➡️ 方法简介:COARSE CORRESPONDENCES方法包含四个步骤:(1)跟踪对应关系,(2)稀疏化帧,(3)选择粗略对应关系,(4)可视化粗略对应关系。通过这些步骤,该方法能够从视频或不同视角的图像中提取主要对象的对应关系,并通过视觉提示将这些信息传达给MLLMs。
➡️ 实验设计:研究团队在六个基准测试上进行了广泛的实验,包括空间理解(如ScanQA和OpenEQA)和时间理解(如EgoSchema)任务。实验结果表明,COARSE CORRESPONDENCES不仅能够显著提升MLLMs在这些任务上的表现,而且在使用较少输入图像的情况下,其性能甚至超过了经过专门微调的模型。此外,该方法在导航任务(如R2R)中也表现出色,进一步证明了其在增强MLLMs空间-时间推理能力方面的有效性和效率。

Piculet: Specialized Models-Guided Hallucination Decrease for MultiModal Large Language Models

➡️ 论文标题:Piculet: Specialized Models-Guided Hallucination Decrease for MultiModal Large Language Models
➡️ 论文作者:Kohou Wang, Xiang Liu, Zhaoxiang Liu, Kai Wang, Shiguo Lian
➡️ 研究机构: AI Innovation Center, China Unicom, Beijing; Unicom Digital Technology, China Unicom, Beijing
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在连接视觉和语言模态方面取得了显著进展。然而,这些模型在生成文本时经常出现幻觉(hallucinations),即生成的文本与图像内容不一致,这严重限制了MLLMs的实际应用。
➡️ 研究动机:现有的解决MLLMs幻觉问题的方法主要分为基于训练和无训练两类。基于训练的方法通常需要重新训练模型,这不仅耗时且成本高昂;而无训练的方法则主要集中在后处理阶段,利用其他大型模型来纠正MLLMs的输出,这种方法同样耗时且经济性差。为了解决这些问题,研究团队提出了一种新的无训练框架Piculet,通过利用多个专门的小型深度学习模型来增强MLLMs的输入表示,从而减少幻觉。
➡️ 方法简介:Piculet框架通过使用多个专门的小型深度学习模型(如对象检测、OCR和人脸识别模型)来提取输入图像中的事实信息,并将这些信息与原始图像和用户查询一起输入到MLLMs中。这些专门模型的输出作为外部知识,帮助MLLMs生成更准确的结果。
➡️ 实验设计:研究团队在POPE、MME和LLaVA-QA90三个数据集上进行了实验,评估了Piculet框架的有效性。实验结果表明,Piculet在减少MLLMs幻觉方面表现出色,特别是在LLaVA-QA90基准上,Piculet将Qwen-VL-Chat的准确率从6.1提高到了7.3。此外,Piculet框架仅需一次MLLMs的推理和几个小型深度学习模型的推理,具有高效、经济和易于集成的特点。

A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks

➡️ 论文标题:A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks
➡️ 论文作者:Jiaqi Wang, Hanqi Jiang, Yiheng Liu, Chong Ma, Xu Zhang, Yi Pan, Mengyuan Liu, Peiran Gu, Sichen Xia, Wenjun Li, Yutong Zhang, Zihao Wu, Zhengliang Liu, Tianyang Zhong, Bao Ge, Tuo Zhang, Ning Qiang, Xintao Hu, Xi Jiang, Xin Zhang, Wei Zhang, Dinggang Shen, Tianming Liu, Shu Zhang
➡️ 研究机构: 西北工业大学、乔治亚大学、陕西师范大学、电子科技大学、奥古斯塔大学、上海科技大学
➡️ 问题背景:随着数据量的爆炸性增长和技术的快速发展,多模态大语言模型(MLLMs)成为人工智能系统中的前沿技术。这些模型旨在无缝集成多种数据类型,包括文本、图像、视频、音频和生理序列数据,以应对现实世界应用中的复杂性,超越单模态系统的功能。
➡️ 研究动机:现有的多模态大语言模型在多种任务中表现出色,但它们在不同任务中的表现和挑战仍需深入研究。本文系统地回顾了MLLMs在多模态任务中的应用,分析了不同MLLMs的焦点,并指出了当前模型的不足,为未来的研究提供了方向。
➡️ 方法简介:研究团队通过构建一个全面的框架,从基本概念、主要架构、不同领域的性能、比较分析到未来研究的路线图,系统地回顾了MLLMs的发展。文章详细介绍了MLLMs的多模态输入编码器、特征融合机制和多模态输出解码器,以及如何通过预训练的大型语言模型(LLMs)处理多模态数据。
➡️ 实验设计:文章在视觉和音频任务中详细探讨了MLLMs的应用,包括图像理解和生成任务。实验设计了不同阶段的图像理解技术,从传统的特征提取方法到深度学习技术的应用,再到多模态图像理解和跨模态学习,以及强化学习在图像理解中的应用。通过这些实验,文章全面评估了MLLMs在不同任务中的表现和潜力。

Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed Inputs

➡️ 论文标题:Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed Inputs
➡️ 论文作者:Peng Ding, Jingyu Wu, Jun Kuang, Dan Ma, Xuezhi Cao, Xunliang Cai, Shi Chen, Jiajun Chen, Shujian Huang
➡️ 研究机构: 南京大学、浙江大学、美团、新加坡-浙江创新与人工智能联合实验室
➡️ 问题背景:多模态大语言模型(MLLMs)在多种视觉-语言理解和生成任务中表现出色。然而,这些模型有时会生成与给定图像不一致的内容,这种现象被称为“幻觉”(hallucination)。现有的研究主要集中在使用标准的、未受干扰的基准数据集来评估幻觉,忽略了现实世界中输入图像经常遇到的各种干扰(如裁剪、模糊等),这些干扰对于全面评估MLLMs的幻觉至关重要。
➡️ 研究动机:为了填补这一空白,研究团队提出了Hallu-PI,这是第一个专门用于评估多模态大语言模型在受干扰输入下的幻觉表现的基准数据集。Hallu-PI旨在通过引入多种图像干扰场景,全面评估MLLMs在处理受干扰输入时的幻觉问题,揭示现有模型的局限性,并为未来的改进提供方向。
➡️ 方法简介:研究团队构建了Hallu-PI数据集,该数据集包含7种干扰场景,共1,260张受干扰图像,涉及11种不同的对象类别。每个图像都配有详细的注释,包括存在性、属性和关系等细粒度的幻觉类型。此外,数据集还包含了一系列问题,适用于判别性和生成性任务。
➡️ 实验设计:研究团队在12个主流的MLLMs上进行了广泛的实验,包括GPT-4V和Gemini-Pro Vision等模型。实验设计了多种干扰类型(如噪声、模糊、天气、数字、图像拼接、图像裁剪和提示误导),以及不同类型的评估任务(如判别性和生成性任务),以全面评估模型在受干扰输入下的幻觉表现。实验结果表明,这些模型在处理受干扰输入时表现出显著的幻觉问题,尤其是在图像拼接、图像裁剪和提示误导等特定类型的干扰下。为了缓解这些问题,研究团队还设计了两个基线方法:Perturbed-Reminder和Perturbed-ICL,实验结果表明这些方法在一定程度上有效减少了模型的幻觉。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/pingmian/83298.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

代码随想录算法训练营 Day61 图论ⅩⅠ Floyd A※ 最短路径算法

图论 题目 97. 小明逛公园 本题是经典的多源最短路问题。 在这之前我们讲解过,dijkstra朴素版、dijkstra堆优化、Bellman算法、Bellman队列优化(SPFA) 都是单源最短路,即只能有一个起点。 而本题是多源最短路,即求多…

【机器学习】集成学习与梯度提升决策树

目录 一、引言 二、自举聚合与随机森林 三、集成学习器 四、提升算法 五、Python代码实现集成学习与梯度提升决策树的实验 六、总结 一、引言 在机器学习的广阔领域中,集成学习(Ensemble Learning)犹如一座闪耀的明星,它通过组合多个基本学习器的力量,创造出…

yarn、pnpm、npm

非常好,这样从“问题驱动 → 工具诞生 → 优化演进”的角度来讲,更清晰易懂。下面我按时间线和动机,把 npm → yarn → pnpm 的演变脉络讲清楚。 🧩 一、npm 为什么一开始不够好? 早期(npm v4 及之前&…

如何用AI写作?

过去半年,我如何用AI高效写作,节省数倍时间 过去六个月,我几乎所有文章都用AI辅助完成。我的朋友——大多是文字工作者,对语言极为敏感——都说看不出我的文章是AI写的还是亲手创作的。 我的AI写作灵感部分来自丘吉尔。这位英国…

什么是trace,分布式链路追踪(Distributed Tracing)

在你提到的 “个人免费版” 套餐中,“Trace 上报量:5 万条 / 月,存储 3 天” 里的 Trace 仍然是指 分布式链路追踪记录,但需要结合具体产品的场景来理解其含义和限制。以下是更贴近个人用户使用场景的解释: 一、这里的…

[免费]微信小程序网上花店系统(SpringBoot后端+Vue管理端)【论文+源码+SQL脚本】

大家好,我是java1234_小锋老师,看到一个不错的微信小程序网上花店系统(SpringBoot后端Vue管理端)【论文源码SQL脚本】,分享下哈。 项目视频演示 【免费】微信小程序网上花店系统(SpringBoot后端Vue管理端) Java毕业设计_哔哩哔哩_bilibili 项…

PyTorch——DataLoader的使用

batch_size, drop_last 的用法 shuffle shuffleTrue 各批次训练的图像不一样 shuffleFalse 在第156step顺序一致

【Linux】基础文件IO

🌟🌟作者主页:ephemerals__ 🌟🌟所属专栏:Linux 前言 无论是日常使用还是系统管理,文件是Linux系统中最核心的概念之一。对于初学者来说,理解文件是如何被创建、读取、写入以及存储…

【JAVA后端入门基础001】Tomcat 是什么?通俗易懂讲清楚!

📚博客主页:代码探秘者 ✨专栏:《JavaSe》 其他更新ing… ❤️感谢大家点赞👍🏻收藏⭐评论✍🏻,您的三连就是我持续更新的动力❤️ 🙏作者水平有限,欢迎各位大佬指点&…

TDengine 的 AI 应用实战——电力需求预测

作者: derekchen Demo数据集准备 我们使用公开的UTSD数据集里面的电力需求数据,作为预测算法的数据来源,基于历史数据预测未来若干小时的电力需求。数据集的采集频次为30分钟,单位与时间戳未提供。为了方便演示,按…

D2000平台上Centos使用mmap函数遇到的陷阱

----------原创不易,欢迎点赞收藏。广交嵌入式开发的朋友,讨论技术和产品------------- 在飞腾D2000平台上,安装了麒麟linux系统,我写了个GPIO点灯的程序,在应用层利用mmap函数将内核空间映射到用户态,然后…

深入了解linux系统—— 进程间通信之管道

前言 本篇博客所涉及到的代码一同步到本人gitee:testfifo 迟来的grown/linux - 码云 - 开源中国 一、进程间通信 什么是进程间通信 在之前的学习中,我们了解到了进程具有独立性,就算是父子进程,在修改数据时也会进行写时拷贝&…

设计模式——模版方法设计模式(行为型)

摘要 模版方法设计模式是一种行为型设计模式,定义了算法的步骤顺序和整体结构,将某些步骤的具体实现延迟到子类中。它通过抽象类定义模板方法,子类实现抽象步骤,实现代码复用和算法流程控制。该模式适用于有固定流程但部分步骤可…

Python使用

Python学习,从安装,到简单应用 前言 Python作为胶水语言在web开发,数据分析,网络爬虫等方向有着广泛的应用 一、Python入门 相关基础语法直接使用相关测试代码 Python编译器版本使用3以后,安装参考其他教程&#xf…

吴恩达机器学习笔记(1)—引言

目录 一、欢迎 二、机器学习是什么 三、监督学习 四、无监督学习 一、欢迎 机器学习是当前信息技术领域中最令人兴奋的方向之一。在这门课程中,你不仅会学习机器学习的前沿知识,还将亲手实现相关算法,从而深入理解其内部机理。 事实上&…

java笔记08

多线程&JUC 1.什么是多线程 1.什么是多线程?有了多线程,我们就可以让程序同时做多件事情 2.多线程的作用?提高效率 3.多线程的应用场景?只要你想让多个事情同时运行就需要用到多线程比如:软件中的耗时操作、所有…

【仿muduo库实现并发服务器】使用正则表达式提取HTTP元素

使用正则表达式提取HTTP元素 1.正则表达式2.正则库的使用3.使用正则表达式提取HTTP请求行 1.正则表达式 正则表达式它其实是描述了一种字符串匹配的模式,它可以用来在一个字符串中检测一个特定格式的字串,以及可以将符合特定规则的字串进行替换或者提取…

显示即战略:铁电液晶如何成为 “数字中国” 的 “像素基石”?

一、显示技术:数字时代的核心战略支点 (一)从 “视觉窗口” 到 “战略基础设施” 在数字经济蓬勃发展的当下,显示技术早已超越了单纯的 “视觉呈现” 范畴,成为连接人与数字世界的关键接口。从智能手机、平板电脑到车…

适合小白的超详细配置YOLOv8教程(毕设必看)(训练自己数据集)(Pycharm保姆级安装教程)(lablme的使用)(GPU版)

目录 1.Pycharm的安装和虚拟环境调用(已经安装好的可以跳过此步骤) 1.1 下载pycharm软件 1.2 调用已创建虚拟环境(调用上一篇教程中创建好的虚拟环境) 2.标注自己数据集(已有数据集的这部分可跳过) 2.1…

EC800X QuecDuino开发板介绍

支持的模组列表 EG800KEC800MEC800GEC800E 功能列表 基本概述 EC800X QuecDuino EVB 搭载移远 EC800 系列模组。支持模组型号为: EC800M 系列、EC800K 系列、EG800K 系列、EC800E 系列等。 渲染图 开发板的主要组件、接口布局见下图 资料下载 EC800X-QuecDui…