多模态大语言模型arxiv论文略读(八十八)

在这里插入图片描述

MammothModa: Multi-Modal Large Language Model

➡️ 论文标题:MammothModa: Multi-Modal Large Language Model
➡️ 论文作者:Qi She, Junwen Pan, Xin Wan, Rui Zhang, Dawei Lu, Kai Huang
➡️ 研究机构: ByteDance, Beijing, China
➡️ 问题背景:多模态大型语言模型(MLLMs)在理解视觉输入并生成语言方面表现出色,广泛应用于图像描述、视觉问答和视频分析等领域。然而,这些模型在处理高分辨率和长时间视觉输入时,仍面临有效结合复杂语言理解的挑战。
➡️ 研究动机:为了克服现有MLLMs的局限,研究团队设计了MammothModa,通过三个关键设计洞察来提升模型性能:1) 整合视觉能力同时保持复杂的语言理解;2) 扩展上下文窗口以处理高分辨率和长时间视觉特征;3) 使用高质量的双语数据集减少视觉幻觉。
➡️ 方法简介:MammothModa的架构包括三个主要组件:高分辨率输入的视觉编码器和视觉合并模块、投影层,以及带有视觉注意力专家(VE)和共享帧位置ID的大型语言模型(LLM)。视觉合并模块通过平均池化减少特征图的大小,而共享帧位置ID则通过为每个视频帧分配共享的位置编码来避免位置插值问题。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括视觉语言理解(VLP)和图像到图像(I2I)任务。实验设计了不同的动态分割方法、视觉合并窗口大小和帧位置ID的使用,以评估模型在不同条件下的性能。实验结果表明,MammothModa在多个基准测试中表现出色,特别是在处理高分辨率图像和长时间视频时,显著提高了效率和性能。

CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs

➡️ 论文标题:CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs
➡️ 论文作者:Zirui Wang, Mengzhou Xia, Luxi He, Howard Chen, Yitao Liu, Richard Zhu, Kaiqu Liang, Xindi Wu, Haotian Liu, Sadhika Malladi, Alexis Chevalier, Sanjeev Arora, Danqi Chen
➡️ 研究机构: Princeton Language and Intelligence (PLI), Princeton University, University of Wisconsin, Madison, The University of Hong Kong
➡️ 问题背景:当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)在处理现实世界任务时表现出色,尤其是在分析科学论文或财务报告中的图表理解方面。然而,现有的评估基准往往过于简化和同质化,导致对模型性能的过度乐观估计。研究表明,即使在图表或问题稍作修改的情况下,开源模型的性能也可能大幅下降,最高可达34.5%。
➡️ 研究动机:为了更准确地评估MLLMs的图表理解能力,研究团队提出了CharXiv,这是一个包含2,323个自然、具有挑战性和多样性的图表的全面评估套件。CharXiv旨在通过提供更现实和忠实的评估标准,促进未来对MLLMs图表理解的研究。
➡️ 方法简介:CharXiv的数据集从arXiv论文中手动挑选了8个主要学科的图表,确保了图表的视觉多样性和复杂性。数据集包括两种类型的问题:描述性问题(涉及基本图表信息的提取和聚合)和推理问题(涉及复杂的视觉和数值推理)。所有问题和答案都经过人工专家的精心挑选和验证,确保了数据集的高质量。
➡️ 实验设计:研究团队评估了13个开源模型和11个专有模型在CharXiv上的表现,特别是在描述性和推理问题上的表现。实验结果揭示了开源模型和专有模型之间存在显著的性能差距,尤其是在推理问题上,最强的专有模型GPT-4o的准确率为47.1%,而最强的开源模型InternVL Chat V1.5的准确率仅为29.2%。所有模型的表现都远低于人类的80.5%。此外,研究还对模型在不同类型任务和图表上的表现进行了细粒度分析,揭示了现有MLLMs在图表理解方面的弱点。

DocKylin: A Large Multimodal Model for Visual Document Understanding with Efficient Visual Slimming

➡️ 论文标题:DocKylin: A Large Multimodal Model for Visual Document Understanding with Efficient Visual Slimming
➡️ 论文作者:Jiaxin Zhang, Wentao Yang, Songxuan Lai, Zecheng Xie, Lianwen Jin
➡️ 研究机构: 华南理工大学、华为云
➡️ 问题背景:当前的多模态大语言模型(MLLMs)在视觉文档理解(VDU)任务中面临重大挑战,主要由于文档图像的高分辨率、密集文本和复杂布局。这些特性要求MLLMs具备高度的细节感知能力。虽然提高输入分辨率可以改善细节感知能力,但也会导致视觉标记序列变长,增加计算成本,并对模型处理长上下文的能力构成压力。
➡️ 研究动机:为了应对这些挑战,研究团队提出了DocKylin,这是一种以文档为中心的MLLM,通过在像素和标记级别进行视觉内容瘦身,减少VDU场景中的标记序列长度。研究旨在通过引入自适应像素瘦身(APS)和动态标记瘦身(DTS)模块,提高模型的性能和效率。
➡️ 方法简介:研究团队提出了一种系统的方法,通过构建自适应像素瘦身(APS)预处理模块,利用梯度信息识别并消除文档图像中的冗余区域,减少冗余像素的比例,提高计算效率。此外,团队还引入了一种基于双中心聚类的动态标记瘦身(DTS)方法,高效地从大量视觉标记中过滤出信息标记,生成更紧凑的视觉序列。
➡️ 实验设计:实验在多个公开数据集上进行,包括DocVQA、InfoVQA、ChartQA、FUNSD、SROIE和POIE等。实验设计了不同因素的变化,如输入图像的分辨率、文本密度和布局复杂性,以全面评估DocKylin在不同条件下的表现。实验结果表明,DocKylin在多个VDU基准测试中表现出色,显著优于现有的方法。

Read Anywhere Pointed: Layout-aware GUI Screen Reading with Tree-of-Lens Grounding

➡️ 论文标题:Read Anywhere Pointed: Layout-aware GUI Screen Reading with Tree-of-Lens Grounding
➡️ 论文作者:Yue Fan, Lei Ding, Ching-Chen Kuo, Shan Jiang, Yang Zhao, Xinze Guan, Jie Yang, Yi Zhang, Xin Eric Wang
➡️ 研究机构: University of California, Santa Cruz、eBay Inc.、Cybever
➡️ 问题背景:当前,图形用户界面(GUI)在数字设备的交互中占据核心地位,越来越多的努力被投入到构建各种GUI理解模型中。然而,这些努力大多忽略了基于用户指示点的屏幕阅读任务(Screen Point-and-Read, ScreenPR),这一任务对于辅助技术尤为重要,能够为视觉障碍用户提供有价值的帮助。
➡️ 研究动机:为了应对ScreenPR任务的挑战,研究团队开发了Tree-of-Lens (ToL) 代理,利用先进的多模态大语言模型(MLLMs)的泛化能力,处理来自不同领域的GUI截图,并根据用户指示的屏幕上的任意点生成自然语言描述。ToL代理不仅描述了指示区域的内容,还详细说明了屏幕布局,从而帮助用户全面理解界面并避免歧义。
➡️ 方法简介:研究团队提出了ToL接地机制,通过构建层次布局树(Hierarchical Layout Tree)来表示截图的层次结构。该树的节点代表不同尺度的区域,通过训练的GUI区域检测模型自动提取局部和全局区域,形成层次布局树。然后,根据兴趣区域选择目标路径,生成不同视野宽度的镜头作为视觉提示,模拟人类逐步细化的注意力过程,以生成内容和布局描述。
➡️ 实验设计:研究团队在新提出的ScreenPR基准上评估了ToL代理,该基准包括来自网页、移动和操作系统GUI的650张截图,手动标注了1,500个目标点和区域。实验设计了多种评估指标,包括人类评价和自动循环一致性评价,以全面评估ToL代理在内容和布局描述上的准确性和抗干扰能力。实验结果表明,ToL代理在内容和布局描述的准确性上分别比基线模型提高了15%和30%以上。此外,ToL代理还被应用于移动GUI导航任务中,展示了其在识别执行路径中不正确动作方面的实用性。

HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale

➡️ 论文标题:HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale
➡️ 论文作者:Junying Chen, Chi Gui, Ruyi Ouyang, Anningzhe Gao, Shunian Chen, Guiming Hardy Chen, Xidong Wang, Ruifei Zhang, Zhenyang Cai, Ke Ji, Guangjun Yu, Xiang Wan, Benyou Wang
➡️ 研究机构: 深圳大数据研究院、香港中文大学(深圳)、深圳国家健康数据研究院
➡️ 问题背景:多模态大语言模型(MLLMs)如GPT-4V在医疗应用中表现出有限的性能,尤其是在缺乏特定于医疗领域的视觉知识方面。尽管存在一些高质量的小规模医疗视觉知识数据集,但扩展这些数据集面临隐私和许可问题。现有方法利用PubMed的大规模去标识化医疗图像-文本对,但数据噪声问题仍然影响模型性能。
➡️ 研究动机:为了提高医疗多模态模型的性能,研究团队提出了一种新的方法,通过利用“非盲”多模态大语言模型(MLLMs)来重新格式化PubMed的图像-文本对,以减少数据噪声并生成更高质量的医疗视觉问答(VQA)数据集。该方法旨在提高模型的医疗多模态能力,并为未来的医疗多模态研究提供高质量的数据资源。
➡️ 方法简介:研究团队从PubMed中筛选出高质量的医疗图像-文本对,并使用GPT-4V作为“非盲”重新格式化工具,生成了包含130万个医疗VQA样本的PubMedVision数据集。该数据集通过多种对话场景和任务类型(如对齐VQA和指令调优VQA)来增强模型的多模态能力。
➡️ 实验设计:研究团队在多个基准测试上进行了实验,包括医疗VQA基准、多模态基准MMMU Health & Medicine轨道以及传统医疗影像任务。实验结果表明,使用PubMedVision数据集训练的模型在多个医疗多模态任务上显著优于现有的开源模型。特别是,HuatuoGPT-Vision在多个医疗多模态基准测试中表现出色,显著提升了模型的医疗多模态能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/news/906712.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

svn迁移到git保留记录和Python字符串格式化 f-string的进化历程

svn迁移到git保留记录 and Python字符串格式化(二): f-string的进化历程 在将项目从SVN迁移到Git时,保留完整的版本历史记录非常重要。下面是详细的步骤和工具,可以帮助你完成这一过程: 安装Git和SVN工具 首先&#…

springboot配置mysql druid连接池,以及连接池参数解释

文章目录 前置配置方式参数解释 前置 springboot 项目javamysqldruid 连接池 配置方式 在 springboot 的 application.yml 中配置基本方式 # Druid 配置(Spring Boot YAML 格式) spring:datasource:url: jdbc:mysql://localhost:3306/testdb?useSSL…

vue实现高亮文字效果——advanced-mark.js

组件介绍-advanced-mark.js: advanced-mark.js 是一个用于 Vue 的高亮文字组件,它可以帮助你在文本中高亮显示指定的关键词或短语。 组件地址:https://angezid.github.io/advanced-mark.js/doc-v2/getting-started.html 主要功能&#xff1…

DC30V/2.5A同步降压芯片SL1581 输入24V降压5V 12V2A电流

在工业自动化、汽车电子等领域,24V 电源系统向 5V/12V 双轨供电的需求日益增长。针对这一痛点,森利威尔电子重磅推出 DC30V/2.5A 同步降压芯片 SL1581,凭借卓越的性能和创新设计,为工程师提供高可靠性、高性价比的电源解决方案。 …

React 第四十四节Router中 usefetcher的使用详解及注意事项

前言 useFetcher 是 React Router 中一个强大的钩子,用于在不触发页面导航的情况下执行数据加载(GET)或提交(POST)。 一、useFetcher 应用场景: 1、后台数据预加载(如鼠标悬停时加载数据&…

Jmeter(三) - 测试计划(Test Plan)的元件

1.简介 上一篇已经教你如何通过JMeter来创建一个测试计划(Test Plan),那么这一篇我们就将JMeter启动起来,创建一个测试计划(Test plan),给大家介绍一下测试计划(Test Plan&#xff…

应届本科生简历制作指南

一、找一个专业的简历模板 首先,你需要访问 Overleaf 的官方网站,也就是Overleaf, Online LaTeX Editor,进入页面后,点击注册按钮,按照提示填写相关信息来创建一个属于自己的账号,通常需要填写用户名、邮箱…

[Spring Boot]整合Java Mail实现Outlook发送邮件

日常开发过程中,我们经常需要使用到邮件发送任务,比方说验证码的发送、日常信息的通知等。日常比较常用的邮件发送方包括:163、QQ等,本文主要讲解Outlook SMTP的开启方式、OutLook STARTTTL的配置、如何通过JavaMail来实现电子邮件的发送等。 Outlook作为微软提供的企业电子…

【YOLOs-CPP-图像分类部署】03-解决报错

完整项目链接 点击here下载! 上一篇问题 经过上一篇博客,我们得到了一个粗略版(会报错)的项目。如何解决异常报错呢? 我把问题在github上对作者进行了提问,但是2天后,依然没有回复。 怎么办呢?只能自己调试代码了。 修改代码 经过大量调试,修改了YOLO11CLASS.h…

Dockers Compose常用指令介绍

Dockers Compose常用指令 1、常用指令介绍 1.1、version 指令 顶级一级指令,指定 compose 指定文件格式版本 version: "3.8" services: 不同版本支持的功能不同。常用版本有 ‘2’, ‘3’, ‘3.8’ 等。 1.2、services 指令 顶级一级指令&#xff0…

谢飞机的Spring WebFlux面试之旅:从基础到深入

谢飞机的Spring WebFlux面试之旅:从基础到深入 面试场景:谢飞机的WebFlux面试 面试官:你好,谢飞机,请介绍一下你自己。 谢飞机:您好,我是一名有三年开发经验的Java程序员,熟悉Spr…

Mysql增量备份与恢复

1.练习数据增量备份 增量备份:备份上次备份后,新产生的数据。 PERCONA Xtrabackup是一款强大的在线热备份工具,备份过程中不锁库表,适合生产环境。支持完全备份与恢复、增量备份与恢复、差异备份与恢复。 安装Xtrabackup 150、…

GStreamer (三)常⽤插件

常⽤插件 1、Source1.1、filesrc1.2. videotestsrc1.3. v4l2src1.4. rtspsrc和rtspclientsink 2、 Sink2.1. filesink2.2. fakesink2.3. xvimagesink2.4. kmssink2.5. waylandsink2.6. rkximagesink2.7. fpsdisplaysink 3 、视频推流/拉流3.1. 本地推流/拉流3.1.1 USB摄像头3.1…

Spring Boot与Kafka集成实践:实现高效消息队列

Spring Boot与Kafka集成实践 引言 在现代分布式系统中,消息队列是实现异步通信和解耦的重要组件。Apache Kafka作为一种高性能、分布式的消息队列系统,被广泛应用于大数据和实时数据处理场景。本文将介绍如何在Spring Boot项目中集成Kafka,…

Linux PXE批量装机+无人值守技术(自动化装机)

目录 PXE所需条件 服务端所需服务 客户端所需功能 1.准备系统安装rpm仓库 (1)安装vsftpd服务 (2)启动并设置开机自启 (3)准备yum仓库文件 2.安装配置dhcpd服务 (1)安装dhcoo软件包 (2)配置dhcp服务 (3)启动并设置开机自启 3.部署TFTP服务 (1)安装软…

linux_cmake的笔记

include_directories()的使用 今天在运行一个cmakelist.txt如下所示时候,发现一个问题: cmake_minimum_required(VERSION 3.28) project(l_trajectoryError CXX) option(USE_UBUNTU_20 "Set to ON if you are using Ubuntu 20.04" OFF) find…

论文略读:If Multi-Agent Debate is the Answer, What is the Question?

202502 arxiv 1 intro 多智能体辩论(Multi-Agent Debate, MAD):通过让多个智能体在大模型推理时展开多轮辩论,可提升生成内容的事实准确性和推理质量 但论文认为,目前多智能体辩论在大多数情况下不敌简单的单智能体方…

使用RUST在Arduino上进行编程(MacOS,mega板)

近年来,RUST成为了嵌入式编程的热门语言,本文通过实现(1)LED闪灯,以及(2)在console(终端)实现“Hello Rust World”两项功能来完成实操的入门。 深入学习可以参考RUST语言…

(15)关于窗体的右键菜单的学习与使用,这关系到了信号与事件 event

(1)起因来源于 4.11 的老师讲的例题,标准的,规范的使用右键菜单的代码及参考资料如下: (2) 接着脱离上面的那个复杂的环境,用简单的例子测试一下 : 说明老师讲的都是对…

C 语言学习笔记(指针4)

内容提要 指针 函数指针与指针函数二级指针 指针 函数指针与指针函数 函数指针 定义 函数指针本质上是指针,是一个指向函数的指针。函数都有一个入口地址,所谓指向函数的指针,就是指向函数的入口地址。(这里的函数名就代表…