多模态大语言模型arxiv论文略读(157)

在这里插入图片描述

Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark

➡️ 论文标题:Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark
➡️ 论文作者:Rong-Cheng Tu, Zi-Ao Ma, Tian Lan, Yuehao Zhao, Heyan Huang, Xian-Ling Mao
➡️ 研究机构: 北京理工大学计算机科学技术学院 (School of Computer Science and Technology, Beijing Institute of Technology)
➡️ 问题背景:随着扩散模型的显著进展,文本到图像生成模型取得了重大突破,但生成的图像往往存在主要实体扭曲和与输入文本提示不一致的问题。自动评估这些生成图像的质量不仅能够为训练生成模型提供有效的损失函数,还能在推理过程中过滤掉低质量的生成图像,从而提升用户体验。因此,迫切需要精确且自动的评估方法来评估生成图像的质量和保真度。
➡️ 研究动机:当前最先进的自动评估方法严重依赖于多模态大型语言模型(MLLMs),尤其是像GPT-4o这样的强大商业模型。虽然这些模型非常有效,但高昂的成本限制了其在大规模评估中的可扩展性。采用开源MLLMs是一个替代方案,但由于其处理多模态数据的能力显著不足,性能较差。为了解决这些问题,研究团队提出了一种任务分解评估框架,通过将复杂的评估任务分解为更简单的子任务,减少学习难度,从而提高开源MLLMs的评估性能。
➡️ 方法简介:研究团队提出了一种基于GPT-4o的任务分解评估框架,用于自动构建训练数据集,将复杂的评估任务分解为更简单的子任务,有效降低了学习难度。基于此数据集,研究团队设计了创新的训练策略,将GPT-4o的评估能力有效地蒸馏到一个7B的开源MLLM,MiniCPM-V-2.6中。此外,为了可靠和全面地评估现有方法和提出的模型,研究团队手动标注了一个元评估基准,包括生成图像的链式思维解释和质量评分。
➡️ 实验设计:实验在多个数据集上进行,包括文本到图像生成任务。实验设计了不同因素的变化,如文本大小、透明度和位置,以及不同类型的评估目标,如保护性、有害性、偏见性和中性内容,以全面评估模型对文本提示注入的敏感性和抗干扰能力。实验结果表明,蒸馏后的开源MLLM在Spearman和Kendall相关性上比当前最先进的GPT-4o基线模型VIEScore提高了4.6%以上。

ZoomEye: Enhancing Multimodal LLMs with Human-Like Zooming Capabilities through Tree-Based Image Exploration

➡️ 论文标题:ZoomEye: Enhancing Multimodal LLMs with Human-Like Zooming Capabilities through Tree-Based Image Exploration
➡️ 论文作者:Haozhan Shen, Kangjia Zhao, Tiancheng Zhao, Ruochen Xu, Zilun Zhang, Mingwei Zhu, Jianwei Yin
➡️ 研究机构: 浙江大学计算机科学与技术学院、Om AI Research、滨江研究院
➡️ 问题背景:多模态大语言模型(MLLMs)在视觉-语言理解方面取得了显著进展,但受限于预训练视觉编码器的输入分辨率限制和图像的密集、复杂背景,这些模型在处理高分辨率图像时,往往只能关注主要对象,而容易忽略细节。这导致了在回答涉及图像细节的问题时,MLLMs的表现不佳。
➡️ 研究动机:为了克服这一限制,研究团队提出了一种名为Zoom Eye的树搜索算法,该算法通过模拟人类的缩放行为,帮助MLLMs在高分辨率图像中捕捉相关细节,从而提高模型在视觉-语言任务中的表现。
➡️ 方法简介:Zoom Eye算法将图像抽象为一棵树,每个节点代表图像的一个局部区域,通过递归分割节点直到满足分辨率限制。算法通过计算节点的优先级值来指导搜索过程,并在模型能够自信地回答问题时停止搜索。Zoom Eye算法无需额外训练,适用于任何MLLMs。
➡️ 实验设计:研究团队在多个高分辨率基准数据集上进行了实验,包括V∗Bench和HR-Bench。实验结果表明,Zoom Eye不仅显著提高了多个MLLMs在这些基准上的表现,还使得小型模型在某些任务上超越了大型模型。例如,LLaVA-v1.5-7B在V∗Bench上的表现提高了34.57%,在HR-Bench 4K上的表现提高了17.88%。此外,实验还揭示了MLLMs在感知方向和识别图像与子图像之间位置关系方面的不足,为未来的研究提供了方向。

Video-Text Dataset Construction from Multi-AI Feedback: Promoting Weak-to-Strong Preference Learning for Video Large Language Models

➡️ 论文标题:Video-Text Dataset Construction from Multi-AI Feedback: Promoting Weak-to-Strong Preference Learning for Video Large Language Models
➡️ 论文作者:Hao Yi, Qingyang Li, Yulan Hu, Fuzheng Zhang, Di Zhang, Yong Liu
➡️ 研究机构: Kuaishou Technology, Beijing, China; Remin University of China, Gaoling School of Artificial Intelligence, Beijing
➡️ 问题背景:高质量的视频-文本偏好数据对于多模态大语言模型(MLLMs)的对齐至关重要。然而,现有的偏好数据非常稀缺,获取VQA偏好数据进行偏好训练成本高昂,且手动标注响应结果的可靠性低,可能导致低质量的数据对。此外,通过温度调整控制的AI生成响应缺乏多样性。这些问题限制了MLLMs的对齐研究。
➡️ 研究动机:为了解决上述问题,研究团队提出了一种高质量的VQA偏好数据集(MMAIP-V),该数据集通过从响应分布集中采样并使用外部评分函数评估响应质量来构建。此外,研究团队还提出了一种迭代弱到强的强化学习框架(Iter-W2S-RLAIF),该框架通过逐步更新参考模型和执行参数外推来增强MLLMs的对齐能力。最后,研究团队提出了一种无偏且信息完整的VQA评估方案,以消除先前评估方法中的偏差和视觉信息损失。
➡️ 方法简介:研究团队通过从多个对齐良好的MLLMs中采样响应,并利用细粒度的外部评分函数评估响应质量,构建了MMAIP-V数据集。基于这些评分,研究团队构建了偏好响应对,增强了对齐信号的多样性和质量。此外,研究团队提出了Iter-W2S-RLAIF框架,通过迭代更新参考模型和参数外推,充分利用AI偏好信号,提高MLLMs的VQA生成能力。
➡️ 实验设计:研究团队在三个领域内和四个领域外的测试数据集上进行了实验,评估了MMAIP-V和Iter-W2S-RLAIF的有效性。实验结果表明,MMAIP-V中的高质量正响应和多样性的负响应对偏好学习有益,而Iter-W2S-RLAIF框架能够有效且充分地利用AI偏好反馈,提高MLLMs的对齐能力。此外,研究团队还提出了一种基于视觉的无偏评估方案,从多个角度评估MLLMs的响应质量,消除了先前评估方法中的偏差和视觉信息损失。

Is ‘Right’ Right? Enhancing Object Orientation Understanding in Multimodal Language Models through Egocentric Instruction Tuning

➡️ 论文标题:Is ‘Right’ Right? Enhancing Object Orientation Understanding in Multimodal Language Models through Egocentric Instruction Tuning
➡️ 论文作者:Ji Hyeok Jung, Eun Tae Kim, Seo Yeon Kim, Joo Ho Lee, Bumsoo Kim, Buru Chang
➡️ 研究机构: Sogang University、Chung-Ang University
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在连接人类与AI技术方面发挥着重要作用,尤其是在需要图像和文本理解的多模态任务中。然而,当前的MLLMs在准确解释图像中物体的方向时面临挑战,这主要是由于训练数据中物体方向标注的不一致性,导致模型难以形成一致的方向理解能力。这种局限性在自动驾驶、机器人操作和增强现实设备的交互中尤为明显,可能导致严重的错误和事故。
➡️ 研究动机:研究团队发现,训练数据中物体方向标注的不一致性是导致MLLMs方向理解能力不足的主要原因。为了解决这一问题,研究团队提出了一种基于用户视角的指令调优方法(Egocentric Instruction Tuning),旨在通过一致的标注标准,使MLLMs的方向理解能力与用户的视角对齐,从而提高模型在实际应用中的表现。
➡️ 方法简介:研究团队首先基于ImageNet数据集,手动标注了物体的方向,这些标注基于用户视角,分为八个方向类别。然后,团队生成了基于这些标注的指令数据,利用MLLMs识别图像细节的能力和LLM的先验知识,通过指令调优来增强模型的方向理解能力。此外,团队还引入了EgoOrientBench基准测试,用于评估MLLMs在不同任务中的方向理解能力。
➡️ 实验设计:研究团队在五个不同的数据集上进行了实验,包括ImageNet、D3、DomainNet、PACS和OmniObject3D。实验设计了三个任务:选择(Choose)、验证(Verify)和自由形式(Freeform),以全面评估模型在不同条件下的方向理解能力。实验结果表明,通过基于用户视角的指令调优,MLLMs的方向理解能力得到了显著提升,同时保持了模型的总体响应生成能力。

Leveraging the Power of MLLMs for Gloss-Free Sign Language Translation

➡️ 论文标题:Leveraging the Power of MLLMs for Gloss-Free Sign Language Translation
➡️ 论文作者:Jungeun Kim, Hyeongwoo Jeon, Jongseong Bae, Ha Young Kim
➡️ 研究机构: Yonsei University
➡️ 问题背景:手语翻译(SLT)是一项具有挑战性的任务,旨在将手语视频转换为口语句子。为了成功完成这一任务,SLT模型需要克服模态差距,识别手语组件的细微变化,并准确理解其含义。现有的基于词汇表的SLT模型虽然通过中层监督提高了性能,但依赖于劳动密集型的词汇注释,存在可扩展性和信息瓶颈的问题。因此,研究团队提出了一种新的无词汇表SLT框架——多模态手语翻译(MMSLT),利用现成的多模态大语言模型(MLLMs)来生成手语组件的详细文本描述,并通过多模态语言预训练模块将这些描述与手语视频特征融合,对齐到口语句子空间。
➡️ 研究动机:现有的无词汇表SLT模型虽然能够提取视觉特征并转换为文本表示,但这些特征可能受到与SLT无关的视觉信息(如背景元素或服装颜色)的影响,限制了其对手语组件的准确表示。为了克服这些挑战,研究团队提出通过多模态大语言模型(MLLMs)生成手语组件的详细文本描述,以提供更准确和易于理解的表示,从而减少模态差距,提高翻译准确性。
➡️ 方法简介:研究团队提出了MMSLT框架,包括两个主要模块:1)通过MLLM生成手语描述(GSD-MLLM)模块,利用预训练的MLLM生成手语视频的详细文本描述;2)多模态语言预训练(MMLP)模块,将手语视频和相应的文本描述融合,并对齐到目标口语句子空间,减少模态差距。此外,为了提高效率,研究团队还引入了一个描述映射器,通过预测描述嵌入特征来减轻推理过程中的计算负担。
➡️ 实验设计:研究团队在两个基准数据集PHOENIX14T和CSL-Daily上进行了广泛的实验,评估了MMSLT在不同条件下的性能。实验设计了不同的提示类型和多模态大语言模型,以全面评估模型生成手语描述的能力和翻译准确性。实验结果表明,MMSLT在两个数据集上均显著优于现有的无词汇表SLT方法,特别是在大规模的CSL-Daily数据集上表现尤为突出,显著提高了BLEU-4和ROUGE分数,表明其在复杂语法和长上下文中的有效翻译能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/914793.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/914793.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

面试150——数组字符串

88. 合并两个有序数组 给你两个按 非递减顺序 排列的整数数组 nums1 和 nums2,另有两个整数 m 和 n ,分别表示 nums1 和 nums2 中的元素数目。请你 合并 nums2 到 nums1 中,使合并后的数组同样按 非递减顺序 排列。倒序比较,避免覆…

深入理解设计模式:命令模式详解

在软件开发中,我们经常遇到需要将"请求"或"操作"封装成对象的情况。比如,GUI中的按钮点击、遥控器控制家电、事务系统中的操作回滚等场景。命令模式(Command Pattern)正是为解决这类问题而生的设计模式。本文…

自己写的 MyHttpServlet 和直接继承 HttpServlet 的区别

继承你自己写的 MyHttpServlet 和直接继承 HttpServlet 的区别如下:1. 继承 HttpServlet(官方推荐用法)HttpServlet 是 Java EE 官方提供的 Servlet 基类,已经实现了 Servlet 接口的大部分方法。它内部已经实现了 service() 方法&…

python库 maya 库的各种案例的使用详解(人性化的日期时间处理)

文章目录 一、Maya库概述 1.1 maya介绍 1.2 安装 maya 1.3 注意事项 二、基本使用 2.1 创建 MayaDT 对象 2.2 格式化输出 2.3 时间运算 三、高级使用 3.1 时区处理 3.2 时间间隔 3.3 网络时间获取 四、实际应用示例 4.1 日志时间处理 4.2 会议时间提醒 4.3 国际化时间显示 5. M…

企业选择大带宽服务器租用的原因有哪些?

大带宽服务器作为各个行业使用较多的服务器类型,可以为企业提供更高的数据传输速率,极大缩短文件上传与下载时间,对于大型文件,大带宽服务器能够将时间大幅缩减至数分钟或数小时,提高企业整体的工作效率。大带宽服务器…

使用canal同步分库分表数据,到 Elasticsearch

作者:小凯 沉淀、分享、成长,让自己和他人都能有所收获! 本文的宗旨在于通过简单干净实践的方式教会读者,配置出一套 Canal 工具服务,来同步分库分表的数据到 Elasticsearch 文件夹系统中。同时在 SpringBoot 工程中&a…

气候为何愈演愈“炙” — 未来五年高温趋势与 AI 气象大模型的突破性价值

早、更准 代表性模型 主要特征 应用进展 GraphCast(DeepMind) 10 天全球预报;0.25 分辨率;< 1 min 推理 90 % 指标超 ECMWF HRES,已用于极端风暴提前锁定Google DeepMind MetNet-3(Google Research) 1–4 km 分辨率;2 min 时序;24 h 区域精细预报 美东、欧洲已在 G…

LVS四种模式及部署NAT、DR模式集群

1、lvs简介LVS:Linux Virtual Server&#xff0c;负载调度器&#xff0c;内核集成&#xff0c;章文嵩&#xff0c;阿里四层SLB(ServerLoadBalance)是基于LVSkeepalived实现LVS 官网: http://www.linuxvirtualserver.org/LVS 相关术语VS: Virtual Server&#xff0c;负责调度RS:…

【Linux】Ubuntu22.04安装zabbix

官方文档&#xff1a;zabbix安装文档 环境如下 环境版本nginx1.26.3zabbix7.0.16mysql8.0.41 安装nginx和mysql 一键部署脚本 部署zabbix #!/bin/bash wget https://repo.zabbix.com/zabbix/7.0/ubuntu/pool/main/z/zabbix-release/zabbix-release_latest_7.0ubuntu22.04_…

C++ - 仿 RabbitMQ 实现消息队列--sqlite与gtest快速上手

目录 SQLite 什么是 SQLite 为什么要用 SQLite SQLite3 C/C API 介绍 SQLite3 C/C API 使用 GTest GTest 是什么 GTest 使用 TEST 宏 断言 事件机制 全局事件 TestSuite 事件 SQLite 什么是 SQLite SQLite 是一个进程内的轻量级数据库&#xff0c;它实现了自给自足…

Web3.0 学习方案

Web3.0 学习方案 一、学习方案 &#xff08;一&#xff09;入门阶段 1. 了解 Web3.0 基础概念 学习内容&#xff1a; Web3.0 的起源、愿景、与 Web2.0 的区别区块链的基本概念&#xff1a;分布式账本、哈希、公钥/私钥、共识机制&#xff08;PoW、PoS、DPoS、PBFT 等&#xff0…

springboot3.5.3依赖学习

springboot3.5.3依赖学习 ​ Spring Boot BOM&#xff08;spring-boot-dependencies&#xff09;是 Spring 官方维护的超级依赖清单&#xff0c;覆盖了 Spring 生态中几乎所有核心库、常用工具库及第三方依赖。其作用是统一管理这些依赖的版本&#xff0c;确保它们相互兼容。以…

制作一款打飞机游戏80:道具碰撞

目前我们仍然无法拾取这些物品&#xff0c;它们只是简单地掉落在地上。因此&#xff0c;我们需要对这些功能进行增强。目标‌弹射物品‌&#xff1a;当物品生成时&#xff0c;我们希望它们能以一定的力量弹出&#xff0c;而不是无力地掉落。‌添加不同类型的物品‌&#xff1a;…

Python编程基础(六)| 用户输入和while循环

引言 很久没有写 Python 了&#xff0c;有一点生疏。这是学习《Python 编程&#xff1a;从入门到实践&#xff08;第3版&#xff09;》的课后练习记录&#xff0c;主要目的是快速回顾基础知识。 练习1&#xff1a;汽车租赁 编写一个程序&#xff0c;询问用户要租什么样的汽车&a…

【华为机试】HJ52 计算字符串的编辑距离

文章目录HJ52 计算字符串的编辑距离描述输入描述输出描述示例1HJ52 计算字符串的编辑距离描述输入描述输出描述示例1解题思路算法分析动态规划状态转移状态转移方程算法流程图DP表格示例三种操作详解代码实现思路时间复杂度分析关键优化技巧实际应用场景算法扩展面试考点完整题…

15.手动实现BatchNorm(BN)

15.1 BatchNorm操作手动实现 import torch from torch import nndef batch_norm(X,gamma,beta,moving_mean,moving_var,eps,momentum):if not torch.is_grad_enabled():#这个是推理模式X_hat(X-moving_mean)/torch.sqrt(moving_vareps)else:assert len(X.shape) in (2,4)if le…

【项目实践】SMBMS(Javaweb版)汇总版

文章目录前期准备工作数据库、数据表创建web项目创建项目文件目录配置Tomcat&#xff0c;导入依赖建立实体类编写基础公共方法类导入基础资源登录功能登录页面持久层dao层的用户登录及接口实现dao层接口实现所需的方法业务层sevice层的接口的实现接口实现相关的业务逻辑编写ser…

隐藏源IP的核心方案与高防实践

一、源IP暴露的风险 直接DDoS攻击&#xff1a;2025年Q2全球DDoS攻击峰值达3.8Tbps&#xff08;来源&#xff1a;Cloudflare报告&#xff09;漏洞利用&#xff1a;暴露的SSH端口平均每天遭受12,000暴力破解尝试数据泄露&#xff1a;直接连接数据库风险提升300% 二、4种有效隐藏方…

深度学习图像分类数据集—五种电器识别分类

该数据集为图像分类数据集&#xff0c;适用于ResNet、VGG等卷积神经网络&#xff0c;SENet、CBAM等注意力机制相关算法&#xff0c;Vision Transformer等Transformer相关算法。 数据集信息介绍&#xff1a;五种电器识别分类&#xff1a;[notebook, phone, powerbank, tablet, w…

Windows11家庭版配置frigate 嵌入自研算法(基于Yolov8)-【2】

使用 YOLOv8 的 results.xyxy 结构&#xff0c;下面是一个完整的 MQTT 推送脚本&#xff0c;用于把识别到的目标&#xff08;比如突涌水、水渍、障碍物等&#xff09;发送到 Frigate 的 MQTT 接口。✅ 前提假设 YOLOv8 推理代码已经运行并生成 results.xyxy。每一行是 [x1, y1,…