多模态大语言模型arxiv论文略读（六十）

请添加图片描述

Cantor: Inspiring Multimodal Chain-of-Thought of MLLM

➡️ 论文标题：Cantor: Inspiring Multimodal Chain-of-Thought of MLLM
➡️ 论文作者：Timin Gao, Peixian Chen, Mengdan Zhang, Chaoyou Fu, Yunhang Shen, Yan Zhang, Shengchuan Zhang, Xiawu Zheng, Xing Sun, Liujuan Cao, Rongrong Ji
➡️ 研究机构: Xiamen University、Tencent Youtu Lab
➡️ 问题背景：大型语言模型（LLMs）通过链式思维（CoT）方法在解决推理任务中表现出色。然而，现有的多模态CoT方法在决策生成阶段往往直接输入纯文本，缺乏视觉上下文，导致“确定性幻觉”；在执行阶段，依赖低级视觉感知工具，无法提供抽象总结，限制了模型的推理能力。
➡️ 研究动机：为了克服现有方法的局限性，研究团队提出了一种新的多模态CoT框架——Cantor，旨在通过整合视觉上下文和逻辑推理，提高模型在视觉推理任务中的表现。
➡️ 方法简介：Cantor框架分为两个阶段：决策生成和执行。在决策生成阶段，Cantor通过分析图像和问题，生成详细的决策，包括问题解决策略、专家模块选择及具体任务分配。在执行阶段，Cantor利用单个多模态大型语言模型（MLLM）扮演多个专家角色，执行具体任务，最终生成答案。
➡️ 实验设计：研究团队在两个复杂的视觉推理数据集（ScienceQA和Mathvista）上进行了实验，验证了Cantor框架的有效性。实验结果表明，Cantor在使用Gemini作为决策生成器时，分别在两个数据集上获得了4.11%和5.9%的准确率提升；使用GPT-3.5时，准确率分别提升了2.24%和9.2%。

GUIDE: Graphical User Interface Data for Execution

➡️ 论文标题：GUIDE: Graphical User Interface Data for Execution
➡️ 论文作者：Rajat Chawla, Adarsh Jha, Muskaan Kumar, Mukunda NS, Ishaan Bhola
➡️ 研究机构: SuperAGI Research
➡️ 问题背景：当前的机器人过程自动化（RPA）主要依赖于预定义的脚本和规则，这限制了其适应性和响应性。随着人工智能的发展，特别是多模态大语言模型（MLLMs）的进步，RPA系统有望实现更智能的GUI交互，类似于人类操作员。然而，现有的数据集往往集中在任务的孤立方面，如对象识别或序列预测，而缺乏对行动定位（action grounding）的整合。
➡️ 研究动机：为了克服现有数据集的局限性，研究团队创建了GUIDE（Graphical User Interface Data for Execution）数据集，旨在通过数据驱动的学习来革新RPA模型的训练。GUIDE数据集不仅包含了图像数据、任务描述、行动历史、思维链（COT）和行动的空间定位，还涵盖了多种网络应用和服务，为训练多平台LLMs提供了全面的基础。
➡️ 方法简介：GUIDE数据集的创建过程包括四个阶段：预数据收集、NEXTAG（Next Action Grounding and Annotation Tool）工具的使用、质量检查和后期处理。NEXTAG工具自动记录用户在浏览器中的所有操作，提供精确的行动定位，显著提高了数据标注的效率和准确性。质量检查确保数据的准确性和一致性，而后期处理则通过增加思维链、行动历史和数据增强等步骤，进一步丰富了数据集。
➡️ 实验设计：GUIDE数据集被用于训练V-Zen，这是第一个能够自动化多个网站操作的RPA模型。实验设计了不同任务的复杂度分析，从简单的单步操作到复杂的多步骤工作流，以评估模型在不同任务难度下的表现。此外，数据集还通过多种浏览器、操作系统和显示格式的数据增强，确保模型能够适应多样化的实际应用环境。

Semantically consistent Video-to-Audio Generation using Multimodal Language Large Model

➡️ 论文标题：Semantically consistent Video-to-Audio Generation using Multimodal Language Large Model
➡️ 论文作者：Gehui Chen, Guan’an Wang, Xiaowen Huang, Jitao Sang
➡️ 研究机构: 北京交通大学计算机科学与技术学院、北京交通数据分析与挖掘重点实验室、交通运输大数据与人工智能重点实验室（北京交通大学）、教育部
➡️ 问题背景：现有的视频生成技术虽然取得了显著进展，但生成的视频通常缺乏音效（SFX）和背景音乐（BGM），这限制了观众的沉浸式体验。自动化的音频生成方法能够更高效地为视频内容生成匹配的音频和音乐，从而提升视频生成的整体质量。
➡️ 研究动机：为了克服现有视频生成技术的局限性，研究团队提出了一种基于多模态大语言模型（MLLM）的语义一致的视频到音频生成框架（SVA）。该框架能够自动从视频内容中生成与之语义一致的音频，通过自然语言作为接口，提高了音频生成的效率和质量。
➡️ 方法简介：SVA框架主要包括三个关键步骤：1) 利用MLLM理解视频内容并生成音频和音乐方案；2) 使用生成模型根据方案生成相应的音频或音乐；3) 通过快速噪声检测、噪声减少和混音方法生成高质量的视频音频输出。研究团队通过选择关键帧来代表整个视频内容，利用MLLM生成创意的SFX和BGM方案，并通过AudioGen和MusicGen等模型生成音频，最后进行后处理以确保音频质量。
➡️ 实验设计：研究团队通过案例研究展示了SVA框架的有效性，并讨论了其局限性和未来的研究方向。实验中，研究团队使用了FFmpeg等工具进行关键帧提取、音频生成和后处理，确保生成的音频与视频内容在语义上保持一致，提供了观众沉浸式的视听体验。

Energy-Latency Manipulation of Multi-modal Large Language Models via Verbose Samples

➡️ 论文标题：Energy-Latency Manipulation of Multi-modal Large Language Models via Verbose Samples
➡️ 论文作者：Kuofeng Gao, Jindong Gu, Yang Bai, Shu-Tao Xia, Philip Torr, Wei Liu, Zhifeng Li
➡️ 研究机构: Tsinghua University, Peng Cheng Laboratory, University of Oxford, Tencent Technology (Beijing) Co.Ltd, Tencent Data Platform
➡️ 问题背景：多模态大型语言模型（MLLMs）在多种多模态任务中表现出色，但其部署需要大量的计算资源。恶意用户可以通过诱导高能耗和延迟时间（能量-延迟成本）来耗尽计算资源，从而影响服务的可用性。研究发现，通过最大化生成序列的长度，可以操纵MLLMs的能量-延迟成本。因此，研究团队提出了一种方法，通过构建冗长样本（包括冗长图像和视频）来诱导高能量-延迟成本。
➡️ 研究动机：现有的研究已经揭示了如何通过增加生成序列的长度来操纵高能量-延迟成本。为了进一步探索这一问题，研究团队提出了一种系统的方法，通过设计延迟EOS损失、增加输出不确定性、提高多样性等手段，来诱导MLLMs生成更长的序列，从而增加能量-延迟成本。
➡️ 方法简介：研究团队提出了两种模态非特定损失目标，包括延迟EOS损失和不确定性损失，以及两种模态特定损失目标，即冗长图像的令牌多样性损失和冗长视频的帧特征多样性损失。为了平衡这些损失，研究团队还提出了一种时间权重调整算法。通过这些方法，研究团队构建了冗长样本，以诱导MLLMs生成更长的序列。
➡️ 实验设计：研究团队在MS-COCO、ImageNet、MSVD和TGIF四个数据集上进行了实验，评估了冗长样本对图像和视频模态的MLLMs的影响。实验设计了不同的因素（如扰动幅度、对抗性知识和多模态任务类型），以全面评估冗长样本的有效性和鲁棒性。实验结果表明，冗长样本可以显著增加生成序列的长度，从而诱导高能量-延迟成本。

TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning

➡️ 论文标题：TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning
➡️ 论文作者：Liang Zhang, Anwen Hu, Haiyang Xu, Ming Yan, Yichen Xu, Qin Jin, Ji Zhang, Fei Huang
➡️ 研究机构: 中国人民大学、阿里巴巴集团
➡️ 问题背景：图表是展示和解释复杂数据关系的重要工具，近年来，多模态大语言模型（MLLMs）在各种图表理解任务中展现了显著的能力。然而，这些模型的参数量庞大，计算需求高，限制了它们在资源受限环境中的应用。此外，这些模型在处理涉及数值计算的问题时容易出错，且在高效编码高分辨率图像方面存在挑战。
➡️ 研究动机：尽管现有的图表理解模型在性能上有所提升，但它们的参数量庞大，难以在资源受限的环境中部署。此外，这些模型在数值计算和高分辨率图像编码方面存在不足。为了克服这些限制，研究团队提出了TinyChart，一个参数量仅为3B的高效多模态图表理解模型。
➡️ 方法简介：研究团队提出了两种关键技术来提升TinyChart的性能和效率：

视觉令牌合并（Visual Token Merging）：通过在每个视觉变换器层中合并相似的视觉令牌，显著减少了视觉特征序列的长度，使得模型能够高效地处理高分辨率图像。
程序思维学习（Program-of-Thoughts Learning）：通过训练模型生成Python代码来解决数值计算问题，提高了模型在数值问题上的解答能力。研究团队还构建了ChartQA-PoT数据集，包含140,584个（问题，程序思维答案）对，以支持程序思维学习。
➡️ 实验设计：研究团队在多个公开数据集上进行了实验，包括ChartQA、Chart-to-Text、Chart-to-Table、OpenCQA等。实验结果表明，TinyChart在这些基准测试中取得了最先进的性能，尤其是在数值计算问题上表现突出。此外，TinyChart在推理速度上也表现出色，由于模型规模较小且视觉编码更高效，其推理吞吐量显著高于其他模型。