多模态大语言模型arxiv论文略读（135）

在这里插入图片描述

Agent S: An Open Agentic Framework that Uses Computers Like a Human

➡️ 论文标题：Agent S: An Open Agentic Framework that Uses Computers Like a Human
➡️ 论文作者：Saaket Agashe, Jiuzhou Han, Shuyu Gan, Jiachen Yang, Ang Li, Xin Eric Wang
➡️ 研究机构: Simular Research
➡️ 问题背景：当前的自动化GUI代理在处理复杂的多步骤任务时面临三大挑战：获取特定领域的知识、进行长期任务规划、以及处理动态的非均匀界面。这些问题限制了代理在不同操作系统和应用中的通用性和效率。
➡️ 研究动机：为了克服上述挑战，研究团队开发了Agent S，一个开放的代理框架，旨在通过图形用户界面（GUI）实现与计算机的自主交互，从而自动化复杂的多步骤任务。Agent S通过整合经验增强的层次规划、自我监督的持续记忆更新和代理-计算机接口（ACI），提高了代理在执行任务时的效率和适应性。
➡️ 方法简介：研究团队提出了经验增强的层次规划方法，该方法利用外部网络知识和代理的内部记忆，将复杂的长期任务分解为可执行的子任务。此外，团队还扩展了ACI的概念，允许基于多模态大语言模型（MLLMs）的代理更精确地操作计算机，使用一组高级预定义的原始动作。ACI通过视觉增强的可访问性树观察和有界的动作空间，确保了代理的精确感知和行动。
➡️ 实验设计：研究团队在OSWorld基准上进行了实验，该基准测试了多模态代理在真实计算机环境中执行广泛计算机任务的能力。实验涵盖了操作系统、办公软件、日常应用、专业软件和工作流程等多个类别。此外，团队还在WindowsAgentArena基准上评估了Agent S的性能，以验证其在不同操作系统上的通用性。实验结果表明，Agent S在OSWorld上的成功率提高了83.6%，并在WindowsAgentArena上也表现出显著的性能提升。

Sample then Identify: A General Framework for Risk Control and Assessment in Multimodal Large Language Models

➡️ 论文标题：Sample then Identify: A General Framework for Risk Control and Assessment in Multimodal Large Language Models
➡️ 论文作者：Qingni Wang, Tiantian Geng, Zhiyuan Wang, Teng Wang, Bo Fu, Feng Zheng
➡️ 研究机构: University of Electronic Science and Technology of China、Southern University of Science and Technology, China、University of Birmingham、The University of Hong Kong
➡️ 问题背景：多模态大语言模型（Multimodal Large Language Models, MLLMs）在各种任务中展现了显著的进步，但它们在可信度方面仍面临重大问题，如幻觉（hallucination）和生成偏差。这些问题导致了非事实信息和有偏见的生成，引发了社会对基础模型在面向消费者应用中可靠部署的担忧。现有的不确定性估计方法虽然提供了有价值的见解，但无法保证错误率，且在动态、开放的环境中适应性较差。
➡️ 研究动机：为了应对这些挑战，研究团队开发了一个两步框架TRON，用于风险控制和评估，适用于支持采样的任何MLLM，无论是开放性任务还是封闭性任务。TRON通过引入新的符合性评分和非符合性评分，解决了现有方法的局限性，如依赖内部模型logits或仅限于多项选择设置。此外，研究团队还首次探讨了开放性任务中预测集的语义冗余对风险评估的影响。
➡️ 方法简介：TRON框架包含两个主要部分：（1）一种新的符合性评分，用于确定最小响应样本数量，以控制错误率；（2）一种非符合性评分，基于自一致性理论，用于识别高质量响应，控制两个特定风险水平下的错误率。此外，研究团队还探讨了预测集在开放性任务中的语义冗余对风险评估的影响，发现去重后的预测集大小可以更稳定地估计模型的不确定性。
➡️ 实验设计：研究团队在四个视频问答（VideoQA）数据集上进行了实验，包括两个封闭性任务数据集（Video-MME和NExT-QA）和两个开放性任务数据集（MUSIC-AVQA和MSVD），使用了五个开源MLLMs和三个闭源MLLMs。实验结果表明，TRON能够在不同用户指定的风险水平下保证错误率，并且去重后的平均预测集大小提供了稳定的不确定性估计，适用于不同风险水平下的MLLM评估。此外，研究团队还探讨了音频模态对MLLM性能的影响，发现引入音频信息可以提高模型的准确性并降低不确定性。

Baichuan-Omni Technical Report

➡️ 论文标题：Baichuan-Omni Technical Report
➡️ 论文作者：Yadong Li, Haoze Sun, Mingan Lin, Tianpeng Li, Guosheng Dong, Tao Zhang, Bowen Ding, Wei Song, Zhenglin Cheng, Yuqi Huo, Song Chen, Xu Li, Da Pan, Shusen Zhang, Xin Wu, Zheng Liang, Jun Liu, Tao Zhang, Keer Lu, Yaqi Zhao, Yanjun Shen, Fan Yang, Kaicheng Yu, Tao Lin, Jianhua Xu, Zenan Zhou, Weipeng Chen
➡️ 研究机构: Baichuan Inc., Westlake University, Zhejiang University
➡️ 问题背景：当前的多模态大语言模型（Multimodal Large Language Models, MLLMs）在处理和分析图像、视频、音频和文本等多模态数据方面展现出了显著的能力，但开源解决方案在多模态能力和用户体验质量方面仍存在明显不足。这些不足限制了模型在自然语言处理、计算机视觉等领域的广泛应用。
➡️ 研究动机：为了解决现有开源多模态模型的不足，研究团队开发了Baichuan-omni，这是一个开源的7B多模态大语言模型，能够同时处理文本、图像、视频和音频输入，并提供先进的多模态交互体验。研究旨在通过提供一个强大的开源基线模型，促进多模态理解和实时交互的发展。
➡️ 方法简介：研究团队提出了一种有效的多模态训练方案，包括三个核心阶段：1) 高质量多模态数据的构建，2) 多模态对齐预训练，3) 多模态监督微调。该方案利用了大量的高质量多模态数据，通过图像-语言、视频-语言和音频-语言分支的训练，使模型能够有效地处理视觉和音频数据。
➡️ 实验设计：在多个公开数据集上进行了实验，包括图像、视频和音频模态的基准测试。实验设计了多种任务，如视觉-语言理解、视频问答、音频识别等，以全面评估模型在不同模态下的性能。此外，还通过多任务微调进一步增强了模型的多模态指令跟随能力。

Dual-AEB: Synergizing Rule-Based and Multimodal Large Language Models for Effective Emergency Braking

➡️ 论文标题：Dual-AEB: Synergizing Rule-Based and Multimodal Large Language Models for Effective Emergency Braking
➡️ 论文作者：Wei Zhang, Pengfei Li, Junli Wang, Bingchuan Sun, Qihao Jin, Guangjun Bao, Shibo Rui, Yang Yu, Wenchao Ding, Peng Li, Yilun Chen
➡️ 研究机构: Tsinghua University, Lenovo Research, Harbin Institute of Technology, University of Chinese Academy of Sciences, Fudan University
➡️ 问题背景：自动紧急制动（AEB）系统是自动驾驶车辆中的关键安全功能，旨在通过自动激活刹车来减轻或防止碰撞。传统的AEB系统主要依赖于封闭集感知模块来识别交通状况和评估碰撞风险。然而，这些系统在处理复杂驾驶情况时的能力有限，因为缺乏对场景的全面理解。
➡️ 研究动机：为了提高AEB系统在开放场景中的适应性，研究团队提出了Dual-AEB系统，该系统结合了先进的多模态大语言模型（MLLM）以实现对驾驶环境的深入理解，并结合传统的基于规则的快速AEB模块以确保快速响应时间。这是首次将MLLMs整合到AEB系统中的尝试，旨在通过全面的场景理解来改善制动决策。
➡️ 方法简介：Dual-AEB系统由两个主要组件组成：快速模块（基于规则的AEB）和慢速模块（MLLM驱动的AEB）。快速模块负责初始决策，当触发时，将此初始决策打包成文本（AEB-Prompt），并发送给慢速模块。慢速模块利用MLLM分析接收到的信息，做出最终决策，确认或调整快速模块的初始决策。
➡️ 实验设计：研究团队在两个数据集上进行了实验，包括开放环路评估和闭合环路评估。开放环路评估使用了MM-AU和Bench2Drive数据集，闭合环路评估则使用了Bench2Drive基准。实验评估了模型预测的制动信号的准确性和生成文本的质量，以及模型的整体驾驶性能。主要指标包括精度（Precision）、召回率（Recall）、驾驶得分（Driving Score）、成功率（Success Rate）和碰撞率（Collision Rate）。实验结果表明，Dual-AEB系统在提高驾驶性能和减少碰撞率方面表现出色。

Skipping Computations in Multimodal LLMs

➡️ 论文标题：Skipping Computations in Multimodal LLMs
➡️ 论文作者：Mustafa Shukor, Matthieu Cord
➡️ 研究机构: Sorbonne University, Valeo.ai
➡️ 问题背景：大型语言模型（LLMs）在文本和多模态领域取得了显著的成功，但这种成功往往伴随着处理长序列多模态输入时的大量计算成本。这引发了对提高训练和推理效率的众多研究。本研究探讨了多模态大型语言模型（MLLMs）在推理过程中的计算冗余，并提出了不同的方法来跳过计算，如跳过整个块、前馈网络（FFN）或自注意力（SA）层，以及并行化某些层，如FFN和SA层。
➡️ 研究动机：现有的研究已经表明，LLMs在处理多模态任务时存在大量的计算冗余。为了进一步验证这一点，并探索减少计算成本的方法，研究团队通过实验验证了在推理过程中跳过计算的可能性，特别是在视觉问答（VQA）等任务中。研究还探讨了在训练过程中跳过计算，以同时减少训练和推理成本。
➡️ 方法简介：研究团队提出了一种框架，用于研究和比较不同的任务无关压缩方法，适用于图像、视频和音频语言任务。该框架包括冻结的LLM、可训练的映射模块（C）和冻结的感知编码器（EM），用于处理不同模态的输入。研究团队通过实验验证了跳过计算和并行化计算的效果，包括跳过整个块、FFN或SA层，以及并行化FFN和SA层。
➡️ 实验设计：实验在多个公开数据集上进行，包括视觉问答（VQA）和图像、视频、音频的描述任务。实验设计了不同的跳过策略，如跳过整个块、FFN或SA层，以及并行化FFN和SA层，以评估模型在不同条件下的性能变化。实验结果表明，跳过计算可以在保持性能的同时显著减少计算成本，特别是在VQA任务中。此外，研究还探讨了使用更小的LLMs进行训练的可能性，结果显示，适当训练的小型LLMs可以达到与大型LLMs相当的性能。