多模态大模型研究每日简报【2025-08-05】

训练数据相关

EditGarment: An Instruction-Based Garment Editing Dataset Constructed with Automated MLLM Synthesis and Semantic-Aware Evaluation (https://arxiv.org/abs/2508.03497)：提出了一种自动化的流程，用于构建服装编辑数据集EditGarment，该数据集包含高质量的指令-图像对，旨在提升服装编辑任务中模型对服装语义和属性依赖的理解能力。使用 Fashion Edit Score，一个语义感知的评估指标，来保证数据质量。
Landsat30-AU: A Vision-Language Dataset for Australian Landsat Imagery (https://arxiv.org/abs/2508.03127)：为了促进卫星图像的自然语言交互，构建了Landsat30-AU数据集，该数据集包含澳大利亚30米分辨率的Landsat卫星图像，跨越36年。该数据集包括图像描述对和视觉问答样本，通过迭代优化和人工验证来确保数据质量。
ADS-Edit: A Multimodal Knowledge Editing Dataset for Autonomous Driving Systems (https://arxiv.org/abs/2503.20756)：为了提升大模型在自动驾驶系统中的应用，提出了一个多模态知识编辑数据集ADS-Edit，包含了真实场景、多种数据类型和全面的评估指标，旨在提高模型对交通知识、复杂路况和车辆状态的理解能力。
ChartCap: Mitigating Hallucination of Dense Chart Captioning (https://arxiv.org/abs/2508.03164)：提出ChartCap，一个大规模的图表数据集，包含565K真实世界的图表图像以及详细的描述。提出了一种新的评价指标，Visual Consistency Score，通过比较从描述中生成的图表和原始图表之间的相似性来评估描述的质量。【注：截止发稿日并未公布数据集】
OpenLifelogQA: An Open-Ended Multi-Modal Lifelog Question-Answering Dataset (https://arxiv.org/abs/2508.03583)：为了支持对个人生活数据的问答研究，提出了一个新的lifelog QA数据集OpenLifelogQA，该数据集基于一个为期18个月的lifelog数据集构建，专注于开放式和实用的QA，在日常lifelog使用中具有实际应用。
VLJailbreakBench (https://arxiv.org/abs/2411.00827)：构建了一个安全基准测试VLJailbreakBench，包含3,654个多模态越狱样本，通过评估在各个已发布的 VLM 模型上的漏洞揭示了当前安全对齐的重大差距。
WSI-LLaVA: A Multimodal Large Language Model for Whole Slide Image (https://arxiv.org/abs/2412.02141)：构建了一个大规模形态感知基准 WSI-Bench，包含来自 30 种癌症类型的 9,850 个 WSI 的 18 万个 VQA 对，旨在评估 MLLM 对病理诊断的关键形态特征的理解，并针对其病理环境开发了两个专业的 WSI 指标：WSI-Precision 和 WSI-Relevance。
Leveraging Vision-Language Models for Visual Grounding and Analysis of Automotive UI (https://arxiv.org/abs/2505.05895)：引入了一个视觉语言框架，以促进对汽车 UI 的理解和交互，并促进在不同 UI 设计之间的无缝适应，并发布了包含 4,208 个注释的 998 张图像的开源数据集 AutomotiveUI-Bench-4K。

训练策略

VRPRM: Process Reward Modeling via Visual Reasoning (https://arxiv.org/abs/2508.03556)：提出VRPRM，一个通过视觉推理的过程奖励模型，并设计了一个有效的两阶段训练策略。通过少量CoT-PRM数据和非CoT PRM数据，VRPRM可以超越非思考PRM，并在BoN实验中实现高达118%的相对性能提升。
VLMQ: Efficient Post-Training Quantization for Large Vision-Language Models via Hessian Augmentation (https://arxiv.org/abs/2508.03351)：针对视觉语言模型（VLM）的模态差异问题，提出了一种新颖的重要性感知量化后训练框架VLMQ，通过优化重要性感知的目标函数，增强Hessian矩阵，并进行高效的token级扰动计算，从而提升量化性能。
Individual Content and Motion Dynamics Preserved Pruning for Video Diffusion Models (https://arxiv.org/abs/2411.18375)：介绍了一种新的视频扩散模型压缩方法，采用保留个体内容和运动动力学的剪枝和一致性损失，通过移除浅层中的冗余块同时保留更多深层，并提出个体内容和运动动力学（ICMD）一致性损失来实现可比拟的生成性能。
V.I.P. : Iterative Online Preference Distillation for Efficient Video Diffusion Models (https://arxiv.org/abs/2508.03254)：针对文本到视频（T2V）模型部署在资源受限环境中的需求，提出了一种有效的蒸馏方法ReDPO，结合了DPO和SFT，同时提出了一个新颖的V.I.P.框架，用于过滤和管理高质量的配对数据集，以及用于校准训练的逐步在线方法。
Causal Disentanglement and Cross-Modal Alignment for Enhanced Few-Shot Learning (https://arxiv.org/abs/2508.03102)：提出了Causal CLIP Adapter (CCA)，该框架使用无监督独立成分分析 (ICA) 显式地解开从 CLIP 提取的视觉特征，并增强 CLIP 的跨模态对齐，从而改进少样本学习。
Learning Only with Images: Visual Reinforcement Learning with Reasoning, Rendering, and Visual Feedback (https://arxiv.org/abs/2507.20766)：通过“推理-渲染-视觉反馈”（RRVF）框架，使 MLLM 仅从原始图像中学习复杂的视觉推理，该框架基于“验证不对称性”原则，减少了对图像文本监督的依赖。

大模型的行业应用

Probing the Gaps in ChatGPT Live Video Chat for Real-World Assistance for People who are Blind or Visually Impaired (https://arxiv.org/abs/2508.03651)：通过与视障人士的探索性研究，评估了ChatGPT在实时视频场景中为视障人士提供帮助的能力，发现当前系统在动态场景中存在不足，并讨论了辅助视频AI代理的未来发展方向。
Guided Reality: Generating Visually-Enriched AR Task Guidance with LLMs and Vision Models (https://arxiv.org/abs/2508.03547)：提出了一个完全自动化的AR系统Guided Reality，该系统基于逐步指令生成嵌入式和动态视觉指导。集成了LLM和视觉模型，以从用户查询生成多步骤指令，识别适当类型的视觉指导，提取关于现实世界中关键交互点的空间信息，并在物理空间中嵌入视觉指导以支持任务执行。
R2GenKG: Hierarchical Multi-modal Knowledge Graph for LLM-based Radiology Report Generation (https://arxiv.org/abs/2508.03426)：构建了一个大规模的多模态医学知识图谱M3KG，并提出了一个基于知识图谱和LLM的X光报告生成框架，以提高报告质量并减少幻觉。
When Good Sounds Go Adversarial: Jailbreaking Audio-Language Models with Benign Inputs (https://arxiv.org/abs/2508.03365)：介绍了一种新的对抗性音频攻击框架WhisperInject，该框架可以通过在音频输入中嵌入难以察觉的扰动来操纵音频语言模型生成有害内容，揭示了一种可行的、隐蔽的操纵AI行为的方法。
CogBench: A Large Language Model Benchmark for Multilingual Speech-Based Cognitive Impairment Assessment (https://arxiv.org/abs/2508.03360)：提出了CogBench，旨在评估大型语言模型（LLM）在基于语音的认知障碍评估中的跨语言和跨站点泛化能力，为构建临床实用且具有语言鲁棒性的语音认知评估工具提供关键步骤。
A Closed-Loop Multi-Agent Framework for Aerodynamics-Aware Automotive Styling Design (https://arxiv.org/abs/2508.03370)：提出了一个由LLM驱动的多智能体框架，可以自动执行从模糊需求到3D概念模型性能验证的端到端工作流程，旨在在汽车外观设计中平衡主观美学和客观空气动力学性能。
ADS-Edit: A Multimodal Knowledge Editing Dataset for Autonomous Driving Systems (https://arxiv.org/abs/2503.20756)：针对 LMM 直接应用于 ADS 的挑战，提出了 ADS-Edit，一个专为 ADS 设计的多模态知识编辑数据集，其中包含各种真实世界的场景、多种数据类型和全面的评估指标。
CAMEF: Causal-Augmented Multi-Modality Event-Driven Financial Forecasting by Integrating Time Series Patterns and Salient Macroeconomic Announcements (https://arxiv.org/abs/2502.04592)：提出了 CAMEF（因果增强多模态事件驱动金融预测），这是一个多模态框架，通过因果学习机制和基于 LLM 的反事实事件增强技术，有效地整合了文本和时间序列数据，用于因果增强金融预测。

文生图/文生视频

LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation (https://arxiv.org/abs/2508.03694)：提出了LongVie，一个用于可控长视频生成的端到端自回归框架。LongVie引入了统一的噪声初始化策略和全局控制信号归一化，以确保时间一致性，并采用多模态控制框架和降级感知训练策略，以减轻视觉退化。
READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation (https://arxiv.org/abs/2508.03457)：提出了READ，第一个基于实时扩散-transformer的说话头生成框架。通过时间VAE学习时空高度压缩的视频潜在空间，并通过异步噪声调度器（ANS）确保生成视频片段的时间一致性。
Skywork UniPic: Unified Autoregressive Modeling for Visual Understanding and Generation (https://arxiv.org/abs/2508.03320)：提出了Skywork UniPic，一个15亿参数的自回归模型，它在一个单一架构中统一了图像理解、文本到图像生成和图像编辑，而不需要特定于任务的适配器或模块间连接器。
AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation (https://arxiv.org/abs/2508.00733)：提出了AudioGen-Omni，一个基于多模态扩散转换器（MMDit）的统一方法，能够生成与输入视频连贯同步的高保真音频、语音和歌曲。采用了一种新的联合训练模式，无缝地整合了大规模的视频-文本-音频语料库。
TextCrafter: Accurately Rendering Multiple Texts in Complex Visual Scenes (https://arxiv.org/abs/2503.23461)：提出了一种新的多视觉文本渲染方法 TextCrafter，该方法采用渐进式策略将复杂的视觉文本分解为不同的组成部分，同时确保文本内容与其视觉载体之间具有强大的对齐。

底层模型架构

MoCHA: Advanced Vision-Language Reasoning with MoE Connector and Hierarchical Group Attention (https://arxiv.org/abs/2507.22805)：设计了一种新型视觉框架 MoCHA，集成了四个视觉骨干网络（CLIP、SigLIP、DINOv2 和 ConvNeXt）以提取互补的视觉特征，并配备了一个稀疏的混合专家连接器 (MoEC) 模块，以及一个分层分组注意力 (HGA) 机制，用于编码的视觉特征。
UniEdit-I: Training-free Image Editing for Unified VLM via Iterative Understanding, Editing and Verifying (https://arxiv.org/abs/2508.03142)：介绍了一种新颖的免训练框架 UniEdit-I，通过三个迭代步骤使统一的 VLM 具备图像编辑能力：理解、编辑和验证。

其他

Can Large Vision-Language Models Understand Multimodal Sarcasm? (https://arxiv.org/abs/2508.03654)：评估了大型视觉语言模型(LVLMs)在多模态讽刺分析(MSA)任务中的表现，发现其在视觉理解和概念知识方面存在局限性，并提出了一个无训练框架，整合了深入的对象提取和外部概念知识，以提高模型在多模态上下文中解释和解释讽刺的能力。
Are We on the Right Way for Assessing Document Retrieval-Augmented Generation? (https://arxiv.org/abs/2508.03644)：提出了Double-Bench，一个新的大规模、多语言、多模态评估系统，能够对文档RAG系统中的每个组件进行细粒度的评估。该系统包含3,276份文档（72,880页）和5,168个跨6种语言和4种文档类型的单跳和多跳查询。
LaTCoder: Converting Webpage Design to Code with Layout-as-Thought (https://arxiv.org/abs/2508.03560)：提出LaTCoder，一种新颖的方法，通过Layout-as-Thought (LaT)增强代码生成过程中网页设计的布局保持。首先将网页设计划分为图像块，然后使用CoT方法提示MLLM为每个块生成代码，最后应用两种组装策略来确定最佳输出。
Quality-Aware Language-Conditioned Local Auto-Regressive Anomaly Synthesis and Detection (https://arxiv.org/abs/2508.03539)：提出ARAS，一种语言条件下的自回归异常合成方法，通过token锚定的潜在编辑将本地的、文本指定的缺陷精确地注入到正常图像中。此外，还提出了QARAD框架，采用动态加权策略，通过计算图像-文本相似度得分来强调高质量的合成样本。
UniME (https://arxiv.org/abs/2504.17432)：提出 UniME（通用多模态嵌入），一种新颖的两阶段框架，该框架利用 MLLM 来学习各种下游任务的区分性表示，并设计了“硬负例增强指令微调”，从而提高判别能力。
What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study (https://arxiv.org/abs/2506.12537)：系统地研究了语音分词器设计在以 LLM 为中心的 SLM 中的作用，并引入多令牌预测 (MTP) 到 SLM 中，从而使每个隐藏状态能够解码多个语音令牌。

编辑精选

Are We on the Right Way for Assessing Document Retrieval-Augmented Generation? (https://arxiv.org/abs/2508.03644)：该论文提出了一个更全面的文档RAG评估基准，解决了当前评估方法在真实性和完整性方面的不足，对于推动文档RAG系统的发展具有重要意义。
Probing the Gaps in ChatGPT Live Video Chat for Real-World Assistance for People who are Blind or Visually Impaired (https://arxiv.org/abs/2508.03651)：这项工作通过实际用户测试，揭示了现有视觉模型在辅助视障人士方面的局限性，对于改进相关应用具有指导意义。
When Good Sounds Go Adversarial: Jailbreaking Audio-Language Models with Benign Inputs (https://arxiv.org/abs/2508.03365)：该论文提出了一种新颖的对抗性攻击方法，能够通过音频输入操纵AI模型生成有害内容，突显了音频安全的重要性，并为防御此类攻击提供了新的视角。
ChartCap: Mitigating Hallucination of Dense Chart Captioning (https://arxiv.org/abs/2508.03164)：该论文针对图表描述中的幻觉问题，提出了一个高质量的数据集和评估指标，有助于推动更准确的图表理解和生成。
VLMQ: Efficient Post-Training Quantization for Large Vision-Language Models via Hessian Augmentation (https://arxiv.org/abs/2508.03351)：在资源受限情况下，有效地量化和部署大型视觉-语言模型仍然是一项具有挑战性的任务，该论文通过利用 Hessian 谱信息来识别和减轻不同模态对量化敏感的影响，实现有效的视觉-语言模型量化。