多模态大语言模型arxiv论文略读(四十七)

请添加图片描述

AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting

➡️ 论文标题:AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting
➡️ 论文作者:Yu Wang, Xiaogeng Liu, Yu Li, Muhao Chen, Chaowei Xiao
➡️ 研究机构: Peking University、University of Wisconsin–Madison、International Digital Economy Academy、University of California, Davis
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在视觉-语言推理能力方面取得了显著进展,但这些模型也面临着新的安全威胁,特别是结构化越狱攻击(structure-based jailbreak attacks)。这些攻击通过在图像中嵌入恶意内容,误导MLLMs生成有害响应,从而绕过模型的安全机制。
➡️ 研究动机:为了应对结构化越狱攻击,研究团队提出了一种新的防御框架——自适应屏蔽提示(Adaptive Shield Prompting, AdaShield)。该框架通过在模型输入前添加防御提示,无需微调MLLMs或训练额外模块,即可有效防御结构化越狱攻击,同时保持模型在标准良性任务上的性能。
➡️ 方法简介:研究团队首先设计了一个静态防御提示(AdaShield-Static, AdaShield-S),该提示能够有效防御结构化越狱攻击。为进一步提高防御效果,团队引入了一个自适应自动优化框架(AdaShield-Adaptive, AdaShield-A),该框架通过目标MLLM和防御者模型(Defender)的对话交互,自动优化防御提示,生成多样化的防御提示池,以适应不同的攻击场景。
➡️ 实验设计:研究团队在两个标准的结构化越狱攻击数据集(FigStep和QR)上进行了实验,验证了AdaShield-A的有效性。实验结果表明,AdaShield-A不仅能够有效防御结构化越狱攻击,而且不会影响模型在标准良性任务上的性能。

Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation

➡️ 论文标题:Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation
➡️ 论文作者:Yunhao Gou, Kai Chen, Zhili Liu, Lanqing Hong, Hang Xu, Zhenguo Li, Dit-Yan Yeung, James T. Kwok, Yu Zhang
➡️ 研究机构: Southern University of Science and Technology, Hong Kong University of Science and Technology, Huawei Noah’s Ark Lab
➡️ 问题背景:多模态大型语言模型(Multimodal Large Language Models, MLLMs)在多种任务中展现了强大的推理能力。然而,与传统的大型语言模型(LLMs)相比,MLLMs更容易受到越狱攻击。尽管MLLMs能够检测到不安全的响应,但研究发现,引入图像特征可以轻松绕过MLLMs的安全机制。
➡️ 研究动机:现有的研究已经揭示了图像特征可以显著削弱MLLMs的安全机制。为了进一步理解这些威胁,并探索其背后的原因,研究团队全面分析了MLLMs在引入图像特征后的安全评估能力,旨在为未来的安全防护提供有价值的见解和方法。
➡️ 方法简介:研究团队提出了一种名为ECSO(Eyes Closed, Safety On)的新型无训练保护方法,该方法利用MLLMs的内在安全意识,通过将不安全的图像转换为文本,激活预对齐LLMs的内在安全机制,从而生成更安全的响应。ECSO首先利用MLLMs的安全意识评估其自身响应的安全性,一旦检测到不安全的初始响应,ECSO会将图像输入转换为文本,减少MLLMs到(仅文本)LLMs,然后在没有图像的情况下生成安全响应。
➡️ 实验设计:研究团队在五个最先进的MLLMs上进行了实验,包括LLaVA-1.5-7B、ShareGPT4V-7B、mPLUG-OWL2-7B、Qwen-VL-Chat和InternLM-XComposer。实验在MM-SafetyBench和VLSafe数据集上进行,评估了ECSO在不同恶意内容(如非法活动、仇恨言论、恶意软件生成等)下的表现。实验结果表明,ECSO显著提高了模型的安全性,例如在MM-SafetyBench (SD+OCR)上提高了37.6%,在VLSafe上提高了71.3%,同时保持了模型在常见任务上的性能。此外,ECSO还可以作为数据引擎,生成监督微调(SFT)数据,用于MLLMs的对齐,而无需额外的人工干预。

MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

➡️ 论文标题:MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training
➡️ 论文作者:Brandon McKinzie, Zhe Gan, Jean-Philippe Fauconnier, Sam Dodge, Bowen Zhang, Philipp Dufter, Dhruti Shah, Xianzhi Du, Futang Peng, Floris Weers, Anton Belyi, Haotian Zhang, Karanjeet Singh, Doug Kang, Ankur Jain, Hongyu Hè, Max Schwarzer, Tom Gunter, Xiang Kong, Aonan Zhang, Jianyu Wang, Chong Wang, Nan Du, Tao Lei, Sam Wiseman, Guoli Yin, Mark Lee, Zirui Wang, Ruoming Pang, Peter Grasch, Alexander Toshev, Yinfei Yang
➡️ 研究机构: Apple
➡️ 问题背景:近年来,多模态大语言模型(MLLMs)在语言建模和图像理解方面取得了显著进展。这些模型通过大规模的图像-文本数据和计算资源,实现了高性能的多模态任务处理。然而,关于这些模型的具体构建过程,尤其是多模态预训练的细节,公开的信息较少。本研究旨在通过详细的实验和分析,提供构建高性能MLLMs的设计原则和教训。
➡️ 研究动机:现有的多模态大语言模型(MLLMs)在透明度上存在不足,大多数模型要么完全封闭,要么开放但缺乏详细的构建过程描述。为了推动该领域的研究,本研究详细记录了MLLMs的构建过程,并通过广泛的实验和分析,总结了构建高性能MLLMs的关键设计原则。
➡️ 方法简介:研究团队通过小规模的实验,对模型架构决策和预训练数据选择进行了广泛的消融实验。实验涉及了图像编码器、视觉-语言连接器和预训练数据的混合比例等多个方面。研究发现,图像分辨率、视觉编码器的损失和容量对模型性能影响最大,而视觉-语言连接器的设计影响相对较小。此外,研究还探讨了不同类型的预训练数据(图像-标题、交错图像-文本和纯文本数据)对模型性能的影响。
➡️ 实验设计:实验在多个公开数据集上进行,包括COCO Captioning、NoCaps、TextCaps、VQAv2、TextVQA、VizWiz、GQA和OK-VQA等。实验设计了不同条件下的零样本和少样本性能评估,以全面评估模型在不同任务上的表现。研究发现,交错图像-文本数据对少样本和纯文本任务性能提升显著,而图像-标题数据对零样本任务性能提升明显。此外,研究还发现,纯文本数据有助于保持模型的语言理解能力。

A Comprehensive Study of Multimodal Large Language Models for Image Quality Assessment

➡️ 论文标题:A Comprehensive Study of Multimodal Large Language Models for Image Quality Assessment
➡️ 论文作者:Tianhe Wu, Kede Ma, Jie Liang, Yujiu Yang, Lei Zhang
➡️ 研究机构: Tsinghua University、City University of Hong Kong、OPPO Research Institute、The Hong Kong Polytechnic University
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在视觉理解和推理方面取得了显著进展,但其作为图像质量评估(Image Quality Assessment, IQA)的强大、灵活、可解释和文本驱动模型的潜力尚未得到充分探索。IQA旨在开发计算模型以预测图像质量,这些模型应能模拟人类视觉系统(HVS)的感知。
➡️ 研究动机:尽管MLLMs在视觉任务中表现出色,但它们在IQA中的应用仍面临挑战,尤其是在细粒度质量区分和多图像质量分析方面。本研究旨在通过系统地评估不同的提示系统,探索MLLMs在IQA中的表现,以期为未来的模型优化提供指导。
➡️ 方法简介:研究团队设计了九种提示系统,结合了心理物理学中的标准化测试程序(单刺激、双刺激和多刺激方法)和自然语言处理中的流行提示策略(标准提示、上下文提示和链式思维提示)。此外,研究团队还提出了一种困难样本选择方法,以进一步挑战MLLMs,该方法考虑了样本的多样性和不确定性。
➡️ 实验设计:实验在全参考(Full-Reference, FR)和无参考(No-Reference, NR)场景下进行,使用了三个开源和一个闭源的MLLMs。实验评估了多个图像质量属性,包括结构和纹理失真、几何变换和颜色差异。实验结果表明,闭源的GPT-4V在人类感知的图像质量评估中表现较为合理,但在细粒度质量区分和多图像质量分析方面仍有不足。

Optimizing Language Augmentation for Multilingual Large Language Models: A Case Study on Korean

➡️ 论文标题:Optimizing Language Augmentation for Multilingual Large Language Models: A Case Study on Korean
➡️ 论文作者:ChangSu Choi, Yongbin Jeong, Seoyoon Park, InHo Won, HyeonSeok Lim, SangMin Kim, Yejee Kang, Chanhyuk Yoon, Jaewan Park, Yiseul Lee, HyeJin Lee, Younggyun Hahm, Hansaem Kim, KyungTae Lim
➡️ 研究机构: SeoulTech、Yonsei University、Teddysum、KISTI
➡️ 问题背景:大型语言模型(LLMs)通过预训练来预测后续词汇,但其扩展需要大量的计算资源。尽管许多大型科技公司和研究机构已经开发了多语言LLMs(MLLMs)以满足当前需求,但资源较少的语言(LRLs)仍然被忽视。例如,Llama2模型虽然支持28种语言,但用于韩语的数据仅占0.06%。这导致了韩语在词汇表达和语义理解上的显著挑战。
➡️ 研究动机:为了提高LRLs的性能,研究团队提出了三种策略:扩展LRLs的词汇量以增强表达能力;使用双语数据进行预训练以对齐高资源和低资源语言;构建高质量的小规模指令数据集并进行指令调优以增强LRLs的实用性。研究旨在通过这些策略提升韩语在Llama2模型中的表现。
➡️ 方法简介:研究团队首先扩展了Llama2的韩语词汇量,然后使用韩英双语语料库进行预训练,最后基于韩语LIMA数据集进行指令调优。通过这些方法,研究团队构建了Bllossom模型,旨在提高韩语在多种任务中的性能。
➡️ 实验设计:实验使用了Llama2模型,并在八个任务上进行了定量评估,包括自然语言推理(NLI)、语义文本相似度(STS)、主题分类(YNAT)等。此外,还进行了基于人类评价和GPT4的定性评估。实验结果表明,Bllossom模型在定性分析中优于其他韩语单语模型,性能提升从1.8%到8%不等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/81139.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/81139.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

美的人形机器人即将投入实际应用

国内家电巨头美的集团近日公布了其自主研发的人形机器人的具体落地计划。根据公司披露的信息,这款机器人将于5月在湖北荆州的洗衣机工厂率先投入使用,承担设备运维、质量检测和物料搬运等工作任务。预计今年下半年,该机器人还将进入美的线下门…

从零开始搭建你的个人博客:使用 GitHub Pages 免费部署静态网站

🌐 从零开始搭建你的个人博客:使用 GitHub Pages 免费部署静态网站 在互联网时代,拥有一个属于自己的网站不仅是一种展示方式,更是一种技术能力的体现。今天我们将一步步学习如何通过 GitHub Pages 搭建一个免费的个人博客或简历…

canvas动画:点随机运动 距离内自动连接成线 鼠标移动自动吸附附近的点

思路/实现步骤 创建canvas元素 获取canvas的上下文ctx 初始化点的信息(数量、初始坐标、移动方向、移动速度、大小、颜色) 绘制点 绘制点之间的连线 点有规律的动起来 动画循环 鼠标移动相关逻辑 点鼠标之间连线 鼠标吸附逻辑 添加配置项 重绘…

2025年4月AI科技领域周报(4.21-4.27):大模型生态加速演进 通用AI开启产业融合新范式

2025年4月AI科技领域周报(4.21-4.27):大模型生态加速演进 通用AI开启产业融合新范式 一、本周热点回顾1. OpenAI发布全球首款通用AI芯片「GPT-NPU」 重塑AI算力架构2. 谷歌DeepMind发布医疗AI系统「Med-Pathfinder」 实现全科室智能诊断3. 微…

【Bash】可以请您解释性地说明一下“2>1”这个语法吗?

Qwen3-235B 当然可以!我们一步步拆解 2>&1 的含义,用生活化的例子来理解它: 🧠 前提知识:三个“水流通道” 在 Linux/Unix 系统中,程序运行时有三种默认的“水流通道”: 标准输入&…

MAC如何安装多版本jdk(以8,11,17为例)

MAC如何安装多版本jdk(以8,11,17为例)_mac安装jdk17-CSDN博客

Nginx核心

一、概述 Nginx一个具有高性能的【HTTP】和【反向代理】的【WEB服务器】,同时也是一个电子邮件代理服务器。正向代理服务的是客户端(比如VPN),反向代理服务的是服务端。Nginx是多进程的,有一个Master进程控制多个Worke…

综合开发-手机APP远程控制PLC1500柱灯的亮灭

要通过 ​​Unity3D​​ 开发的手机 App 控制 ​​电气柜上面的柱灯,需要WIFI模块作为桥梁,按照以下步骤实现: ​​1. 硬件准备(硬件部分)​​ ​​所需材料​​ ​​ESP32开发板​​(如ESP32-WROOM-32&a…

五款提效工具

1. 亿可达 核心功能:通过“触发器动作”模式,实现任务自动执行(如邮件转发、评论回复、数据同步)。 适用场景:自动同步Notion项目到滴答清单生成待办事项 优势:节省重复操作时间,减少人为错误&a…

Docker化HBase排错实录:从Master hflush启动失败到Snappy算法未支持解决

前言 在容器化时代,使用 Docker 部署像 HBase 这样复杂的分布式系统也比较方便。社区也提供了许多方便的 HBase Docker 镜像,没有找到官方的 apache的,但有包含许多大数据工具的 harisekhon/hbase 或用于学习目的的 bigdatauniversity/hbase…

windows远程服务器数据库的搭建和远程访问(Mysql忘记密码通过Navicat连接记录解密密码)

服务器数据库的搭建和远程访问 mysql数据库安装(详细) window安装mysql详细流程 路程:重设MySQL5密码,发现远程服务器原本有一个MySQL5,尝试在服务器本地建立连接被拒绝,因为不知道密码。 (1…

每日c/c++题 备战蓝桥杯(P1093 [NOIP 2007 普及组] 奖学金)

洛谷P1093 [NOIP 2007 普及组] 奖学金 详解题解 题目背景与要求 题目链接:P1093 奖学金 核心任务:根据学生三科总分评选前5名奖学金获得者,需按特定规则排序输出。 排序规则(按优先级从高到低): 总分降…

openEuler 22.03 安装 Nginx,支持离线安装

目录 一、环境检查1.1 必要环境检查1.2 在线安装(有网络)1.3 离线安装(无网络) 二、下载Nginx2.1 在线下载2.2 离线下载 三、安装Nginx四、开机自启服务五、开放防火墙端口六、常用命令 一、环境检查 1.1 必要环境检查 # 查看 g…

基于深度学习的图像压缩技术(二)

接上篇:基于深度学习的图像压缩技术(一)-CSDN博客 3 基于生成对抗神经网络的图像压缩技术 生成对抗网络是一种先进的无监督学习算法,由Goodfellow等人在2014 年首次提出,其核心思想源于博弈论。 生成对抗网络在图像压…

TCP和UDP的数据传输+区别

目录 一、数据传输过程 1.1 TCP字节流服务图 1.2 UDP数据报服务图 二、tcp与udp的区别 1.连接方式 2.可靠性 3.传输效率 4.有序性 5.流量控制和拥塞控制 6.应用场景 7.首部长度 三、tcp与udp能不能使用同一个端口号? 四、同一个协议&#xf…

基于ssm的校园旧书交易交换平台(源码+文档)

项目简介 校园旧书交易交换平台的主要使用者分为: 前台功能:用户进入系统可以对首页、书籍信息、校园公告、个人中心、后台管理等功能进行操作; 后台主要是管理员,管理员功能包括主页、个人中心、学生管理、发布人管理、书籍分类…

虚假安全补丁攻击WooCommerce管理员以劫持网站

一场大规模钓鱼攻击正针对WooCommerce用户,通过伪造安全警报诱使他们下载所谓的"关键补丁",实则为植入WordPress后门的恶意程序。 恶意插件植入 根据Patchstack研究人员发现,上当受骗的用户在下载更新时,实际上安装的…

《冰雪传奇点卡版》:第二大陆介绍!

一、第二大陆:高阶资源与实力验证的核心战场 1. 准入条件与地图分布 进入门槛: 基础要求:角色需达到四转(需消耗50万元宝完成转生任务),部分地图需额外满足神魔点数(如黑暗之森需神魔全2&#…

信创系统图形界面开发指南:技术选择与实践详解

信创系统图形界面开发指南:技术选择与实践详解 🧑 博主简介:CSDN博客专家、CSDN平台优质创作者,高级开发工程师,数学专业,10年以上C/C, C#, Java等多种编程语言开发经验,拥有高级工程师证书&…

【人脸去遮挡前沿】三阶段级联引导学习如何突破真实场景遮挡难题?

一、现实痛点:当人脸被遮挡,AI “认脸” 有多难? 你是否遇到过这样的场景? 中考体育测试:2025 年天津泰达街中考考场要求考生 “脸部无遮挡” 才能通过人脸识别入场,戴口罩、帽子的学生需现场调整发型。智能门锁:奇景光电在 CES 2025 推出的 WiseEye 掌静脉模块,通过掌…