LED-Merging: 无需训练的模型合并框架,兼顾LLM安全和性能!!

摘要:对预训练大型语言模型(LLMs)进行微调以适应特定任务,会带来巨大的计算和数据成本。虽然模型合并提供了一种无需训练的解决方案,用于整合多个特定任务的模型,但现有方法存在安全性与效用性之间的冲突,即增强通用能力会降低安全防护。我们发现了两个根本原因:由于简单的基于参数大小的选择,导致神经元误识别,以及在合并过程中不同任务的神经元相互干扰。为了解决这些挑战,我们提出了LEDMerging,这是一个三阶段框架,通过基于梯度的归因来定位特定任务的神经元,通过多模型重要性融合动态选择关键神经元,并通过参数隔离来分离冲突的更新。在Llama-3-8B、Mistral-7B和Llama2-13B上的广泛实验表明,LEDMerging降低了有害响应率(例如,在HarmBench上Llama-3-8BInstruct降低了31.4%),同时保持了95%的效用性能(例如,在GSM8K上准确率为52.39%)。LEDMerging解决了安全性与效用性之间的冲突,并为构建可靠的多任务LLMs提供了一种轻量级、无需训练的范式。

一、背景动机

论文题目:LED-Merging: Mitigating Safety-Utility Conflicts in Model Merging with Location-Election-Disjoint

论文地址:https://arxiv.org/pdf/2502.16770

现有的模型合并方法存在安全性和功能性之间的冲突,即在提升模型的通用能力(如数学推理)时,可能会降低模型的安全保障能力。将安全对齐和数学特定的微调模型合并后,可能会得到一个在数学方面表现出色但安全性降低的模型。这种冲突的根源在于现有方法在选择神经元时存在缺陷,以及在合并过程中不同任务的神经元之间存在干扰。

基于上述问题,文章提出了LEDMerging,这是一个三阶段框架,通过基于梯度的归因来定位特定任务的神经元,通过多模型重要性融合动态选择关键神经元,并通过参数隔离来分离冲突的更新。

二、核心贡献

  • 提出LED-Merging框架:LED-Merging 是一个三阶段的框架,包括定位(Location)、选举(Election)和分离(Disjoint)。该框架通过梯度归因来定位任务特定的神经元,通过多模型重要性融合动态选举关键神经元,并通过参数隔离来分离冲突的更新,从而解决了神经元误识别和干扰的问题。
  • 无需训练的合并方法:LED-Merging无需对合并后的模型进行额外的训练,就能够缓解安全性和功能性之间的冲突,这在隐私敏感或资源受限的场景中具有重要意义。

三、实现方法

  • 定位(Location):通过计算每个神经元的重要性分数来识别基础模型和微调模型中的关键神经元。使用梯度归因分数来避免神经元误识别,选择重要性分数最高的神经元作为关键神经元子集。

  • 选举(Election):基于基础模型和微调模型的重要性分数,动态选择在两个模型中都具有高分数的神经元作为任务向量中的关键神经元。这确保了安全性和功能性在合并过程中的平衡表示。

  • 分离(Disjoint):通过集合差操作隔离冲突的权重更新,防止安全性和任务特定神经元之间的干扰,避免跨任务干扰。

  • 合并:最终将经过定位、选举和分离处理后的任务向量合并到基础模型中,形成合并后的模型。

四、实验结论

  • 安全性提升:LED-Merging在多个安全基准测试中表现出色,显著降低了有害响应率,例如在HarmBench上,与单独的代码模型相比,LED-Merging将Llama3-8B的有害响应率降低了75.9%。
  • 功能性保持:在数学推理和代码生成等任务上,LED-Merging能够保持与专门模型相当的功能性性能。例如,在GSM8K上,LED-Merging保持了52.39%的准确率,与Ties-Merging相当,远高于Task Arithmetic。

  • 跨架构鲁棒性:LED-Merging在不同模型架构(如Llama-2、Llama-3和Mistral)上均表现出一致的有效性,证明了其与不同架构设计的兼容性。
  • 模型规模无关性:LED-Merging在不同规模的模型(从7B到13B参数)上均表现出稳定的性能,证明了其对模型规模的鲁棒性。

五、总结

文章提出了一种名为LED-Merging的模型合并框架,通过定位、选举和分离三个阶段,有效地解决了模型合并过程中出现的安全性和功能性之间的冲突问题。该方法无需额外训练,具有跨架构鲁棒性和模型规模无关性,能够在保持模型功能性的同时显著提升模型的安全性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/86363.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/86363.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

火山引擎向量数据库 Milvus 版正式开放

资料来源:火山引擎-开发者社区 随着AI技术的不断演进发展,非结构化数据也迎来了爆发式的增长。Milvus作为一款为大规模向量相似度搜索和 AI 应用开发设计的开源向量数据库系统,目前已在业界占据领导地位。当前 Milvus 已经被 5,000 家企业所…

SQL SERVER存储过程

什么是存储过程 SQL 存储过程(Stored Procedure)是一个在数据库中预编译并存储的一组 SQL 语句。它们可以包含查询、插入、更新、删除等数据库操作,甚至包括控制流语句(如条件判断、循环等)。存储过程可以通过调用来执…

Lombok注解 - 提高Java开发效率

01 繁琐编码 初入 Java 开发领域时,编写实体类的琐碎经历想必各位都深有感触。 每当创建一个实体类,铺天盖地的 getter、setter、toString 方法接踵而至,手指在键盘上频繁敲击,酸痛不已。 而 Lombok 这一神器的出现&#xff0c…

Linux修改uboot启动延时方法详细攻略,触觉智能RK3568开发板演示

修改uboot延时 首先查找defconfig文件 ./build.sh uboot #通过编译日志查看使用的defconfig文件ls u-boot/configs/*3568* #在SDK根目录下执行该操作 如图标注处就是所使用的u-boot配置文件。 然后修改延时数: vim u-boot/configs/rk3568_defconfig 将CONFIG_BOO…

dockers virbox 安装

sudo apt remove docker docker-engine docker.io containerd runc 更新包索引并安装依赖 sudo apt update sudo apt install ca-certificates curl gnupg 添加Docker官方GPG密钥 sudo install -m 0755 -d /etc/apt/keyrings curl -fsSL https://download.docker.com/linux…

Restormer: Efficient Transformer for High-Resolution Image Restoration 论文阅读

题目 (Title): Restormer:用于高分辨率图像恢复的高效Transformer 摘要 (Abstract): 由于卷积神经网络(CNN)在从大规模数据中学习可泛化的图像先验方面表现出色,这些模型已被广泛应用于图像恢复及相关任务。最近,另一…

音视频开发协议栈全景解析

音视频开发协议栈全景解析 引言:协议栈的重要性与演进 在当今数字化时代,音视频技术已成为互联网基础设施的核心组成部分。从视频会议、直播到智能安防、元宇宙应用,音视频协议栈的设计直接影响着用户体验质量(QoE)。作为开发者&#xff0c…

Java面试题025:一文深入了解数据库Redis(1)

欢迎大家关注我的JAVA面试题专栏,该专栏会持续更新,从原理角度覆盖Java知识体系的方方面面。 一文吃透JAVA知识体系(面试题)https://bl

Python:调用json.dumps处理datetime对象数据

文章目录 前言一、查询SQL语句中数据转换1、思路2、示例3、常用格式化模式4、注意事项 二、自定义JSONEncoder处理1、思路2、示例3、使用方法 写在结尾 前言 使用Python开发查询PostgreSQL数据库,返回数据中有timestamp类型数据字段。如果使用json.dumps转换成json对…

QT6 源(130)视图模型架构中的字符串列表模型 QStringListModel:成员函数,本类的继承关系图以及源码注释

(1)字符串列表型的 model ,可以交给视图 view 来显示,也可以由组合框 comboBox 读取其中的内容 : (2)以下开始学习本字符串 model 里的成员函数,本类没有再定义信号与槽函数 &#x…

dockerfile命令及构建+docker-compose安装构建

一,dockerfile常用命令 命令介绍FROM–指定基础镜像LABEL作者信息USER切换运行属主身份WORKDUR切换工作目录ENV用于docker容器设置环境变量RUN用来执行命令行的命令COPY把宿主机文件复制到镜像中去ADD将文件路径复制添加到容器内部路径EXPOSE为容器打开指定要监听的…

数学:逆元,同余

逆元,同余 0.引言1.同余1.1 同余的基本性质1.2 解同余线性方程 2.逆元费马小定理求逆元(m必需为质数)扩展欧几里得求逆元(使用任意互质的a和m) 0.引言 本文讲述什么是逆元,如何求逆元。求逆元的两种常规方法。然后知道…

广州华锐互动:技术与创意双驱动的 VR 先锋​

广州华锐互动能够在众多 VR 公司中崭露头角,离不开其强大的技术实力和源源不断的创意灵感 。在技术研发方面,广州华锐互动组建了一支专业的技术团队,团队成员均具备扎实的技术功底和丰富的行业经验,他们专注于 VR、AR、3D 等核心技…

教育培训教学通用PPT模版

教育培训通用PPT模版,儿童教育PPT模版,公开课件教学PPT模版,读书笔记PPT模版,古风PPT模版,教育教学通用PPT模版 教育培训教学通用PPT模版:https://pan.quark.cn/s/6c2ed020e398

Data Vault 初探(五) —— 定期装载_SQL

说明: 1. 定期装载的周期为每天一次。 2. 每天装载自上次装载后的变化数据 3. 建立源数据库的过渡表用于CDC 4. 建立cdc_time表用于基于时间戳的CDC 5. 因为源库上只有订单销售表有时间属性,所以除了sales_order和sales_order_item拉取变化数据外&#x…

Java虚拟机栈(JVM Stack)详解与工作流程分析

Java虚拟机栈(JVM Stack)详解与工作流程分析 1. 虚拟机栈核心概念 基本特性 线程私有:每个线程在创建时都会分配一个独立的栈存储内容: 栈帧(Stack Frame):每个方法调用对应一个栈帧 生命周期…

Sonarqube:Jenkins触发sonar扫描出现UnsupportedClassVersionError错误处理

文章目录 1、问题现象2、问题根因3、解决思路3.1 解决思路13.2 解决思路23.3 解决思路3 1、问题现象 问题现象:在每次Jenkins触发sonar扫描时,Sonar-scanner扫描器执行都会出现UnsupportedClassVersionError异常,如下: ERROR: …

Spark SQL to_json 函数介绍

目录 前言函数介绍参数说明示例 前言 在Apache Hive中,并没有内置的to_json函数。在Apache Spark SQL中确实有to_json函数,它可以用来将结构化数据(如结构化类型或MAP类型)转换为JSON字符串。这个功能对于需要将表格数据输出为JSON格式的场景…

《解锁前端潜力:自动化流程搭建秘籍》

当项目逐渐从萌芽走向繁茂,中期阶段对流程优化与效率提升的需求便愈发迫切。搭建一套自动化测试、持续集成与部署的完整流程,已然成为突破瓶颈、保障代码质量与上线效率的关键密钥。这不仅是技术的进阶,更是思维与协作模式的革新。在踏上构建…

计算机体系结构中的片上系统SoC是什么?

计算机体系结构中的片上系统SoC是什么? 片上系统(SoC,System on Chip) 是一种将计算机或其他电子系统的多个关键组件集成到单一芯片上的集成电路设计。它不仅仅是处理器(CPU),而是将处理器、内…