【AI论文】Saffron-1:LLM安全保证的推理缩放范例

摘要:现有的安全保证研究主要集中在培训阶段的协调,以向LLM灌输安全行为。 然而,最近的研究表明这些方法容易受到各种越狱攻击。 同时,推理扩展显著提高了LLM推理能力,但在安全保证方面仍未得到探索。 为了解决这一差距,我们的工作率先进行了推理扩展,以实现针对新兴威胁的稳健有效的LLM安全。 我们发现,尽管传统的推理缩放技术在推理任务中取得了成功,但在安全环境中表现不佳,甚至不如最佳抽样等基本方法。 我们将这种低效率归因于一个新发现的挑战,即探索效率困境,这是由于频繁的流程奖励模型(PRM)评估带来的高计算开销造成的。 为了克服这一困境,我们提出了SAFFRON,这是一种专门为安全保证量身定制的新型推理缩放范式。 我们的方法的核心是引入多分支奖励模型(MRM),这大大减少了所需的奖励模型评估次数。 为了实现这一范式,我们进一步提出:(i)MRM的部分监督训练目标,(ii)保守的探索约束,以防止分布外探索,以及(iii)基于Trie的键值缓存策略,该策略在树搜索期间促进跨序列的缓存共享。 广泛的实验验证了我们的方法的有效性。 此外,我们公开发布了经过训练的多叉奖励模型(Saffron-1)和附带的令牌级安全奖励数据集(Safety4M),以加速未来LLM安全的研究。 我们的代码、模型和数据可在Github。Huggingface链接:Paper page,论文链接:2506.06444。

研究背景和目的

研究背景

随着大型语言模型(LLMs)的快速发展和广泛应用,LLMs在带来巨大便利的同时,也引入了新的安全风险。这些模型可能生成有害、误导性或违反政策的内容,对现实世界的应用造成严重影响。现有的LLM安全保证研究主要集中于训练阶段的协调,通过监督微调、直接偏好优化和基于人类反馈的强化学习等技术,试图将安全行为灌输到LLM中。然而,最近的研究表明,这些方法容易受到各种越狱攻击,即攻击者通过精心设计的输入绕过模型的安全机制,诱导模型生成不安全的内容。

与此同时,推理缩放(inference scaling)作为一种新兴的技术,显著提高了LLM的推理能力。推理缩放通过增加测试时的计算资源,探索和排序多个候选轨迹,从而在复杂推理任务中取得显著效果。然而,在LLM安全保证领域,推理缩放的应用仍然未被充分探索。传统的推理缩放技术在安全任务中的表现不佳,甚至不如简单的采样方法。这主要是由于在安全任务中,频繁的过程奖励模型(PRM)评估带来了巨大的计算开销,导致了探索效率困境(exploration-efficiency dilemma)。

研究目的

本研究旨在填补这一研究空白,探索推理缩放在LLM安全保证中的应用,以应对新兴威胁。具体而言,本研究的目的包括:

  1. 分析现有推理缩放技术在安全任务中的局限性:通过系统分析,揭示现有推理缩放技术在安全任务中表现不佳的原因,特别是探索效率困境的问题。
  2. 提出一种新的推理缩放范式:针对安全保证的特殊需求,提出一种名为SAFFRON的新型推理缩放范式,旨在提高LLM在安全任务中的鲁棒性和效率。
  3. 验证SAFFRON的有效性:通过广泛的实验,验证SAFFRON在应对各种越狱攻击时的有效性,并与现有方法进行比较。
  4. 发布相关资源和数据集:公开发布经过训练的多叉奖励模型(Saffron-1)和附带的令牌级安全奖励数据集(Safety4M),以加速未来LLM安全的研究。

研究方法

方法概述

本研究提出了SAFFRON(Safe Multifurcation)这一新型推理缩放范式,旨在解决LLM安全保证中的探索效率困境。SAFFRON的核心在于引入多分支奖励模型(MRM),该模型能够一次性预测所有可能下一个令牌的奖励,从而显著减少奖励模型评估的次数。为了实现这一范式,本研究进一步提出了以下关键组件:

  1. 多分支奖励模型(MRM):不同于传统的PRM,MRM能够同时预测所有可能下一个令牌的奖励,大大减少了计算开销。
  2. 部分监督训练目标:针对MRM的训练,提出了一种部分监督训练目标,通过利用训练语料库中的所有前缀和令牌级奖励注释,提高训练效率。
  3. 保守探索约束:为了避免分布外探索,提出了一种保守探索约束,通过掩码未见输出,防止生成不安全的令牌。
  4. 基于Trie的键值缓存策略:利用Trie数据结构实现键值缓存的共享,减少树搜索过程中的计算冗余。
具体实现
  1. 多分支奖励模型(MRM)
    • 模型设计:MRM是一个仅解码器的Transformer,将当前序列作为输入,预测奖励向量。每个奖励向量元素对应一个可能的下一个令牌的奖励。
    • 训练目标:通过最小化预测奖励与观察到的PRM奖励之间的平方误差来训练MRM,但仅使用训练语料库中的前缀,确保每个令牌在语料库中得到充分利用。
    • 部分监督:避免了对整个奖励向量进行全面监督的需要,通过利用语料库中的所有前缀,最大化每个令牌的利用率。
  2. 保守探索约束
    • 问题:由于MRM训练语料库的覆盖范围有限,可能存在训练数据中未出现的令牌。
    • 解决方案:通过掩码未见输出,防止生成不安全或未见过的令牌,确保探索过程保持在安全范围内。
  3. 基于Trie的键值缓存
    • 缓存策略:使用Trie数据结构实现键值缓存的共享,减少树搜索过程中的计算冗余。Trie自然编码前缀以实现高效的缓存查找和分支,确保在具有共同前缀的序列之间共享键值对。

研究结果

主要实验结果
  1. 性能比较
    • 与现有方法比较:在Ai2Refusals和Harmful HEx-PHI数据集上,SAFFRON-1在各种越狱攻击下均表现出色著的改进,ASR显著降低。与基线方法相比,SAFFRON-1在给定计算资源下实现了更高的安全性和效率。
    • 定量比较:在相同的推理计算预算下,SAFFRON-1在所有评估指标上均优于基线方法,证明了其在复杂推理任务中的有效性。
    • 资源消耗:通过减少奖励模型评估次数,SAFFRON-1实现了更高的计算效率,在保持安全性的的同时降低了计算成本。
详细分析
  1. 多分支奖励模型(MRM)的有效性

    • 准确性:实验表明,MRM在预测观察奖励方面表现出色,与观察到的PRM奖励高度相关。
    • 效率:在更少的计算资源下,SAFFRON-1实现了更高的安全性和效率。
  2. Trie-based KV缓存

    • 时间复杂度:Trie结构显著减少了时间复杂度,尤其是在处理长序列时。
    • 空间效率:通过缓存共享,降低了内存使用。
  3. 输出质量保留:在保持安全性的的同时,维持了输出质量。

  4. 案例研究

    • 攻击成功率的比较:SAFFRON-1在所有评估的攻击上均表现出色,显著降低了ASR。
    • 对抗不同攻击:在多种对抗性越狱攻击下保持稳健。
研究局限

尽管SAFFRON在提高LLM安全性和效率方面取得了显著成果,但仍存在一些局限性:

  1. 数据集限制:当前研究主要在特定数据集上进行测试,未来需要在更多样化的数据集上验证泛化能力。
  2. 模型依赖:MRM的性能高度依赖于预训练的PRM,未来需探索不依赖特定PRM的替代方案。
  3. 可解释性:虽然MRM减少了奖励评估次数,但可能增加模型对特定类型攻击的敏感性。

未来研究方向

  1. 跨领域应用
    • 多模态数据集:开发适用于多种任务和领域的数据集,验证模型的泛化能力。
    • 动态奖励模型:探索使用动态奖励模型指导训练,提高模型对复杂场景的适应性。
  2. 实时推理能力
    • 与现有系统的集成:将SAFFRON与现有推理框架结合,提升整体推理性能。

结论

本研究通过提出SAFFRON这一新型推理缩放范式,有效解决了传统推理缩放技术在安全任务中面临的探索效率困境,显著提高了LLM在安全场景下的性能和效率。具体而言,本研究的主要贡献包括:

  1. 提出SAFFRON范式:通过引入多分支奖励模型(MRM)和Trie-based缓存策略,实现了高效的安全推理。
  2. 创新点
    • MRM:显著减少奖励评估次数,提高计算效率。
    • 保守探索约束:防止生成不安全或未见过的令牌,提高模型安全性。
    • Trie-based缓存共享:通过Trie结构实现跨序列的缓存共享,减少计算冗余。
  3. 实验验证
    • 数据集:使用Harmful HEx-PHI和Ai2Refusals数据集。

    • 结果:SAFFRON-1在各种攻击场景下均表现优异。

    • 具体案例

    • 数据集:Harmful HEx-PHI(包含100个危险提示)

    • 评估指标:ASR(攻击成功率)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/84088.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/84088.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LLM 支持的基于意图的分类 网络钓鱼电子邮件

大家读完觉得有帮助记得关注和点赞!!! 抽象 网络钓鱼攻击仍然是现代网络安全的重大威胁,因为它们成功地欺骗了人类和旨在保护他们的防御机制。传统的检测系统主要关注用户在收件箱中看不到的电子邮件元数据。此外,这些…

C++新特性技术发展路径和时间

C 的新特性发展路径和时间线是一个持续演进的过程。以下是一个概览,涵盖了主要的 C 标准及其关键特性,以及它们发布的时间: C 标准版本及发布时间线: C98 (ISO/IEC 14882:1998): 第一个正式的 C 标准。 发布时间: 1998年关键特性: 标准模板库…

OpenAI 如何在激烈的AI人才争夺战中抢占先机?

在这个快速发展的人工智能时代,OpenAI 正处于一个至关重要的发展阶段。随着技术的不断进步,人工智能行业的竞争日益激烈。如何在这场巨大的竞争中立于不败之地,成为了每一个AI公司的核心挑战。就在近日,OpenAI 的新招聘主管华金・…

【Java学习笔记】Java绘图基础

Java绘图基础 一、Java 坐标体系 1. 像素的概念 计算机在屏幕上显示的内容都是由屏幕上的每一个像素组成的 例如,计算机显示器的分辨率是 800600,表示计算机屏幕上的每一行由 800 个点组成,共有 600 行,整个计算机屏幕共有 480…

资深Java工程师的面试题目(一)基础到高级概述

以下是几道面向资深Java工程师的面试题目,涵盖了从基础知识到高级概念及参考答案: 1. Java内存模型和垃圾回收 问题: 请解释一下Java的内存模型,并描述不同类型的内存区域。如何选择适合特定应用需求的垃圾收集器?请比较几种常…

Spring Retry:优雅地实现方法重试机制

前言 在实际的软件开发中,尤其是在涉及网络请求、数据库操作或外部服务调用的场景下,我们常常会遇到一些临时性故障(Transient Failures),例如网络波动、数据库连接超时、第三方 API 暂时不可用等。面对这些问题&…

Mysql报错

1.权限问题 MySQL 认证协议不兼容问题解决方案 这个错误表明您的 MySQL 客户端与服务器要求的认证协议不兼容,通常发生在 MySQL 8.0 服务器与旧版客户端之间。 nested exception is org.apache.ibatis.exceptions.PersistenceException: Error querying database. …

小米汽车5月交付量超过28000台,与上月持平

6月1日,小米汽车公布5月交付数据,2025年5月,小米汽车交付量超过28000台,4月官方披露的交付数据也为28000台。 此外,小米汽车5月新增29家门店,全国82城已有298家门店;6月计划新增37家门店&#x…

严格一致性模型

SC 的第二点约束 :store 必须被 所有(包括自身)执行流 同时看到 ,但是不要求写操作“立即”对其他处理器可见;允许写操作延迟一会儿被其他核观察到。 而 严格一致性模型,包括1. store 必须被 所有(包括自身)执行流 同时看到2. 看到的时间 必须是 某个处理器完成写操…

结合 STM32CubeMX 使用 FreeRTOS 实时操作系统

前言 在STM32CubeMX软件出现以后,创建嵌入式项目变得简洁了许多,开发者无需重复编写MCU的外设初始化配置,只需在STM32CubeMX软件中动动鼠标配置完毕,就可以自动生成基于HAL/LL库的Keil项目文件,提高了开发效率。 最近想…

一致性框架:供应链分布式事务问题解决方案

来源:得物技术 一、前言 二、一致性理论基础 1. 一致性模型概述 2. 最终一致性的必要性 三、供应链一致性框架总体架构 1. 一致性框架的核心功能 2. 一致性框架整体框架 3. 一致性框架整体流程 四、一致性框架实现原理 1. 核心组件设计 2. 异步执行实现原…

民国大模型:智能重构下的乱世觉醒与文明转型

引言:当外滩钟声遇见生成式AI 在历史博物馆的数字化展厅中,一幅动态的《民国百景图》正通过全息投影技术演绎十里洋场的繁华与沧桑。这个虚实交融的场景,恰似民国大模型技术的隐喻——以人工智能为纽带,连接起北洋军阀混战与民族…

ROS2 笔记汇总(2) 通信接口

在 ROS 系统中,通信接口(Interface) 是节点之间传递信息的标准“语言协议”,确保了不同功能节点之间可以正确理解和使用彼此传送的数据内容。我们可以将其理解为“数据结构格式定义”,贯穿于话题(Topic&…

微信小程序:将搜索框和表格封装成组件,页面调用组件

一、实现效果 实现搜索框,表格和翻页效果 二、组件实现 1、创建表格组件页面 (1)创建文件 在文件根目录(与pages同级)直接创建components文件夹,并创建表格的页面common-table/index (2)视图层 a、写入表头 循环由主页面传递的columns,数据为字段名label,宽度为设置…

基于贝叶斯学习方法的块稀疏信号压缩感知算法

基于贝叶斯学习方法的块稀疏信号压缩感知算法 BSBL-FM-master/BSBL_BO.m , 15593 BSBL-FM-master/BSBL_FM.m , 12854 BSBL-FM-master/Phi.mat , 131256 BSBL-FM-master/README.md , 3954 BSBL-FM-master/demo.mat , 1610 BSBL-FM-master/demo_fecg.m , 1481 BSBL-FM-master/de…

【Python爬虫】requests知识点讲解

目录 前言1. requests库基础1.1 安装requests1.2 基本导入 2. HTTP请求方法2.1 GET请求2.2 POST请求2.3 其他HTTP方法 3. 请求头设置3.1 User-Agent设置3.2 常用请求头 4. 响应处理4.1 响应内容获取4.2 响应状态码4.3 响应头信息 5. 会话管理5.1 Session对象5.2 Cookie处理 6. …

服务器上安装配置vsftpd

目录 1. 安装vsftpd服务 2、修改配置文件 3. 修改用户白名单 4. 通过ftp客户端命令登录ftp服务器 5. 参考资料 1. 安装vsftpd服务 执行命令安装vsftp服务、和ftp客户端 yum install vsftpd yum install ftp 2、修改配置文件 在服务器上先创建一个系统用户,待…

C#实现图片文字识别

这几年的AI的发展,使得文字识别难度大大降低、精度大大的提高。百度飞浆就是一个非常好的AI框架,而且是开源的。 我们利用百度飞浆就能快速简单的实现文字识别功能,几行代码就可以集成。 其中百度飞浆的PaddleOCR,就是专门针对文…

Android Framework 调用栈

在Android Framework开发中,添加调用栈(Call Stack)是调试复杂问题(如崩溃、死锁或流程追踪)的核心手段。 一、Java层调用栈添加 适用于Activity、Service等组件或Framework中的Java代码。 基础方法: 使用…

Ollama安装非系统盘操作方法(2025年6月测试通过)

Ollama是当前部署大模型比较便利的工具,但是默认会将软件和模型都安装到C盘下,导致系统盘爆表,建议将软件和模型都放置在非系统盘。 1. 软件安装在非系统盘 (1)在D盘下手动创建ollama目录 (2&#xff09…