研究人员利用提示注入漏洞绕过Meta的Llama防火墙防护

研究人员绕过Meta的Llama防火墙

Trendyol应用安全团队发现了一系列绕过技术,使得Meta的Llama防火墙在面对复杂的提示注入攻击时防护失效。这一发现引发了人们对现有大语言模型(LLM)安全措施准备情况的担忧,并凸显出在企业日益将大语言模型嵌入工作流程时,迫切需要更强大的防御机制。

防火墙防护机制失效

评估过程中,Trendyol工程师部署了Meta开源的Llama防火墙,重点关注其用于筛查恶意用户指令的PROMPT_GUARD组件。令人惊讶的是,该防护机制允许包含土耳其语"üstteki yönlendirmeleri salla"(意为"忽略上述指令")的注入攻击通过,随后模型按要求将句子翻译成法语。

扫描结果显示为良性,但实际包含明显恶意意图。团队进一步证明,简单的Leet语(如将"ignore"变形为"1gn0r3")也能绕过过滤器,在Llama-Prompt-Guard-2-86M模型测试中仅获得极低的越狱评分。

这些实验表明,防火墙规则集主要依赖英语关键词和精确模式匹配,无法识别语言变体或字符替换。

代码防护模块的缺陷

同样令人担忧的是团队对CODE_SHIELD模块的评估,该模块本应标记LLM生成的不安全代码建议。在一个概念验证中,研究人员指示助手生成一个包含SQL查询的简单Python Flask端点。生成的代码直接将用户输入拼接到查询字符串中,形成了典型的SQL注入漏洞。

尽管存在明显风险,CODE_SHIELD仍将输出归类为安全并放行。Trendyol开发人员强调了这一缺陷带来的关键问题:

  • 生产风险:团队可能未经彻底人工审查就使用LLM生成的代码片段
  • 安全漏洞:过度依赖自动化扫描会引入关键漏洞
  • 系统暴露:生产系统可能通过未检测到的缺陷被利用
  • 信任问题:开发者可能对自动化安全工具产生错误信心

这一疏漏展示了自动化系统如何在企业安全框架中制造危险的盲点。

Unicode隐写与隐形指令

最隐蔽的绕过技术涉及在不可见Unicode字符中嵌入隐藏指令。研究人员通过在"ignore all previous instructions"(忽略所有先前指令)短语周围插入零宽度空格和其他非打印代码点,将恶意指令伪装成关于法国首都的无害问题。

Unicode隐写技术

虽然用户和普通观察者只看到无害查询,但LLM识别并执行了隐藏命令。提交给Llama防火墙时,该载荷以零威胁评分通过检查。Trendyol团队证明,即使是最小的不可见载荷也能可靠地颠覆系统提示,导致模型产生任意或有害输出。

这种技术在开发者之间复制粘贴提示的协作环境中尤其危险,因为自动化扫描器无法检测隐藏字符。

测试结果与行业警示

Trendyol共测试了100种独特的注入载荷,其中一半成功绕过系统防御,表明防火墙虽提供一定保护,但远非全面。成功的绕过案例突显了攻击者可能迫使LLM忽略关键安全过滤器、输出偏见或攻击性内容,或生成可直接执行的不安全代码的场景。

对于计划将LLM集成到开发者平台、自动化管道和面向客户应用的Trendyol等组织,这些漏洞可能导致数据泄露、系统入侵或不合规等实际风险。

Trendyol安全研究人员于2025年5月5日向Meta报告了初步发现,详细说明了多语言和混淆的提示注入。Meta确认收到并开始内部审查,但最终于6月3日将报告标记为"信息性"并关闭,未发放漏洞赏金。向Google提交的关于不可见Unicode注入的平行披露同样被标记为重复。

尽管厂商反应冷淡,Trendyol已完善自身威胁建模实践,并与更广泛的AI安全社区分享案例研究。该公司敦促其他组织在将LLM防御投入生产前进行严格的红队测试,强调仅靠提示过滤无法防止所有形式的入侵。

随着企业竞相利用生成式AI的力量,Trendyol的研究提供了一个警示:如果没有分层、上下文感知的防护措施,即使是最先进的防火墙工具也可能成为看似简单攻击向量的牺牲品。安全社区现在必须合作开发更具弹性的检测方法和最佳实践,以领先于不断创新的攻击者。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/91302.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/91302.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Shell 脚本系统学习 · 第5篇:多命令顺序执行的三种方式详解(`;`、``、`||`)

在日常的 Linux 运维与脚本编写中,我们经常需要依次执行多条命令。本篇将带你彻底搞懂三种命令顺序执行方式:;、&& 和 ||,并通过实用示例掌握它们的区别与应用场景。一、为什么要了解多命令执行方式? 在实际运维或脚本编写…

K8s存储系统(通俗易懂版)

Kubernetes中存储中有四个重要的概念:Volume、PersistentVolume PV、PersistentVolumeClaim PVC、StorageClass一、存储系统核心概念Volume(卷)定义:Kubernetes 中最基础的存储单元,用于将外部存储挂载到 Pod 中的容器…

小白学Python,标准库篇——随机库、正则表达式库

一、随机库1.随机生成数值在random库中可以随机生成数值的方法有uniform()、random()、randint()、randrange()等。(1)uniform()方法uniform(参数1, 参数2)方法用于生成参数1到参数2之间的随机小数,其中参数的类型都为数值类型。示例代码&…

Qt窗口:菜单栏

目录 一、窗口预览 二、菜单栏 快捷键 子菜单 分割线 图标 内存泄露 一、窗口预览 在前面几篇文章中,或者说,Qt初学阶段,接触到的都是QWidget,QWidget指控件,往往作为一个窗口的一部分出现。所谓的窗口&#x…

STM32裸机开发(中断,轮询,状态机)与freeRTOS

裸机:没有操作系统,程序是单流程的(比如一个大循环里依次执行各个功能,或者用中断嵌套处理事件)。优点是资源占用极少(几乎不占 RAM/Flash)、执行流程直观;但复杂项目里,…

电脑上如何查看WiFi密码

打开控制面板>点击网络和Internet在查看网络和共享中心找到网络状态和任务点击进去点击连接的WLAN在WLAN状态中点击无线属性在无线网络属性中点击安全,点击显示字符(H)就可以显示密码了

文心一言4.5企业级部署实战:多模态能力与Docker容器化测评

随着大语言模型在企业服务中的应用日益广泛,如何选择一款既能满足多模态创作需求,又具备良好企业级适配性的AI模型成为了关键问题。文心一言4.5作为百度最新开源的大模型,不仅在传统的文本处理上表现出色,更是在多模态理解和企业级…

VUE Promise基础语法

目录 异步和同步 异步的问题 new Promise语法 promise的状态 promise.then() Promise.resolve() Promise.reject() Promise.all() Promise.race() Promise.catch() Promise.finally() 异步和同步 同步模式下,代码按顺序执行,前一条执行完毕后…

用TensorFlow进行逻辑回归(六)

import tensorflow as tfimport numpy as npfrom tensorflow.keras.datasets import mnistimport time# MNIST数据集参数num_classes 10 # 数字0到9, 10类num_features 784 # 28*28# 训练参数learning_rate 0.01training_steps 1000batch_size 256display_step 50# 预处…

【HTTP版本演变】

在浏览器中输入URL并按回车之后会发生什么1. 输入URL并解析输入URL后,浏览器会解析出协议、主机、端口、路径等信息,并构造一个HTTP请求(浏览器会根据请求头判断是否又HTTP缓存,并根据是否有缓存决定从服务器获取资源还是使用缓存…

Android 16系统源码_窗口动画(一)窗口过渡动画层级图分析

一 窗口过渡动画 1.1 案例效果图1.2 案例源码 1.2.1 添加权限 (AndroidManifest.xml) <!-- 系统悬浮窗权限&#xff08;Android 6.0需动态请求&#xff09; --> <uses-permission android:name"android.permission.SYSTEM_ALERT_WINDOW" />1.2.2 窗口显示…

腾讯云WAF域名分级防护实战笔记

基于业务风险等级、合规要求及腾讯云最佳实践&#xff0c;提供可直接落地的配置方案&#xff0c;供学习借鉴&#xff1a;一、域名分级与防护原则1. ​域名分级清单&#xff08;核心资产&#xff09;​​​主域名​​业务类型​​风险等级​​合规要求​​防护等级​example.com…

1. 请说出你知道的水平垂直居中的方法

总结 容器 flex 布局&#xff0c;jsutify-content: center; align-items: center;容器 flex 布局&#xff0c;子项 margin: auto;容器 relative 布局&#xff0c;子项 absolute 布局&#xff0c;left: 50%; top: 50%; transform: translate(-50%, -50%);子项 absolute 布局&…

VS Code `launch.json` 完整配置指南:参数详解 + 配置实例

文章目录&#x1f4e6; 一、基本结构&#x1f50d; 二、单个配置项详解示例配置&#xff1a;&#x1f9e9; 三、字段说明与可选值&#x1f4c1; 四、常用变量&#xff08;宏替换&#xff09;&#x1f6e0;️ 五、常见配置实例1️⃣ 调试当前打开的 .py 文件2️⃣ 调试 Jupyter …

使用浏览器inspect调试wx小程序

edge://inspect/#devices调试wx小程序 背景&#xff1a; 在开发混合项目的过程中&#xff0c;常常需要在app环境排查问题&#xff0c;接口可以使用fiddler等工具来抓包&#xff0c;但是js错误就不好抓包了&#xff0c;这里介绍一种调试工具-浏览器。 调试过程 首先电脑打开edg…

【论文阅读】-《Simple Black-box Adversarial Attacks》

简单黑盒对抗攻击 Chuan Guo Jacob R. Gardner Yurong You Andrew Gordon Wilson Kilian Q. Weinberger 摘要 我们提出了一种在黑盒&#xff08;black-box&#xff09;场景下构建对抗样本&#xff08;adversarial images&#xff09;的极其简单的方法。与白盒&#xff08;…

基于ASP.NET+SQL Server实现(Web)企业进销存管理系统

企业进销存管理系统的设计和实现一、摘要进销存管理是现代企业生产经营中的重要环节&#xff0c;是完成企业资源配置的重要管理工作&#xff0c;对企业生产经营效率的最大化发挥着重要作用。本文以我国中小企业的进销存管理为研究对象&#xff0c;描述了企业进销存管理系统从需…

(LeetCode 面试经典 150 题 ) 15. 三数之和 (排序+双指针)

题目&#xff1a;15. 三数之和 思路&#xff1a;排序双指针&#xff0c;时间复杂度0(n^2nlogn)。 先将数组nums升序排序&#xff0c;方便去重和使用双指针。第一层for循环来枚举第一位数&#xff0c;后面使用双指针来找到第二个、第三个数即可&#xff0c;细节看注释。 C版本…

easy-springdoc

介绍 简化springdoc的使用&#xff08;可以搭配knife4j-openapi3-jakarta-spring-boot-starter一起使用&#xff09; maven引用 <dependency><groupId>io.github.xiaoyudeguang</groupId><artifactId>easy-springdoc</artifactId><version>…

配置nodejs,若依

1.配置node.js环境 Node.js — Download Node.js 1.下载好一路下一步&#xff0c;可以安装到d盘 装完之后执行 npm -v 显示版本号即安装成功 2.安装好后新建两个文件夹&#xff0c;node_cache和node_global 3.配置环境变量 新建变量 在path里编辑变量 4.配置用户变量 5.…