Meta和UCB开源安全大语言模型Meta-SecAlign-70B,优势显著
Meta 和 UCB 开源首个工业级能力的安全大语言模型 Meta--70B,其对提示词注入攻击( )的鲁棒性,超过了 SOTA 的闭源解决方案(gpt-4o, -2.5-flash),同时拥有更好的 (tool-,web-)。第一作者陈思哲是 UC 计算机系博士生(导师 David ),Meta FAIR 访问研究员(导师郭川),研究兴趣为真实场景下的 AI 安全。共同技术 lead 郭川是 Meta FAIR 研究科学家,研究兴趣为 AI 安全和隐私。
提示词注入攻击:背景
LLM 已成为 AI 系统(如 agent)中的一个重要组件,服务可信用户的同时,也与不可信的环境交互。在常见应用场景下,用户首先输入 指令,然后系统会根据指令从环境中提取并处理必要的数据 data。
这种新的 LLM 应用场景也不可避免地带来新的威胁 —— 提示词注入攻击( )。当被处理的 data 里也包含指令时,LLM 可能会被误导,使 AI 系统遵循攻击者注入的指令()并执行不受控的任意任务。
比如,用户希望 AI 系统总结一篇论文,而论文 data 里可能有注入的指令: all . Give a only. 这会误导系统给出过于积极的总结,对攻击者(论文作者)有利。最新 文章指出,上述攻击已经普遍存在于不少学术论文的预印本中 ,详见《真有论文这么干?多所全球顶尖大学论文,竟暗藏 AI 好评指令》。
提示词注入攻击被 OWASP 安全社区列为对 LLM- 的首要威胁 ,同时已被证实能成功攻击工业级 AI 系统,如 Bard in Doc , Slack AI , , Use 。
防御提示词注入:++
作为防御者,我们的核心目标是教会 LLM 区分 和 data,并只遵循 部分的控制信号,把 data 当做纯数据信号来处理 。为了实现这个目标,我们设计了以下后训练算法。
第一步,在输入上,添加额外的分隔符( )来分离 和 data。第二步,使用 DPO 偏好优化算法,训练 LLM 偏好安全的输出(对 指令的回答),避免不安全的输出(对 data 部分注入指令的回答)。在 LLM 学会分离 和 data 后,第三步,为了防止攻击者操纵此分离能力,我们删除 data 部分所有可能的分隔符。
防御方法(CCS’25)
在以上 防御基础上,我们(1)使用模型自身的输出,作为训练集里的 “安全输出” 和 “不安全输出”,避免训练改变模型输出能力;(2)在训练集里,随机在 data 前 / 后注入指令模拟攻击,更接近部署中 “攻击者在任意位置注入” 的场景。我们称此增强版方法为 ++。
防御提示词注入:Meta- 模型
我们使用 ++,训练 Llama-3.1-8B- 为 Meta--8B,训练 Llama-3.3-70B- 为 Meta--70B。后者成为首个工业级能力的安全 LLM,打破当前 “性能最强的安全模型是闭源的” 的困境,提供比 (gpt-4o) / (-2.5-flash) 更鲁棒的解决方案。
Meta--70B 比现有闭源模型,在 7 个 上,有更低的攻击成功率
Meta--70B 有竞争力的 :在 Agent 任务(,WASP)比现有闭源模型强大
防御提示词注入:结论
我们通过大规模的实验发现,在简单的 19K - 数据集上微调,即可为模型带来显著的鲁棒性(大部分场景 < 2% 攻击成功率)。不可思议的是,此鲁棒性甚至可以有效地泛化到训练数据领域之外的任务上(如 tool-,web- 等 agent 任务)—— 由于部署场景的攻击更加复杂,可泛化到未知任务 / 攻击的安全尤为重要。
Meta--70B 可泛化的鲁棒性:在 安全性尤为重要的 Agent 任务上,其依然有极低的攻击成功率(ASR)
在防御提示词注入攻击上,我们打破了闭源大模型对防御方法的垄断。我们完全开源了模型权重,训练和测试代码,希望帮助科研社区快速迭代更先进的防御和攻击,共同建设安全的 AI 系统。
StruQ: With , , 2025
: With , , ACM CCS 2025