Meta和UCB开源安全大语言模型Meta-SecAlign-70B，优势显著

AI世纪 2025-07-31

2025-07-31

Meta 和 UCB 开源首个工业级能力的安全大语言模型 Meta--70B，其对提示词注入攻击（）的鲁棒性，超过了 SOTA 的闭源解决方案（gpt-4o, -2.5-flash），同时拥有更好的（tool-，web-）。第一作者陈思哲是 UC 计算机系博士生（导师 David ），Meta FAIR 访问研究员（导师郭川），研究兴趣为真实场景下的 AI 安全。共同技术 lead 郭川是 Meta FAIR 研究科学家，研究兴趣为 AI 安全和隐私。

提示词注入攻击：背景

LLM 已成为 AI 系统（如 agent）中的一个重要组件，服务可信用户的同时，也与不可信的环境交互。在常见应用场景下，用户首先输入指令，然后系统会根据指令从环境中提取并处理必要的数据 data。

这种新的 LLM 应用场景也不可避免地带来新的威胁 —— 提示词注入攻击（）。当被处理的 data 里也包含指令时，LLM 可能会被误导，使 AI 系统遵循攻击者注入的指令（）并执行不受控的任意任务。

比如，用户希望 AI 系统总结一篇论文，而论文 data 里可能有注入的指令： all . Give a only. 这会误导系统给出过于积极的总结，对攻击者（论文作者）有利。最新文章指出，上述攻击已经普遍存在于不少学术论文的预印本中，详见《真有论文这么干？多所全球顶尖大学论文，竟暗藏 AI 好评指令》。

提示词注入攻击被 OWASP 安全社区列为对 LLM- 的首要威胁，同时已被证实能成功攻击工业级 AI 系统，如 Bard in Doc , Slack AI , ， Use 。

防御提示词注入：++

作为防御者，我们的核心目标是教会 LLM 区分和 data，并只遵循部分的控制信号，把 data 当做纯数据信号来处理。为了实现这个目标，我们设计了以下后训练算法。

第一步，在输入上，添加额外的分隔符（）来分离和 data。第二步，使用 DPO 偏好优化算法，训练 LLM 偏好安全的输出（对指令的回答），避免不安全的输出（对 data 部分注入指令的回答）。在 LLM 学会分离和 data 后，第三步，为了防止攻击者操纵此分离能力，我们删除 data 部分所有可能的分隔符。

防御方法（CCS’25）

在以上防御基础上，我们（1）使用模型自身的输出，作为训练集里的 “安全输出” 和 “不安全输出”，避免训练改变模型输出能力；（2）在训练集里，随机在 data 前 / 后注入指令模拟攻击，更接近部署中 “攻击者在任意位置注入” 的场景。我们称此增强版方法为 ++。

防御提示词注入：Meta- 模型

我们使用 ++，训练 Llama-3.1-8B- 为 Meta--8B，训练 Llama-3.3-70B- 为 Meta--70B。后者成为首个工业级能力的安全 LLM，打破当前 “性能最强的安全模型是闭源的” 的困境，提供比 (gpt-4o) / (-2.5-flash) 更鲁棒的解决方案。

Meta--70B 比现有闭源模型，在 7 个上，有更低的攻击成功率

Meta--70B 有竞争力的：在 Agent 任务（，WASP）比现有闭源模型强大

防御提示词注入：结论

我们通过大规模的实验发现，在简单的 19K - 数据集上微调，即可为模型带来显著的鲁棒性（大部分场景 < 2% 攻击成功率）。不可思议的是，此鲁棒性甚至可以有效地泛化到训练数据领域之外的任务上（如 tool-，web- 等 agent 任务）—— 由于部署场景的攻击更加复杂，可泛化到未知任务 / 攻击的安全尤为重要。

Meta--70B 可泛化的鲁棒性：在安全性尤为重要的 Agent 任务上，其依然有极低的攻击成功率（ASR）

在防御提示词注入攻击上，我们打破了闭源大模型对防御方法的垄断。我们完全开源了模型权重，训练和测试代码，希望帮助科研社区快速迭代更先进的防御和攻击，共同建设安全的 AI 系统。

StruQ: With , , 2025

: With , , ACM CCS 2025

Meta和UCB开源安全大语言模型Meta-SecAlign-70B，优势显著

自由加工新主义ￜ宏山激光&柏楚电子联合发布FACut-C三维五轴切割系统

巨日禄AI：一站式创作漫画故事视频，百种画风赋美创作

萨科微宋仕强，在人工智能Ai大模型文本写作的试用与反思！

Meta新旗舰AI模型Llama 4 Maverick测试成绩遭质疑

Lantronix 首次推出经济实惠、屡获殊荣的 5G 无线路由器系列，颠覆工业连接方式

宏山激光携新设备亮相2025北京国际机床展，向世界展示硬核智造力

Meta和UCB开源安全大语言模型Meta-SecAlign-70B，优势显著

自由加工新主义ￜ宏山激光&amp;柏楚电子联合发布FACut-C三维五轴切割系统

巨日禄AI：一站式创作漫画故事视频，百种画风赋美创作

萨科微宋仕强，在人工智能Ai大模型文本写作的试用与反思！

Meta新旗舰AI模型Llama 4 Maverick测试成绩遭质疑

Lantronix 首次推出经济实惠、屡获殊荣的 5G 无线路由器系列，颠覆工业连接方式

宏山激光携新设备亮相2025北京国际机床展，向世界展示硬核智造力

自由加工新主义ￜ宏山激光&柏楚电子联合发布FACut-C三维五轴切割系统