注意力即防御：基于注意力特征的大模型间接提示注入攻击防御方法

原文标题：Attention is All You Need to Defend Against Indirect Prompt Injection Attacks in LLMs
原文作者：Yinan Zhong, Qianhao Miao, Yanjiao Chen, Jiangyi Deng,Yushi Cheng, Wenyuan Xu
发表会议：NDSS 2026
笔记作者：龙函城
主编：黄诚@安全学术圈

研究概述

随着大语言模型被集成到Web Agent、邮件助手、智能规划器等应用中，LLM应用通常需要读取网页、邮件、文档等外部数据，再结合用户指令完成任务。但这种模式也带来了间接提示注入攻击（Indirect Prompt Injection, IPI）风险：攻击者可以将恶意指令隐藏在外部数据中，使模型在处理正常任务时被诱导执行攻击者的目标。现有防御方法要么依赖分类器或辅助LLM进行整体检测，容易受已知攻击模式限制；要么通过提示改写、分隔符或模型微调进行预防，但难以精确删除注入内容，且微调成本较高。针对这些问题，论文提出RENNERVATE，目标是在不修改目标LLM的前提下，实现对IPI攻击的细粒度检测与净化。

RENNERVATE的核心思想是利用LLM推理过程中的注意力特征进行防御。作者认为，注入指令即使在文本表面上看起来较为正常，但模型在处理这些内容时，其内部注意力模式可能会暴露出异常行为。因此，RENNERVATE不再只依赖文本关键词或语义分类，而是从目标 LLM 的注意力特征出发，对外部数据中的token进行逐个判断，并进一步定位和删除可疑注入片段。

图 1 RENNERVATE 整体防御框架

如图1所示，RENNERVATE 主要由三个模块组成。首先，Token-level Detector从LLM推理阶段提取注意力特征，并判断每个token是否属于注入内容；其次，Injection Identifier对token级预测结果进行过滤和聚合，判断整段外部数据是否被注入；最后，Injection Sanitizer删除被标记为注入的token，生成净化后的文本，使LLM应用能够继续完成原本任务，而不是简单拒绝服务或被攻击者劫持。论文进一步设计了两步注意力池化机制，分别聚合响应token和注意力头维度的信息，以提取更适合注入检测的关键注意力特征。

实验结果表明，RENNERVATE在ChatGLM、Dolly、Falcon、LLaMA2和LLaMA3等5个目标LLM上均取得了较好效果，并优于15种商业和学术界IPI防御方法。论文还构建了细粒度IPI数据集FIPI，包含100k个注入样本，覆盖5类IPI攻击方法和300个NLP任务；同时在未见过的数据集、未知攻击以及自适应攻击场景下进行了验证，说明该方法具有一定迁移性和鲁棒性。

贡献分析

贡献点1 ：提出面向间接提示注入攻击的检测与净化框架RENNERVATE
论文提出了RENNERVATE，用于防御大语言模型集成应用中的间接提示注入攻击。该框架不仅能够判断外部数据是否存在注入风险，还能够进一步定位并净化注入内容，在保持较高检测精度的同时，尽量维持原始任务功能。
贡献点2 ：设计基于注意力特征的token级检测机制
论文利用目标LLM推理过程中的注意力特征进行IPI检测，而不是只依赖文本关键词、语义分类器或辅助大模型。通过token级检测机制，RENNERVATE可以判断外部数据中哪些 token可能属于恶意注入内容，从而实现更细粒度的攻击定位，也为后续注入净化提供基础。
贡献点3 ：提出两步注意力池化机制提升检测效果
为了从复杂的注意力特征中提取更关键的信息，论文设计了2-step attentive pooling机制。该机制先聚合响应token维度的信息，再聚合注意力头维度的信息，使模型能够自动关注更有助于注入判断的注意力模式，从而提升检测准确性和泛化能力。
贡献点4 ：通过大量实验验证方法有效性与鲁棒性
论文在多个目标LLM上对RENNERVATE进行了系统评估，并与15种商业和学术界IPI防御方法进行对比。实验结果表明，RENNERVATE在IPI检测和净化两个任务上均表现较好，同时在未见过的数据集、未知攻击和自适应攻击场景下也具有一定迁移性和鲁棒性。

实验结果分析

表 1 RENNERVATE 与当前主流IPI检测方法的对比结果

从整体检测效果来看，RENNERVATE在五个目标 LLM 上均取得了较高准确率。表1显示，其在ChatGLM、Dolly、Falcon、LLaMA2和LLaMA3上的检测准确率分别为99.05%、97.88%、99.58%、99.43%和99.37%，整体优于Prompt-Guard、ProtectAI-v2、GPT-Resp、DS-Resp、Attention Tracker和TaskTracker等方法。同时，其误报率和漏报率也保持在较低水平，说明该方法既能有效发现注入样本，也能减少对正常样本的误判。

表 2 RENNERVATE与现有IPI净化方法的攻击成功率对比

从IPI净化效果来看，RENNERVATE能够显著降低攻击成功率。表2显示，在没有防御时，多个目标LLM的攻击成功率较高，例如ChatGLM 为 85.90%，Falcon为 84.90%。加入RENNERVATE后，Dolly和Falcon的ASR降至 0.00%，ChatGLM 降至0.10%，LLaMA2和LLaMA3也仅为0.20%。这说明RENNERVATE不只是检测输入是否危险，还能通过token级定位与删除削弱注入指令的影响。

表 3 RENNERVATE在未知数据集上的检测结果

在未知数据集场景下，RENNERVATE 也表现出较好的迁移能力。表 3 中的 MRPC-HSOL、Jfleg-RTE、SST2-MRPC、MRPC-SST2 和 RTE-Jfleg 代表不同任务组合，用于模拟新任务和新数据分布下的 IPI 攻击。结果显示，该方法在多数场景中仍能保持较高检测准确率.

表 4 RENNERVATE 在未知攻击下的鲁棒性结果

论文进一步验证了RENNERVATE面对未知攻击时的鲁棒性。在GCG和Neural Exec两类未知梯度攻击下，无防御时ASR普遍较高，而经过RENNERVATE处理后，GCG的ASR降至0.00%–7.00%，Neural Exec在所有数据集上均降至0.00%。

表 5 RENNERVATE 关键模块消融实验结果

消融实验主要验证了2-step attentive pooling、token-level detector和mean filter等模块的有效性。表5显示，完整RENNERVATE在多个数据集上整体更稳定；当去除或替换2-step attentive pooling后，J-R和S-M等场景性能下降较明显；去除mean filter后，多个跨任务场景的准确率也出现下降。这说明模型效果并不只是来自注意力特征本身，而是依赖token级检测、注意力池化和连续注入片段过滤等模块共同作用。

总体来看，论文实验较好地证明了RENNERVATE的有效性：它不仅能检测IPI攻击，还能进一步定位并删除注入token，从而兼顾安全性与可用性。相比只做整体二分类的防御方法，该方法更适合需要持续完成任务的LLM集成应用。不过，RENNERVATE需要访问目标LLM的注意力信息，因此更适用于开源模型或本地部署场景；如果只能调用闭源API，其直接应用会受到一定限制。

论文点评

总体来看，这篇论文的价值在于它聚焦了LLM集成应用中非常现实的安全问题，即间接提示注入攻击。相比普通提示注入，IPI攻击往往隐藏在网页、邮件、文档等外部数据中，用户和系统不容易直接发现。本文提出的RENNERVATE并不是简单依赖关键词、分类器或额外大模型判断输入是否危险，而是利用目标LLM推理过程中的注意力特征进行token级检测，并进一步删除可疑注入内容。这使得方法不仅能够发现攻击，还能在一定程度上恢复正常输入，兼顾了安全性和应用可用性。

从方法设计上看，论文的亮点主要在于检测、定位与净化的一体化思路，以及两步注意力池化机制对关键注意力特征的提取。实验也比较充分，覆盖多个目标LLM、不同数据集、未知攻击和自适应攻击场景，能够较好支撑方法的有效性。不过，该方法也存在一定限制：RENNERVATE需要访问目标LLM的内部注意力信息，因此更适合开源模型或本地部署场景；如果只能调用闭源API，其直接应用会受到限制。总体而言，这篇论文为LLM Agent场景下的提示注入防御提供了一种较清晰、可实现的技术路线，对后续研究大模型安全防御具有较强参考价值。

论文文献

Zhong, et al. “Attention is All You Need to Defend Against Indirect Prompt Injection Attacks in LLMs.” Network and Distributed System Security Symposium (NDSS 2026). 2026.

安全学术圈招募队友-ing
有兴趣加入学术圈的请联系 secdr#qq.com

声明：本文来自安全学术圈，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

注意力即防御：基于注意力特征的大模型间接提示注入攻击防御方法

研究概述

贡献分析

实验结果分析

论文点评

论文文献

苹果硬件安全防线被破解！Mythos+人类专家5天攻破最强硬件

英国AI安全研究所对GPT-5.5和Mythos的测评结果

让大模型理解数据，但不接触数据：企业AI数据访问的新安全边界