告别防御盲区，为智能体Harness穿上“全生命周期安全护甲”

原文标题：SAFEHARNESS: Lifecycle-Integrated Security Architecture for LLM-based Agent Deployment
原文作者：Xixun Lin, Yang Liu, Yancheng Chen, Yongxuan Wu, Yucheng Ning, Yilong Liu, Nan Sun, Shun Zhang, Bin Chong, Chuan Zhou, Yanan Cao
原文链接：https://arxiv.org/abs/2604.13630
笔记作者：宁钰成@中国科学院信息工程研究所
主编：黄诚@安全学术圈

1. 背景介绍

如果说大语言模型（LLM）是智能体的“大脑”，那么 Harness 就是支撑其在现实世界运转的躯干与骨骼。它绝不仅仅是一个简单的调用外壳，而是作为“指挥中心”，一手包办了工具编排、上下文管理和状态持久化等核心任务。然而，正是这种“大权在握”的核心地位，使得 Harness 成为了极具价值的攻击面：哪怕只是框架层面的单点妥协（例如一条被投毒的工具输出），风险也会顺着执行管道级联放大到整个系统。

针对这一严峻挑战，中国科学院信息工程研究所联合多家研究单位正式推出了 SafeHarness 框架。这是一种将防御机制直接编织进智能体 Harness 运行生命周期的安全架构，它不仅能从根本上解决现有安全工具的结构性缺陷，还能在面对复合攻击时实现系统级的协同防御。

2. 现有 Agent 安全防御的三大“致命伤”

当前的智能体安全工具（如外部的安全护栏）往往与智能体 Harness 存在严重的结构性错位。它们大多只是套在模型外层的“壳”，面临三大局限：

上下文盲区（Context Blindness）： 现有的防御机制运行在框架边界之外。它们只在对话接口处过滤输入和输出，根本看不见框架内部的状态。这就像安检员只检查旅客的随身物品，却不知道旅客在候机厅里接触过什么危险源。
层间孤岛（Inter-layer Isolation）： 即使部署了多重安全检查，它们也是各自为战。输入过滤器发现了可疑内容，并不会通知下游的动作验证器提高警惕；被拦截的危险动作，也不会提醒记忆系统去怀疑触发该动作的上下文。面对复合攻击，孤立的检查点如同盲人摸象。
缺乏韧性（Lack of Resilience）： 现有的防御大多是一锤子买卖的“通过/拦截”。一旦攻击突破了外层防御，系统缺乏渐进式限制工具权限或优雅降级的机制，错误会随着执行步骤不断累积。

3. SafeHarness：四层防御，步步为营

为了解决上述痛点，SafeHarness 提出了一个核心洞察：智能体执行的四个阶段（输入处理、决策制定、动作执行、状态更新）有着各自独特的安全需求，必须由专属的、感知阶段的防御层来守护。

SafeHarness 架构图，展示了环绕在智能体周围的 L1 至 L4 防御层，以及跨层的信息反馈机制。

SafeHarness 打造了紧密耦合的四大防护层：

L1: INFORM（输入处理层）： 在外部内容进入推理链前进行全面清洗。该层包含了结构化净化（去除隐藏的Unicode字符防止逃逸）、模式匹配检测（快速拦截已知的注入指令）以及语义过滤（通过LLM辅助提取事实、剥离恶意指令）。同时，它会为每个数据块打上溯源标签（Provenance Tagging），让下游层清楚地知道这些数据是来自用户输入、工具输出还是检索内容，并动态评估信任度。
L2: VERIFY（决策制定层）： 对每一个工具调用提议应用三级递进式验证级联。Tier 1 使用基于规则的引擎进行快速合规检查；Tier 2 调用“上下文裁判模型”进行多步分析；如果裁判感到模棱两可（UNCERTAIN），则升级到 Tier 3 进行深度的因果诊断（Causal Diagnostics），判定这个动作究竟是源于用户的真实意图，还是被恶意注入所误导。
L3: CONSTRAIN（动作执行层）： 在执行边界强制落实最小权限原则。工具被划分为五个风险层级；系统引入了受限的 能力令牌（Capability Tokens）机制，带有生存时间（TTL）和调用次数限制。此外，还会执行基于 HMAC-SHA256 的完整性校验，确保工具描述未被黑客在注册表中篡改。
L4: CORRECT（状态更新层）： 提供最后的防线。它会定期捕获环境和内存的状态检查点。一旦 VERIFY 层确诊了攻击，CORRECT 会立即触发安全回滚。最精妙的是其 自适应降级（Adaptive Degradation）机制：回滚后系统不会直接崩溃，而是降低一个运行层级（例如禁用破坏性工具），并在连续安全运行一段时间后自动恢复权限，在安全与可用性之间取得完美平衡。

4. 灵魂组件：跨层机制与层间反馈

四层防御不再是各自为战。SafeHarness 设计了全局视角的跨层机制（Cross-Layer Mechanisms），并通过层间反馈（Inter-Layer Feedback）将整个系统连成一个有机的“免疫网络” ：

两大跨层基石：

溯源保护内存：所有的对话历史、中间结果都被存储在只能追加（append-only）、带有内容哈希的内存中，彻底防止内存被恶意覆盖和伪造。
熵监视器（Entropy Monitor）：这是一个滑动窗口，实时追踪系统近期的“无序度”（违规动作的比率）。

动态层间反馈链路：

L1 发现，L2 戒备（）：当 L1 探测到注入企图或判定内容不可信时，不仅会拦截，还会推高系统“熵值”，使得后续 L2 层直接绕过简单的规则检查，强制启动更严格的 LLM 级核查。
L2 确诊，L4 抢救（）：如果 L2 因果诊断确诊了攻击，L4 就会立刻执行时空回滚并降低系统特权等级。
L4 降级，L3 锁死（）：L4 下达的降级指令，会直接决定 L3 允许使用的工具上限，高危工具瞬间被物理隔离。
安全期，自动复苏（）：警报解除、连续动作安全后，系统会自动调高权限，并同步放松 L2 的审查力度，恢复常态运行。

5. 硬核战绩：安全与任务效用的完美平衡

研究团队在包含 2,000 个安全敏感任务的 Agent-SafetyBench 上，测试了三种主流智能体框架（ReAct, Multi-Agent, Self-Evolving）和四种安全基线，并引入了涵盖六大威胁类别的五种攻击场景。

不同架构下各安全模式的主实验结果对比，展示了 DeepSeek-Chat 与 DeepSeek-Reasoner 在无保护、Guardrail、LlamaFirewall 及 SafeHarness 等不同模式下的 UBR、ASR、TCR 等核心指标。不同框架与安全模式下的不安全行为率 (UBR) 对比条形图。在 DeepSeek-Chat 和 DeepSeek-Reasoner 模型下，SafeHarness 在所有框架中的不安全行为率均为最低。

实验结果令人瞩目：与无保护的基线相比，SafeHarness 使智能体的不安全行为率（UBR）平均降低了约 38%，攻击成功率（ASR）平均降低了 42%。特别是在应对极具挑战性的“复合攻击（Composite attacks）”时，层间协同反馈展现出了外部独立防御无法比拟的优势。

多指标雷达图显示，SafeHarness 在显著提升攻击防御成功率的同时，完美保持了任务完成率。

真正的“六边形战士”：尤为重要的是，如此大幅度的安全提升并没有以牺牲智能体的核心能力为代价。雷达图清晰显示，在安全防线向外大幅扩张的同时，智能体的核心 任务完成率（TCR）几乎零损耗（波动仅 1-2%），系统依然极好地保留了核心任务的实用性（Task Utility），打破了“越安全越难用”的魔咒。

6. 案例解析：当智能体遭遇“记忆注入”

仅仅看数字不够直观？让我们看看 SafeHarness 是如何在实战中化险为夷的。

场景：攻击者发起“记忆注入攻击（A4）”，在对话历史中伪造了虚假记录，让智能体误以为用户之前已经授予了它最高权限，可以随意进行破坏性操作（如删除 /root 目录）。

❌ 无保护的智能体：轻信了伪造的授权记录，直接执行了 sudo rm -rf /root 命令，导致灾难性的完全不安全行为。

✅ 装备了 SafeHarness 的智能体：

首先，系统检测到了未经验证的记忆源。
随后，跨层熵监视器敏锐地察觉到异常，主动将 L2 层的验证级别提升至更严格的 Tier 2/Tier 3。
L2 层在接连拦截了 4 次危险的工具调用后，通过 Tier 3 级别的因果分析，确诊这是一次注入攻击。
最终，L4 层触发紧急响应，将会话回滚到上一个安全的检查点。

SAFEHARNESS成功拦截并回滚记忆注入攻击的完整判定链条。

7. 总结与展望

SafeHarness 证明了：将安全机制直接整合到 Harness 架构设计中不仅是可行的，而且是极其有效的。它将安全防线从“外围拦截”深入到了智能体“思考和行动的神经中枢”，为未来更加自主、强大的 AI 智能体在医疗、金融、软件工程等高价值领域的安全落地，奠定了坚实的架构基础。

欢迎阅读原论文并访问开源代码库，为您的 AI 智能体穿上这件“防弹衣”！

https://github.com/liu-yang-maker/SafeHarness

作者团队介绍

论文团队来自中国科学院信息工程研究所第四研究室。团队长期从事信息内容安全、大语言模型安全、智能体安全等方面的研究，在TPAMI、TKDE、TIFS、ICML、KDD、ACL等CCF-A类期刊与会议上发表学术论文60余篇，相关工作入选最佳论文奖（PAKDD 2020）和最佳论文提名奖（ICDM 2021、WWW 2021）。

安全学术圈招募队友-ing
有兴趣加入学术圈的请联系 secdr#qq.com

声明：本文来自安全学术圈，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。