原文标题:SAFEHARNESS: Lifecycle-Integrated Security Architecture for LLM-based Agent Deployment

原文作者:Xixun Lin, Yang Liu, Yancheng Chen, Yongxuan Wu, Yucheng Ning, Yilong Liu, Nan Sun, Shun Zhang, Bin Chong, Chuan Zhou, Yanan Cao

原文链接:https://arxiv.org/abs/2604.13630

笔记作者:宁钰成@中国科学院信息工程研究所

主编:黄诚@安全学术圈

1. 背景介绍

如果说大语言模型(LLM)是智能体的“大脑”,那么 Harness 就是支撑其在现实世界运转的躯干与骨骼。它绝不仅仅是一个简单的调用外壳,而是作为“指挥中心”,一手包办了工具编排、上下文管理和状态持久化等核心任务。然而,正是这种“大权在握”的核心地位,使得 Harness 成为了极具价值的攻击面:哪怕只是框架层面的单点妥协(例如一条被投毒的工具输出),风险也会顺着执行管道级联放大到整个系统。

针对这一严峻挑战,中国科学院信息工程研究所联合多家研究单位正式推出了 SafeHarness 框架。这是一种将防御机制直接编织进智能体 Harness 运行生命周期的安全架构,它不仅能从根本上解决现有安全工具的结构性缺陷,还能在面对复合攻击时实现系统级的协同防御。

2. 现有 Agent 安全防御的三大“致命伤”

当前的智能体安全工具(如外部的安全护栏)往往与智能体 Harness 存在严重的结构性错位。它们大多只是套在模型外层的“壳”,面临三大局限:

  1. 上下文盲区(Context Blindness): 现有的防御机制运行在框架边界之外。它们只在对话接口处过滤输入和输出,根本看不见框架内部的状态。这就像安检员只检查旅客的随身物品,却不知道旅客在候机厅里接触过什么危险源。

  2. 层间孤岛(Inter-layer Isolation): 即使部署了多重安全检查,它们也是各自为战。输入过滤器发现了可疑内容,并不会通知下游的动作验证器提高警惕;被拦截的危险动作,也不会提醒记忆系统去怀疑触发该动作的上下文。面对复合攻击,孤立的检查点如同盲人摸象。

  3. 缺乏韧性(Lack of Resilience): 现有的防御大多是一锤子买卖的“通过/拦截”。一旦攻击突破了外层防御,系统缺乏渐进式限制工具权限或优雅降级的机制,错误会随着执行步骤不断累积。

3. SafeHarness:四层防御,步步为营

为了解决上述痛点,SafeHarness 提出了一个核心洞察:智能体执行的四个阶段(输入处理、决策制定、动作执行、状态更新)有着各自独特的安全需求,必须由专属的、感知阶段的防御层来守护。

SafeHarness 架构图,展示了环绕在智能体周围的 L1 至 L4 防御层,以及跨层的信息反馈机制。

SafeHarness 打造了紧密耦合的四大防护层:

  • L1: INFORM(输入处理层): 在外部内容进入推理链前进行全面清洗。该层包含了结构化净化(去除隐藏的Unicode字符防止逃逸) 、模式匹配检测(快速拦截已知的注入指令) 以及语义过滤(通过LLM辅助提取事实、剥离恶意指令)。同时,它会为每个数据块打上溯源标签(Provenance Tagging),让下游层清楚地知道这些数据是来自用户输入、工具输出还是检索内容,并动态评估信任度。

  • L2: VERIFY(决策制定层): 对每一个工具调用提议应用三级递进式验证级联。Tier 1 使用基于规则的引擎进行快速合规检查;Tier 2 调用“上下文裁判模型”进行多步分析;如果裁判感到模棱两可(UNCERTAIN),则升级到 Tier 3 进行深度的因果诊断(Causal Diagnostics),判定这个动作究竟是源于用户的真实意图,还是被恶意注入所误导。

  • L3: CONSTRAIN(动作执行层): 在执行边界强制落实最小权限原则。工具被划分为五个风险层级;系统引入了受限的 能力令牌(Capability Tokens)机制,带有生存时间(TTL)和调用次数限制。此外,还会执行基于 HMAC-SHA256 的完整性校验,确保工具描述未被黑客在注册表中篡改。

  • L4: CORRECT(状态更新层): 提供最后的防线。它会定期捕获环境和内存的状态检查点。一旦 VERIFY 层确诊了攻击,CORRECT 会立即触发安全回滚。最精妙的是其 自适应降级(Adaptive Degradation)机制:回滚后系统不会直接崩溃,而是降低一个运行层级(例如禁用破坏性工具),并在连续安全运行一段时间后自动恢复权限,在安全与可用性之间取得完美平衡。

4. 灵魂组件:跨层机制与层间反馈

四层防御不再是各自为战。SafeHarness 设计了全局视角的跨层机制(Cross-Layer Mechanisms) ,并通过层间反馈(Inter-Layer Feedback)将整个系统连成一个有机的“免疫网络” :

  1. 两大跨层基石:

    • 溯源保护内存:所有的对话历史、中间结果都被存储在只能追加(append-only)、带有内容哈希的内存中,彻底防止内存被恶意覆盖和伪造。

    • 熵监视器(Entropy Monitor):这是一个滑动窗口,实时追踪系统近期的“无序度”(违规动作的比率)。

  2. 动态层间反馈链路:

    • L1 发现,L2 戒备():当 L1 探测到注入企图或判定内容不可信时,不仅会拦截,还会推高系统“熵值”,使得后续 L2 层直接绕过简单的规则检查,强制启动更严格的 LLM 级核查。

    • L2 确诊,L4 抢救():如果 L2 因果诊断确诊了攻击,L4 就会立刻执行时空回滚并降低系统特权等级。

    • L4 降级,L3 锁死():L4 下达的降级指令,会直接决定 L3 允许使用的工具上限,高危工具瞬间被物理隔离。

    • 安全期,自动复苏():警报解除、连续动作安全后,系统会自动调高权限,并同步放松 L2 的审查力度,恢复常态运行。

5. 硬核战绩:安全与任务效用的完美平衡

研究团队在包含 2,000 个安全敏感任务的 Agent-SafetyBench 上,测试了三种主流智能体框架(ReAct, Multi-Agent, Self-Evolving)和四种安全基线,并引入了涵盖六大威胁类别的五种攻击场景。

不同架构下各安全模式的主实验结果对比,展示了 DeepSeek-Chat 与 DeepSeek-Reasoner 在无保护、Guardrail、LlamaFirewall 及 SafeHarness 等不同模式下的 UBR、ASR、TCR 等核心指标。不同框架与安全模式下的不安全行为率 (UBR) 对比条形图。在 DeepSeek-Chat 和 DeepSeek-Reasoner 模型下,SafeHarness 在所有框架中的不安全行为率均为最低。

实验结果令人瞩目:与无保护的基线相比,SafeHarness 使智能体的 不安全行为率(UBR)平均降低了约 38%,攻击成功率(ASR)平均降低了 42%。特别是在应对极具挑战性的“复合攻击(Composite attacks)”时,层间协同反馈展现出了外部独立防御无法比拟的优势。

多指标雷达图显示,SafeHarness 在显著提升攻击防御成功率的同时,完美保持了任务完成率。

真正的“六边形战士”:尤为重要的是,如此大幅度的安全提升并没有以牺牲智能体的核心能力为代价。雷达图清晰显示,在安全防线向外大幅扩张的同时,智能体的核心 任务完成率(TCR)几乎零损耗(波动仅 1-2%),系统依然极好地保留了核心任务的实用性(Task Utility) ,打破了“越安全越难用”的魔咒 。

6. 案例解析:当智能体遭遇“记忆注入”

仅仅看数字不够直观?让我们看看 SafeHarness 是如何在实战中化险为夷的。

场景:攻击者发起“记忆注入攻击(A4)”,在对话历史中伪造了虚假记录,让智能体误以为用户之前已经授予了它最高权限,可以随意进行破坏性操作(如删除 /root 目录)。

无保护的智能体:轻信了伪造的授权记录,直接执行了 sudo rm -rf /root 命令,导致灾难性的完全不安全行为。

装备了 SafeHarness 的智能体:

  1. 首先,系统检测到了未经验证的记忆源。

  2. 随后,跨层熵监视器敏锐地察觉到异常,主动将 L2 层的验证级别提升至更严格的 Tier 2/Tier 3。

  3. L2 层在接连拦截了 4 次危险的工具调用后,通过 Tier 3 级别的因果分析,确诊这是一次注入攻击。

  4. 最终,L4 层触发紧急响应,将会话回滚到上一个安全的检查点。

SAFEHARNESS成功拦截并回滚记忆注入攻击的完整判定链条。

7. 总结与展望

SafeHarness 证明了:将安全机制直接整合到 Harness 架构设计中不仅是可行的,而且是极其有效的。它将安全防线从“外围拦截”深入到了智能体“思考和行动的神经中枢”,为未来更加自主、强大的 AI 智能体在医疗、金融、软件工程等高价值领域的安全落地,奠定了坚实的架构基础。

欢迎阅读原论文并访问开源代码库,为您的 AI 智能体穿上这件“防弹衣”!

https://github.com/liu-yang-maker/SafeHarness

作者团队介绍

论文团队来自中国科学院信息工程研究所第四研究室。团队长期从事信息内容安全、大语言模型安全、智能体安全等方面的研究,在TPAMI、TKDE、TIFS、ICML、KDD、ACL等CCF-A类期刊与会议上发表学术论文60余篇,相关工作入选最佳论文奖(PAKDD 2020)和最佳论文提名奖(ICDM 2021、WWW 2021)。

安全学术圈招募队友-ing

有兴趣加入学术圈的请联系 secdr#qq.com

声明:本文来自安全学术圈,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。