如果说2025年的AI关键词是“对话”,那么2026年的关键词无疑是“行动”。从OpenClaw掀起的“全民养虾”热潮,到Hermes Agent的迅速崛起,AI已经从单纯的“对话助手”进化为能够自主执行任务的“数字员工”。然而,当AI学会“行动”,安全防线也随之被重新定义,OpenClaw在63天内被披露138个安全漏洞的惨痛教训尚未远去,标榜“安全升级”的Hermes Agent便以“自进化执行体”的姿态横空出世。与OpenClaw“工具箱”式的静态执行模式不同,Hermes通过“执行—反思—沉淀—复用”的闭环机制实现能力持续积累,标志着AI智能体从“被动执行指令”向“自主进化”的关键跃升。本文系统梳理Hermes在接入、推理、执行、沉淀四个层面相较于OpenClaw的安全改进,同时揭示其自主进化能力背后暗藏的四类结构性风险,并从接入权限管控、记忆文件保护、审批配置优化、技能验证机制等四个维度提出针对性防护建议。这些建议的落脚点,正是将安全边界前移至每一个架构环节,让AI智能体在能力持续扩张的同时,实现真正可信、可控、可审计的系统演进。
Hermes“新”智能体框架
Hermes Agent(简称“Hermes”)是一个可部署于本地服务器的开源自主智能体框架。它通过统一网关支持接入微信、飞书等多个即时通信平台,能够调用工具执行命令,并支持持久化记忆。与传统静态工具执行模式不同,Hermes可在完成复杂任务后自动提炼可复用技能,并在后续任务中检索调用,实现能力持续积累。
相较于OpenClaw,Hermes在设计机制上实现了演进:前者以静态工具执行为核心,按指令调用工具,任务完成即终止,执行之间彼此独立;后者引入“执行—反思—沉淀—复用”的闭环机制,在任务完成后自动提炼记忆与可复用技能,使系统能力随使用过程持续积累。这一演进使 Hermes从“按需执行”走向“持续进化”,也由此带来了区别于 OpenClaw 的新型安全挑战。

图1.Hermes Agent技术框架
这得益于其四大核心机制:统一消息网关实现跨平台接入,模型推理层负责任务理解与路径规划,执行层通过工具组件完成操作,能力沉淀层则通过技能自动生成与持久化记忆实现经验的闭环积累。
正是这套“执行—反思—沉淀—复用”的闭环机制,让Hermes从线性执行进化为可以持续运行、自我优化的复杂智能系统。然而这种动态进化能力在提升效率的同时,也使风险的传播路径更加复杂,影响范围更难以预判。
Hermes原生“新”安全架构
对比OpenClaw已知的安全问题,Hermes在接入、推理、执行、沉淀四个核心层均体现出更完善的安全配置。
(一)接入层:统一鉴权与入口收敛
接入层在统一消息网关处实施多层身份鉴权与配对授权,默认拒绝所有未授权访问,并内置请求限频、有效期控制与失败锁定等防暴力破解措施。相比OpenClaw网关控制面暴露、入口鉴权薄弱的情况,Hermes通过引入统一鉴权机制提升了入口管控能力,但其集中化设计也使单点配置缺陷的影响范围进一步扩大。
(二)推理层:注入检测前置与预执行风险拦截
推理层引入两类检测:一是上下文注入扫描,在用户输入拼接到提示词模板前识别提示注入、越狱尝试等风险;二是预执行安全检测,对同形字域名欺骗、命令拼接等风险进行识别拦截。与OpenClaw在模型层缺乏统一内置防护不同,Hermes将注入检测内置于推理层,覆盖更系统,但其语义层面的隐蔽诱导仍存在识别盲区。
(三)执行层:命令审批与隔离加固
执行层引入了危险命令审批机制(强制审批/智能审批/关闭审批)与容器隔离加固(非root运行、网络目标解析级拦截)。相比OpenClaw沙箱能力依赖部署配置、隔离策略需按环境启用的情况,Hermes执行层的默认防护更为完善。但审批模式的选择仍需结合业务场景谨慎评估。
(四)沉淀层:凭证与记忆治理强化
沉淀层强化了凭证管控(默认剥离敏感环境变量、报错自动脱敏)、技能安装前静态扫描以及会话隔离。相比OpenClaw凭证分散存储,Hermes有明显进步。然而静态扫描难以识别渐进式注入的恶意行为,而跨会话记忆调用机制更为语义层面的认知污染打开了大门。
总体而言,Hermes在上述四个维度的安全默认配置相较OpenClaw均有所强化,基础安全防护覆盖更为全面。但是,安全机制的存在不等于风险消除——Hermes所引入“自主进化能力”的同时也带来了OpenClaw静态执行模式下所没有的新型潜在风险。
Hermes应对的“新”安全挑战
团队通过对Hermes运行链路的分析,归纳出四类由其新能力所引入的潜在结构性风险。这些风险虽尚未演化为已公开漏洞,但在特定条件下可能被触发,应用阶段仍需重点关注。

图2.Hermes Agent对比OpenClaw的安全机制优化及风险演进
(一)多平台接入:平台汇聚及网关串联的边界风险
Hermes将多平台接入收拢至原生统一网关,统一鉴权和权限控制更加集中,但也使风险沿着“接入平台—网关层—系统核心”的路径被串联起来。一旦网关层存在配置疏漏,攻击者可能借由任一接入平台的边缘渠道触达系统核心,导致单点缺陷的影响范围被放大。相比之下,OpenClaw以插件形式分散接入,两者风险形态不同,但Hermes集中化架构下的边界管理要求更高。
(二)跨会话记忆:记忆文件带来的泄露与污染风险
Hermes具备跨会话持久化记忆能力,模型在推理时会主动调用历史上下文和用户偏好参与决策。这一机制在提升连续性和个性化能力的同时,也带来了信息泄露与认知污染风险:若memory.md等记忆文件权限配置不当或遭遇本地提权,可能导致敏感信息外泄;若攻击者在早期交互中植入误导性上下文,还可能被系统固化并持续调用。相比之下,OpenClaw通常不具备跨会话记忆机制,因此这类风险相对不突出。
(三)自主调度:审批配置失效下的权限叠加风险
Hermes支持对复杂任务进行自动拆解与多步执行,若审批模式配置为智能审批,单步低风险操作在链式组合后可能演变为高权限行为,导致权限控制失效;若进一步关闭审批,则在无人值守的定时任务场景下更易失去对异常行为的实时干预。相比之下,OpenClaw更常见的问题是缺乏统一审批约束,部分高风险操作可直接执行。
(四)技能自生成:能力沉淀引发的后门化持久隐患
当Hermes在完成复杂任务后,会自动将执行轨迹提炼为可复用技能。如果一次受污染的执行轨迹被固化为“合法技能”,后续调用将持续触发异常行为,形成能力层的持续性隐患。内置静态扫描以规则匹配为主,难以识别通过正常执行逻辑渐进注入的恶意行为。相较于OpenClaw“人工定义技能”的模式,Hermes的AI自动生成能力虽然提升了效率,但也增加了能力层风险。
总体而言,OpenClaw的风险更多来自外部输入和第三方组件,Hermes的风险则更多源于自身的能力沉淀与自主进化机制。前者的防护重点在于输入侧治理与第三方组件管控,后者则需要在接入、记忆、执行和技能生成等环节同步加强约束。
面向Hermes的“新”防护建议
基于上述研究分析出的四类潜在风险,结合Hermes的架构特性,提出以下针对性防护建议:
一是管控多平台接入权限,防止集中网关被突破。对各消息平台的接入凭证和操作权限实行独立管理,坚持最小权限原则,避免单一接入渠道拥有过宽权限;在接入网关层做好平台间隔离和输入校验,对不同渠道的数据流分别清洗,防止某一接入渠道的异常输入影响系统核心。
二是加强记忆文件保护,防范泄漏与污染。对memory.md等记忆文件设置严格访问权限,限制非必要进程读取;可结合语义检测模型识别异常记忆写入,对偏离正常使用模式的内容定期审核和清理,敏感场景下可缩短保留周期,或对特定信息设置写入限制。
三是优化审批配置,避免多步执行失控。初期部署建议启用强制审批机制,并对多步执行链提前进行整体风险评估,识别低风险指令组合后可能产生的高权限操作;无人值守场景下保留告警和熔断机制,确保在关闭人工审批后仍具备异常识别与实时干预能力。
四是强化技能生成验证,防止能力沉淀产生隐患。对Hermes自动生成的技能增加人工复核或沙箱验证,在确认行为逻辑正常、未引入非预期操作后再投入复用;同时限制技能可调用的工具和权限范围,并定期审计已沉淀技能库。
Hermes所呈现的四类潜在风险表明,当智能体从被动执行走向自主进化,风险形态也可能随之从单次交互的局部隐患扩展为跨平台、跨会话持续累积的系统性威胁。因此,防护重点必须聚焦于记忆污染、权限链式叠加等深层问题。面向新一代自主智能体,安全治理已不能依赖单点补丁,而应围绕接入隔离、数据治理、执行审计、能力管控四个维度实施系统化防护,将可信、可控、可审计贯穿于智能体设计、部署、运行全生命周期,构建与智能体能力同步演进的内生安全体系。
作者:
林建宇、张二鹏、冉鹏 | 安全技术研究所(中国移动人工智能安全治理研究中心)
审核:
粟栗、杨凯 | 安全技术研究所(中国移动人工智能安全治理研究中心)
声明:本文来自中移智库,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。