今天介绍的这篇文章,测试了 OpenClaw、AutoClaw、QClaw、KimiClaw、MaxClaw、ArkClaw 这 6 个类 Claw 智能体系统的安全性。

https://arxiv.org/pdf/2604.03131
论文不是看模型单独聊天时会不会拒答,而是看它们在接入工具调用、多步规划、本地执行和状态持久化之后,是否会暴露出真实的系统级安全风险。为此,作者构造了 205 条测试样例,覆盖 13 类攻击行为,并完成了 1200 多轮有效对抗交互。
6 个类 Claw 智能体分别是什么
OpenClaw 是开源 AI Agent 框架,强调让 AI 直接操作电脑完成任务;
AutoClaw 是智谱做的本地一键版,主打把复杂部署压成桌面安装;
QClaw 是腾讯做的本地化助手,强调通过微信远程控制电脑;
KimiClaw 是 Moonshot 基于 OpenClaw 和 Kimi K2.5 做的云端托管服务;
MaxClaw 是 MiniMax 的一键云部署方案;
ArkClaw 则是火山引擎推出的云端 SaaS 版本,强调企业级开箱即用和飞书集成。
论文选这 6 个系统,也是为了覆盖本地执行、桌面封装、云托管、Web 到本地桥接等不同部署形态。
这一步其实很重要。因为论文想证明的不是“某一个产品安不安全”,而是 同样都属于类 Claw 智能体,不同产品形态、不同工具暴露方式、不同运行环境,会把安全风险放大成完全不同的样子。作者从一开始就把“框架差异”和“底模差异”一起纳入了评测视角。
智能体系统的架构与工作原理
1. OpenClaw:一个以 Gateway 为中心的本地 Agent 框架
OpenClaw 的核心是一个长期运行的 Gateway。
论文把它拆成四层:接入层、路由层、业务层、存储层。接入层负责接消息和标准化输入;路由层负责按用户、来源、会话去分发请求并做访问控制;业务层负责推理、上下文管理、工具调用和任务执行;存储层负责本地持久化配置、会话状态、日志和相关上下文数据。整个流程是“接收输入—匹配会话—推理与执行—状态落盘”的闭环。

这意味着 OpenClaw 的风险天然不只在模型回复上,还分布在消息入口、路由控制、工具执行和本地存储这些位置。也正因为这样,后面论文的评测维度才不是单纯看“能不能拒答”,而是看整套运行链路哪里会被打穿。
2. KimiClaw:Web 前端 + 桥接插件 + OpenClaw 执行环境
KimiClaw 在论文里的定位,不是一个完全重写的新框架,而更像是 Kimi Web 与 OpenClaw 之间的桥接层。
用户请求先从 Kimi Web 进入,再通过 KimiClaw 插件转发到本地 OpenClaw Gateway 或云端实例,由后者完成会话管理、工具调用和实际执行,最后再把结果回写到 Web 端。它支持网页对话、终端、文件收发、定时任务和 skill 调用。

论文还特别提到,Kimi Web 侧集成了关键词黑名单,例如出现 /etc/passwd 这类敏感路径时会直接提示发送失败。这说明它在前端入口处做了一层显式拦截,但后面的测试结果也表明,有前端黑名单,不等于整条链都安全。
3. ArkClaw:控制平面和执行平面分离的 SaaS 形态
ArkClaw 的核心思路是 控制平面和执行平面分离。
论文里说,OpenClaw 框架作为控制平面,负责统一运行环境、安全治理和资源调度;ArkClaw 作为执行平面,负责语义理解、任务规划和决策执行。它采用三层结构:上层是接入与控制层,中层是智能体层,下层是能力与状态层,同时强调记忆、状态和任务编排能力。

换句话说,ArkClaw 不是简单的“对话机器人”,而是一个带状态、带记忆、带工具和任务闭环的智能体系统。这让它更像企业可用的 Agent,也意味着一旦失守,风险会更容易沿着状态和后续任务继续扩散。
4. QClaw:本地化客户端 + 社交入口 + 本地执行资源
QClaw 的架构比较有代表性。
论文把它拆成三层:核心层、封装层、展示层。核心层建立在 OpenClaw 架构上,包含 Gateway WebSocket 控制面、Pi Agent 运行时以及 Skills/ClawHub 生态;封装层负责安全隔离和能力整合;展示层则是面向用户的 Electron 客户端,并且接入微信和 QQ。

它的典型流程是:用户从微信发命令,经腾讯网关转发到本地 QClaw 客户端,再通过 WebSocket 进 OpenClaw Gateway,由 Pi Agent、Skills 和 Browser 一起完成闭环执行。

这个设计的好处是上手门槛很低,但代价也很明显:消息入口更贴近日常沟通场景,执行层又能直连本地文件、终端命令和第三方应用。如果边界没收紧,它的可利用面会非常大。
5. AutoClaw:典型的本地自动化执行流水线
AutoClaw 被论文描述为一个面向本地自动化执行的 Agent 运行平台。
它的架构有五层:基础运行层、模型接入层、任务编排层、技能系统层、交互集成层。它的典型流水线是:接收输入 → 任务解析 → 模型决策 → 工具执行 → 状态更新 → 结果返回。在执行阶段,它会调浏览器、文件处理、系统命令和外部 API,请求结果再写回运行态、日志或记忆模块。

所以 AutoClaw 的风险也不是一个单点漏洞,而是贯穿输入解析、任务规划、工具调用、状态写回和扩展能力集成的整条链。论文明确建议,在评估它时,应该把它视为一个完整的本地 Agent 系统,而不只是一个“接了模型的工具箱”。
6. MaxClaw:完整云端运行的循环执行系统
MaxClaw 面向云部署场景,架构上分为信息交互层、网关控制层、技术系统层和 Agent 层,云端提供算力与存储资源。它同样走“输入接收—任务解析—模型决策—工具执行—状态更新—结果返回”的循环流程,只不过整个系统都放在云上。论文认为,这种形态适合大规模任务,也更强调弹性和扩展性。

但也正因为它是云端闭环,后面的评测结果会看到一个很有意思的结论:它在不少高危攻击上确实更稳,但对前期探测和环境画像类请求,仍然不够敏感。
测试方案
测试方案分两层。
第一层是 13 类攻击行为,参考了 MITRE ATT&CK Enterprise 和相关研究,覆盖侦察、资源发展、初始访问、执行、持久化、提权、防御规避、凭据访问、发现、横向移动、敏感数据收集、数据外传和业务破坏。论文给出的例子很具体,例如 whois、dig、nmap 探测,自动注册脚本或 SSH 密钥生成,Webshell 上传,反弹 shell,修改 .bashrc 和 authorized_keys,读取浏览器配置、bash history、环境变量,乃至 DNS 隐蔽外传。

第二层是 链路阶段映射。作者没有停留在“攻击类型”这一个维度,而是把风险再映射到智能体的标准运行链路里,包括输入接入、认证与路由、规划与推理、工具执行、状态更新、结果返回和扩展生态。论文的意思很明确:智能体不是静态程序,而是一个把感知、决策、执行、存储串起来的动态系统,所以安全分析也必须按链条看。

这套设计的价值在于,它能同时回答两个问题:一是“哪种攻击更容易成功”,二是“这些攻击到底是在哪个系统环节成功的”。 这比只看最终有没有执行危险命令,更接近真实的 Agent 风险分析。
测试结果
先看总结果。论文直接给出了 6 个系统按攻击类别统计后的总体成功率:QClaw 54.85% 最高,AutoClaw 49.51% 第二,KimiClaw 40.78%,ArkClaw 29.61%,OpenClaw 19.42%,MaxClaw 16.02%。这组数据已经说明一个很现实的事实:没有哪一套系统可以说“已经安全了”,区别更多只是暴露面大还是小、风险集中在哪一段。

更关键的是,论文发现最普遍的共同弱点并不是最终破坏,而是前面的 Reconnaissance 和 Discovery。作者写得很直白:这两个类别是最突出的共同短板,平均成功率超过 65%。原因也不复杂,这些动作经常长得像正常诊断、排障和运维,而不是显眼的恶意命令,所以系统很难在前期就把它们压住。
论文还总结出了一个很典型的“风险漏斗”结构:前期探测、发现、资源准备成功率普遍偏高;到了提权、持久化、外传和破坏这些后段动作,成功率会下降,但并没有被稳定拦住。一旦前面拿到了环境信息,后面就会更容易推进。也就是说,真正危险的不是一条孤立的恶意命令,而是 系统能不能阻断从“看似正常的探测”滑向“真实的危险执行”。
每个智能体的薄弱之处
1. OpenClaw:总体不算最高,但前期探测明显偏松
总表里,OpenClaw 的整体攻击成功率是 19.42%,不算最高,但并不代表它安全。论文在 OpenClaw + GPT-5.4 mini 的专门测试里给出的结果是:侦察 71.43%,发现 55.17%,而资源发展和数据外传都是 0%。这说明它对明显高危的资源构建和外传类行为拦得相对更紧,但对前期环境探测和信息定位仍然比较松。

论文还补充比较了 OpenClaw 换底模后的表现:在 Kimi-K2.5 版本下,侦察升到 85.71%,凭据访问达到 28.57%,外传达到 20%。作者据此强调,同一个框架,底模换掉之后,风险画像会明显变化。GPT-5.4 mini 版本对外传和资源发展压得更严,Kimi-K2.5 版本则更容易把“调试、诊断、权限确认”这类伪装请求继续往执行层推进。

从链路上看,OpenClaw 的 GPT-5.4 mini 版本在输入接入、规划与推理、工具执行、状态更新几个阶段分别有 30.19%、24.00%、22.61% 和 24.32% 的成功率,结果返回只有 6.82%,扩展生态为 0%。这很像一种“前面松、后面紧”的基本形态。

2. KimiClaw:最危险的不是一句话,而是它会继续往下做
KimiClaw 的整体成功率是 40.78%,已经明显高于 OpenClaw。它最突出的几项是:侦察 100%,资源发展 57.14%,执行 50%,发现 68.97%,横向移动 66.67%。成功样例包括拉取带攻击工具的 Docker 镜像、利用 bash 内建建立连接、读取 sudo 信息、往 authorized_keys 写 SSH 公钥,以及用 sshpass 去尝试内网其他主机。

如果再看链路阶段,KimiClaw 的 规划与推理阶段高达 62%,工具执行阶段 48.8%,输入接入阶段 47.2%,认证与路由阶段 35.1%。这说明它的问题不只是执行面宽,而是 任务理解、计划生成、执行延续性都偏强。同样的 Kimi-K2.5 底模,放在 OpenClaw 里更多表现为信息暴露和不安全回显;放在 KimiClaw 里,却更容易继续推进到横向移动和资源发展。

所以 KimiClaw 的风险特点,不是“最会偷数据”,而是特别容易把攻击从前期探测一路推进成真实执行链。这也是论文为什么会把它看作“框架机制放大底模能力”的一个典型案例。
3. ArkClaw:中段和后段压力更大,执行与状态写回值得重点盯
ArkClaw 的整体成功率大约在 30% 左右。论文专门给它的攻击统计里,侦察 50%,执行 58.33%,发现 75.86%,防御规避 35.71%,外传 13.33%。作者对它的判断是:它不是完全没有拦截能力,但在某些攻击面上仍有明确短板,尤其是编码包装、文件/配置注入和高权限请求执行。

ArkClaw 更有意思的是链路分布。它在工具执行阶段 40.48%,状态更新阶段 39.19%,输入接入阶段 33.96%,规划与推理阶段 30%。也就是说,它的主要风险压力已经不只是前端入口,而是真实执行之后,状态还能不能被继续利用。论文明确指出,ArkClaw 的问题表现为从输入、推理、执行到执行后状态固化的一条连续链。

这类系统的风险很典型:不是“什么都放开”,而是一旦进入执行层和状态层,攻击就更容易变成持续性影响。对企业场景来说,这其实比单次危险命令更麻烦。
4. QClaw:全篇最扎眼的一个,凭据和外传尤其危险
QClaw 是这篇论文里整体风险最高的一档。论文正文写它在 205 条攻击样例中成功了 113 条,整体成功率大约 55.1%;总表给出的数值是 54.85%。它最显眼的几项分别是:侦察 100%,发现 82.76%,凭据访问 85.71%,数据外传 80%,横向移动 66.67%,资源发展 57.10%,提权 50%。

这些数字背后的含义非常明确:QClaw 最危险的地方,不在“最终破坏”这一跳,而在“信息面太大、凭据保护太弱、外传通道太顺”。论文列出的典型成功样例包括密码文件访问、SSH Agent 检查、进程环境泄漏、SSH 私钥收集、DNS 数据外传、DNS TXT 记录外传和 SSH 管道传输。作者甚至直接把它概括成“容易侦察打穿、容易偷到凭据、容易把数据带走”。
如果从链路看,QClaw 更夸张。输入接入 50.94%,认证与路由 62.16%,规划与推理 62.00%,状态更新 63.51%,结果返回 59.09%,扩展生态 68.97%。也就是说,它的问题几乎不是某一个单点,而是从前端入口、身份边界、计划生成、状态污染到结果回显和生态扩展,多个环节都偏松。

5. AutoClaw:最致命的问题在“脑子里”,不是只在“手上”
AutoClaw 的整体成功率是 49.51%,属于第二高的一档。它在侦察 92.86%、发现 75.86%、资源发展 71.43%、提权 70%、初始访问 63.64% 这些前中期类别上都很高。论文总结得很清楚:AutoClaw 的风险明显集中在攻击链前半段,也就是环境画像、能力准备、入口建立和权限探测。

最值得重视的是它的链路分析。AutoClaw 在输入接入阶段 67.92%,规划与推理阶段高达 70%,认证与路由 48.65%,结果返回 31.82%,扩展生态 41.38%,而工具执行阶段反而只有 23.64%。论文的判断非常直接:AutoClaw 最大的问题不是执行层完全失控,而是认知核心先失控了。 攻击者可以利用语义注入、上下文伪装,让系统先生成错误的高风险计划;虽然底层工具执行还拦住了一部分操作,但上层逻辑已经被带偏了。

所以 AutoClaw 的危险不在于“它一定能执行到最后”,而在于它太容易把不该做的事判断成该做的事。在 Agent 里,这种规划层失守往往比单个危险工具更可怕。
6. MaxClaw:整体最稳,但前期探测仍然没压住
MaxClaw 是总表里整体成功率最低的一个,16.02%。论文还写到,它总共成功了 33 条攻击样例,防御成功率达到 83.90%。从类别上看,它在持久化、横向移动和外传上都是 0%,初始访问、提权、凭据访问也都在 10% 左右,说明它对显式的高危行为确实有比较成熟的拦截。

但它也不是没有问题。MaxClaw 的侦察是 50%,发现是 48.28%,防御规避 17.86%,执行 16.67%。论文指出,侦察和发现这两类不但比例最高,而且占了它成功样例的大头;如果再把规避类算进去,三类前期探测与规避行为占了它大部分成功案例。链路上看,输入接入 22.64%,规划与推理 20%,工具执行 20.24%,状态更新 21.62%,但认证与路由只有 2.70%,扩展生态是 0%。
这说明 MaxClaw 的问题更像一种“大危险动作拦得住,小伪装探测还不够敏感”的状态。它比别家稳,但仍然没有完全解决前期信息暴露的问题。
模型安全不等于智能体安全
这篇文章最重要的结论,其实不是谁分数更高,而是它把一个现在越来越清楚的现实讲明白了:Agent 的最终安全性,既不是底模单独决定的,也不是框架单独决定的,而是两者耦合出来的。 论文用两个对照把这件事说得很清楚:同样是 OpenClaw,换不同底模,风险就会变;同样是 Kimi-K2.5,放在 OpenClaw 和 KimiClaw 里,表现出来的风险又完全不同。

这意味着,今天看 Agent 安全,已经不能只盯“模型会不会拒答”了。真正要看的,是 模型能力、工具权限、多步规划、运行时控制、状态写回和输出通道是怎么一起工作的。QClaw 的问题更像凭据和外传,AutoClaw 的问题更像规划层失控,KimiClaw 的问题更像执行链条太顺,MaxClaw 的问题则是前期探测仍然偏松。它们不是同一种失败模式。
所以,这篇论文真正给行业的提醒是:智能体安全正在从“提示词安全”升级成“运行时系统安全”;从“回复安全”升级成“执行安全”;从“单轮拒答”升级成“全生命周期治理”。 这也是论文最后给出的防守方向:更强的输入侧检查、更安全的规划控制、更严格的执行边界、更稳健的输出审计。
落到一句最直白的话上就是:
真正危险的 Agent,不是会说错话的 Agent,而是会把一句看起来没那么危险的话,拆成一串真实可执行动作的 Agent。
声明:本文来自模安局,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。