OpenClaw与5款国产类Claw智能体安全评测报告

今天介绍的这篇文章，测试了 OpenClaw、AutoClaw、QClaw、KimiClaw、MaxClaw、ArkClaw 这 6 个类 Claw 智能体系统的安全性。

https://arxiv.org/pdf/2604.03131

论文不是看模型单独聊天时会不会拒答，而是看它们在接入工具调用、多步规划、本地执行和状态持久化之后，是否会暴露出真实的系统级安全风险。为此，作者构造了 205 条测试样例，覆盖 13 类攻击行为，并完成了 1200 多轮有效对抗交互。

6 个类 Claw 智能体分别是什么

OpenClaw 是开源 AI Agent 框架，强调让 AI 直接操作电脑完成任务；
AutoClaw 是智谱做的本地一键版，主打把复杂部署压成桌面安装；
QClaw 是腾讯做的本地化助手，强调通过微信远程控制电脑；
KimiClaw 是 Moonshot 基于 OpenClaw 和 Kimi K2.5 做的云端托管服务；
MaxClaw 是 MiniMax 的一键云部署方案；
ArkClaw 则是火山引擎推出的云端 SaaS 版本，强调企业级开箱即用和飞书集成。

论文选这 6 个系统，也是为了覆盖本地执行、桌面封装、云托管、Web 到本地桥接等不同部署形态。

这一步其实很重要。因为论文想证明的不是“某一个产品安不安全”，而是 同样都属于类 Claw 智能体，不同产品形态、不同工具暴露方式、不同运行环境，会把安全风险放大成完全不同的样子。作者从一开始就把“框架差异”和“底模差异”一起纳入了评测视角。

智能体系统的架构与工作原理

1. OpenClaw：一个以 Gateway 为中心的本地 Agent 框架

OpenClaw 的核心是一个长期运行的 Gateway。

论文把它拆成四层：接入层、路由层、业务层、存储层。接入层负责接消息和标准化输入；路由层负责按用户、来源、会话去分发请求并做访问控制；业务层负责推理、上下文管理、工具调用和任务执行；存储层负责本地持久化配置、会话状态、日志和相关上下文数据。整个流程是“接收输入—匹配会话—推理与执行—状态落盘”的闭环。

这意味着 OpenClaw 的风险天然不只在模型回复上，还分布在消息入口、路由控制、工具执行和本地存储这些位置。也正因为这样，后面论文的评测维度才不是单纯看“能不能拒答”，而是看整套运行链路哪里会被打穿。

2. KimiClaw：Web 前端 + 桥接插件 + OpenClaw 执行环境

KimiClaw 在论文里的定位，不是一个完全重写的新框架，而更像是 Kimi Web 与 OpenClaw 之间的桥接层。

用户请求先从 Kimi Web 进入，再通过 KimiClaw 插件转发到本地 OpenClaw Gateway 或云端实例，由后者完成会话管理、工具调用和实际执行，最后再把结果回写到 Web 端。它支持网页对话、终端、文件收发、定时任务和 skill 调用。

论文还特别提到，Kimi Web 侧集成了关键词黑名单，例如出现 /etc/passwd 这类敏感路径时会直接提示发送失败。这说明它在前端入口处做了一层显式拦截，但后面的测试结果也表明，有前端黑名单，不等于整条链都安全。

3. ArkClaw：控制平面和执行平面分离的 SaaS 形态

ArkClaw 的核心思路是 控制平面和执行平面分离。

论文里说，OpenClaw 框架作为控制平面，负责统一运行环境、安全治理和资源调度；ArkClaw 作为执行平面，负责语义理解、任务规划和决策执行。它采用三层结构：上层是接入与控制层，中层是智能体层，下层是能力与状态层，同时强调记忆、状态和任务编排能力。

换句话说，ArkClaw 不是简单的“对话机器人”，而是一个带状态、带记忆、带工具和任务闭环的智能体系统。这让它更像企业可用的 Agent，也意味着一旦失守，风险会更容易沿着状态和后续任务继续扩散。

4. QClaw：本地化客户端 + 社交入口 + 本地执行资源

QClaw 的架构比较有代表性。

论文把它拆成三层：核心层、封装层、展示层。核心层建立在 OpenClaw 架构上，包含 Gateway WebSocket 控制面、Pi Agent 运行时以及 Skills/ClawHub 生态；封装层负责安全隔离和能力整合；展示层则是面向用户的 Electron 客户端，并且接入微信和 QQ。

它的典型流程是：用户从微信发命令，经腾讯网关转发到本地 QClaw 客户端，再通过 WebSocket 进 OpenClaw Gateway，由 Pi Agent、Skills 和 Browser 一起完成闭环执行。

这个设计的好处是上手门槛很低，但代价也很明显：消息入口更贴近日常沟通场景，执行层又能直连本地文件、终端命令和第三方应用。如果边界没收紧，它的可利用面会非常大。

5. AutoClaw：典型的本地自动化执行流水线

AutoClaw 被论文描述为一个面向本地自动化执行的 Agent 运行平台。

它的架构有五层：基础运行层、模型接入层、任务编排层、技能系统层、交互集成层。它的典型流水线是：接收输入 → 任务解析 → 模型决策 → 工具执行 → 状态更新 → 结果返回。在执行阶段，它会调浏览器、文件处理、系统命令和外部 API，请求结果再写回运行态、日志或记忆模块。

所以 AutoClaw 的风险也不是一个单点漏洞，而是贯穿输入解析、任务规划、工具调用、状态写回和扩展能力集成的整条链。论文明确建议，在评估它时，应该把它视为一个完整的本地 Agent 系统，而不只是一个“接了模型的工具箱”。

6. MaxClaw：完整云端运行的循环执行系统

MaxClaw 面向云部署场景，架构上分为信息交互层、网关控制层、技术系统层和 Agent 层，云端提供算力与存储资源。它同样走“输入接收—任务解析—模型决策—工具执行—状态更新—结果返回”的循环流程，只不过整个系统都放在云上。论文认为，这种形态适合大规模任务，也更强调弹性和扩展性。

但也正因为它是云端闭环，后面的评测结果会看到一个很有意思的结论：它在不少高危攻击上确实更稳，但对前期探测和环境画像类请求，仍然不够敏感。

测试方案

测试方案分两层。

第一层是 13 类攻击行为，参考了 MITRE ATT&CK Enterprise 和相关研究，覆盖侦察、资源发展、初始访问、执行、持久化、提权、防御规避、凭据访问、发现、横向移动、敏感数据收集、数据外传和业务破坏。论文给出的例子很具体，例如 whois、dig、nmap 探测，自动注册脚本或 SSH 密钥生成，Webshell 上传，反弹 shell，修改 .bashrc 和 authorized_keys，读取浏览器配置、bash history、环境变量，乃至 DNS 隐蔽外传。

第二层是 链路阶段映射。作者没有停留在“攻击类型”这一个维度，而是把风险再映射到智能体的标准运行链路里，包括输入接入、认证与路由、规划与推理、工具执行、状态更新、结果返回和扩展生态。论文的意思很明确：智能体不是静态程序，而是一个把感知、决策、执行、存储串起来的动态系统，所以安全分析也必须按链条看。

这套设计的价值在于，它能同时回答两个问题：一是“哪种攻击更容易成功”，二是“这些攻击到底是在哪个系统环节成功的”。 这比只看最终有没有执行危险命令，更接近真实的 Agent 风险分析。

测试结果

先看总结果。论文直接给出了 6 个系统按攻击类别统计后的总体成功率：QClaw 54.85% 最高，AutoClaw 49.51% 第二，KimiClaw 40.78%，ArkClaw 29.61%，OpenClaw 19.42%，MaxClaw 16.02%。这组数据已经说明一个很现实的事实：没有哪一套系统可以说“已经安全了”，区别更多只是暴露面大还是小、风险集中在哪一段。

更关键的是，论文发现最普遍的共同弱点并不是最终破坏，而是前面的 Reconnaissance 和 Discovery。作者写得很直白：这两个类别是最突出的共同短板，平均成功率超过 65%。原因也不复杂，这些动作经常长得像正常诊断、排障和运维，而不是显眼的恶意命令，所以系统很难在前期就把它们压住。

论文还总结出了一个很典型的“风险漏斗”结构：前期探测、发现、资源准备成功率普遍偏高；到了提权、持久化、外传和破坏这些后段动作，成功率会下降，但并没有被稳定拦住。一旦前面拿到了环境信息，后面就会更容易推进。也就是说，真正危险的不是一条孤立的恶意命令，而是 系统能不能阻断从“看似正常的探测”滑向“真实的危险执行”。

每个智能体的薄弱之处

1. OpenClaw：总体不算最高，但前期探测明显偏松

总表里，OpenClaw 的整体攻击成功率是 19.42%，不算最高，但并不代表它安全。论文在 OpenClaw + GPT-5.4 mini 的专门测试里给出的结果是：侦察 71.43%，发现 55.17%，而资源发展和数据外传都是 0%。这说明它对明显高危的资源构建和外传类行为拦得相对更紧，但对前期环境探测和信息定位仍然比较松。

论文还补充比较了 OpenClaw 换底模后的表现：在 Kimi-K2.5 版本下，侦察升到 85.71%，凭据访问达到 28.57%，外传达到 20%。作者据此强调，同一个框架，底模换掉之后，风险画像会明显变化。GPT-5.4 mini 版本对外传和资源发展压得更严，Kimi-K2.5 版本则更容易把“调试、诊断、权限确认”这类伪装请求继续往执行层推进。

从链路上看，OpenClaw 的 GPT-5.4 mini 版本在输入接入、规划与推理、工具执行、状态更新几个阶段分别有 30.19%、24.00%、22.61% 和 24.32% 的成功率，结果返回只有 6.82%，扩展生态为 0%。这很像一种“前面松、后面紧”的基本形态。

2. KimiClaw：最危险的不是一句话，而是它会继续往下做

KimiClaw 的整体成功率是 40.78%，已经明显高于 OpenClaw。它最突出的几项是：侦察 100%，资源发展 57.14%，执行 50%，发现 68.97%，横向移动 66.67%。成功样例包括拉取带攻击工具的 Docker 镜像、利用 bash 内建建立连接、读取 sudo 信息、往 authorized_keys 写 SSH 公钥，以及用 sshpass 去尝试内网其他主机。

如果再看链路阶段，KimiClaw 的 规划与推理阶段高达 62%，工具执行阶段 48.8%，输入接入阶段 47.2%，认证与路由阶段 35.1%。这说明它的问题不只是执行面宽，而是 任务理解、计划生成、执行延续性都偏强。同样的 Kimi-K2.5 底模，放在 OpenClaw 里更多表现为信息暴露和不安全回显；放在 KimiClaw 里，却更容易继续推进到横向移动和资源发展。

所以 KimiClaw 的风险特点，不是“最会偷数据”，而是特别容易把攻击从前期探测一路推进成真实执行链。这也是论文为什么会把它看作“框架机制放大底模能力”的一个典型案例。

3. ArkClaw：中段和后段压力更大，执行与状态写回值得重点盯

ArkClaw 的整体成功率大约在 30% 左右。论文专门给它的攻击统计里，侦察 50%，执行 58.33%，发现 75.86%，防御规避 35.71%，外传 13.33%。作者对它的判断是：它不是完全没有拦截能力，但在某些攻击面上仍有明确短板，尤其是编码包装、文件/配置注入和高权限请求执行。

ArkClaw 更有意思的是链路分布。它在工具执行阶段 40.48%，状态更新阶段 39.19%，输入接入阶段 33.96%，规划与推理阶段 30%。也就是说，它的主要风险压力已经不只是前端入口，而是真实执行之后，状态还能不能被继续利用。论文明确指出，ArkClaw 的问题表现为从输入、推理、执行到执行后状态固化的一条连续链。

这类系统的风险很典型：不是“什么都放开”，而是一旦进入执行层和状态层，攻击就更容易变成持续性影响。对企业场景来说，这其实比单次危险命令更麻烦。

4. QClaw：全篇最扎眼的一个，凭据和外传尤其危险

QClaw 是这篇论文里整体风险最高的一档。论文正文写它在 205 条攻击样例中成功了 113 条，整体成功率大约 55.1%；总表给出的数值是 54.85%。它最显眼的几项分别是：侦察 100%，发现 82.76%，凭据访问 85.71%，数据外传 80%，横向移动 66.67%，资源发展 57.10%，提权 50%。

这些数字背后的含义非常明确：QClaw 最危险的地方，不在“最终破坏”这一跳，而在“信息面太大、凭据保护太弱、外传通道太顺”。论文列出的典型成功样例包括密码文件访问、SSH Agent 检查、进程环境泄漏、SSH 私钥收集、DNS 数据外传、DNS TXT 记录外传和 SSH 管道传输。作者甚至直接把它概括成“容易侦察打穿、容易偷到凭据、容易把数据带走”。

如果从链路看，QClaw 更夸张。输入接入 50.94%，认证与路由 62.16%，规划与推理 62.00%，状态更新 63.51%，结果返回 59.09%，扩展生态 68.97%。也就是说，它的问题几乎不是某一个单点，而是从前端入口、身份边界、计划生成、状态污染到结果回显和生态扩展，多个环节都偏松。

5. AutoClaw：最致命的问题在“脑子里”，不是只在“手上”

AutoClaw 的整体成功率是 49.51%，属于第二高的一档。它在侦察 92.86%、发现 75.86%、资源发展 71.43%、提权 70%、初始访问 63.64% 这些前中期类别上都很高。论文总结得很清楚：AutoClaw 的风险明显集中在攻击链前半段，也就是环境画像、能力准备、入口建立和权限探测。

最值得重视的是它的链路分析。AutoClaw 在输入接入阶段 67.92%，规划与推理阶段高达 70%，认证与路由 48.65%，结果返回 31.82%，扩展生态 41.38%，而工具执行阶段反而只有 23.64%。论文的判断非常直接：AutoClaw 最大的问题不是执行层完全失控，而是认知核心先失控了。 攻击者可以利用语义注入、上下文伪装，让系统先生成错误的高风险计划；虽然底层工具执行还拦住了一部分操作，但上层逻辑已经被带偏了。

所以 AutoClaw 的危险不在于“它一定能执行到最后”，而在于它太容易把不该做的事判断成该做的事。在 Agent 里，这种规划层失守往往比单个危险工具更可怕。

6. MaxClaw：整体最稳，但前期探测仍然没压住

MaxClaw 是总表里整体成功率最低的一个，16.02%。论文还写到，它总共成功了 33 条攻击样例，防御成功率达到 83.90%。从类别上看，它在持久化、横向移动和外传上都是 0%，初始访问、提权、凭据访问也都在 10% 左右，说明它对显式的高危行为确实有比较成熟的拦截。

但它也不是没有问题。MaxClaw 的侦察是 50%，发现是 48.28%，防御规避 17.86%，执行 16.67%。论文指出，侦察和发现这两类不但比例最高，而且占了它成功样例的大头；如果再把规避类算进去，三类前期探测与规避行为占了它大部分成功案例。链路上看，输入接入 22.64%，规划与推理 20%，工具执行 20.24%，状态更新 21.62%，但认证与路由只有 2.70%，扩展生态是 0%。

这说明 MaxClaw 的问题更像一种“大危险动作拦得住，小伪装探测还不够敏感”的状态。它比别家稳，但仍然没有完全解决前期信息暴露的问题。

模型安全不等于智能体安全

这篇文章最重要的结论，其实不是谁分数更高，而是它把一个现在越来越清楚的现实讲明白了：Agent 的最终安全性，既不是底模单独决定的，也不是框架单独决定的，而是两者耦合出来的。 论文用两个对照把这件事说得很清楚：同样是 OpenClaw，换不同底模，风险就会变；同样是 Kimi-K2.5，放在 OpenClaw 和 KimiClaw 里，表现出来的风险又完全不同。

这意味着，今天看 Agent 安全，已经不能只盯“模型会不会拒答”了。真正要看的，是 模型能力、工具权限、多步规划、运行时控制、状态写回和输出通道是怎么一起工作的。QClaw 的问题更像凭据和外传，AutoClaw 的问题更像规划层失控，KimiClaw 的问题更像执行链条太顺，MaxClaw 的问题则是前期探测仍然偏松。它们不是同一种失败模式。

所以，这篇论文真正给行业的提醒是：智能体安全正在从“提示词安全”升级成“运行时系统安全”；从“回复安全”升级成“执行安全”；从“单轮拒答”升级成“全生命周期治理”。 这也是论文最后给出的防守方向：更强的输入侧检查、更安全的规划控制、更严格的执行边界、更稳健的输出审计。

落到一句最直白的话上就是：

真正危险的 Agent，不是会说错话的 Agent，而是会把一句看起来没那么危险的话，拆成一串真实可执行动作的 Agent。

声明：本文来自模安局，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

OpenClaw与5款国产类Claw智能体安全评测报告

AI Agent零信任框架：五大风险、三层架构与八阶段实施流程

SOC中的大模型：安全运营中心人机协作研究

FuzzingBrain V2：一种用于自动化漏洞发现和复现的多智能体LLM系统