从输出风险到行动风险：智能体治理体系的重构

今天和大家分享的是公号君发表在《地方立法研究》上的一篇文章【洪延青：从输出风险到行动风险：智能体治理体系的重构||《地方立法研究》】非常感谢编辑部老师的耐心和支持！

从输出风险到行动风险：智能体治理体系的重构

洪延青

（北京理工大学法学院教授）

本文来源于《地方立法研究》2026年第3期，第65-75页。因篇幅较长，本文注释已略，建议阅读原文。

摘要

人工智能正由文本生成转向具备操作能力的智能体应用，风险重心也由模型输出内容转向系统所获得的行动权限。在智能体场景中，决定现实损害的关键不再是模型本身的抽象安全性，而是工具权限、会话隔离、执行审批等部署层的架构配置。以OpenClaw的技术架构为例，其控制平面与策略表面清晰揭示了这一结构性变化。而以基础模型为中心的规制路径，在规范对象、责任主体和证据规则上均存在明显错位，难以充分覆盖智能体的行动风险。因此，智能体治理的核心规制对象应当从“模型能力”进一步转向“权限边界”，并以部署者为首要合规义务人，将能力清单、最小权限、默认隔离、宿主与插件审查、高危动作的人类审批以及可审计日志等安全工程机制，法定化为部署义务的基本内容。与之相应，责任制度也应作出调整，即在责任主体上由上游模型提供者向下游部署者适度倾斜，在证据规则上由单一的聊天记录扩展至涵盖工具调用明细、权限策略、隔离配置、审批记录与配置变更的“审计资料包”，如此方能真正回应智能体行动风险的生成机制。

关键词

AI智能体权限边界部署者责任控制平面 OpenClaw

引言

一、行动风险的生成机制：智能体相较于大模型的结构性变化

二、以模型能力为规制对象的局限

三、以权限边界为规制对象的合理性

四、构建以部署者为中心的义务体系

五、基于行动权限重构责任制度

结语

引言

大模型应用的第一阶段，主要围绕内容生成展开。那一阶段的主要争议集中在训练数据、版权、偏见、虚假信息与透明度上，法律的基本关注点也相应落在模型输出及其社会影响上。智能体的出现改变了这一前提。根据OWASP（Open Web Application Security Project，开放式web应用程序安全项目）的定义，智能体不只是会生成文本的语言模型，而是能够推理、规划、调用工具、维持记忆并采取行动以完成目标的系统。只要模型被接入文件系统、浏览器、网络接口、消息通道或其他执行环境，风险就会从“说错话”转化为“做错事”。

这种变化的突出代表即是以OpenClaw为代表的工程化实现。OpenClaw的自动化文档显示，“心跳”（heartbeat）模块会以默认30分钟一次的频率触发主会话中的周期性轮转，用于批量检查收件箱、日程与通知；“定时任务”（cron）模块负责精确定时任务；“常设施令”（standing orders）机制则允许部署者事先设定“授权范围、触发条件、审批门槛与升级规则”，使智能体在既定边界内持续运行。所谓“自主性”，在这里并不意味着形成某种独立意志，而是意味着部署者通过程序化方式预先授予了持续性的操作权限。那么，面对一个能够自行触发工具、读取外部内容并长期运行的系统，单纯追问模型是否“足够对齐”，已经无法覆盖全部法律风险。OpenClaw官方文档明确写道，系统提示词护栏只是软性指导，真正的强制约束来自工具策略、执行审批、沙箱化与渠道白名单；该文档还强调，即使只有用户本人可以向机器人发送消息，提示词注入仍可经由网页、邮件、附件和其他不可信内容发生。换言之，智能体时代的首要问题不是模型有没有“恶意”，而是部署者是否把一个脆弱而可被操纵的推理系统，连接到了足以产生现实后果的权限链条上。

在此背景下，沿用以模型参数、训练语料和输出文本为中心的规制路径，容易在规范对象、责任主体和证据规则上同时出现错位。更合适的切入点，是把“能力边界”作为核心规制客体：谁可以触发系统，系统能触及哪些工具和数据，命令落在哪个宿主环境，哪些操作须经人工审批，哪些配置变化会扩大风险半径。控制这些边界的，不是基础模型提供者，而是实际集成、部署和维护系统的主体。责任重构也必须随之发生。

一、行动风险的生成机制：智能体相较于大模型的结构性变化

智能体相较于一般大模型的核心差异，在于其在结构上打通了从生成内容到实施操作的链条，这一结构性变化集中体现在工具调用机制、控制平面、会话隔离与权限配置四个层面。OpenClaw的工具文档将“工具”（tools）界定为可发送至模型接口的结构化功能定义。模型本身并不直接实施操作，而是在推理后提出调用某项工具的请求；系统再依据既定配置决定是否准许执行。文件读取、命令执行、网页访问、消息发送和节点控制，均通过这一机制进入现实运行环境。只要相关工具已经配置完成并被允许调用，模型输出就不再停留于语义表达层面，而会进一步进入实际执行层面。

这种结构决定了所谓“大脑”并不等于完整的行动主体。OpenClaw的上下文文档和系统提示词（prompts）文档都说明，系统提示词由OpenClaw在每次运行前重新构建，工具清单、技能元数据、工作区位置、时间、运行时元数据和引导文件均会在每次调用时重新注入；系统还会在上下文窗口受限的前提下，对历史对话、工具调用结果、附件与摘要进行裁剪与装配。模型面对的并不是一个稳定、内生、完整的世界，而是部署层在每次运行时“拼装”出来的“可见世界”。持久性身份、记忆、权限与执行路径，主要掌握在系统外层，而不掌握在模型内部。

OpenClaw的安全文档因此把“网关”（gateway）明确定义为“控制平面和策略表面”,它负责认证、工具策略和路由；“节点”（node）是与网关配对的远程执行表面，承担命令、设备动作和宿主机本地能力。更关键的是，“会话标识”（sessionKey）只是路由与上下文选择，而不是按用户划分的授权边界；任何已经通过网关认证的调用者，在网关管理范围内都会被视为受信任的操作人员。法律上最重要的事实由此浮现：决定系统能否行动以及如何行动的，不是模型参数，而是控制平面的认证、路由和策略配置。

会话隔离机制进一步表明，智能体风险首先表现为边界配置失当，而非内容生成失当。OpenClaw的“会话管理”（session management）文档明确指出，“主会话”模式（main）属于默认配置。在这一模式下，所有私人消息均共享同一会话。只有“按渠道和发送者隔离”（per-channel-peer）模式，才会按照消息渠道和发送者分别实施隔离，这也是文档所推荐的配置方式。安全文档据此进一步提出明确要求：如果存在不止一人向同一代理发送私人消息，就应启用“按渠道和发送者分别隔离”的私信范围设置（session.dmScope: “per-channel-peer”）；同时，不得将共享私人消息与宽泛的工具权限同时配置使用。这意味着，一旦部署者允许多人触发同一高权限智能体而未实施隔离，风险的根源并不在于模型是否出现“串线式”推理，而在于系统在结构上已经将不同主体纳入同一操作域。

工具权限的结构同样具有高度可见性。OpenClaw允许通过“工具允许清单”（tools.allow）和“工具禁止清单”（tools.deny）对工具集合进行静态裁剪，且禁止规则始终优先于允许规则。“工具配置档”（tools.profile）还可以预先设定基础允许范围，例如，“消息型配置档”（messaging）只允许消息发送及有限的会话工具，“最小化配置档”（minimal）则仅保留最低限度的状态能力。对法学讨论而言，这一点揭示了一个更具一般性的命题：智能体在现实中的危险程度，并不取决于其在语义层面是否“会作恶”，而取决于部署层是否赋予其接触外部世界并实施操作的能力。

二、以模型能力为规制对象的局限

国际上的现行制度并未忽视智能体风险。例如，欧盟委员会对《人工智能法》（AI Act）的官方说明，已经将其界定为面向开发者与部署者的风险分级框架。就“通用人工智能模型”（GPAI models）而言，现行制度要求提供者履行技术文档、版权政策和训练内容摘要等义务；对“具有系统性风险的通用模型”（GPAI models with systemic risk），还进一步要求通知委员会、开展风险评估与缓释、履行事件报告义务，并采取网络安全措施。这说明，现行欧盟法已经形成了一套以模型提供者和模型层风险为主要支点的合规结构。

但问题在于，这一合规结构与智能体风险的生成机制并不完全匹配。有研究指出，AI Act在原则上可以适用于智能体，但在实践上存在明显的“规制适配性”（regulatory fit）不足：它预设风险可以围绕相对清晰的技术对象——模型或系统，被事先识别，在某一固定时点被评估，并由预先界定的主体承担责任；而智能体的风险往往不是在模型训练完成时就已经确定，而是在接入工具、获得权限、进入具体运行环境并持续执行任务的过程中逐步形成和放大。由此，智能体所提出的挑战，首先不是规制是否覆盖，而是规制对象是否选对。

因此，仅以基础模型为中心配置法律义务，并不足以覆盖智能体的核心危险。首先，“对齐”（alignment）并不构成足以替代部署治理的稳定边界。已有关于“弱模型到强模型越狱”（Weak-to-Strong Jailbreaking）和“对齐坍塌”（alignment collapse）的研究都表明，模型层安全护栏可能被有效绕过，也可能在后续微调中被意外削弱。不过，即使暂时撇开这些技术脆弱性，智能体的现实风险仍然主要取决于部署层是否赋予其访问浏览器、文件系统、命令执行、持续任务和外部通信接口的能力。模型能力与部署能力并不等值：一个参数规模较小的模型，只要被给予宽泛的工具和宿主访问权限，其现实危险性完全可能高于一个能力更强但被严格沙箱化的模型。对智能体而言，决定风险强度的关键变量，并不只是模型能力本身，而是部署后获得的可操作能力。

这也说明，欧盟法对高风险系统和系统性风险的识别逻辑，未必能够有效捕捉智能体风险。AI Act对高风险人工智能系统的认定，在相当程度上依赖于“预定用途”（intended use）；对通用模型的系统性风险识别，则仍主要依赖于训练算力等上游指标。相关研究将这一思路概括为“以技术对象为中心的治理”（artifact-centric governance）：它默认风险能够被绑定在某个离散的模型或系统之上，并在部署前大体稳定下来；但对智能体而言，真正关键的问题往往不是模型本身是什么，而是它在具体部署中能够调用什么工具、处于什么权限结构之下、面向哪些交互对象，以及是否会在运行中改变行为路径。只要制度仍把模型能力当作主要代理指标，就容易抓住最便于统计的对象，而忽略最接近损害发生的环节。

其次，虽然欧盟法已经把对抗样本、模型规避、数据投毒和模型投毒纳入高风险系统的稳健性与网络安全要求，但这些规定主要针对传统意义上的模型脆弱性。智能体场景中的提示词注入、工具滥用和权限链放大，并不只是抽象的模型缺陷，而是在部署层的接口配置、权限安排和审批机制中，被转化为现实执行后果的边界控制问题。以OpenClaw的系统结构为例，真正决定系统能否行动以及如何行动的，是外层控制平面的认证、路由、工具策略、会话隔离和执行审批。因此，在智能体场景中，风险控制的关键已经从对内容输出的单点约束，转向对触发条件、工具可达性和执行范围的制度性限定。

再次，模型中心式的规制还低估了智能体治理中的“多人分散责任问题”（many-hands problem）。基础模型提供者掌握模型内部信息，系统提供者决定智能体架构，部署者掌握工具接入、权限配置和运行环境，第三方工具供应者则控制关键外部能力。风险由这些要素共同构成，却难以归结为单一主体的失误。AI Act虽然沿价值链分配义务，但相关研究指出，它在相当程度上仍然假定下游主体可以凭借上游披露的信息有效识别和管理风险。问题在于，上游掌握更多技术细节，却难以充分预见具体部署中的工具组合、权限设置和环境互动；下游更接近真实场景，却未必能够及时获得足够细颗粒度的信息。结果是，形式上的责任分配并不必然对应实际上的控制能力。

最后，模型中心规制的监测逻辑也难以适应智能体。AI Act的许多关键义务仍围绕上市前分类、技术文档、周期性报告和事后事件通报展开。有研究指出，现有机制更擅长接收某一时点上的合规信息，却未必能够持续把握智能体在真实运行中的行为变化；而智能体的许多重要风险，恰恰只会在部署后，在与用户、其他系统和外部环境的持续互动中显现并累积。对于这类系统，一次性的静态分类和间歇性的文档审查，难以构成充分的风险控制。

据此，对智能体的规范分析需要从“模型中心”进一步转向“部署中心”或者“控制结构中心”。基础模型当然仍是重要规制对象，但它只是风险链条中的一个环节。更接近损害发生机制的问题，是谁为智能体配置工具，谁为其开放权限，谁决定会话边界和审批阈值，谁能够持续监测其行为并在必要时终止执行。只有把这些部署层要素纳入规制中心，法律才有可能真正触及智能体风险的生成条件，而不是停留在对模型能力和模型输出的抽象想象之中。

三、以权限边界为规制对象的合理性

在智能体场景中，“权限边界”比“模型能力”更适合作为核心规制对象。所谓权限边界，是由系统架构实际设定的、模型所能接触和触发的行动范围。它至少包括五个维度：可调用的工具集合、可访问的数据范围、命令实际落地的执行宿主、能够持续影响系统状态的自动化能力，以及插件和扩展所形成的供应链边界。这些对象都具有清晰的工程形态，也都可以转化为合规审查与责任判断的事实基础。

OpenClaw之所以适合作为切入个案，正在于其将这些边界写得较为清楚。“网关”负责控制平面，“节点”负责远程执行端；“会话标识”并非用户授权令牌；多人共享同一具备工具调用能力的智能体，在实质上就是多人共享同一组被委托的工具权限。官方文档还明确指出，如需在彼此不信任的用户之间实现强隔离，则应当按照信任边界分别拆分“网关”和凭证，是一个将“行动能力来自边界配置”这一事实揭示得极为充分的系统。

控制平面工具尤其表明，智能体风险不仅来自即时操作，也来自能够改变后续行为条件的上位能力。OpenClaw 的安全文档指出，“网关”工具可以读取配置并作持久性修改，“定时任务”工具可以创建在原对话或原任务结束后仍持续运行的定时作业。对于任何可能接触不可信内容的智能体或交互界面，官方都建议默认拒绝“网关”工具、“定时任务”工具、“会话派生”（sessions_spawn）工具和“会话发送”（sessions_send）工具。从法律上看，这些能力之所以敏感，在于它们可以修改控制平面、延展执行链条，并延长风险的持续时间。

插件风险则进一步表明，权限边界并不只存在于模型与工具之间。OpenClaw 的插件架构文档明确指出，原生插件（native plugins）与“网关”在同一进程中运行，并不经过沙箱隔离（sandboxing）；恶意插件在效果上，等同于在OpenClaw进程内部执行任意代码。由此可见，所谓“插件”，并不只是附加功能，而是法律上足以改变系统风险属性的集成部件。谁引入插件，谁允许其进入主进程，谁就应当对由此扩大的风险范围承担更高程度的注意义务。

智能体技术本身仍处于快速演化之中。2026年2月由Nous Research发布的开源智能体Hermes（爱马仕），即在OpenClaw 所展示的单体架构基础上，进一步将技术形态推向“持久跨会话记忆+子智能体派生+自主技能创建+完整桌面自动化”的复合形态。Hermes的内置工具支持浏览器完整自动化（例如导航、点击、输入、截屏）、沙箱化代码执行，以及可在任意时间触发任务的内置定时调度器；其架构允许主智能体派生彼此独立的子智能体以并行处理多线任务；其多级记忆系统在会话之间自我“提示”持久化关键知识，并在完成复杂任务后自主撰写可复用的“技能”文档，从而在运行过程中持续扩展自身能力边界。

这一演化使行动风险的具体形态进一步发生变化：子智能体派生意味着权限可能在主智能体未及审查的情况下沿调用链传染至下游执行点；持久跨会话记忆使得被污染的内容或被诱导的行为模式，可能在长时间跨度上累积并影响后续决策；自主技能创建，则意味着部署者初始授权的能力边界可能在运行中被智能体自身扩展；完整的桌面与浏览器自动化，则可能绕开传统工具策略层的审批与拒绝清单。然而，这些新风险并未动摇本文的基本判断，反而进一步强化其方向：从OpenClaw到Hermes，决定行动风险强度的依然不是模型本身的“智能水平”，而是部署层是否在新的能力维度上同步重建权限边界，即子智能体之间是否设有跨代理的授权审批与隔离边界，持久记忆是否设有可审计的写入策略与污染检测，自主创建的技能是否需要部署者复核方可投入运行，桌面级动作是否设有动作类型级的拒绝清单与审批门槛。以权限边界为核心规制对象、以部署者为首要合规义务人的治理结构，对Hermes这类更具自主性、更长运行周期、更广操作面的智能体形态而言不仅依然成立，而且更为必要。新的风险不会改变这一结构性命题，但要求权限边界的具体配置规则随之同步更新。

因此，如果智能体治理仍然主要停留在模型层面，就会反复回到最上游寻找责任，却将最接近损害发生的控制点置于制度边缘。将权限边界确立为核心规制对象，正是为了把法律关注的重点从模型“内部”重新转向系统“接口”：谁可以触发系统，能够触发哪些能力，触发之后可以到达何种范围，是否会形成持续性后果。相较于讨论模型是否具有以及多大程度上具有“自主性”，这一进路更能够形成可执行的法律规范。

四、构建以部署者为中心的义务体系

一旦权限边界成为核心规制对象，首要义务人就只能是部署者。部署者决定采用何种模型、加载哪些工具、开启哪些网络出口、是否允许写操作、是否暴露给多人共享入口、是否启用沙箱与审批，甚至是否安装第三方插件。Herbosch对AI agents的责任分析反复强调，系统的负面影响既取决于其开发方式，也取决于其部署方式；部署者可以通过逐项核验输出来降低风险，也可以通过盲目信赖系统来显著放大风险。风险并不是在模型完成训练时就固定下来的，而是在部署决策中被重新塑形。

这种以部署者为中心的思路，已有立法表达。例如欧盟AI Act第25条明确规定，任何分销商、进口商、部署者或者其他第三方，只要对高风险系统作出实质性修改，或者改变某一人工智能系统的预期用途，并使其转化为高风险系统，即会被视为新的提供者，并承担相应的提供者义务。这里所称的人工智能系统，也包括通用人工智能系统。第26条进一步要求部署者采取适当的技术和组织措施，指定具备能力与权限的自然人实施人类监督，确保其可控制范围内输入数据的相关性和代表性，监测系统运行情况，并将自动生成的日志至少保存6个月。第27条则进一步要求，特定高风险部署在投入使用前开展基本权利影响评估，说明相关流程、受影响对象、特定风险、监督措施，以及风险发生后的内部治理与申诉机制。

问题在于，这些义务仍需被进一步翻译为智能体场景下可操作的部署义务。首先需要的，是一种“能力清单”义务。上线前，部署者应当形成对系统能力边界的清晰列示：代理接入了哪些工具，能否读写本地文件，是否具有外部通信能力，命令落在何种宿主环境中，是否允许持续性任务，是否启用插件，审批与回滚机制如何工作。这样的清单不是多余文书，而是将抽象的“适当技术与组织措施”转化为可审查对象的最基本方法。没有能力清单，最小权限就无法核验，责任界限也难以明确。

其次，需要将最小权限与默认隔离转化为刚性要求。OWASP明确提出，应当只向智能体授予完成特定任务所必需的最少工具，并按照具体工具划分细化的权限范围。OpenClaw提供了清晰的工程对应方案：先通过“工具配置档”来设定基础允许范围，再以“工具允许清单”和“工具禁止清单”作进一步细化裁剪，且禁止规则始终优先于允许规则。其加固基线甚至建议，将工具配置收缩至“消息型配置档”，默认拒绝自动化、运行时和文件系统相关能力，并将执行工具（exec）设定为“安全拒绝”（security: “deny”）和“始终审批”（ask: “always”）。这表明，在智能体场景中，所谓最小权限完全可以进一步转化为静态配置要求。

默认隔离同样不能停留在原则表述上。OpenClaw 将私人消息共享主会话设为默认配置，但同时明确指出，在多用户场景下，应改用“按渠道和发送者隔离”（per-channel-peer）模式，并且不能将共享“网关”视为相互不信任用户之间的强隔离边界。将这一点放到一般制度设计中，至少意味着两项底线要求：其一，不同自然人之间不得在默认状态下共享高权限会话；其二，在存在明显信任差异的情况下，应当分别拆分智能体、凭证和宿主环境，而不能将不同主体置于同一操作范围内，再寄望于模型自行作出区分。否则，所谓部署就会退化为将原本应当相互隔离的多项权力，集中叠加于一个可能被操纵的系统之上。

再次需要确立的，是宿主隔离与插件审查要求。OpenClaw一方面承认，沙箱隔离能够显著缩小损害范围；另一方面也明确说明，沙箱并不构成默认的强边界。插件文档则进一步表明，原生插件并不经过沙箱隔离。由此推导出的法律要求并不复杂：凡涉及高风险执行的智能体，应优先在隔离环境中运行；凡会直接进入主进程的插件，应实施来源审查、版本锁定和最小化加载；凡会接触不可信内容的智能体，应默认拒绝那些足以改变控制平面或者扩展执行链条的控制工具。将这些要求纳入“安全设计义务”，比继续抽象要求模型“理解伦理”更接近可执行的合规逻辑。

最后需要法定化的，是高风险动作上的人类审批机制。例如，欧盟AI Act第14条要求高风险系统能够受到自然人的有效监督，并强调监督的目的在于防止或者尽量减少对健康、安全和基本权利的风险；OWASP则进一步提出，对于高影响或者不可逆的动作，应当设置明确批准、执行预览和审计留痕。OpenClaw的执行审批机制也体现了这一思路：只有同时满足策略要求、允许名单以及必要时的人类批准，命令才会被放行；其中，本地“始终审批”还可以持续要求人工确认。更为重要的是，官方同时提醒，审批机制并不能替代多租户授权边界。这一提醒的法学意义在于，“人类在环”（human-in-the-loop）应被理解为高风险行为的最后一道闸门，而不能被当作替代隔离和最小权限的普遍补救手段。

审批范围也应当进一步具体化。凡涉及对外发送、数据导出、删除操作、宿主机命令执行、控制平面修改、持续性定时任务以及跨会话委派的动作，均应被视为高风险节点。对于审批失败、审批超时或者审批条件不明确的情形，应当按照拒绝处理，而不应默许系统继续执行。只有在这些节点上建立不可跳过的制度边界，“人类监督”才不会沦为空泛的价值口号。

五、基于行动权限重构责任制度

当风险控制的关键节点由模型内部转向部署边界时，责任法的重心也应随之调整。如果仍以“模型缺陷”为中心来概括一切智能体损害，就容易将不同性质的风险混为一体。基础模型的设计缺陷、训练缺陷和信息披露不足，当然仍可能构成上游责任；但因工具授权过宽、会话共享、审批缺失、宿主环境暴露或者插件失控所引发的损害，已不再属于典型的模型内生问题，而更接近于部署者对高风险数字能力授权不当以及监督不足所导致的风险。就此而言，与其继续以“模型”为核心，不如将“授权”与“监督”作为更为准确的责任关键词。

Herbosch的分析，为这一判断提供了有力支持。其基本立场并不认为AI agents需要一套完全脱离既有法理的新型责任法，而是认为现有侵权法和产品责任法仍然具备处理这类问题的基本工具。更为关键的是，系统的实际危害程度明显受到部署者行为的影响：对于同一系统，如果部署者逐项核验输出并保持审慎依赖，损害发生的可能性和程度都可能被显著压低；如果部署者将其直接用于关键决策并予以盲目信赖，损害则可能被显著放大。将这种差异纳入责任判断，意味着部署方式本身应当成为过错审查中的核心因素。

上游模型提供者因此不宜承担无限上溯的兜底责任，但也不应当然获得绝对免责。较为合理的责任结构，是对不同层次的风险作出区分：其一，围绕模型本身的设计、训练、安全警告和必要说明义务，仍应主要由上游提供者承担；其二，围绕权限配置、系统用途变更、工具接入、隔离设计和持续监督等问题，则应主要由部署者承担。因此，责任重心随着风险控制点向下游部署环节移动，本身就是现行法内在逻辑的延伸，而不是对现行法的背离。

证据规则也应当随之调整。在普通对话模型争议中，聊天记录或许已经足以说明部分问题；但在智能体案件中，聊天记录至多只能说明模型生成过何种文本，却不足以充分说明系统究竟调用了哪些工具、在何时调用、调用时所处的用户上下文为何、当时实际生效的权限策略如何、命令究竟落在宿主机还是沙箱环境、是否经过人工批准，以及相关配置是否在事故发生前后出现变化。例如，OWASP关于模型上下文协议（MCP）的安全指南又进一步要求，对所有工具调用进行记录，并保留完整参数、用户上下文和时间戳。由此可见，智能体案件中的核心证据，已经不再只是单一的聊天文本，而是完整的行动链条。

因此，更适合智能体案件的证据形态，应当是一种围绕行动权限展开的“审计资料包”。其中至少应包括：对话记录、工具调用明细及其参数、调用时对应的用户或会话上下文、当时实际生效的“工具允许清单”、“工具禁止清单”和工具配置档、私信范围设置等隔离配置、执行工具的宿主环境、安全策略和审批状态、沙箱隔离是否启用、审批记录、关键配置变更情况，以及插件的版本和来源信息。OpenClaw的安全审计建议实际上也已经朝这一方向发展：事故排查并不只是要求查看日志和对话转录，还要求检查近期配置变化，并重新开展深度安全审计，重点关注外部访问面、工具影响范围、执行审批漂移以及插件加载等因素。只有将这些材料纳入事实查明范围，法院或者监管者才有可能真正回答一个核心问题：损害究竟源于模型的偶发性失误，还是源于部署者事先放宽了本不应放宽的边界。

结语

智能体并没有使法律面对一个神秘的新主体，而是迫使法律重新看见一个长期被忽视的事实：在数字系统中，真正决定行为后果的，往往不是“认知单元”本身，而是围绕它搭建的权限结构。对大模型的讨论之所以在智能体时代显得不够用，是因为模型不再是唯一重要的对象。只要控制平面仍掌握在部署层，工具调用、会话隔离、宿主执行、自动调度和插件信任仍主要由部署者决定，风险控制与责任判断就不能停留在模型层面。

在这一框架下，部署者成为首要合规义务人并非苛责，而是与控制权相对应的制度安排。最小权限、默认隔离、宿主隔离、插件审查、高危审批与日志保留，不只是运营建议，而应成为判断部署者是否尽到合理注意义务的基本坐标。与之相应，责任法也应将更多注意力从上游模型的抽象缺陷，转向下游主体对高风险数字能力的授权方式与监督方式。只有当规范对象、责任主体和证据规则同时完成这一转向，人工智能治理才可能从“内容合规”真正走向“系统工程合规”。

声明：本文来自网安寻路人，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

从输出风险到行动风险：智能体治理体系的重构

从身份权限到步骤授权：用签名与哈希链重构Agent工作流安全

AI失控能否被提前观测？清华团队提出AI“失控行为预测框架”

听键盘声就能还原你打的字？无需标注的自监督窃听，正在变成真实隐私威胁