文 | 同济大学法学院、同济大学中国特色社会主义理论研究中心研究员 陈吉栋;公安部第三研究所数据资产服务中心 刘晋名
随着开源项目OpenClaw在全球爆火,AI智能体(AI Agent)引发了全社会的普遍关注。AI智能体不仅具备“感知(Perception)—决策(Brain/Memory)—执行(Action)”的闭环能力,更突破了传统的文本交互沙盒,获得了读写文件系统、调度跨网关应用程序编程接口(API)等深度系统权限,从而推动了人工智能核心能力从“内容生成”向“任务执行”的深刻范式变革。正如斯坦福大学教授李飞飞等学者2024年发表的文章《AI智能体:多模态交互的前沿探索》(Agent AI:Surveyingthe Horizons of Multimodal Interaction)指出,传统大语言模型(LLM)大多局限于封闭沙盒内的被动识别或纯文本生成,而AI智能体则实现了从“孤立认知大脑”向“交互式执行实体”的跨越,AI智能体更加强调多模态交互与环境锚定。技术边界的拓宽必然伴随风险敞口的放大。正如南洋理工大学刘艺等人2026年发布的大规模实证研究《真实环境下的智能体插件:大规模安全漏洞实证研究》成果(Agent Skills in the Wild: An Empirical Study ofSecurity Vulnerabilities at Scale)所揭示的,在市面上公开的31132个智能体插件(Skills)库中,约26.1%存在安全漏洞,部分甚至被证实为纯粹的恶意软件。面对AI智能体带来的高度动态化与非传统威胁,本文聚焦其底层机制衍生的数据安全风险,讨论如何从法理层面建构数据安全权利与义务的边界,并探寻AI智能体数据安全治理对策。
一、AI智能体的运行机制与数据安全风险
AI智能体并非新生概念,大模型赋予了其真正的系统能动性,也决定了其数据安全风险的底层运行逻辑。
从技术本质看,AI智能体是一个由基座大模型、长短期记忆、规划模块与工具引擎深度耦合的复杂系统。在这一系统中,LLM提供基础的语言理解与推理算力,而AI智能体则跨越了单一文本生成的边界,演进为具备目标拆解、自主规划与环境反馈纠错能力的复杂任务执行系统。LLM与AI智能体形成了“大脑”与“行动载体”的关系。
AI智能体的运行逻辑契合经典控制论(Cybernetics)的“感知—决策—执行”闭环。其运作深度依赖提示词工程、检索增强生成(RAG)以及外部工具调用协议(如MCP),其运作呈现高度解耦且极度依赖外部数据交互的架构。这打破了传统人工智能的安全边界,也使风险域从静态的内容生成向动态的系统执行与数据流转扩展。尤其是高频的外部环境交互与敏感上下文数据底层沉淀,使AI智能体引发的数据安全风险更为复杂且隐蔽。
(一)感知端数据安全风险
AI智能体的感知机制高度依赖检索增强生成联网插件的主动探查模式,使系统被动暴露于海量非结构化外部数据中,解构了传统大模型的封闭输入假设。感知端威胁已从单一的数据污染,演变为包含间接提示词注入(IDPI)、多模态对抗样本欺骗以及恶意知识投毒等复合风险矩阵。风险的复杂性如果不能有效简化,建立在传统大模型预设上的“信任边界”(Trust Boundary)即会面临消解风险。
基于系统论视角,输入端的语义操纵可直接导致系统控制权的非自愿转移。典型的攻击路径为间接提示词注入引发的工具链劫持。攻击者无须与AI智能体直接交互,而是将恶意载荷预埋至目标外部信息源(如网页前端)。AI智能体在自主抓取时,其底层模型即可能被隐蔽劫持,进而滥用系统赋予的文件读写或代码执行等合法权限。这使外来威胁从前端语义欺骗进一步转化为后端系统级越权,可直接导致业务逻辑、系统API密钥或私有化知识库泄露。
(二)决策端数据安全风险
决策端高度依赖长短期记忆与思维链日志。这种对上下文的依赖,引发了记忆投毒与长效上下文越权读取等多重风险。其中,尤以“混淆代理”(Confused Deputy)对智能体服务提供者数据隔离体系的破坏最为严重。当受污染的外部感知输入与AI智能体内部系统级身份交织时,决策中枢极易陷入授权边界模糊困境。例如,在2024年黑帽大会披露的微软M365Copilot的安全实测案例中,安全人员证实了智能体引发的混淆代理攻击。由于该Copilot拥有读取全域共享文档和邮件的底层高权限,攻击者只需向目标员工发送一封包含隐蔽指令的外部邮件。当员工唤醒Copilot处理日常事务时,Copilot在检索过程中读取了该邮件,使其决策端瞬间陷入身份混淆——误将外部攻击者的恶意指令与员工自身的系统级高权限绑定。最终,智能体不仅越权读取了机密业务文件,还自动向企业内部发起精准网络钓鱼攻击,导致严密的内部数据权限隔离机制被轻易击穿。此外,为了支撑长效推理,AI智能体常将海量敏感交互数据超期沉淀于底层向量数据库,而这可能使底层向量库成为数据泄露的靶标。
(三)执行端数据安全风险
执行端是AI智能体与外部数字生态交互的末端载体。大量第三方插件与自动化工作流的集成,形成了高度耦合的工具供应链。随着组件大量调用,可能出现供应链渗透与自动化篡改的威胁。在缺乏有效人机干预与熔断机制的架构中,底层组件漏洞的破坏力有可能被指数级放大。以Langflow框架漏洞(CVE-2026-27966)为例,其底层硬编码开放的高危代码执行插件,在遭遇外部提示词诱导时,可被智能体直接滥用获取宿主服务器的控制权。此类高危越权的后果不仅限于机密数据的物理窃取,而智能体自身的逻辑幻觉与非预期行为,更可能驱动其将虚假数据或错误指令批量写入核心业务数据库,从而造成隐蔽且难以逆转的数据完整性破坏。
二、AI智能体运行的法律边界与供应链责任重塑
AI智能体在上述“感知、决策、执行”的闭环展现出复合型数据安全威胁,已超越单纯的技术漏洞范畴,直接冲击建构于确定性、可预见性之上的传统数据治理逻辑。该逻辑以系统静态、处理路径线性可控为前提,而AI智能体的自主性与动态交互能力,正从根本上动摇其治理根基。
AI智能体的出现实现了底层代码算力升级,重塑了传统网络空间交互规则与数据流转路径。当系统拥有自主规划与调用外部工具能力时,其在数据流转链条中的角色便从被动响应者跃升为主动执行者。在高度解耦的供应链生态中,这种主动性加剧了技术失控的风险,极易引发责任界定模糊甚至“责任逃逸”。
因此,应对此类高度动态化的技术风险,必须超越被动的系统性防御思维。向上追溯至法理层面,精准界定其法律属性,并以此为锚点,重塑数据安全治理的责任边界。
(一)法律属性界定:从“静态执行工具”向“动态处理代理”跃迁
在探讨AI智能体数据合规挑战时,首先需厘清其法律地位。AI智能体的自主规划能力无论多么强大,依然是人类或组织意志的延伸,是实现数据处理目的的“自动化执行工具”。因此,在现行数据法律体系下,赋予其独立法律主体地位既不符合法理,也会引发归责难题。
针对AI智能体高度自治的特性,学界已展开极具前瞻性的探讨。上海交通大学寿步2023年发表的《Agent(行为体)是人工智能领域的法律主体》一文,从Agent词源译法切入研究,认为若将其译为“行为体”,在法学与人工智能的交叉语境中便能对应至“法律行为”,找到可能的“法律主体”。但是,AI智能体能否实际成为法律主体?它与人类作为法律主体有何异同?这是随着AI不断发展而需要进一步回答的问题。
尽管AI智能体的宏观定性未脱离“工具”范畴,但当出现数据安全事件时,如何判断“数据处理者—受托处理者”仍需要讨论。传统人工智能作为纯粹的工具,严格按人类指令行事;AI智能体生态的这种区分界限变得模糊。虽然AI智能体的宏观任务目标由负责部署运行和提供服务的智能体服务提供者设定,但在微观执行层面,它可以自主选择执行方式,设定次级目的,自主决定检索哪些外部数据库、调用哪些第三方组件,甚至在遇到逻辑死锁时生成新的交互意图。这种目的与手段决定的动态变化,使AI智能体不再是简单的执行程序,而是演变为一种“具备动态数据处理决策权的自动化代理”。这一变化的归责意义是智能体服务提供者在部署AI智能体时,必须对其自主衍生的复杂数据流转链路承担管领控制与兜底义务,而不能以“机器不可控”为由推诿。
(二)责任重塑:AI智能体在数据合规层面的责任边界穿透
当AI智能体被定性为具备自主决策权的“动态代理”时,传统的“数据处理者—受托处理者”静态二元归责模型,因无法涵盖高度解耦的供应链(基座模型、Agent框架、插件生态)而面临规制失灵问题。现代数据治理必须摒弃单向的底线合规路线,确立“穿透式审查与供应链连带”的动态责任分配机制,实现技术控制力、治理资源与法律责任的对等。
在该机制下,智能体服务提供者实质上扮演法定的数据处理者角色,理应承担数据治理的首要责任。AI智能体衍生的自主越权行为不得以“机器不可控”或“算法黑箱”作为免责抗辩事由,必须识别提供服务的智能体框架适用场景、能力边界与默认安全配置,正确启用并维护框架技术提供者交付的包括智能体身份、工具控制、安全提示词在内的安全配置。同时,服务提供者应向用户公开智能体能力边界及数据处理方式,并在重大变更前通知用户。
与此同时,其作为底层软件基础设施智能体框架技术提供者角色,已从传统的静态受托者,演变为负责框架架构设计、开发实现与安全能力内建的关键主体。在此背景下,其法定的安全注意义务必须向产品生命周期的前端大幅延伸,全面践行“安全设计即默认”理念。框架技术提供者必须在架构中内建身份管理、可调用组件准入与调用控制、安全提示词保护等安全能力。若底层框架因设计缺陷导致系统极易被提示注入或上下文攻击劫持,框架技术提供者须依法承担相应法律责任。
此外,AI智能体对外部插件的深度调用构成了数据向外提供的复杂场景。此时,提供可调用工具、插件的审核、分发与更新的主体将被界定为智能体可调用组件分发者。基于网络生态治理逻辑,一旦发生数据违规出境或过度利用,归责链条不应止步于作为接收端的组件开发者。组件分发者未能依法依规履行对组件功能接口及数据处理行为的准入评估义务,或未能建立针对高危风险组件及时完成撤回、下架的快速响应机制,均可能因制度框架与技术防范失职导致用户权益受损。对此,可调用组件分发者将依法与恶意组件开发者承担连带赔偿责任,或在其管理过错范围内承担补充赔偿责任。将法律责任精准归属于供应链的各个节点,有助于驱动多方主体构建起权责明晰的协同治理网络。
总体而言,厘清AI智能体的法律属性、重塑供应链多方主体的责任边界,是摆脱其数据安全治理困境的法理前提。但是,仅有静态的责任划分尚不足以应对动态化的安全威胁,必须树立风险预防原则,并将其转化为可落地全生命周期的制度安排与技术措施。为此,亟待立足我国网络安全、数据安全与个人信息保护法律体系,构建兼具合规性、可行性与包容性的AI智能体数据安全治理框架,在筑牢安全防线的前提下,更好支撑智能体技术迭代与产业创新。
三、AI智能体数据安全合规治理
面对AI智能体带来的系统性、动态化数据安全威胁,我国以《中华人民共和国网络安全法》(以下简称《网络安全法》)、《中华人民共和国数据安全法》(以下简称《数据安全法》)和《中华人民共和国个人信息保护法》为核心,已经构筑了规制底座。然而,复杂的智能体供应链生态要求必须构建一套融合法律规则与技术控制的协同治理框架,在严守安全底线的同时,为AI技术演进留足创新空间。
(一)明确主体责任与动态合规评估
在AI智能体高度自治的运行模式中,构建有效治理框架的首要任务是依据法律穿透由智能体框架技术提供者、服务提供者、可调用组件分发者、组件开发者等不同主体组成的复杂供应链,精准确立各方主体责任。处于数据流转枢纽的智能体服务提供者,若其上线系统面向公众且具备舆论属性或社会动员能力,则必须严格遵守《生成式人工智能服务管理暂行办法》第十七条规定的算法备案与安全评估制度。在依法履行算法备案与安全评估等手续时,不仅需要穿透式说明底层模型调用情况,还必须详尽披露外部知识库数据的合法合规来源,以及跨网关调度权限边界。
AI智能体在处理用户个人数据前,服务提供者必须以清晰易懂的方式向用户告知数据处理目的、数据类型与字段范围、保存期限及第三方共享目的,并依法获取用户同意。相较于传统静态告知模式,智能体的动态交互特性使形式化告知难以保障用户的真实知情与自主决定,因此,更需强化告知的场景化与可理解性,避免“一揽子同意”带来的合规虚化。同时,系统必须生成并留存同意记录,包含同意的时间、处理范围及用户撤回同意的方式。一旦用户撤回同意,智能体必须立即停止相关数据的处理活动,并执行删除或匿名化处理。此外,由于智能体跨越了传统软件边界,智能体服务提供者必须建立与技术迭代相适应的动态合规评估机制,确保智能体数据访问始终被框定在法定密级之内。
(二)构筑多维度技术防御围栏
针对AI智能体在运行中面临的物理沙盒破裂风险,必须将“安全设计即默认”的合规理念转化为切实履行网络安全保护义务的具体技术措施。根据《网络安全法》第二十三条和《数据安全法》第二十七条等要求,智能体服务提供者必须全面落实网络安全等级保护制度。特别是在涉及关键信息基础设施(CII)的部署场景,依据《关键信息基础设施安全保护条例》,未经严格网络安全检测与风险评估的AI智能体行为,极易被监管部门定性为“未履行网络安全保护义务”。因此,必须在系统架构底层建立基于风险分级的“端到端”的技术防御围栏,精准封堵安全漏洞。
感知端作为第一道防线,必须严格落实网络免受攻击的法定防护要求。为了防范非结构化输入诱发的语义劫持与恶意代码注入,智能体服务提供者应在AI智能体与外部环境的交互边界,强制实施针对恶意指令的动态过滤与安全阻断机制。在兼顾系统运行效率的前提下,针对高敏感业务抓取的非结构化数据,须先经过该隔离层清洗,阻断间接提示词注入载荷,严防核心业务系统被越权篡改。
在完成前端输入清洗后,防御重心需随数据流转推移至AI智能体的决策端,此阶段的核心在于遏制内存数据被过度截留,全面落实数据处理的最小化与存储期限原则。由于AI智能体高频外部环境交互与敏感上下文沉淀的特性,“数据最小化”原则难以通过静态边界实现实质性约束,需转向场景适配、过程可控的动态治理路径。智能体服务提供者应当对底层组件实施严格的分类分级与全生命周期管控。具体而言,在系统将交互数据写入持久化存储前,应探索建立动态脱敏与匿名化处理机制;同时,应建立合规驱动的“数据动态清退”机制,自动化销毁超出法定或约定处理目的的冗余上下文,从根本上瓦解决策端潜藏的数据富集与越权滥用风险。
当AI智能体完成决策并向外输出指令时,执行端便成为实施人工干预与风险熔断的最后一道关口。威胁情报平台VirusTotal于2026年2月发布的报告《从自动化执行到系统感染》揭示,高权限AI智能体(如OpenClaw)的插件扩展体系极易被黑客武器化,引发远程代码执行(RCE)、内部恶意传播、设备持久化控制、静默数据窃取及行为后门等五大核心系统级攻击。为有效遏制此类执行端威胁,智能体服务提供者必须在架构中引入“对象能力模型”构建权限沙箱,任何外部插件的调用必须显式授予极小化权限。在部署前,应运用抽象解释等静态程序分析技术对工具包进行越权核验;在运行中,一旦AI智能体试图执行高风险操作,必须强制挂起并引入“人机协同”的二次验证流程。此外,为切实履行《网络安全法》第二十三条关于状态监测与日志留存的法定要求,智能体服务提供者应全面推行带身份鉴权的模型上下文协议(MCP),在底层实现符合国家安全标准的细粒度权限管控,并采取技术措施实时记录AI智能体的网络运行状态与外部调用日志,确保全链路具备可溯源的电子审计凭证。
(三)供应链准入与数字身份协同管控
AI智能体不仅是企业内部的自动化工具,更是连接外部数字生态的枢纽。AI智能体的运行高度依赖外部工具库与API接口。因此,数据安全治理必须向供应链上下游延伸,通过合理的资源调配与生态信任机制,构建覆盖AI智能体全局的数据治理网络。
一方面,探索建立动态、分级的技术生态准入审查与“可信组件名单”机制。面对AI智能体复杂的嵌套调用路径,传统的表层工具白名单已无法应对深层组件的投毒风险。考虑到智能体生态的高度开放性与名单机制的技术维护成本,治理主体应结合风险等级实施差异化管理。依据行业实践经验,智能体可调用组件分发者应当对组件提供者身份、功能接口范围及数据处理行为进行严格的准入评估;评估通过后,方可将其纳入包含版本号、授权范围、有效期及发布者签名的“可信组件名单”。对于一般性组件,可探索沙盒隔离运行与事后审计相结合的柔性监管策略,避免因静态“一刀切”的名单机制扼杀海量多元生态组件的创新活力。在实际运行中,AI智能体在组件调用前应当验证目标工具的身份及安装包完整性,强制执行接口约束,禁止未知或越权组件接入。特别是针对AI智能体调度跨境API引发的数据外溢风险,智能体服务提供者必须依据《数据出境安全评估办法》,将自动化工作流整体纳入数据出境合规框架,从制度上有效遏制核心数据在跨网关交互中的隐蔽违规流转。
另一方面,实施基于智能体身份标识的溯源治理与问责闭环。网络日志留存不应仅被视为静态的底线合规义务,而应转化为动态归责的工具。为此,智能体服务提供者应构建贯穿全生命周期的数字身份体系。将智能体固有的逻辑身份与用户账号、设备机器码强制绑定,形成唯一且可追溯的“智能体身份标识”;在跨系统调度与数据库访问环节,必须结合当前实例信息动态生成“运行时凭证”,将其作为外部资源访问的强制鉴权依据。治理系统需将智能体标识、运行时授权上下文与底层的规划决策、工具调用等网络日志进行强制绑定,并采用数字签名技术确保不可篡改(依法留存不少于六个月)。一旦供应链环节发生越权调用或数据泄露,该机制能够有效穿透算法黑箱,精准溯源至具体的涉事AI智能体与原始指令流,进而锁定其背后的实际控制方,为界定多方主体法律责任提供确凿的电子证据闭环。
四、结 语
人工智能正以前所未有的速度从“生成式对话”迈向“代理式执行”。这一范式跃迁迫切要求构建与之相匹配的数据安全治理制度。面对AI智能体带来的全场景渗透风险,法律责任的穿透重塑、工具供应链的准入审查,以及端到端技术防御围栏的构建,共同构成了不可或缺的三位一体治理体系。
面向未来,建立融合技术与法律的协同治理制度或成为破局之道。构建可信可控的治理体系,实现对各类其他业务智能体数据流转的实时监测与违规熔断。然而,在推进过程中,AI智能体的数据安全合规治理应当始终秉持“包容审慎”的理念。在构筑多维度安全底线的同时,监管规则与技术标准的设计,需充分考量落地的可行性与经济成本,避免烦冗的技术审查成为阻碍技术迭代的枷锁。
只有将穿透式责任、动态防御与全链路溯源深深植根于AI智能体底层架构中,才能确保其在“爆发式”增长的同时,真正成为安全、可控、守法合规的新型自动化代理,从而为数字经济的高质量与可信发展筑牢坚实基石。
(本文刊登于《中国信息安全》杂志2026年第4期)
声明:本文来自中国信息安全,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。