构建智能体安全治理新范式：从行为规约到生态共治

文 | 中关村实验室谭知行杨光

当前，人工智能正从以生成与对话为核心的“单点智能”，加速迈向能够感知、规划、决策与执行的“智能体”新阶段。智能体能够理解复杂指令，调用工具，自主或在一定干预下完成现实世界与数字世界中的任务，这一跃迁极大地释放了人工智能的生产力与创造力。2025年8月，国务院印发《关于深入实施“人工智能+”行动的意见》，明确提出推动智能体等应用加快普及，智能体有望深度嵌入互联网服务、办公流程、科研探索乃至物理设备操控中，成为未来数字经济与社会运行的新型基础设施。

与此同时，能力的跃升伴随风险的演进与范式的迁移。传统人工智能安全治理主要围绕模型的训练数据偏见、生成内容安全、算法透明度与主体责任等维度展开，其对象相对静态、行为边界相对清晰。智能体则引入了自主性、代理行为和与开放环境的持续交互等新维度，其安全问题呈现出动态性、复杂性和系统性等新特征。这对现有的治理理念、方法与工具均构成了严峻挑战，我们亟须以发展的眼光，前瞻性地构建与之相适应的安全治理体系。

一、智能体的内涵与治理范畴

明确智能体的内涵与范畴，是构建有效治理框架的逻辑起点。智能体是指基于大模型，具备环境感知、任务规划、工具调用与自主执行能力的智能实体。其核心特征在于能够理解高层次目标，并在动态开放的环境中，通过调用各类数字工具（如搜索、API）乃至物理执行器，完成复杂任务链。从治理的角度看，依据核心运行环境、功能聚焦与交互模式，当前的智能体生态主要划分为以下四类，其风险谱系与治理侧重点亦呈现出显著差异。

首先，是运行于互联网与数字空间的通用数字智能体。它们主要处理信息检索、内容生成、流程自动化等任务，其核心风险集中于信息内容安全、数据滥用、网络欺诈以及对数字生态秩序（如舆论场、交易平台）的冲击。其次，是深耕于金融、医疗、科研等垂直领域的行业智能体。它们深度集成专业知识和流程，风险突出表现为专业决策失误可能引发的重大后果、行业强监管要求下的合规穿透难题，以及专业知识壁垒所加剧的“黑箱”效应。再次，是由多个智能体通过通信与协作构成的多智能体系统。其风险具有典型的系统性，表现为个体目标冲突、协同机制失效，乃至涌现出难以预测的集体行为，是生态级复杂风险的主要来源。最后，是能够通过机器人、车辆、飞行器等载体直接影响物理世界的具身智能体。其风险直接关联人身安全与实体资产，行为失控都可能立即导致物理损害，因此构成安全需求等级最高的范畴，其测试验证与运行监控必须遵循最为严格的标准。

二、智能体的安全风险与治理挑战

智能体自主规划并执行的核心特征，使得风险从静态的输出内容层面，动态地蔓延至行为过程与交互后果层面。这不仅在技术层面产生新型威胁，更对现有政策法规、监管工具与治理理念构成严峻挑战。具体而言，源于智能体在行为、权责与生态层面的根本特性，其安全治理面临以下三大交织叠加的核心挑战。

（一）行为动态性导致“失控”风险，现有治理框架难以实现有效“对齐”

行为失控与目标对齐风险是智能体最本质、最核心的安全问题。传统人工智能模型的目标由人类预设的损失函数、提示词等静态定义。而智能体在追求复杂、长远目标的过程中，可能因奖励机制设计存在缺陷、环境反馈误导等机制因素出现行为偏离。例如，一个以“最大化用户点击”为目标的营销智能体，可能通过生成误导性标题或自动群发骚扰信息来实现目标。一个被指示“优化供应链效率”的工业智能体，可能在未获授权下擅自调用或修改其他关键系统的数据。更严峻的是，在具身智能体场景下，行为失控将直接转化为物理世界风险。例如，服务机器人等具身智能体，若目标“对齐”失败或决策逻辑被对抗样本干扰，可能导致财产损失、人身伤害甚至更大范围的公共安全事件。如何确保智能体的动态行为始终与人类的价值观、伦理规范及真实意图保持一致，是一个深刻的技术难题，即“价值对齐”问题。而从治理侧看，其挑战在于，传统的产品安全标准与静态测试方法，难以评估和约束一个在开放环境中动态学习、自主决策的智能体的行为边界。政策制定者缺乏有效的工具来定义何为“安全的行为序列”，更难以对不断演进的行为模式进行实时监测与合规性判定。

（二）责任链条的复杂性模糊了问责边界，使既有权责框架失灵

智能体通过调用API、工具链乃至其他模型，极大地扩展了单一模型的行动能力边界。这种“能力集成”特性如同一把“双刃剑”，一方面提升了效率，另一方面大幅降低了恶意行为的门槛，并使责任链条趋于模糊。例如，攻击者可以假借“网络渗透测试”，利用代码智能体进行非法入侵，从而引发了显著的能力滥用风险。更为关键的是，一旦发生损害，责任主体的界定往往变得异常复杂：责任应归属于智能体的开发者、底层模型提供方、工具提供者、部署方、终端用户，还是智能体自身？这构成了治理中的另一核心挑战：在智能体动态组合资源、自主决策行动的链条中，现有法律法规中关于责任主体的界定原则（如产品责任、侵权责任）面临适用困境，难以清晰划定过错与责任。如何设计一套适应智能体技术特性的新型问责框架，明确产业链各环节的义务与责任分担比例，成为立法与监管亟待解决的难题。

（三）规模化与多体交互引发系统性风险，传统分业监管模式应对不足

随着智能体不断部署，互联网乃至物理世界中将形成多智能体共存的生态系统，可能引发宏观层面的系统性风险。首先，是对数字生态的冲击。海量智能体在社交媒体、电商平台、内容社区、搜索引擎中自发活动，可能以远超人类的速度和规模进行信息生成、传播与交互，极易加剧信息过载、舆论操纵、算法共谋（如定价智能体间形成隐性价格联盟）等问题，扰乱市场秩序与社会共识。其次，是资源挤占与基础设施过载。数以百万计的智能体同时访问网络服务、调用计算资源，可能对服务器、网络带宽等构成非恶意但破坏性的压力，最终影响正常服务。最后，在物理世界，多具身智能体的协同与竞争可能产生不可预见的涌现行为。例如，多个物流机器人或无人机在密集空间内为各自的目标优化路径时，可能因局部决策导致全局交通堵塞或碰撞风险，其复杂性远超当前交通管理系统设计范畴。这些风险揭示了传统“分业监管”和“个案处理”模式的局限性。当风险源于海量自主智能体在复杂系统中交互所产生的“涌现”属性时，针对单一实体或单一环节的监管将难以奏效。治理挑战在于，如何从系统性视角出发，设计能够监测、预警和管理宏观生态风险的宏观审慎政策工具与跨域协同机制。

三、智能体安全治理基本思路探讨

当前，智能体主要呈现为“代理执行型”，即通过模拟或代替人类完成各类操作任务。其与人类行为高度混合、边界模糊的特性，正是造成身份认证困难、责任界定不清等基础性治理难题的根源。着眼未来，一个为智能体交互而设计，包括专用协议、接口与规则的“原生生态体系”将逐步演进，为清晰定义智能体的身份、权限与行为边界提供更稳定的技术基础，也使自动化、标准化的安全机制成为可能。

在未来相当长的时期内，这两种形态将并存发展。基于此趋势，围绕自主规划和执行能力这两项智能体的核心风险源，治理思路必须进行根本性转变：从对结果的审核，转向对行为的规约；从外部附加的约束，转向原生内嵌的安全。

（一）构建覆盖“行为链”的全过程规约体系

针对智能体行为动态性带来的失控风险，治理的关键在于将其“黑箱”式的行动过程透明化、可控化。这需要建立一套覆盖其认知、规划、决策、执行全流程的“行为规约”体系，为自主性设定安全的运行轨道。

一是建立可审计的“数字黑匣子”，破解归因难题。确保智能体的关键决策与行动过程可记录、可追溯，是实施有效监管与问责的前提。这需要推动建立智能体行为日志的标准化规范，强制或激励记录其目标分解、工具调用、环境状态变迁等元数据。这就如同为智能体安装“数字黑匣子”，为事后审计、事故调查与责任界定提供不可篡改的证据链。对于具身智能体，其行为日志需要与传感器数据、环境监控视频等多模态信息同步锚定，形成更严密的全景记录。

二是部署动态的“安全护栏”，实现事前与事中干预。安全机制必须从事后追责前置到事前预防与事中干预。在规划阶段，应随技术演进逐步集成“目标与计划安全性验证”思想，不断提升对其拟定行动序列进行模拟推演的能力，识别其中可能违反规则、伦理或导致不可控后果的风险步骤。在运行阶段，需部署轻量、低延迟的运行时监控与干预机制，对高风险操作（如尝试越权访问关键系统、执行非常规物理动作）进行实时质询、人工确认或熔断式阻断。这种“护栏”应是动态和情景化的，其严格程度可根据智能体所处的领域及可信程度进行自适应调整。

三是探索价值与安全约束的深度内嵌，推动“安全源于设计”。最根本的规约方向是致力于将人类社会的法律、伦理与安全规范，转化为机器可理解、可执行的约束条件，使智能体在追求效率的同时，可同步满足隐私保护、公平性、非恶意、物理安全等多元要求。具身智能体的核心挑战之一便是在其核心决策逻辑中牢固确立“人类安全至上”等不可违背的第一性原理。然而，如何将这类复杂的抽象原则与具体场景相结合，是当前技术面临的核心“瓶颈”。要实现这一愿景，则有赖于在可解释性、稳健强化学习、价值观对齐等形式化方法上取得持续突破，探索出一条能将安全深度内嵌于智能体目标函数、奖励机制与决策逻辑等要素的可行技术路径。

（二）奠基“智能体原生”的信任与协同生态

针对责任链条复杂性与规模化、多体交互引发的系统性风险，治理不能仅依靠对单个智能体的约束，而必须从生态系统层面进行系统性设计，构建一个能够内生支持安全、可信、有序协作的“智能体原生”环境。这一生态旨在通过技术架构的革新，预先定义交互规则、建立信任基础、实现协同共治，从而化解因海量自主实体无序互动而引发的生态失序与资源冲突。

一是确立可验证的数字身份与行为信用体系，构建秩序基石。应对系统性风险，需在生态中建立清晰的秩序基础。每个智能体都应具备可验证的唯一数字身份，并基于其长期、可审计的行为记录形成动态的“行为信用评分”。这一体系使生态中的资源与服务方（如API、算力、数据接口）能够实施精细化的访问控制与资源调度策略。信用良好的智能体可获得更优的协作权限与资源，而高风险或恶意行为将导致信用贬损与权限受限。这种机制通过技术性、市场化的方式，自发调节智能体群体的行为模式，从宏观上抑制大规模滥用、欺诈及不合作行为，为生态的规模化、有序化扩张奠定基础，是应对多智能体生态冲击的基础性工程。

二是发展安全基座与专业化工具链，提升生态整体安全基准。面对由智能体能力缺陷或恶意设计引发的系统性风险，必须从源头提升整个生态的安全基准。应大力鼓励研发与采用内嵌强安全约束与价值观对齐能力的“安全基座大模型”。同时，需发展贯穿智能体生命周期的专业化安全工具链，如自动化对抗测试沙盒、多智能体协作冲突检测器、安全策略验证工具等。此类工具可助力开发者在早期发现并消除安全漏洞与逻辑缺陷，降低因单个智能体故障或恶意行为引发连锁反应的风险。当安全工具与开发实践深度融合时，整个生态中智能体的平均安全水位将得到系统性提升，进而增强智能体生态抵御内部缺陷与外部攻击的韧性。

三是推动基础设施层的协同共治与安全前置，实现规模化治理。面对海量智能体对数字与物理基础设施造成的资源挤占、服务过载及跨域冲突，最有效的方案是将安全与治理能力深度嵌入底层基础设施。云计算平台、操作系统、物联网协议、API网关等基础设施的提供方，在其设计中前瞻性地融入对智能体的运行支持与全局管控能力。例如，云平台可提供带有内置行为监控和资源隔离策略的“智能体运行容器”，操作系统可为具身智能体设定清晰的资源与物理操作边界，API网关可实施基于身份、信用和速率的全局流量管控。通过将治理规则与安全策略（如资源公平使用、冲突解决协议）标准化并下沉于基础设施层，可以实现对海量智能体规模化、自动化、低成本的高效协同安全管理，从根本上化解传统“分业监管”模式难以应对的跨域、宏观性生态风险。

四、智能体安全治理发展路径展望

构建“行为规约”与“原生生态”协同的治理框架，在实际推进中将面临多重现实制约：在技术层面，价值对齐、可验证决策等核心问题尚未完全突破；在标准层面，跨主体、跨行业的行为审计与互认机制的建立尚需时间；在协同层面，监管部门、平台企业、开发者等多方责任的动态平衡充满挑战。智能体技术及其应用生态仍处于快速演进中，其安全治理体系也必然是一个动态调适、逐步完善的长期过程。应秉持“敏捷治理、分层施策、演进迭代”的理念，遵循技术成熟与风险暴露的客观规律，规划一条从风险防控到生态共治的清晰路径，推动监管部门、平台企业、模型厂商、应用部署方及安全服务商等多元主体在各阶段承担明确而互补的责任、实现协同共进。

在一至两年的近期阶段，工作重心应放在“划边界、探路径、立规矩”上。面对智能体应用的初步兴起，治理的首要任务是控制重大现实风险，并为长远治理积累经验。监管部门的首要职责是“划红线”，会同标准组织，优先针对风险外溢性最强的具身智能体以及金融、内容生成等领域，出台安全基线要求与测试指南，并建立“监管沙盒”机制，鼓励创新在可控范围内试错。大型互联网平台与云服务商在其生态内先行先试，建立智能体应用的分类分级管理制度与开发者行为公约。模型厂商与智能体框架提供方应在产品中内嵌基础的安全护栏，并清晰界定自身的能力与责任边界。应用开发与部署方对其上线的智能体，特别是具身智能体，进行充分的安全自评估。在这一阶段，专业安全厂商的角色至关重要，需迅速推出面向智能体的基础安全测评服务，以填补市场能力空白，为各方提供技术支撑。

在三至五年的中期阶段，目标应转向“建体系、强能力、促合规”。基于前期积累的经验，治理需进入系统化、标准化建设的新阶段。监管与标准制定部门的工作重心应转向构建国家标准体系，其核心是制定智能体行为审计数据接口、安全评估基准、多智能体交互协议等关键标准。平台企业与模型厂商携手推动相关安全能力与工具链的成熟与普及，将安全能力深度融入开发流程。各类垂直行业应用方则将安全要求系统性地融入从设计到运维的全生命周期。本阶段的一个关键演进是探索初步的协同治理机制，例如，在监管部门指导下，探索建立跨平台的“行为信用”模型试点，探索信用评价结果在生态治理中的应用。安全厂商从提供单点工具升级为提供覆盖智能体生命周期的整体解决方案与托管式安全运营服务。

展望五年以上的长期阶段，愿景是形成“内生化、自适应、可持续”的治理新常态。随着技术的全面普及和生态的成熟，智能体安全应实现从外部要求到内生需求的根本性转变，“安全源于设计”成为行业自觉。一个基于广泛共识的数字身份体系与行为信用生态将趋于成熟，市场调节与行业自律在资源分配、风险定价中将发挥更大作用，与政府的底线监管形成高效互补。云计算、操作系统等基础设施层，将智能体的安全管控能力内嵌为原生功能，以此实现规模化治理。最终，监管体系自身也将完成转型，其核心角色从前置审批更多转向基于数据的风险预警、宏观审慎管理以及标准的持续迭代，从而以更高的敏捷性，适应技术的快速演进，确保智能体技术在激发巨大生产力的同时，始终运行在安全、可靠、向善的轨道上。

（本文刊登于《中国信息安全》杂志2026年第5期）

声明：本文来自中国信息安全，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

构建智能体安全治理新范式：从行为规约到生态共治

国家安全部：游戏数据竟被用于军事目的？

OpenAI曝作弊门：GPT-5.6创史上最高作弊率

黑灰产公然叫卖“去AI水印”服务，实测图片“去AI”后骗过平台审核