多智能体系统安全风险分析

随着AI技术的发展，智能体系统正从单一主体架构向多主体协同模式加速转型，处理复杂任务的能力实现了质的跃升。然而多智能体系统在能力提升的同时，安全风险也面临新的挑战。一方面，单智能体的故障或偏差，会通过任务链快速传导至整个系统，形成“单点失败-全局风险”的传导效应；另一方面，多智能体系统在共同决策，协作分工、网络架构等方面存在先天缺陷，催生了决策失效、协作失控、架构失稳等新型风险。针对多智能体系统的风险特性，安全防护需从“被动应对”转向“主动分层防御”，并同时总结形成指引性规范。

多智能体系统发展现状

（一）单智能体的任务执行模式初步满足生产场景基础需求

近段时间，多个智能体项目的密集落地，标志着大模型应用正从单纯的对话交互阶段，向更具实用价值的任务执行阶段加速演进，已能初步满足生产场景需求。

2025年上半年发布的智能体MANUS，将大模型的决策能力与工具调用机制相结合，围绕用户设定的目标进行自主规划，并借助平台预置工具完成报告撰写等任务。但MANUS面对生产环境中的复杂任务需求时，预置工具库灵活性不足，难以适配个性化、定制化的业务场景。

2025年11月，独立开发者发布的开源项目OpenClaw，实现了大模型与工具的彻底解耦。开发者可根据自身业务需求，自主开发工具并上传至平台，智能体能根据任务需求灵活调用工具，从而具备了更强的自动化处理能力和场景适配性。

当前的单智能体体系均以大模型为核心决策引擎，通过外接工具的方式扩展执行边界，本质上仍以单一工作流为主。这种模式在面对需要多环节协同、多角色配合的复杂生产需求时，会遭遇明显瓶颈，难以支撑更复杂的业务场景。

（二）多智能体的决策与协作模式能够处理复杂任务，形成更高效的生产能力

随着AI技术的扩展，多智能体系统凭借其多智能体合作执行的能力，逐渐成为各方关注的核心方向。多智能体系统通过将复杂目标拆解为可执行的子任务，让不同功能定位的智能体各司其职、高效协作，为解决现实场景中的复杂问题提供了新路径。

多智能体技术的演进，始终围绕“协作效率”与“资源消耗”的平衡问题展开。微软于2023年提出的AutoGen框架，首次验证了“对话式协同”的可行性：智能体间通过自然语言交流达成决策共识，实现任务分工。但该模式依赖大量对话交互，导致模型Token消耗居高不下，阻碍规模化应用。清华大学推出的ChatDev通过预设角色职责、规范交流话术，显著降低了Token资源消耗。社区项目MetaGPT则更进一步，专门面向软件开发场景，以结构化流程替代自由对话，通过明确的任务节点与角色分工实现高效协同，将多智能体协作从“自然语言驱动”推向“流程化管控”。2025年Google提出A2A（Agent-to-Agent）协议，试图建立通用的多智能体协作标准，为不同架构的智能体统一交互模式。

2026年2月28日，字节跳动发布的开源项目DeerFlow 2.0发布并迅速登顶GitHub趋势榜，一个月内斩获数万星标。DeerFlow 2.0的核心突破在于创新性引入“领导智能体”角色，有效平衡“协作效率”与“资源消耗”。领导智能体统一负责任务的拆解、编排与进度管控，在无须高额资源消耗的基础上即可协作各方。此外，DeerFlow 2.0打破场景局限，支持对接市场上各类开源工具，可灵活适配软件开发、数据分析多元生产场景，构建通用化的多智能体协作平台。总体而言，DeerFlow 2.0既吸收了AutoGen的协作灵活性，又融合了ChatDev、MetaGPT的低决策成本优势，为多智能体技术从实验室走向规模化生产奠定了基础。

多智能体系统工作流程

如图1所示，以DeerFlow 2.0为例，介绍目前主流多智能体系统的工作流程。

图1：DeerFlow 2.0工作流程示意图

在DeerFlow 2.0项目中，多智能体系统中需要确定一个领导智能体以接收用户复杂任务需求，然后通过思考分析将任务拆解成多个子任务，调度各子智能体，按需加载内置或开源工具，在隔离沙箱中安全执行代码、使用工具，子任务结果经领导智能体整合、校验，并进行进一步的迭代优化，最终形成完整可交付的成果，形成“领导智能体理解需求→领导智能体分配工作→子智能体使用工具→子智能体反馈结果→领导智能体领导迭代”的闭环工作流。

总体来看，多智能体系统通过优化协作与分工机制，使智能体系统从“单点执行”向“多点协同”演进，提升面向复杂任务的系统级处理能力，但同时也带来了更高的安全挑战。

多智能体系统安全风险：从单体隐患到系统性威胁

随着智能体技术从单主体向多主体协作演进，其安全风险特征也发生了本质变化——由单智能体时代的单体隐患，升级为多层次、多主体交织的系统性风险。多智能体间的协作机制放大了单智能体的既有风险，并衍生出全新的安全挑战。

（一）既有风险的放大：从单体故障到系统瘫痪

单智能体时代的核心安全风险通过节点间的协作关系被放大，形成“局部故障引发全局失效”的连锁效应。

一是单体失败风险的累积效应。多智能体系统的运转依赖各节点的协同配合，每个智能体的安全漏洞都可能成为系统的风险源。当系统执行复杂任务时，单点失败的影响会被放大：个别关键智能体出现执行错误、程序异常等问题，可能导致任务链路中的某个环节停滞，进而引发整个协作网络的瘫痪。

二是供应链传导风险的扩散效应。多智能体系统中，智能体间的任务执行呈链式依赖关系，单个节点的错误输出或恶意行为会被下游节点作为合法输入接收，沿任务链路逐级传播并持续放大，最终形成“牵一发而动全身”的系统性风险。

（二）协作机制衍生的新增风险：从技术漏洞到治理困境

多智能体间的决策交互与协作需求，催生了四类单智能体系统中不存在的新安全风险，这些风险直接触及多智能体技术的核心逻辑。

一是决策失效风险：从决策难产到规划偏差。多智能体系统的任务拆解与编排依赖智能体间的决策协同，当前两种主流决策模式均存在安全隐患。‌对话式决策模式‌：过高的沟通成本导致决策效率低下，甚至因信息过载出现“决策难产”；‌中心化决策模式‌：依托单一智能体进行任务分配，但该核心节点可能因大模型幻觉、信息偏差或被攻击，发布错误的任务指令，导致整体任务规划完全偏离用户目标。

二是协作失控风险：从身份伪造到任务偏离。多智能体间的协作依赖稳定的身份校验与协作算法。当身份校验机制缺失时，恶意智能体可能伪造合法身份接入系统，劫持正常协作链路，发布虚假指令或篡改任务数据；当协作算法滞后时，可能出现协作对象错配、任务次序颠倒、迭代流程中断等问题，导致任务执行完全偏离既定目标。

图2：多智能体间通过协作协议漏洞进行劫持

三是架构失稳风险：从通信漏洞到中间人攻击。多智能体系统通过网络通信实现协作，涉及数据加密传输、密钥管理等多个安全环节（如图3所示），任何环节的疏漏都可能引发系统性架构失稳：若智能体间缺乏安全的加密传输机制，通信数据可能被外部窃取或篡改，引发数据泄露；若身份认证机制不完善，可能遭遇中间人攻击，窃取敏感信息或破坏协作流程，导致整个系统工作异常。

图3：多智能体间通信时数据被外部获取

四是权责失序风险：从追溯困难到治理缺位。多智能体系统的任务执行链路复杂，涉及多个主体的决策与协作，若缺乏清晰的责任划分机制与奖惩体系，将导致安全治理缺位：当任务执行出现问题时，由于决策与执行环节分散在多个智能体中，难以精准溯源；由于缺乏明确的权责界定，无法对故障智能体进行有效惩戒或优化，导致同类问题反复出现。

多智能体系统风险防控：多层级防御措施

多智能体系统风险的核心特征在于多主体带来的“协同放大”与“衍生新增”的双重效应，这要求企业与开发者面向智能体系统的安全防护，需从单体被动防御走向多层级主动防御。

图4：多智能体系统安全防护技术路线

（一）多层次安全防控

可从单智能体工作层面、多智能体交互层面和多智能体决策层面，多层次防范可能出现的安全风险。

单智能体工作层面：企业与开发者可优先从单智能体出发，提供安全防护基础，以支撑系统性安全。一是进行基础的运行结果监测，对异常输出、数据访问行为进行日志记录与简单规则检测；二是对于关键智能体进行及时、快速备份，保存其运行状态与工作结果，防止单体失败风险扩散。三是设置备用智能体，并提供便于其冷启动的命令、中间文档及数据，方便其接入现有工作流程，确保任务执行的连续性。

多智能体交互层面：在多智能体间协作过程中，企业与开发者应重点防备交互过程中的风险。一是选择具有身份验证与加密机制的交互协议或框架，确保智能体间的交互安全可控。二是及时对于智能体的工作异常发出警告，当关键节点出现异常情况时，确保其他工作环节及智能体及时知晓，降低风险扩散的可能性。三是对于高危风险进行阻断与人工介入，当发生单体被攻击等高风险异常时，及时进行确认以阻断风险传播，暂停工作并准备人工接管。

多智能体决策层面：为减弱多智能体决策端风险带来的系统性危害，企业与开发者可以做出以下防护。一方面，提供多智能体决策共识、留痕通道，对关键决策进行多智能体间交叉验证与存证，降低单体决策错误带来的系统性风险。另一方面，允许智能体的工作动态调度，当部分智能体动态切入或退出系统时，方便将任务分配给其他智能体，确保任务执行的连续性。

（二）形成规范指引

基于防护经验，可总结形成规范以指引技术发展与应用。一方面，基防护经验对于各类风险进行汇总与总结，基于传播路径、影响范围等明确分级与分类，以标准化方法指引其他用户与科研人员进行防护与研究。另一方面，根据标准化风险指引，形成安全、统一的多智能体系统架构规范，确定不同类型智能体的功能定位、交互接口与权限范围，以尽可能过滤其中多数风险。

总体而言，多智能体系统的安全防护可以从多角度入手，例如单智能体的支撑性防护、交互层的风险隔离与决策层的管控调度，随后进一步根据防控经验形成标准性指引，为多智能体技术应用进行坚实的安全防护。

审核：粟栗 | 安全技术研究所（中国移动人工智能安全治理研究中心）

作者：李博、李春梅、程艳娜 | 安全技术研究所（中国移动人工智能安全治理研究中心）

声明：本文来自中移智库，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

多智能体系统安全风险分析

提示注入安全改写防御的不可能三角：连续性、实用性和完备性

面向大语言模型的自动化渗透测试

你的 Agent，他人的资产：真实场景下OpenClaw的安全性分析