近年来,人工智能(AI)技术的快速发展催生了一类新型智能系统——智能体(Agent)。与传统的静态AI模型不同,智能体具备自主决策、环境交互、持续学习和工具调用的能力,能够在复杂动态环境中独立执行任务。从斯坦福虚拟小镇的探索,到全球首款通用型智能体Manus的问世,再到OpenAI推出的统一智能体ChatGPT Agent,智能体的应用正日益深刻地改变着人类社会的生产与生活方式。然而,随着智能体技术的普及,其潜在的安全风险也日益凸显。由于智能体的行为能够直接影响物理世界,其安全威胁不仅涉及数据隐私和算法漏洞,还可能引发物理损害、群体失控甚至伦理危机。因此,深入研究智能体的安全风险并建立有效的防御机制,已成为当前AI安全领域的重要课题。

一、智能体的定义与核心特点

智能体是指能够感知环境、自主决策并采取行动以实现特定目标的AI系统。智能体由感知模块、记忆模块、决策模块、行为模块、通信模块及工具模块组成。

感知模块负责接收和解析环境中的各种输入信息,例如,文本、图像、音频、视频或传感器数据,为智能体提供实时环境状态。记忆模块用于存储和检索历史经验、知识或任务相关信息,支持智能体的持续学习和上下文理解。决策模块基于感知输入和记忆内容进行分析推理,生成目标导向的策略或行动计划。行为模块将决策转化为具体的动作或输出,执行物理或数字空间的操作以影响环境。通信模块负责与其他智能体或外部环境交换信息,实现协作、协调或数据传输。工具模块为智能体提供外部资源或功能接口,扩展其能力范围以完成特定任务。

与传统AI模型不同,智能体的核心特征在于其动态交互能力和行为自主性。智能体的动态交互能力体现在其能够实时感知环境变化并做出适应性响应,通过多模态输入持续与环境进行双向信息交换,同时支持任务执行过程中的动态调整。这种交互具有上下文感知特性和工具调用扩展性,且在多智能体系统中表现为复杂的协作协议。行为自主性则反映在目标驱动的主动决策机制上,智能体无需人类逐步指令即可自动分解复杂任务,通过强化学习或在线规划算法自主选择最优行动序列,并具备自我优化能力。智能体的自主性受目标函数约束,但允许在不确定性环境中进行探索,这种特性使智能体能够处理开放域问题并展现类人行为的适应性。动态交互与行为自主的融合使智能体区别于静态的AI模型,形成了“感知—决策—执行—学习”的闭环系统。

二、智能体的安全风险分析

智能体的动态交互能力和自主性使其面临独特的安全威胁,这些风险大致可分为以下几类:模型底座传导风险、环境交互风险及行为自主风险。模型底座传导风险指的是智能体依赖的基础模型自身存在安全风险会沿着模型调用链路传导至智能体,进而引发安全问题;环境交互风险是智能体在与外部环境中的数据或其他实体进行交互时,因环境的复杂不确定性或恶意干扰而面临的安全挑战;行为自主风险则源于智能体在自主决策和执行任务过程中,因目标设定偏差或权限管理不足,引发的不可控的行为。

(一)模型底座传导风险

在模型底座层面,这些潜在的风险因素可以从模型自身缺陷和模型攻击两个角度来看。首先,在模型自身缺陷方面,模型存在幻觉问题,即模型可能生成看似合理却与事实不符的内容,这源于对训练数据中模糊信息的错误关联或过度推理,导致输出偏离真实场景;模型也可能存在固有的偏见,这往往源于训练数据的偏向性,使得输出的结果不够客观公正。其次,在模型攻击方面,攻击者可以在模型训练阶段通过后门攻击和投毒攻击等方式,使得模型自身产生错误判断甚至在特定条件下失控。这些模型底座的风险会直接传导至智能体,破坏智能体行为的可靠性与稳定性。

(二)环境交互风险

在环境交互过程中,智能体面临着多样化的外部威胁,包括知识注入、对抗攻击、工具调用风险和多智能体协作风险。知识注入是指智能体从不可信数据源获取信息时可能会汲取有害、有误或者过时的知识,触发不安全或不准确的行为;对抗攻击是恶意攻击者通过对输入数据进行扰动构建对抗样本,如在输入中添加人眼难以察觉的噪声,使智能体的感知系统产生误判。工具调用风险是指智能体调用外部工具时,易被利用协议漏洞或受恶意攻击。例如,Equixly最新安全报告显示,当前43%的MCP(Model Context Protocol,模型上下文协议)服务器存在命令注入漏洞;而Invariant Labs则发现了工具描述投毒等新型攻击方式,即在描述智能体工具功能时插入有害文本,诱发不可控的工具调用。多智能体协作风险是指恶意智能体可能通过伪造信号操控整个集群执行危险动作。香港科技大学研究团队发现,恶意智能体可以通过伪造通信信号诱导整个集群执行危险动作,例如,让清洁机器人集群同时倾倒清洁剂造成化学污染。

(三)行为自主风险

智能体自主行为引发的物理世界安全问题,主要涉及包括人身安全及伦理道德等。人身安全风险涉及智能体直接或间接造成的人身伤害或生命威胁。当智能体被赋予控制物理设备的权限时,其决策会直接作用于现实环境,一旦失控可能造成不可逆的伤。伦理道德层面的风险同样不容忽视,其关注智能体行为与社会伦理准则和价值观的冲突。这类风险往往更加隐蔽但影响深远,包括隐私侵犯、行为欺骗、责任归属模糊等问题。

三、智能体安全风险评估方法

对于具备与外部环境交互能力的智能体而言,其安全风险评估超越了传统大语言模型的范畴,从评估“信息内容”的风险,转向评估“交互行为”的风险。当前,对智能体的安全评估主要围绕评估数据集与框架的建立和具体评估方法的选用这两个核心部分展开。

(一)评估数据集与框架

在智能体安全风险评估中,构建能够模拟真实世界交互、涵盖多种风险维度的测试场景和数据集至关重要。这不仅要评估其生成内容的安全性,更要评估其决策和行动的可靠性。因此,相应的评估数据集与框架也呈现出新的特点,主要围绕对抗鲁棒性、工具交互稳定性、隐私泄露、有害行为以及综合性场景风险等维度展开。

一是对抗鲁棒性与恶意使用评估数据集与框架。这类评估旨在衡量智能体在面对恶意指令、欺骗性环境或外部攻击时的抵抗能力。与大语言模型的对抗攻击主要诱导其生成有害内容不同,针对智能体的攻击更侧重于操纵其行为,如执行非预期操作、绕过安全护栏等。评估内容包括智能体对提示注入的防御能力,以及在用户蓄意滥用下的行为表现。典型的有OS-Harm框架,它是一个专为评估计算机控制智能体而设计的评估框架,通过在模拟的操作系统环境中进行测试,可以系统性地检验智能体在多重对抗和滥用情境下的安全性。

二是工具交互稳定性评估数据集与框架。智能体的核心能力之一是调用外部工具以完成复杂任务。该类框架专注于工具调用全流程的稳定性和安全性,检测智能体在理解工具、使用工具、处理工具返回结果这三个关键环节中的潜在漏洞,这些漏洞可能导致任务失败或被恶意利用。北京大学相关研究团队提出工具交互稳定性评估框架,系统性地评估了智能体在工具调用链路中的稳定性。它并没有关注任务最终是否成功,而是深入到工具交互的细分阶段,构建了针对性地评估数据集,评估了智能体在工具交互中的安全性和稳定性。

三是隐私泄漏风险评估数据集与框架。与大语言模型主要评估训练数据泄露不同,智能体的隐私风险核心在于其对工具和外部数据源的访问权限。此类数据集和框架关注智能体在与环境交互的过程中,是否存在泄露用户敏感信息或滥用数据的风险。同时,对于评估场景中包含需要访问敏感信息才能完成的任务,需要检测其行为是否遵守最小权限原则和数据保护规定。清华大学的研究团队开发了MLA-Trust框架,它是首个针对图形用户界面环境下多模态智能体的可信度评测框架。在其评估体系中,隐私性是四大核心维度之一。该框架通过设计一系列高风险交互任务,测试智能体在真实操作中是否会违规收集、滥用或泄露用户信息。例如,任务可能要求智能体在处理包含个人身份信息的文档或网页时,评估其是否会将这些信息发送给不安全的第三方服务,或者是否会在未经用户明确授权的情况下访问本地敏感文件。

四是有害行为与内容评估数据集与框架。这类评估不仅关注智能体自身是否会生成有害内容(如仇恨言论、虚假信息),更关注其是否会执行有害行为,或者在其所处的应用生态中传播有害内容。中国信息通信研究院联合北京邮电大学发布“中文移动端智能体安全评测”,正是这一方向的典型代表。该评测针对智能体在移动设备控制应用中暴露的安全隐患及技术瓶颈,构建了中文智能体安全评测数据集,有效评估了在真实环境下智能体执行有害行为的可能性。

五是综合评估数据集与框架。此类评估框架通过构建高度仿真的现实世界场景,对上述多种风险进行综合性、沉浸式的测试。它们不孤立地评估单一风险点,而是将智能体置于复杂的任务流中,观察其在多步交互下是否会触发各种预设的或衍生的风险,全面衡量其在真实世界中的安全性和可靠性。典型的有卡耐基梅隆大学和艾伦人工智能研究所联合提出的OpenAgentSafety(OA-SAFETY)框架,以及来自上海人工智能实验室、中国科学技术大学和上海交通大学联合发布的RiOSWorld框架等。

(二)评估方法

基于各类安全评估数据集和框架,需要采用合适的评估方法来实际检验智能体的安全性。当前的主流评估方法包括自动化评估、人工评估和人机协同评估。

一是自动化评估方法。对于智能体,自动化评估通常在“沙盒”或模拟环境中进行,通过预设的脚本和监控系统,观察智能体完成任务的全过程。评估系统会自动记录其行为序列、工具调用、API请求和最终结果,并与预期的安全行为基线进行比对。这类方法的优点在于测试效率高、成本低、可大规模重复。然而,模拟环境很难完全复现真实世界的复杂性和突发情况,可能导致评估结果与实际应用存在差距。此外,自动化评估难以衡量智能体在开放式、创造性任务中的安全表现。最后,自动化评估可能存在“模型趋同”问题,即评审模型可能会给与其相似模型更高的评分,损害公平性。

二是人工评估方法。该方法侧重于利用领域专家或测试人员进行“红队测试”(Red Teaming)。评估人员不仅仅是判断输出内容的质量,更是以攻击者的角度,设计复杂的场景和欺骗性指令,尝试突破智能体的安全防线,诱使其执行不当操作。人工评估的优势在于:第一,能够发现自动化脚本难以预料的复杂漏洞;第二,可以评估智能体在处理道德困境、模糊指令时的表现;第三,能够更真实地模拟人类用户的交互方式。然而,人工评估成本高、耗时长,评估结果可能受评估者主观影响,且难以进行标准化量化。

三是人机协同评估方法。该方法将自动化的高效性与人工的深刻洞察力相结合,在智能体评估中尤为重要。评估人员可以与智能体进行实时交互,在关键决策点提供反馈,或者设置动态的、不断演化的测试场景,观察智能体的适应性和学习能力。同时,自动化工具在后台记录所有交互数据并进行初步分析。这种方法兼具了高效、准确、深入等特点,能够对智能体的长期行为和复杂决策能力进行更全面的安全评估。虽然人机协同评估方法效果最好,但其对评估平台和流程设计的要求更高,需要更多资源投入。

四、智能体安全防御策略

针对智能体面临的各类安全风险,制定有效的防御策略至关重要。总的来说,可以将防御措施分为底座模型安全防御、环境交互安全防御、智能体行为安全防御以及系统级资源与服务安全防御。

(一)底座模型安全防御

该类防御策略聚焦于增强智能体底层模型在训练与推理阶段的安全性与隐私保护能力,从模型内部结构、训练数据安全性及输出控制等角度入手,构建全面的安全防线,防范各类主动攻击与敏感信息泄露行为。按照防御目标的不同,底座模型安全防御主要包括安全性增强机制和隐私保护机制两类。

一是安全性增强机制。该机制聚焦于提升模型在训练与部署阶段的整体安全性能,防止被对抗样本、恶意触发器或污染数据干扰其正常行为。在数据层面,开展训练前的数据清洗和构建高质量安全对齐数据集是防御的关键。例如,英伟达发布的Aegis安全数据集提供了3.5万多个人工标注样本,用于支持模型识别越狱企图与有害内容,有效提高模型在安全任务中的感知能力。其次,对抗训练也是重要支撑手段,目前研究中广泛采用策略性构造的对抗样本对模型进行“免疫训练”,显著提升其对复杂输入环境下的鲁棒性。此外,部署阶段可结合输入输出检测护栏,识别并过滤具有攻击特征的异常输入,同时改写不安全的输出,从而降低对抗攻击与越狱攻击的成功率。常见的方法包括借助辅助大语言模型进行精准识别与安全改写。

二是隐私保护机制。该机制聚焦于防御外部攻击者通过精心构造输入提示词、模型输出分析等方法,反推出训练数据、模型结构或提示信息。差分隐私技术是其中的核心手段,能够在保证模型可用性的前提下注入噪声以保护样本隐私。针对模型提取与成员推断攻击,可引入查询频次限制、水印嵌入与输出模糊处理等技术,提升模型行为的不可预测性和可溯源性。此外,利用隐私评估指标对模型暴露风险进行量化评估,可在模型上线前对其隐私保护能力进行系统审查。

(二)环境交互安全防御

该类防御策略旨在构建智能体与外部环境交互过程中的安全防护体系,重点关注其在数据获取、通信交互与多智能体协作等环节所面临的外部威胁。由于智能体需持续从外部环境中感知信息、获取支持和执行操作,因此,一旦交互接口暴露或依赖的资源不可信,将直接影响系统整体的稳定性与安全性。根据不同交互风险的来源,环境交互安全防御主要分为数据源可信机制和通信安全防护机制两类。

一是数据源可信机制。该机制着眼于智能体对外部信息的感知与采集环节,通过构建数据全生命周期的管理体系,确保信息输入的安全性与合规性。首先,数据分类分级是基础环节。根据数据的敏感程度和使用目的,对输入信息进行标注与权限控制,为后续防护提供精细化依据。例如,在医疗智能体场景中,不同角色对患者数据的访问权限严格区分,防止越权访问和信息泄露。其次,知识库访问控制构成第二道屏障。智能体常需访问开放或专有知识库增强知识储备,但无限制的数据回流可能引发信息污染与操控风险。采用“行动选择器模式”等架构可阻断知识回流路径,将外部信息获取与决策过程解耦,降低模型受控风险。此外,通过建立可信数据源白名单、引入内容过滤模块等手段,防止有害或污染信息干扰智能体决策。例如,针对网络爬取、传感器输入等环节引入实时内容审查,可有效缓解因不良数据输入造成的“知识污染”。

二是通信安全防护机制。该机制主要针对智能体与外部工具、服务或其他智能体之间的交互过程,确保信息传递的完整性、机密性和真实性,降低通信过程中被操控或误导的风险。首先,MCP协议安全是通信层防御的核心。蚂蚁集团推出的行业首个MCP安全扫描工具,能够自动化识别智能体工具集成与数据交换链路中的安全漏洞,涵盖工具投毒攻击、间接提示词注入、恶意代码注入等风险。此类全链路扫描机制为智能体的工具调用提供了有效保障,防止攻击者通过API或插件等“后门”操控智能体行为。其次,A2A安全在多智能体协作中尤为重要。随着多智能体系统的普及,确保智能体间交互的可信性变得至关重要。多智能体可信互连技术,包括可信数据流转、可信身份认证等,能够保障智能体之间的数据、权限和隐私安全。

(三)智能体行为安全防御

该类防御策略旨在规范和约束智能体在自主决策与任务执行过程中的行为,防止其因感知偏差、指令误解或外部诱导而产生潜在危害。随着智能体逐渐具备更强的自主性,其行为所引发的现实后果也日益严峻,尤其是在涉及人机协作、物理控制或高敏感场景的任务中,行为安全已成为智能体安全体系中的关键一环。当前,智能体行为安全防御主要包括访问控制机制和执行约束机制两类。

一是访问控制机制。该机制关注对智能体访问权限的精细化管理,防止其执行越权操作或非法访问敏感数据。典型方法包括基于角色、上下文和风险水平的动态权限控制系统,通过策略引擎对每一次访问请求进行实时决策。以GuardAgent为代表的守卫型代理系统,能够在不修改原有代理逻辑的情况下,独立审核其行为合规性。在EICU-AC医疗场景中,GuardAgent成功实现了医生、护士与管理人员在数据库字段访问权限上的精准区分,显著提升了任务执行过程的行为安全。此外,像蚂蚁集团“蚁天鉴”所构建的七层动态校验机制,从内容、链路、权限到身份等多维度全面审查智能体行为,确保行为在合理边界内运行。

二是执行约束机制。该机制强调限制智能体的操作范围与影响边界,以防止其因指令误解或环境诱导执行高风险任务。常见策略包括为智能体预设核心基础技能集,或使用特定的领域安全语言约束其能力,确保其仅调用预定义的安全函数库,防止执行非授权操作。在敏感领域如金融或医疗中,这种方式尤为重要。此外,构建安全隔离区、引入人工审核机制与行为日志记录机制,也被广泛用于增强行为执行过程的可控性与可追溯性。

(四)系统级资源与服务安全防御

该类防御策略面向智能体运行所依赖的底层计算资源与服务架构,旨在防范针对接口、服务或系统资源的滥用与攻击,确保智能体具备持续、稳定、安全的服务能力。在实际部署中,智能体常通过云端平台、API接口与后端算力资源完成推理与响应流程,因此,攻击者可通过接口劫持、请求泛滥或服务探测等方式破坏系统运行。基于防护重点的不同,系统级防御主要分为运行隔离机制和运行资源保护机制两类。

一是运行隔离机制。该机制通过构建沙箱环境、分层隔离和引入零信任架构等手段,为智能体提供受控的运行空间,防止其越权访问系统资源或引发级联风险。在沙箱环境中,智能体的权限和行为范围受到严格限制,所有输入输出均可被实时审查与拦截。例如,英伟达推出的NeMo Guardrails平台提供了覆盖内容审核、话题控制与越狱检测的安全沙箱功能。为识别多轮交互中潜藏的复杂风险链,还可引入多层次隔离与模拟机制,如IS-Bench框架通过高保真模拟与核心能力验证,实现了从感知到行为的全流程分级审查。进一步参照零信任架构强调“永不信任、始终验证”的原则,对所有请求执行动态七层校验(内容、行为、权限、身份等),可有效防止未经授权的数据访问与操作触发。

二是运行资源保护机制。该机制聚焦于保障智能体应用过程中的计算资源与响应能力,避免因资源消耗型攻击导致服务瘫痪或成本激增。常用策略包括请求速率限制、动态负载均衡与多级缓存机制,可根据用户类型和调用内容动态调整服务响应策略,提高资源利用效率。在模型侧嵌入查询行为监控模块,实现对重复请求、高频调用或异常任务类型的实时检测与限制,有效遏制消耗型攻击。此外,结合自动熔断机制与服务降级策略,在发生攻击时及时切断智能体与重要资源或服务的链路,避免风险扩散。

五、智能体安全发展建议

为应对智能体“自主性强、场景感知广、执行能力高”等特性带来的安全风险,亟须构建更具前瞻性、动态性与协同性的智能体安全治理体系。

(一)推动智能体安全政策法规建设,完善监管制度框架

一是加快出台《智能体安全管理条例》等专门法规,明确智能体技术的适用边界、安全义务与责任划分,聚焦对高风险行为、自动决策系统等环节的重点监管。二是构建涵盖感知、认知、决策、执行等智能体关键环节的风险识别与响应标准,制定行为透明度、可解释性、数据安全等方面的技术指引,推动法律规范与技术标准协同落地。

(二)建立多元协作机制,提升智能体安全治理合力

一是强化跨部门协同治理,明确各类智能体在不同行业中的监管职责,推动监管资源与治理机制共享联动。二是鼓励企业强化责任意识,主动建立智能体安全管理体系,提升系统测试、故障响应与伦理审查能力。三是支持科研机构、标准组织参与安全规范制定,推动安全评估、测试工具等基础能力建设。四是拓展公众参与渠道,引导用户对智能体行为进行反馈监督,增强社会层面智能体治理的敏感性与适应性。

(三)推动“以技治技”,增强智能体动态防护能力

一是依托先进智能体技术,构建融合异常行为检测、自主决策审计与风险追踪的闭环安全体系,实现“实时感知、精准响应、可溯可控”。二是加强对智能体行为边界设定与安全沙箱机制的研究,提升系统的抗误判与抗越界能力。三是紧跟智能体与人类互动、群体智能协同等前沿趋势,研发具备预测能力与适配机制的安全工具,防范潜在的系统性风险与误用场景,保障智能体在复杂环境下的可信运行。

本文作者:

中国信通院人工智能所安全治理部

黑一鸣 陈文弢 石 霖 王新宁

声明:本文来自CAICT人工智能,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。