随着生成式AI成为主流,Amazon Web Services (AWS)推出了生成式AI安全范围矩阵,帮助组织理解并应对基于基础模型(FM)的应用所特有的安全挑战。该框架不仅被全球众多AWS客户采用,也被OWASP、CoSAI及其他行业标准组织、合作伙伴、系统集成商(SI)、分析师、审计机构等广泛引用。如今,随着具备自主决策能力、可长期运行并调用功能的智能体AI系统出现,我们正在创建另一套框架,以应对全新的安全挑战。
智能体AI系统能够自主执行多步任务、做出决策,并与基础设施和数据交互。这是一种范式转变,组织必须适应。与传统FM的无状态请求-响应模式不同,智能体AI系统引入了自主能力、持久记忆、工具编排、身份与代理挑战以及外部系统集成,扩大了组织必须应对的风险范围。
在与部署这些系统的客户合作过程中,我们观察到传统AI安全框架并不总能延伸到智能体领域。智能体系统的自主性要求根本不同的安全方法。为填补这一空白,我们开发了“智能体AI安全范围矩阵”——一种思维模型和框架,它根据连接性和自主性水平将四种不同的智能体架构分类,并在每种架构中映射关键的安全控制措施。
理解智能体范式转变
基于FM的应用即使在响应非确定且无状态的情况下,也遵循现已广为人知、可预测的模式。这些应用最基本的形式是:接收提示或指令,生成响应,然后结束会话。安全与安全保障措施集中在输入验证、输出过滤和内容审核护栏等基础手段,治理则聚焦于整体风险画像和模型的韧性。该模型之所以有效,是因为安全失效的影响范围有限:一次被攻破的交互仅影响该特定请求与响应,不会持续存在或扩散到其他系统或用户。
智能体AI系统通过几项关键能力从根本上改变了这一安全模型:自主执行与代理权。智能体基于目标和环境触发器主动发起行动,这些行动可能无需人类提示或批准。这带来了越权操作、失控流程以及智能体误解目标或执行被篡改指令时做出超出预期边界决策的风险。
当AI智能体被赋予基于数据、参数、指令和响应采取行动的指令或权限时,必须明确其被允许独立行动的范围。讨论智能体AI系统时,需厘清代理权(agency)与自主性(autonomy)的区别,因为这两个相关但不同的概念直接影响我们的安全策略。
代理权指AI系统被允许并能够在运行环境中采取的行动范围,以及人类对其行动或能力的约束程度。包括可与哪些系统交互、可执行哪些操作、可修改哪些资源。代理权本质上是能力与权限的问题——系统在其运行环境中被允许做什么。例如,零代理权的AI智能体将完全由人类定义的工作流、流程、工具或编排驱动;而拥有完全代理权的智能体则可自行决定如何实现人类设定的目标。
自主性则指系统在无人类干预下可进行的独立决策与行动程度。包括何时运行、如何在可用行动间选择、执行前是否需要人类批准。自主性关乎决策与执行的独立性——系统可在被授予的代理权范围内自由行动的程度。例如,某AI智能体可能拥有高代理权(可执行众多操作)但自主性低(每项操作都需人类批准),或反之。
理解这一区别对实施恰当的安全控制至关重要。代理权需要边界与权限系统,自主性则需要监督机制与行为控制。两个维度都必须精心管理,才能构建安全的智能体AI系统。
必须先确定允许并授予AI智能体的代理权与自主性程度,再据此评估应部署哪些安全控制,以将代理权限制在可接受的风险容忍度内,满足基于智能体的应用及组织的需求。
持久记忆:智能体通常跨会话保持上下文与习得行为,以短期和长期记忆形式构建知识库,指导未来决策。数据持久化带来额外的数据保护需求,并引入新的风险向量,如记忆投毒攻击——adversary注入虚假信息,在多次交互与多用户间破坏决策。
工具编排:智能体通过函数直接与数据库、API、服务乃至其他智能体或编排组件集成,根据工具抽象级别自主执行复杂任务。这一扩大的攻击面带来级联妥协风险:单一智能体被攻破后,威胁可蔓延至相连系统、多智能体工作流及下游服务和数据存储。
外部连接:智能体跨网络边界运行,可访问互联网资源、第三方API及企业系统。与传统非智能体系统一样,扩大的连接可释放新的业务价值,但必须在设计时加入安全控制,以降低数据泄露、横向移动和外部操控等风险。对智能体AI应用进行威胁建模应成为首要任务,并有助于直接将安全控制与零信任原则的落地策略对齐。
自我导向行为:高级智能体可基于环境监控、调度或习得模式,在无人类实例化或审查的情况下主动发起活动(取决于配置)。这种自我导向带来失控操作、可解释性与可审计性风险,使维持可预测的安全边界变得困难。
这些能力将安全从“边界问题”转变为“持续监控与控制”挑战。被攻破的智能体不仅泄露信息,还可能自主执行未授权交易、修改关键基础设施,或在长时间内恶意运行而难以察觉。
智能体AI安全范围矩阵
在与客户及社区的共同实践中,我们识别出四种架构范围,它们基于两个关键维度——人类监督程度与自主性对比、以及AI系统被允许行动的代理权级别——代表了智能体AI系统的演进。每种范围都引入了新能力及相应的安全需求,组织在应对智能体AI风险时必须将其列为优先事项。图1展示了智能体AI安全范围矩阵。


范围1:零代理权
在此最基础范围内,系统以人类发起的流程运行,智能体本身不具备任何自主或经人类批准的变更能力。这些智能体本质上是只读的。它们遵循预定义的执行路径,在严格的人类触发工作流下运行,通常按离散步骤预设,但可借助FM的非确定性输出进行增强。安全重点主要在于流程完整性与边界强制执行,确保操作始终处于预定限制内,智能体受到高度控制,被禁止执行变更及无边界行动。
关键特征:
智能体无法直接对环境执行变更
按预定路径执行固定步骤
生成式AI组件仅在单个工作流节点内处理数据
条件分支仅在显式设计进工作流时才存在
无动态规划或自主目标寻找行为
状态持久化仅限于工作流执行上下文
工具访问被限制在特定的预定义工作流步骤
安全重点:保护环境内的数据完整性,并限制智能体不越界,尤其禁止其修改环境与数据。主要关注包括:保障步骤间的状态转换安全、验证工作流节点间传递的数据、防止AI组件修改编排逻辑或在工作流中逃逸其指定边界。
示例:我们将在全部四个范围中使用一个极简示例——帮你创建日历邀请的智能体。假设你需要与一位同事预约会议。在范围1中,你可通过工作流或提示实例化智能体,让它查看你和同事的日历以找出可用时段。此时由你发起请求,智能体通过连接到企业日历应用的Model Context Protocol(MCP)服务器执行上下文搜索。它仅被允许查看可用时间、分析最佳会面时段并返回结果,随后由人类手动完成会议安排。在此例中,人类定义了具体工作流与编排(零代理权),并对所采取的行动进行审查与批准(无自主变更)。
范围2:规定代理权
在代理权与风险进一步提升的范围2中,系统仍由人类实例化,但如今具备执行可能改变环境的行为——即受限代理权——的潜力。然而,所有关键行为都必须经人类逐条明确批准,通常称为“人在回路”(HITL)。这类系统可收集信息、分析数据并准备建议,但未经人类授权不得执行修改外部系统或访问敏感资源的操作。智能体也可在提交建议前请求人类澄清歧义、补全上下文或优化方案。
关键特征:
经人类审查与批准,智能体可对环境执行变更
实时人类监督,附带审批工作流
双向人机交互——智能体可向人类查询上下文
自主行为受限,仅限只读操作(如查询数据、运行分析任务等)
智能体主动请求澄清或补充信息
记录所有人类审批决策与上下文交换的审计轨迹
安全重点:实施强健的审批工作流,防止智能体绕过人类授权控制。关键关切包括防止权限提升、强制合适的身份上下文、保护审批流程本身、验证人类提供的上下文以防注入攻击,并保持对所有智能体建议及其依据的可视性。
示例:回到日程示例,范围2的智能体系统由人类实例化。智能体查询相关方的日历空闲时间,完成分析后向用户返回会议时间建议,并询问是否代其发送邀请。用户查看智能体的响应与建议,确认符合需求后,明确批准智能体修改日历并发送邀请。在此例中,人类编排了结构化工作流,但智能体可通过受控操作(有限代理权与有限自主性)在经人类审查后实施变更。
范围3:监督代理权
在范围3中,我们将代理权扩展,赋予智能体更高程度的自主执行能力——即高代理权。这类AI系统由人类(或至少由上游人类管理的工作流)触发,能够自主决策并对连接系统采取行动,无需进一步审批或HITL机制。人类设定目标并启动执行,智能体则通过动态规划与工具使用独立完成任务。执行过程中,智能体可请求人类指导以优化路径或处理边缘情况,但即便无人类回应也能继续运行。
关键特征:
无需(或可选)人类交互或审查,智能体即可对环境执行变更
人类触发执行,任务完成过程自主
执行期间动态规划与决策
可选人类干预点,用于轨迹优化
人类可在执行中途调整参数或提供上下文
直接访问外部API与系统以完成任务
跨长时间执行会话的持久记忆
在划定边界内自主选择与编排工具
安全重点:在自主执行阶段对智能体行为实施全面监控,并为其操作设定清晰的代理权边界——即允许智能体运行的范围,以及必须阻止的越界行为。关键关切包括:保护人类干预通道以防未授权修改、防止任务执行过程中的范围蔓延、实施可信身份传播机制、监测行为异常,并验证即使在轨迹调整时,智能体始终与最初的人类意图保持一致。
示例:在日程示例中,范围3的智能体仍可由人类实例化。它查询相关方日历空闲时间并完成分析后,向用户返回会议时间建议;然而,它有权在无需用户事先许可的情况下,自动预订最佳时段。用户不会被提示或要求预先批准该操作。结果是,所有相关方的日历中都会新增一条以该人类用户名义创建的日程。在此例中,人类定义了结果,但给予智能体更大自由去决定如何实现目标,智能体可在无需人类审查的情况下自主行动(高代理权与高自主性)。
范围4:完全代理权
范围4涵盖完全自主的AI系统,它们可基于环境监控、习得模式或预设条件自行发起活动,并在无人类干预的情况下执行复杂任务。这些系统代表了最高级别的AI代理权,持续运行并独立决定何时以及如何行动。需特别指出,范围4内的AI系统在其设计边界内可拥有完全代理权;因此,人类必须保持监督性监管,并能在需要时提供战略指导、航线修正或干预。持续的合规、审计与全生命周期管理机制(包括人工与自动审查,亦可由AI辅助)对于成功保护并治理范围4智能体AI系统、同时限制风险至关重要。
关键特征:
基于环境触发器自我导向地发起活动
持续运行,执行期间几乎无需人类监督或HITL流程
人类可在不中断运营的前提下注入战略指导
在目标设定、规划与执行方面拥有高至完全程度的自主性
与多个外部系统及智能体动态交互
具备递归式自我改进与能力扩展的潜力
安全重点:实施高级护栏,用于行为监控、异常检测、基于范围的工具访问控制,以及防止失控操作的故障保险机制。主要关切包括:与组织目标保持一致、保护人类干预通道免受对抗性操纵、防止未授权的能力扩张、防止智能体关闭人类监督机制,以及在智能体遇到意外情况时实现优雅降级。
示例:来看如何在范围4部署AI日程示例。假设你已部署一款生成式AI会议总结器,当你主持网络会议时,该智能体自动启用。会议结束后,日程智能体从会议总结器获悉新会议已发生。它查看总结出的行动项,判定六人同意周五进行白板讨论。日程智能体可能使用静态定义的API配置,也可能利用MCP服务器的动态发现功能辅助日程安排。随后,它为六名被识别出的资源查找空闲时间并预订最佳时段,再以请求会议的用户身份上下文自动完成预订。整个过程中,没有任何用户直接发起日程请求;一切完全自动化,由智能体被指示监控的环境变化驱动(完全代理权与完全自主性)。
各范围对比
在安全范围矩阵的语境下,让我们比较不同范围中自主性与代理权特征的变化:
表1–各范围对代理权与自主性水平的影响
范围 | 代理权水平 | 代理权特征 | 自主性水平 | 自主性特征 |
范围1:零代理权 | 无 | 只读操作 固定工作流路径 | 无 | 仅人类发起 预定义执行步骤 |
范围2:规定代理权 | 有限 | 可修改系统 访问多种工具 | 有限 | 所有行动需人类批准 全部变更经HITL |
范围3:监督代理权 | 高 | 可修改多系统 动态工具选择 | 高 | 人类启动后自主执行 可选人类指导 |
范围4:完全代理权 | 完全 | 全面系统访问 多系统编排 自适应 | 完全 | 自我发起行动 持续自主运行 战略性人类监督 |
每种架构范围都需在六大关键维度部署特定安全控制与考量。表2展示了随着代理权与自主性提升,安全要求如何逐级递增:
表2—各范围的关键安全维度
安全维度 | 范围1:零代理权 | 范围2:规定代理权 | 范围3:监督代理权 | 范围4:完全代理权 |
身份上下文(认证与授权) | 用户认证 服务认证 有限系统权限(只读) 有限系统访问(仅工作流必需的已知系统) | 用户认证 服务认证 人类身份验证(用于审批) | 用户认证 服务认证 智能体认证 自主行动的身份委托 | 动态身份生命周期 联合认证 持续身份验证 智能体身份证明 |
数据、记忆与状态保护 | 本地资源权限 文件系统访问控制 | 基于角色的访问控制 人类审批工作流 智能体以只读权限为主 | 上下文感知授权 即时权限提升 动态权限边界 | 行为授权 自适应访问控制 持续授权验证 |
审计与日志 | 本地活动日志 变更跟踪 完整性监控 策略强制执行 | 人类决策审计轨迹 智能体建议日志 审批流程跟踪 | 全面行动日志 推理链捕获 扩展会话跟踪 | 持续行为日志 模式分析 预测性监控 自动事件关联 |
智能体与FM控制 | 进程隔离 输入/输出验证 护栏 | 审批网关强制执行 扩展会话监控 | 容器隔离 长时进程管理 工具调用沙箱 | 行为分析 异常检测 自动遏制 自修复安全 |
代理权边界与策略 | 固定执行边界 预定义行动限制 静态资源配额 硬编码约束 | 基于审批的边界调整 人类验证的约束变更 限时提升权限 多步验证 | 动态边界调整 运行时约束评估 资源伸缩限制 自动安全检查 | 自适应边界 上下文感知约束 跨系统资源管理 自主限制调整 |
编排 | 简单工作流编排 固定执行路径 单点或有限系统集成 | 多步工作流编排 审批门控工具访问 人类验证工具链 | 动态工具编排 并行执行路径 跨系统集成 | 自主多智能体编排 跨会话学习 动态服务发现 |
按范围实施安全
在梳理完各范围及其对应的代理权与自主性水平后,下文按范围讨论主要安全挑战及应对相关风险的关键考量。
范围1:零代理权主要安全挑战:保护工作流完整性、防止提示注入破坏预定流程、维持工作流执行间的隔离。
实施要点:
全面监控与异常检测
严格的数据验证与完整性校验
在每个工作流步骤边界进行输入验证
不可变工作流定义并纳入版本控制
工作流节点间的状态加密与校验
监测试图逃逸工作流边界的行为
不同工作流执行间的隔离
为每个工作流步骤设定固定的超时与资源上限
审计轨迹对比实际与预期执行路径
范围2:规定代理权主要安全挑战:保护审批工作流、防止绕过人类授权、维持监督有效性。
实施要点:
所有人类审批者必须使用多因素认证
审批决策需加密签名
保护人机双向通信信道
带自动过期的限时审批令牌
详尽记录所有审批交互
定期培训人类审批者了解智能体能力与风险
范围3:监督代理权主要安全挑战:在自主执行期间保持控制、范围管理、可解释性与可审计性、行为监控。
实施要点:
启动时明确定义执行边界
执行期间对智能体行为进行实时监控
为失控进程配置自动熔断开关
非阻断式干预机制
为正常智能体操作建立行为基线
定期验证智能体与初始目标的一致性
范围4:完全代理权主要安全挑战:持续行为验证、强制执行代理权边界、防止能力漂移、保持与组织目标一致。
实施要点:
采用奖励建模等先进AI安全技术
基于机器学习的持续监控与异常检测
针对行为偏差的自动响应系统
通过系统化测试定期验证一致性
防篡改的人类覆盖机制
在置信度下降时可中止操作的故障保险机制
关键架构模式
成功的智能体部署在自主性与控制之间共享若干通用模式。
渐进式自主部署:从范围1或2开始实施,随着组织信心与安全能力成熟,再逐步晋升至更高范围。该方式在积累运营经验的同时将风险最小化。在分析用例并划定范围4的控制边界时务必谨慎选择,先评估自身在较低范围应对风险的能力,并清楚认知风险随范围提升而递增。
分层安全架构:在网络、应用、智能体与数据多层实施纵深防御,确保单点失守不会导致整个系统崩溃。尽管组合这些控制才能达成高安全水准,但必须投入大量精力解决身份与授权问题——涵盖人机双方。这有助于防止“混淆代理”问题,即权限较低的人类或服务通过拥有更高权限的智能体实现权限提升。
持续验证回路:建立自动化系统,持续将智能体行为与预期模式比对,并在发现偏差时启动升级流程。可审计与可解释是关键需求,用于确认智能体在既定边界内运行,并帮助评估控制有效性、调整参数及验证编排工作流。
人类监督集成:即便在高度自主的系统中,也要通过战略检查点、行为报告和手动覆盖能力保持有意义的人类监督。或许有人认为从范围1到4,人类监督会减少,实则只是焦点转移。举例而言,人类对实例化、审查、批准某些智能体行动的需求在范围1、2较高,在范围3、4较低;但对审计、评估、验证及实施更复杂的安全与运营控制的需求,在范围4、3远高于范围2、1。
优雅降级:设计系统在检测到安全事件时自动降低自主性级别,在人工调查期间仍可安全持续运行。若智能体行为超出设计边界、出现异常或被判定为对业务高风险,应具备检测控制,自动施加更严限制,如增加HITL或减少可执行动作。可采取阶梯式降级,也可在智能体对环境产生负面影响时直接禁用。构建或部署智能体时,应考虑这些可追加限制甚至禁用智能体的智能体安全机制。
结论
智能体AI安全范围矩阵提供了一种结构化思维模型与框架,用于理解并应对四个不同范围内自主智能体AI系统的安全挑战。通过准确评估当前所处范围,并在全部六大安全维度实施恰当控制,组织即可在管理相关风险的同时,自信地部署智能体AI。
从高度受限的基础智能体到完全自主甚至自我导向的智能体,这一演进代表了AI安全方法的范式转变。每个范围都需要特定的安全能力,组织必须系统化地构建这些能力,以安全地支撑其智能体愿景。
后续步骤
要在贵组织落地“智能体AI安全范围矩阵”,请按以下步骤推进:
1.评估当前智能体用例与成熟度,对照四个范围明确安全需求及对应风险,并将其纳入采购与软件开发生命周期(SDLC)。
2.识别目标范围在六大安全维度上的能力缺口。
3.制定渐进式部署策略,随范围提升同步构建安全能力。
4.实施与所处范围相匹配的持续监控与行为分析。
5.建立范围晋升与安全验证的治理流程。
6.就各范围独有的安全挑战对团队开展培训。
可在此获取智能体AI安全范围矩阵的更多信息,以及其他AI安全主题资料。如需更多保护AI工作负载的资源,请参阅白皮书《AI for security and security for AI: Navigating Opportunities and Challenges》,并探索专为智能体AI独特挑战设计的专用平台。
原文链接:
https://aws.amazon.com/blogs/security/the-agentic-ai-security-scoping-matrix-a-framework-for-securing-autonomous-ai-systems/
声明:本文来自安全喵喵站,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。