AI Agent零信任框架：五大风险、三层架构与八阶段实施流程

2026 年 5 月，Anthropic 发布了一份面向企业 AI Agent 部署的安全白皮书：《Zero Trust for AI Agents》。

https://claude.com/blog/zero-trust-for-ai-agents

这份材料讨论的不是普通意义上的“大模型内容安全”，也不是简单的提示词防护，而是一个更底层的问题：当 AI Agent 开始拥有身份、工具、权限、记忆和自主执行能力之后，企业到底应该如何重新设计安全架构？

Anthropic 在官方介绍中提到，这份框架覆盖 Agent 特有威胁、分层零信任架构、八阶段实施流程，以及用于应对 AI 加速攻击的 Agentic SOAR 安全运营体系。

它的核心判断很直接：Agent 不是普通聊天机器人，而是一个可以理解目标、调用工具、访问数据、执行动作的自治系统。

传统访问控制很难阻止 Agent 滥用“本来就合法”的权限，因此企业必须从一开始就按照“默认不可信、持续验证、假设已被攻破”的原则来部署 Agent。

为什么 Agent 需要零信任

过去很多企业做大模型安全，关注点主要在“输入”和“输出”上。输入有没有违法有害内容，输出是否违规，模型是否被越狱，回复是否安全。

但 Agent 出现以后，问题变复杂了。

Agent 不只是回答问题，它会拆解任务、选择路径、调用工具、读取系统、写入数据、发送邮件、操作代码仓库，甚至和其他 Agent 协同完成任务。它的风险不再只是“说错话”，而是可能真的“做错事”。

一个客服 Agent 如果被诱导错误调用 CRM 和邮件工具，可能把客户数据发到外部邮箱；

一个代码 Agent 如果被间接提示注入控制，可能在仓库里植入恶意逻辑；

一个企业管理 Agent 如果拥有高权限，又把权限传递给低权限子 Agent，就可能造成权限扩散；

一个拥有长期记忆的 Agent 如果被投毒，风险可能不止影响当前会话，还会持续影响未来的决策。

这就是 Agent 安全和传统大模型安全最大的区别：大模型安全更多是在管生成内容，Agent 安全是在管自治行为。

零信任本来就是为了解决传统边界安全失效的问题。NIST SP 800-207 对零信任架构的定义强调，安全防御要从静态网络边界，转向以用户、资产和资源为中心，不再因为请求来自内网、来自某个设备或属于企业资产，就自动赋予信任。

把这个思想放到 Agent 时代，逻辑就很清楚了：不要默认 Agent 是可信的，不要默认它理解了真实意图，不要默认它调用工具一定合理，不要默认它的记忆没有被污染，也不要默认它持有的权限不会被滥用。

Agent 可以被诱导，可以误判，可以被上下文污染，可以被工具链攻击，也可以成为攻击者横向移动的新跳板。因此，安全架构必须默认 Agent 迟早会出问题，然后通过身份、权限、隔离、审计、回滚和响应机制，把损害控制在可接受范围内。

Agent系统的五大风险

Anthropic 在白皮书中把当前 Agentic System 的主要风险概括为几类。它们看起来都和大模型有关，但实际上已经超出了普通模型安全的范畴。

第一类风险，是提示注入与指令操纵

提示注入仍然是 Agent 安全中最基础、也最难彻底解决的风险。

直接提示注入比较好理解，就是攻击者在用户输入中写入恶意指令，诱导模型忽略系统提示、绕过策略约束、泄露信息或执行不该执行的动作。

更危险的是间接提示注入。攻击者不直接向 Agent 下指令，而是把恶意指令藏在网页、邮件、文档、代码注释、RAG 知识库或工具返回内容中。用户可能完全看不见这些内容，但 Agent 在处理外部数据时会把它们读进上下文，并可能误认为这是应该执行的任务指令。

这类问题的关键难点在于，大模型天然处理的是语言序列，它并不总能稳定地区分“这是一段待分析的数据”和“这是一条应该执行的命令”。Microsoft Research 提出的 Spotlighting 技术，就是通过明确标记不可信内容，帮助模型区分外部数据和系统指令；其实验显示，该方法可以把间接提示注入攻击成功率从超过 50% 降到 2% 以下。

对 Agent 来说，提示注入的后果比普通聊天机器人更严重。聊天机器人被诱导后，可能只是输出不当内容；Agent 被诱导后，可能真的去调用工具、读取数据、发送请求、修改文件。

第二类风险，是工具和资源误用

Agent 的能力很大程度上来自工具。没有工具，Agent 只是一个会推理的模型；接入工具以后，它才真正变成可以执行任务的系统。

问题也正出在这里。

如果 Agent 可以访问数据库、邮件系统、CRM、代码仓库、云平台、MCP Server 或内部 API，那么攻击者不一定需要攻破这些系统本身，只需要诱导 Agent 合法调用工具，就可能完成数据窃取、越权操作或资源消耗。

更麻烦的是工具链攻击。单个工具看起来可能都是安全的，但多个工具组合起来就可能产生新的风险。比如 CRM 工具只允许读取客户信息，邮件工具只允许发送邮件，单独看都没有明显问题；但如果 Agent 被诱导先读取客户信息，再通过邮件工具发出去，这两个合法工具就组合成了一条数据外泄链路。

所以，Agent 的安全边界不应该只是系统提示词，而应该是工具权限本身。提示词只能影响模型行为，工具策略才能真正约束行为。

第三类风险，是身份与权限滥用

企业里的 Agent 很可能会使用服务账号、API Token、OAuth 凭证、云权限或内部系统账号。传统 IAM 更多是围绕人类用户和静态服务设计的，但 Agent 既像用户，又像服务，还会自主拆分任务、调用子 Agent、跨系统协同。

这会带来几个新问题。

高权限 Agent 可能把完整权限传给低权限子 Agent；低权限 Agent 可能诱导高权限 Agent 代它执行操作；Agent 可能缓存上一次会话中的凭证或敏感上下文，导致后续会话发生跨会话提权；多个 Agent 如果共用同一个服务账号，一旦出事，审计时很难知道到底是谁做了什么。

这类风险的本质不是“没有权限控制”，而是传统权限控制没有理解 Agent 的行为特点。Agent 不只是访问资源，它还会解释意图、代理行动、传递任务和组合权限。因此，Agent 时代需要的不只是最小权限，而是 Anthropic 和 OWASP 都提到的“Least Agency”，也就是最小代理权。

最小权限主要限制“能访问什么”，最小代理权进一步限制“能做什么、什么时候做、以什么频率做、在什么上下文中做、是否需要升级审批”。

第四类风险，是供应链和依赖风险

Agent 的供应链比传统软件更复杂。

传统软件供应链主要关注代码依赖、开源包、构建产物和运行环境。Agent 的供应链还包括模型、微调数据、RAG 数据源、工具描述、MCP Server、插件、外部 API、Agent Persona、配置文件和长期记忆。

任何一个环节被污染，都可能影响 Agent 的行为。

如果 MCP Server 的工具描述被篡改，Agent 可能以为自己调用的是正常工具，实际却触发恶意行为。如果 RAG 知识库被插入恶意内容，Agent 可能持续引用错误事实或执行隐藏指令。如果模型或微调数据存在后门，Agent 在特定触发条件下可能表现出完全不同的行为。

这也是为什么白皮书强调 AI-BOM。传统软件有 SBOM，用来记录软件组件和依赖关系；Agent 系统也需要类似的 AI-BOM，用来记录模型来源、训练数据、微调参数、工具组件和运行依赖。否则一旦出现问题，企业很难知道风险来自模型、数据、工具、配置，还是某个第三方服务。

第五类风险，是记忆和上下文投毒

长期记忆是 Agent 产品体验的重要能力，也是很容易被低估的安全资产。

普通提示注入往往只影响当前会话，但记忆投毒会影响未来。攻击者可以通过一次正常交互，把恶意偏好、错误事实、隐藏规则或工具调用倾向写入 Agent 记忆中。之后即使攻击者离开，Agent 仍可能在未来任务中继续受这段记忆影响。

更隐蔽的是长期记忆漂移。攻击者不一定一次性植入明显恶意指令，而是通过多轮轻微污染，让 Agent 的判断标准、目标权重、工具选择和风险偏好慢慢偏离。单次变化看起来都不严重，但长期累积后，Agent 的行为已经不再符合企业预期。

这也是 Agent 安全里非常关键的一点：记忆不能只被当成产品体验能力，也必须被当成安全治理对象。

它需要隔离、溯源、校验、版本管理、保留周期、异常检测和回滚能力。

Agent零信任三层架构

白皮书最有价值的部分，是把 Agent 零信任能力拆成了三层：Foundation、Enterprise 和 Advanced。

这三层不是简单的产品版本划分，而是企业安全成熟度划分。不同规模、不同风险等级、不同监管要求的组织，可以选择不同的目标层级。

Foundation：新的最低安全基线

Foundation 不是“够用就行”的低配方案，而是 Anthropic 认为 Agent 部署必须具备的最低安全底线。

在这个层级里，Agent 至少要有唯一且可验证的身份，不能只是日志里写一个名字，而是要有密码学意义上的身份标识。Agent 访问系统时，也不应该继续依赖静态 API Key 或共享服务账号，而应该使用短期 Token，由身份提供方签发，并且权限要尽可能窄。

这意味着一个重要变化：过去很多企业认为“API Key 定期轮换”已经算比较规范，但在 Agent 和 AI 加速攻击时代，这已经不够了。因为静态密钥一旦被模型辅助代码分析、日志泄露或配置文件扫描发现，攻击者就能快速利用。轮换只是降低长期暴露风险，并不能改变凭证本身容易被窃取、复制和滥用的问题。

Foundation 层还要求基本的访问控制、身份隔离、日志记录、输入校验、输出过滤、配置版本管理和回滚流程。它解决的是一个最基础的问题：当 Agent 出事时，企业至少要知道是谁做的、用了什么工具、访问了什么资源、能不能快速停掉和回滚。

Enterprise：大多数企业真正应该追求的目标

Enterprise 层是在 Foundation 之上，补齐真实生产环境所需的治理能力。

这个层级里，Agent 身份不只是唯一标识，而是开始进入证书认证、双向 TLS、证书生命周期管理、ABAC 动态访问控制、沙箱隔离、实时日志流、不可变审计、异常检测、自动化响应和正式 AI 治理流程。

这里的重点是从“部署能跑”变成“生产可控”。

比如，一个 Agent 调用内部数据库，不只是看它有没有数据库权限，还要看它当前任务是什么、访问的数据敏感度如何、调用时间是否异常、请求量是否突然增加、是否出现和历史行为不一致的工具调用链路。

这类能力对于大规模企业非常关键。因为一旦 Agent 数量变多、工具变多、系统变多，靠人工配置和人工审批很快会失控。Enterprise 层的目标，是把 Agent 的身份、权限、行为、日志和治理流程纳入企业现有安全体系中。

Advanced：高风险场景的目标状态

Advanced 层面向金融核心系统、政务系统、医疗系统、关键基础设施、国家安全场景，或者任何“Agent 出一次事故就会造成严重后果”的部署环境。

这一层强调硬件绑定身份、远程证明、HSM/TPM、机密计算、持续授权、JIT/JEA 权限、完整 Provenance、机器学习行为检测、自愈系统和自动化策略执行。

它背后的思路是：如果 Agent 已经进入高价值系统，就不能只依靠软件配置和人工流程。身份最好绑定硬件，凭证最好不可导出，权限最好只在任务发生时临时授予，任务结束后自动收回。Agent 的每次动作都应该可追踪、可解释、可回放，异常时可以自动隔离或回滚。

这三层架构传递出的信息很明确：Agent 安全不是一个单点能力，而是一套运行体系。它需要身份、权限、工具、网络、记忆、审计、检测和恢复能力共同工作。

八阶段实施流程

如果说三层架构回答的是“企业需要建设哪些能力”，那么八阶段实施流程回答的就是“应该按什么顺序落地”。

这部分非常适合企业安全团队参考，因为它没有把 Agent 安全简化成一个网关、一个审核模型或一个提示词模板，而是把 Agent 从上线前到运行后的完整生命周期都纳入了安全流程。

第一阶段：识别需求

企业首先要明确，为什么要部署 Agent，它要完成什么业务目标，涉及哪些数据和系统，需要满足哪些监管要求，以及安全、法务、合规和业务部门分别有什么约束。

这一步看似普通，但非常重要。很多 Agent 风险不是技术能力不够，而是上线前没有定义清楚边界。一个“帮助销售团队提升效率”的 Agent，如果没有明确能不能访问客户数据、能不能发送外部邮件、能不能修改 CRM 记录、哪些操作需要人工审批，那么后续所有安全策略都会变得模糊。

Agent 不是先接上工具再说，而是先明确边界再接工具。

第二阶段：管理供应链风险

第二阶段关注模型、工具、依赖和第三方服务的供应链安全。

企业需要知道 Agent 用了哪些模型、哪些插件、哪些 MCP Server、哪些代码依赖、哪些外部 API，以及这些组件是否可信、是否签名、是否可追溯、是否存在未修复漏洞。

这里可以引入 AI-BOM，把模型来源、训练数据、微调过程、工具组件和运行依赖记录下来。对于开源依赖，则可以使用类似 OpenSSF Scorecard 的机制评估项目健康度，包括分支保护、模糊测试、签名发布、维护活跃度等。

一个很现实的问题是，很多企业代码库里会积累多个功能重复的依赖，比如多个 HTTP 客户端、多个 JSON 解析库。每多一个依赖，就多一个攻击面。白皮书甚至建议，可以让前沿模型辅助审计 lockfile，找出重叠依赖和可合并项。

这体现了一个很重要的趋势：AI 不只是带来新的安全风险，也可以反过来用于安全治理。

第三阶段：定义 Agent 边界

这一阶段要回答四个问题：Agent 允许做什么，不允许做什么，什么时候必须升级给人类审批，如果它被攻陷，最大损害范围是什么。

这里最重要的是把“模糊目标”变成“可执行边界”。

比如不能只写“客服 Agent 负责帮助客户解决问题”，而要写清楚它可以读取哪些客户数据，可以生成什么内容，是否允许发送邮件，是否允许修改订单，是否允许退款，金额超过多少必须人工审批，是否可以调用外部工具。

同样重要的是爆炸半径评估。企业要假设这个 Agent 会被攻破，然后问自己：如果攻击者控制了它，最多能拿到哪些数据，最多能调用哪些工具，最多能影响哪些用户，最多能造成多大业务损失？

如果这个答案不可接受，就说明权限还需要继续收缩。

第四阶段：防御提示注入

提示注入防御不能只靠一句“不要听用户恶意指令”。

企业需要把所有自然语言输入都视为不可信输入。用户输入、上传文档、网页内容、邮件内容、RAG 检索结果、工具返回内容，都应该经过隔离、标注、过滤和风险判断。

这里可以采用几类措施。

一是输入隔离，把系统指令、开发者指令、用户请求、外部内容和工具返回内容明确分区，避免模型把外部内容误认为高优先级指令。二是内容标记，例如 Spotlighting，把不可信内容显式标注出来。三是攻击面收缩，减少 Agent 可以接触的外部非可信内容。四是使用分类器或护栏模型，对提示注入、越狱、敏感数据泄露、危险工具调用意图进行检测。

这一步的关键不是追求“彻底消灭提示注入”，而是降低提示注入转化成真实工具操作的概率。

第五阶段：保护工具访问

工具访问是 Agent 最大的能力来源，也是最大的风险面之一。

企业应该为 Agent 建立工具白名单，只有明确批准的工具才能被调用。每个工具还应该限制能力范围，比如数据库工具默认只读，邮件工具默认只能草拟不能发送，文件工具不能访问敏感目录，云平台工具不能执行高危变更。

工具参数也需要校验。Agent 生成的 API 参数、SQL 查询、Shell 命令、HTTP 请求，都不能直接无条件执行。尤其是涉及外部发送、批量导出、资金交易、账号变更、权限调整、生产环境修改的工具调用，应该设置人工审批或更高等级的策略验证。

这里的核心原则是：不要把“Agent 会自己判断安全”当成控制手段。Agent 可以建议调用工具，但真正决定是否允许调用的，应该是外部策略引擎和工具网关。

第六阶段：保护 Agent 凭证

凭证保护是 Agent 安全的基础。

静态 API Key、嵌入配置文件的密钥、共享服务账号密码，都不应该作为 Agent 的长期认证方式。白皮书明确把这类方式视为已知缺口，而不是合格的基础安全姿态。

更合理的方式是为每个 Agent 实例分配独立身份和独立凭证，使用短期 Token、OAuth 2.0、证书认证、托管身份、Vault 或云原生密钥管理系统。凭证应该在运行时注入，不应该写死在代码、配置文件或日志中。

对于高风险生产环境，还应该考虑硬件绑定凭证。即使攻击者拿到了主机上的某些材料，也无法把凭证导出到其他环境复用。再进一步，可以使用 JIT 权限，在 Agent 执行某个具体任务时临时授予权限，任务完成后立即撤销。

这其实是在把 Agent 的权限窗口压缩到最小。

第七阶段：保护 Agent 记忆

长期记忆不能无边界保存，也不能无条件信任。

企业需要对 Agent 记忆做会话隔离、用户隔离、来源标注、完整性校验、保留周期管理和版本回滚。外部输入、工具返回结果、用户偏好、历史总结、长期知识，都应该记录来源，并区分可信等级。

如果某段记忆来自不可信网页，或者来自没有验证过的外部文档，它就不应该和企业内部可信知识处在同一安全等级。检索记忆时，也应该校验其完整性，而不是只在写入时校验一次。

记忆还应该有 TTL。尤其是来自外部内容、临时任务和高风险交互的上下文，不应该永久影响 Agent。发现记忆投毒后，企业要能够回滚到已知良好状态，而不是只能删除整个 Agent 或重建系统。

这部分对当前 Agent 产品尤其重要。因为很多产品把“记住用户偏好”当成功能亮点，但没有同步思考“如果记住了攻击者植入的偏好怎么办”。

第八阶段：度量真正重要的指标

最后一阶段不是上线，而是度量。

白皮书强调几个关键指标，其中最重要的是 dwell time 和 coverage。Dwell time 指异常发生到人类知晓之间的时间；coverage 指告警中真正被调查和处理的比例。

这两个指标非常现实。因为在 AI 加速攻击时代，攻击速度被压缩到小时级甚至更短，安全团队如果几天后才发现异常，就已经太慢了。

此外，企业还需要度量 Agent 行为是否符合预期，是否出现工具使用漂移、输出风格变化、访问模式异常、决策路径偏离等情况。对于金融、医疗、政务等高监管场景，还要能解释 Agent 为什么做出某个动作，能否追溯到触发输入、上下文、工具调用和策略判断。

Agent 不能是黑盒。越是能执行真实操作的 Agent，越需要可观测、可解释、可审计。

Agentic SOAR：安全运营也要跟上 AI 攻击速度

这份白皮书还有一个值得关注的观点：部署安全的 Agent 只是问题的一半，另一半是企业安全运营也要适应 AI 加速攻击。

过去安全运营通常假设，人类分析师查看告警、收集证据、判断影响、写处置建议、推动响应。但如果攻击者也开始使用 AI，能够在短时间内扫描大量目标、分析漏洞、生成利用代码、尝试凭证和横向移动，那么传统 SOC/SOAR 的响应速度就会显得太慢。

Anthropic 的建议不是把所有安全决策都交给 AI，而是让 AI 负责前置处理。比如自动读取告警，查询 SIEM，补充上下文，关联历史事件，生成初步研判，整理证据链，把最需要人类判断的告警推给分析师。

人类仍然应该掌握关键决策，比如是否隔离生产系统、是否吊销凭证、是否通知客户、是否公开披露。但人类不应该被证据收集、日志查询和报告撰写拖慢。

这就是 Agentic SOAR 的价值：它不是简单的自动化脚本，而是可以根据新情况进行自适应调查和响应的安全运营 Agent。

不过，防御型 Agent 自身也必须接受零信任约束。不能因为它是安全系统，就默认它一定可信。防御 Agent 同样需要唯一身份、最小权限、操作审计、完整性校验和人工升级路径。否则攻击者一旦控制防御 Agent，反而会获得更强的系统处置能力。

这份框架真正想表达什么

这份白皮书表面上讲的是 AI Agent 的零信任安全框架，但更深层的判断是：Agent 正在成为企业数字系统中的新型执行主体。

它既不是传统人类用户，也不是普通服务进程。它有语言理解能力，有任务规划能力，有工具调用能力，有长期记忆能力，也可能有跨系统协作能力。它可以把一个模糊目标转化成一串真实操作，这正是它的价值，也是它的风险。

所以，Agent 安全不能只停留在内容审核、提示词防护或模型对齐层面。真正可落地的 Agent 安全，需要把 Agent 纳入企业安全架构：

每个 Agent 都要有独立身份
每次访问都要验证
每个工具都要受控
每项权限都要最小化
每段记忆都要可治理
每次行为都要可观测
每次异常都要能响应和回滚

这也是“零信任”在 Agent 时代的真正含义：不是不使用 Agent，而是不盲目信任 Agent。

企业可以让 Agent 做更多事，但前提是要把它放在一个可验证、可限制、可追踪、可恢复的系统中。

Agent 越强，越需要零信任。

Agent 越自治，越需要边界。

Agent 越接近真实业务，越不能只靠提示词来约束。

这份框架给企业的提醒很明确：未来 Agent 安全的竞争，不只是模型能力的竞争，而是安全基础设施成熟度的竞争。

谁能更早建立 Agent 身份体系、工具治理体系、权限控制体系、记忆治理体系和自动化安全运营体系，谁就更有可能把 Agent 安全地推进生产环境。

写在最后

过去我们谈大模型安全，经常讲模型会不会越狱、回答会不会违规、内容会不会失控。

但进入 Agent 时代以后，安全问题已经从“模型说什么”升级为“系统做什么”。

一个真正进入企业生产环境的 Agent，不应该只是一个接了工具的大模型，而应该是一个被身份体系约束、被权限策略限制、被工具网关控制、被审计系统记录、被记忆治理保护、被安全运营持续监控的自治执行单元。

Anthropic 这份《Zero Trust for AI Agents》最大的价值，就在于它把 Agent 安全从“提示词攻防”推进到了“企业安全架构”层面。

Agent 不是普通应用，也不是普通账号。

它是新的数字执行主体。

而新的执行主体，需要新的信任框架。

声明：本文来自模安局，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。