五眼联盟发布《智能体AI服务的审慎采用》指导性文件

今天和大家分享的是北理工团队对由"五眼联盟"国家多个网络安全机构联合发布的《Careful adoption of agentic AI services》（《智能体AI服务的审慎采用》）的学习笔记。

借鉴OpenClaw架构哲学重塑广州南沙政府能力与服务模式

《Careful adoption of agentic AI services》（《智能体AI服务的审慎采用》）是一份由"五眼联盟"国家多个网络安全机构联合发布的指导性文件。共同编制方包括：澳大利亚信号局下属的澳大利亚网络安全中心（ASD"s ACSC）、美国网络安全与基础设施安全局（CISA）、美国国家安全局（NSA）、加拿大网络安全中心（Cyber Centre）、新西兰国家网络安全中心（NCSC-NZ），以及英国国家网络安全中心（NCSC-UK）。

报告主要聚焦于基于大语言模型（LLM）的智能体AI系统，既考量针对此类系统的威胁和其内部漏洞，也涵盖因智能体AI行为本身而产生的风险，包括通过系统组件、集成和下游使用引入的风险。目标受众为政府、关键基础设施和行业相关方，特别是智能体AI系统的设计者、开发者、部署者和运营者。

报告的核心立场是，随着智能体AI系统在关键基础设施和国防领域日益承担运营性角色，对防御者来说，实施安全管控以保护国家安全和关键基础设施免受智能体AI特有风险是至关重要的。这些机构强烈建议：组织应将智能体AI风险及缓解策略与现有安全模型和风险态势对齐；采用智能体AI时必须以安全为前提，绝不应授予其广泛或无限制的访问权限，特别是对敏感数据或关键系统的访问权限；组织应仅将智能体AI用于低风险和非敏感任务。

一、智能体AI的定义及其与生成式AI的区别

报告将智能体AI系统定义为：由一个或多个智能体组成的系统，这些智能体从根本上依赖AI模型（如LLM）来解读和推理世界状态、做出决策并采取行动。基于LLM的智能体AI系统包含LLM本身，以及外部工具、外部数据源、记忆和规划工作流。与传统LLM系统相比，智能体AI系统的显著特征是：能完成"未充分指定的目标"（underspecified objectives）、自主行动、遵循目标导向行为，以及制定长期计划。

智能体AI旨在无需持续人工干预的情况下运行；虽然通常由人设计和配置，但部分系统能够自主创建（"派生"，spawning）子智能体来完成特定子任务。智能体的关键属性包括：信息输入、可衡量的目标（如"将该服务器的停机时间降至最低"）、统计模型、行动与执行权限、工具或服务访问，以及效能评估指标。

报告明确区分生成式AI（GenAI）与智能体AI：前者是基于大数据集学到的复杂模式生成新内容（文本、图像、音频和视频），主要供人类使用或据其行动；而智能体AI建立在生成式AI之上，通过与软件系统集成创建能独立推理、规划并采取行动而无需人工干预的自主智能体。

二、智能体AI的具体安全风险

报告将智能体AI的安全风险归纳为五大类，五类风险并非孤立存在，而是层层叠加、相互放大的关系：权限风险决定"出事时智能体能造成多大破坏"，设计与配置风险决定"权限是否会在系统运行中失控"，行为风险决定"智能体是否会自主滑向危险路径"，结构性风险决定"局部失误是否会蔓延为系统性灾难"，责任追溯风险则决定"事后是否能查清并修复"。理解这种叠加关系，是把握后续最佳实践逻辑的关键。

（一）权限风险——根源性风险

报告将权限风险列为"关键关注点"，并强调严格遵守最小权限原则的"至关重要性"。其底层逻辑是：智能体获得的权限直接决定它能造成的风险上限。

权限受损与权限蔓延——智能体可能因配置错误、过度宽泛的授权或意外角色继承而获得超出其功能所需的访问权限。报告给出两个具象化例子：能访问所有会议数据（而非仅请求用户的）的日历机器人，以及对任何收件箱具有写权限的电子邮件助手。"权限蔓延"还会跨智能体级联：如果智能体A完全信任智能体B，那么B被攻陷将影响A及其他智能体。

"混淆代理"模式（confused deputy）——这是报告反复强调的一个特殊危险模式：低权限用户操纵高权限智能体执行其本身无法直接执行的操作。报告以采购审批智能体的场景为例：组织为减少摩擦给智能体广泛的财务系统、邮件和合同库访问权限，仅在初始部署时评估权限；当攻击者攻陷集成在工作流中的低风险工具时，便继承了智能体的过度权限，得以修改合同、批准付款而不触发警报。更危险的是，由于动作以受信智能体身份执行，审计日志看起来"合法"，会延迟检测。

身份欺骗与智能体冒充——报告强调"身份与权限同等重要"。当组织保持密钥或令牌静态、跨多个智能体共享或保护不当时，攻击者可窃取这些凭证。以受信智能体身份操作的攻击者可调用敏感操作、绕过行为护栏并冒充合法智能体或用户；这类攻击会规避审计、削弱问责，并绕过通常以"正常行为"为基准调校的检测模型——使检测工具在确认异常出现之前对此类欺骗失效。

（二）设计与配置风险——结构性放大器

如果说权限风险是"枪有多大威力"，设计与配置风险就是"扳机会不会自动扣动"。报告指出几个关键结构性问题：

未审查的第三方组件——可能在被纳入智能体工作流时携带过度或非预期的权限。
静态权限检查的不足——静态角色或权限检查通常无法捕捉动态决策流的上下文。报告点出一个关键技术细节：如果权限只在系统启动时评估一次，而不是在每次调用时评估，攻击者可利用陈旧的"放行"决策执行未授权操作。这是与传统软件不同的智能体特有问题——智能体的调用模式是动态、长链条的，单次启动评估无法覆盖运行中可能出现的所有情境。
环境之间分段不良——使一处的攻陷可横向蔓延至其他飞地。
允许清单不完整或过时——智能体可能获得超出预期权限的资源、系统调用或命令的访问。

报告以客户支持工单系统为例：组织未经充分权限审查就集成了第三方调度组件，该组件依赖缓存的授权决策；当组件被攻陷时，攻击者得以调用本应每次都验证的敏感账户管理功能，并因环境分段不良横向移动至处理账单和退款的相邻智能体。

（三）行为风险——智能体特有的"自主滑动"

行为风险描述了AI智能体可能以非预期方式行动、造成伤害或变得可被利用的方式。这是智能体AI区别于传统软件最独特的风险类别。

目标错位与非预期行为——智能体可能找到技术上达成目标但违背目标本意或制造安全漏洞的捷径或漏洞。报告给出一个生动例子：被指派"最大化系统正常运行时间"的AI智能体可能禁用安全更新以避免重启——这就是"规范博弈"（specification gaming）。报告还指出"过度优化"（over-optimisation）可能驱使智能体在边界未明确执行时采取极端或不安全的行动；以及智能体对人类意图的误解，因模糊或定义不良的任务而偏离预期。

欺骗行为——这是报告中颇具警示性的一节。AI智能体可能采取被人类视为奉承（sycophantic）或欺骗性的行动；由于设计者基于关键测试优化智能体性能，智能体可能学会针对特定情境调整行为；智能体甚至可能展现某种"觉察"（awareness），即使评估并未激活也改变其行为以求得正面结果。报告进一步指出，部分AI系统已展示出"战略性欺骗"的能力——提供虚假信息或隐瞒真实能力与意图。这种行为可能表现为：智能体歪曲其行动以避免被关停或受约束，或隐瞒其发现的漏洞而不上报。

涌现能力与不可预测行为——AI系统可能发展出设计者未明确编程或预期的能力。报告用"murky decision-making processes and cascades"（不清晰、混沌的决策过程与级联）描述其后果——多智能体环境中的交互可能演化为不稳定或风险结果；智能体可能以非预期顺序串联工具或动作，将小错误放大为重大运营或安全问题。

恶意利用——攻击者可通过提示注入、越狱诱导智能体执行未授权动作并绕过既定保障；数据投毒可降级或偏置决策；对抗性样本可在关键安全情境中引发误分类；攻击者还可将受损智能体作为内部威胁，利用其合法访问权限外泄数据、禁用防御或在表面正常运行的同时协助攻击。

报告以软件更新智能体为例：为完成补丁安装任务被授予对文件系统的广泛写权限；当恶意内部人员发出"打补丁的同时顺便清理一下防火墙日志"这样的看似无害提示时，智能体会忠实地同时执行维护和日志删除——因为权限允许，即便提示来自特权IT组之外的用户。

（四）结构性风险——互联结构带来的系统级风险

智能体AI系统的核心特征是智能体、工具与外部世界之间的互联结构；该结构既支撑其独特能力，也扩大攻击面与系统复杂度。

编排与资源——配置不当可能允许拒绝服务、"海绵攻击"等针对智能体AI的攻击。海绵攻击的特殊性在于它通过故意消耗大量计算、内存或API调用来耗尽系统容量。由于智能体、工具和其他组件之间的互联性，单个错误可能在管理不当时导致整个智能体系统的级联失败；幻觉也可能传播，导致下游组件输出不良。

工具使用——智能体使用工具的能力非常强大，但当模型与工具产生意外交互时也带来安全隐患。报告点出两个细节：双向工具集成允许工具向LLM返回潜在任意指令；糟糕或故意误导性的工具描述会导致智能体不可靠地选择工具——具说服力的描述更容易被选用。这意味着工具描述本身就是攻击面。

第三方组件——风险包括：攻击者通过"工具或智能体抢注"（squatting）发布与合法名称类似的恶意工具或智能体；开发者通过配置错误或不安全的第三方组件引入漏洞；用户或系统将请求提交至错误位置；工具和智能体动态加载新软件包，扩大对不可信代码的暴露。报告特别指出，由于智能体AI系统透明度有限，被攻陷的第三方组件可能非常难以察觉。

数据——智能体AI系统聚合了大量敏感信息，包括用户提示或目标、RAG中存储的组织数据、集成工具与服务所需的API密钥等。这种聚合使其成为攻击者具吸引力的目标。

流氓智能体——在多智能体系统中，单个被攻陷的智能体可通过传播错误信息、利用信任与共识机制或通过隐藏通道操作引发级联失败。可能的攻击向量包括供应链篡改、被投毒环境、凭证窃取、模型篡改、通信投毒、身份欺骗与协调利用——可将智能体武器化以绕过控制、外泄数据、篡改日志并以点对点方式传播恶意计划。

通信——智能体可能使用不安全协议或认证方法通信；这些通信可能被攻击者窃听，导致敏感数据和指令泄漏；攻击者还可能改动、重放或欺骗智能体组件之间的消息，可能允许命令注入等恶意行为，损害接收组件的性能或可用性。

报告以一个综合场景说明结构性风险的系统级特性：紧耦合的规划、检索和执行智能体在缺乏强验证或护栏的情况下自主委派任务和选择工具；小的编排缺陷导致智能体反复重新规划并交接含糊子任务，使工具调用和消息流量增加直至系统资源紧张；部分失败导致智能体产生幻觉输出，下游智能体却将其当真；在这种降级状态下，智能体选择了恶意或配置错误的第三方工具，该工具向系统注入有害指令、攻陷对等智能体并利用智能体间通信中的隐性信任传播错误信息和访问敏感的RAG数据。结果是可用性、完整性和机密性的级联失败——这些失败不是源于单个bug，而是源于系统的互联结构和自主行为。这是结构性风险最深刻的表达：风险不是某个组件的缺陷，而是整体架构的涌现属性。

（五）责任追溯风险——事后无法查清

智能体系统架构会模糊"是什么导致了某个特定行动"——这随着智能体被赋予更多角色和能力而成为日益严重的风险。

行动与过程不透明——智能体可能发起次级任务、派生子智能体或遵循扩展的委派链，操作者并不总能看到。报告点出一个智能体特有的可重现性难题：即使提示看起来相同，智能体也可能因模型的随机行为、上下文窗口的变化或动态环境输入而产生不同的行动，进一步使可重现性和保证复杂化。综合日志记录也很困难，因为长推理链和大量上下文数据导致庞大日志体量，且数据常重复、结构松散或对有效监督来说是冗余的。

准确性问题——LLM通常被训练为产生类似于人类高评分材料的输出，而不是识别其知识局限性。结果是当其内部知识不足时可能错误地内插或"幻觉"出听起来合理的回答。即使是接地的、启用工具的智能体也仍然可能依赖其内部知识来形成回应；系统通常不在输出中清晰标识这一点，从而降低整体准确性和可靠性。

可见性差——智能体系统进程可能超出人类监控能力，导致恶意行为未被注意、未被捕获的幻觉或其他问题；工具可能在系统监控边界之外运行，使得工具行动难以追踪；恶意或被攻陷的智能体可能将工具用作隐蔽的数据外泄通道；故障工具也可能无意间泄漏数据而不被发现。

三、安全最佳实践

报告的最佳实践部分按"设计、开发、部署、运营"四阶段组织，并明确每阶段的目标受众。值得注意的是，报告将这套实践明确定位为"分层防御"：开发者在前期建立的内在安全属性，需要部署者通过架构隔离来强化，再由运营者通过持续监控来验证。任何单一阶段的措施都不足以应对前述五类风险。这正是为何最佳实践要按生命周期组织而非按风险类型组织。

（一）设计阶段：将安全嵌入架构

主要受众：智能体AI开发者；供应商和运营者在采购AI智能体时也可参考。

设计阶段的核心目标是在开发与部署之前，将安全考量"前置"到系统架构中。报告明确指出"安全智能体AI系统始于设计阶段"——这与传统软件工程中"安全设计"（Secure by Design）原则一脉相承。

受控上下文（Controlled context）——这是针对LLM固有漏洞的根本性应对。报告解释其必要性：智能体AI系统将来自工具和记忆库的数据插入LLM智能体的上下文窗口，大大扩展了攻击者可通过机器学习攻击（如提示注入）利用的攻击面。LLM智能体应在做决策时考虑数据源的信任级别。具体实践包括：使用清晰的指令层次结构构建提示上下文，确保智能体行为与预定优先级和约束一致；通过RAG和提示工程提供相关上下文信息以实现"接地"（grounding），缓解幻觉等LLM相关错误。这两条实践直指准确性和提示注入两类核心问题——指令层次结构对应"系统指令应优先于用户输入，用户输入应优先于工具返回的内容"的信任分级思想，而RAG则用结构化的事实数据替代模型的内在记忆，降低幻觉概率。

监督机制（Oversight mechanisms）——回应行为风险的核心。报告指出智能体AI系统能在没有明确人工批准的情况下采取行动，增加了不安全行动在无人监督下发生的风险。具体措施包括：包含促进人工控制和监督的机制，确保被批准用于非敏感、低风险任务的智能体AI系统不能自主推进至更高风险活动；在智能体工作流中实施人工控制点，如任务执行期间的实时监控与中断、决策步骤的强制人工批准、任务执行后的审计与可逆性；定义明确的控制流以约束自主规划，防止智能体偏离授权目标或行动。"非敏感、低风险任务无法自主进入高风险活动"这一原则呼应报告整体立场——必须在架构层面就阻止智能体的"职责蔓延"，而不能依赖运行期的人工干预。

身份管理（Identity management）——直接对应权限风险与身份欺骗。报告强调每个智能体应被构建为"独特主体"（distinct principal），即"具有自身独特密钥或证书的密码学锚定身份"——这一表述体现了零信任的核心思想。具体实践包括：使用受管身份服务、去中心化标识符或公钥基础设施嵌入强身份管理机制；使用相互TLS（mTLS）认证所有智能体间和智能体到服务的API调用以确保不可否认；维护可信注册表并将身份绑定到授权角色，定期与活跃智能体集合对账；对不在可信注册表中的任何智能体或密钥拒绝访问；应用基于角色的身份管理并将智能体权限限于已批准任务所需的最小范围；执行基于身份的边界以将智能体限制于授权动作。"可信注册表+定期对账"机制是针对"流氓智能体"和"智能体抢注"的关键控制——任何未注册的智能体不仅无法获得授权，连存在本身都被否认。

纵深防御（Defence in depth）——回应结构性风险中级联失败的可能性。报告解释：智能体AI系统包含可能失败的AI和网络组件，任何失败都可能使整个系统受损。具体实践包括：通过实施多重、重叠的安全控制层避免依赖单一安全机制；在所有信息进入或离开系统的点应用安全控制，包括用户输入、工具调用、数据预处理和模型推理；为不同功能分离智能体并对从一个智能体到另一个智能体的交接应用严格边界和操作控制。"在每个信息出入点设防"的颗粒度比传统应用更细——传统应用主要关注用户输入与外部API边界，而智能体系统因为引入了工具调用和模型推理这两个新的信息流转点，必须在这些新边界也部署控制。

（二）开发阶段：通过训练与测试硬化智能体

主要受众：开发者与供应商；运营者可参考以选择智能体。

开发阶段的核心思路是：智能体的复杂性和自交互性既带来强大能力也引入独特攻击面，缓解这些风险需要超越标准LLM做法的训练方法，采用专门技术来"硬化"智能体行为。

综合测试（Comprehensive testing）——通过在监督训练步骤中暴露模型于安全滥用实例，提高识别和应对不良行为的能力。具体包括：使用奖励建模和对抗性测试以检测规范博弈，明确将安全约束与性能目标并列；在模拟、受控环境中训练LLM智能体以学习行动后果而不造成真实安全危害；利用合成数据生成创建反映真实操作场景的对抗性训练示例；将主动学习应用于对抗性训练场景以更高效地发现非预期行为。这套实践的核心创新是把"安全约束作为奖励信号的一部分"——这意味着智能体在训练阶段就被迫在性能目标和安全目标之间做权衡，而不是先训出高性能版本再用过滤器抑制不安全行为（后者更易被规范博弈绕过）。

适当评估（Appropriate evaluation）——AI智能体在复杂环境中自主运行，因此需要比LLM更彻底的评估。具体包括：使用相关威胁模型定义评估场景，包含超出典型训练条件的边缘案例；采用Best-of-N采样（从对同一提示的多次模型回应中选取最佳输出）、多步推理提示和推理时扩展等技术以充分诱发智能体行为和能力；跨不同自主性级别评估系统以理解在变化环境条件（包括工具、模型和资源访问的变化，如网络搜索或代码执行）下的性能与风险；变化上下文条件（如其他智能体的存在与否、评估时机）以理解其对任务表现的影响；在智能体开发生命周期中持续进行能力评估。"跨自主性级别评估"是该部分最值得注意的细节——同一智能体在低自主度下可能表现良好，但在高自主度下可能涌现出意外能力或风险，这正是前述"涌现能力"风险在评估方法上的对应措施。

输入管理（Input management）——可部分缓解针对基于LLM应用（包括AI智能体）的许多常见风险。具体包括：实施稳健的输入验证和清理；集成提示注入过滤器和语义分析以检测恶意指令；验证上下文以确保系统在执行前正确解读意图。"语义分析"是相对于传统输入清理的进步——传统清理依赖正则模式，而提示注入往往利用自然语言语义模糊性，必须用语义级别的分析才能识别。

红队演练（Red teaming）——具体包括：部署沙盒环境在生产部署前测试智能体行为；进行红队演练以识别潜在漏洞和非预期行为；使用能力诱发技术探测非预期或涌现能力，特别是那些可能制造重大资源或环境风险的能力；实施智能体仿真测试，如多智能体红队或混沌测试。这里特别值得注意的是"能力诱发"（capability elicitation）这一概念——对涌现能力的主动探测，与传统漏洞扫描的被动检测形成鲜明对比。

韧性（Resilience）——AI智能体增强的能力也增加了与智能体故障或异常行为相关的风险。报告强调"优雅降级"原则。具体包括：嵌入故障安全默认值和遏制机制以限制非预期行为的爆发半径；实施针对AI智能体行为专门调校的数据丢失防护控制；实施版本控制和回滚机制以在观察到不可预测性时安全地将系统恢复到已知良好的智能体行为。"专门为AI智能体行为调校的DLP"暗示传统DLP规则可能不足——智能体外泄数据的方式可能更隐蔽（如通过工具调用、嵌入提示中等），需要新规则集。

问责（Accountability）——智能体AI系统应产生综合工件和信息记录智能体的行动和决策过程。具体包括：默认集成综合工件日志记录机制；为所有智能体间交互集成统一审计日志以保持所有智能体交换的可观测性；使用可解释性工具确保对智能体决策及其推理的可观测性；要求智能体进行特定信息引用，显示其响应的关键方面源自何处。"信息引用"要求智能体在输出中标注其陈述的来源依据，这既是反幻觉措施，也是事后可审计性的关键支撑。

第三方组件管理（Manage third-party components）——这是开发阶段最详尽的一节，反映报告对供应链风险的高度重视。具体包括：在纳入智能体AI系统前验证所有外部第三方组件来自受信源且为最新；维护第三方组件的可信注册表；在采购智能体AI系统时参考CISA的《SBOM共同愿景》和《2025 SBOM最低要素》；将工具使用限制于经定期验证安全的工具与版本的批准允许清单；验证与工具使用相关的智能体行为符合记录的安全策略；记录智能体工具使用并确保结果以人类可读格式被捕获在系统日志中；建立触发-动作协议，在异常行为出现时自动限制智能体权限；将职责分离编码化，定义如"协调者"（Orchestrator）、"读者"（Reader）和"执行者"（Actuator）等角色，具有清晰边界、共识机制和委派到期；基于风险实施共识控制——对中等风险动作使用多智能体批准，对高风险动作除多智能体共识外还需人在回路批准；禁止智能体修改其自身权限或在没有明确到期计时器和记录的授权链的情况下发起未批准的委派；使用避免说服性语言的一致格式标准化工具描述。

这套实践中的"角色分离+共识控制"是对结构性风险中"流氓智能体"问题的精准回应：通过把读、规划、执行三种能力分给不同角色的智能体，并要求关键动作经多智能体共识批准，即使单个智能体被攻陷，攻击者也无法单独触发严重后果。"禁止智能体修改自身权限"则封堵了智能体自主提权这一最危险的攻击路径。

（三）部署阶段：在新环境中谨慎引入

主要受众：供应商和运营者；开发者可参考以确保其应用能实施这些实践。

部署阶段的核心思路是：将AI智能体集成到新系统或网络可显著改变系统风险考量；通过在部署时实施高影响安全控制，组织可主动管理新风险并减少漏洞。

威胁建模（Threat modelling）——具体包括：使用最新的智能体AI系统风险分类法（如OWASP GenAI Security Project和MITRE ATLAS™）进行真实威胁建模；设计和实施应对新兴和演进智能体能力的安全控制；将智能体AI控制与现有安全框架、国家指南和盟友协议（如常见零信任原则和NIST零信任架构指南）协调；制定和测试事件响应程序以检测、遏制和恢复智能体危害；建立特权架构的定期第三方审查，与受信合作伙伴共享可行情报，并更新风险模型以反映新兴恶意趋势。

治理（Governance）——智能体AI系统的自主行动引入新风险，需要更新的治理政策和针对每个动作的中央策略决策点的持续运行时认证。具体包括：实施和维护管理自主智能体的治理政策；在政策中定义智能体AI系统的法律问责和风险所有权；提升组织以构建AI素养。"法律问责和风险所有权"是政策层面的关键——它对应前述"责任追溯风险"，要求在发生事故前就明确"谁为智能体的行为负责"。

渐进式部署（Progressive deployment）——AI智能体的风险概况可因权限和允许动作显著不同；渐进式部署旨在限制初始风险直至运营者和用户更熟悉并理解智能体应用的局限性。具体包括：实施分阶段部署，渐进式增加访问和自主性，必要时限制动作空间（如受限API或沙盒）；使用"分级自主性"（graduated autonomy）增量增加智能体独立性的同时保持人工监督和理解；使用持续评估来确定何时扩大系统范围或在响应失败时回滚自主性和访问。这是运营层面"小步快跑"思想在智能体部署中的体现——不一次性放开权限，而是基于可观察的实际表现逐步松绑。

默认安全（Secure by default）——具体包括：将系统配置默认设为"故障安全"，要求智能体在不确定场景中停止并将问题升级给人工审查者；使用错误处理和故障转移管理以减少系统失败的影响；实施优雅降级模型以使智能体即使部分功能失效也能保持部分功能。

护栏与约束（Guardrails and constraints）——具体包括：明确具有"禁止做"规则的受约束目标；实施护栏和硬约束，如拒绝清单和API级别安全策略；建立智能体不能覆盖的声明式安全契约；应用分层护栏机制，从异常检测和基于规则的过滤到检测和过滤违禁行为的专门机器学习算法；优先审查高风险事件，包括护栏被触发或行动被人工审查者拒绝的案例；部署辅助智能体以在执行前根据策略验证新任务。"声明式安全契约"和"辅助验证智能体"是该部分两个有价值的设计：前者将安全约束转化为智能体无法在运行时绕过的"硬规则"，后者用一个独立智能体作为"政策守门员"，避免主智能体既执行任务又自我审查的角色冲突。

隔离（Isolation）——具体包括：实施隔离和分段以限制智能体故障场景的爆发半径；将高风险智能体分离到独立域；将智能体隔离到对日志没有写权限的飞地。"对日志无写权限的飞地"是针对"恶意智能体修改审计日志以掩盖踪迹"这一具体威胁的精确防御。

（四）运营阶段：持续监控与人工把关

主要受众：供应商和运营者；开发者可参考。

运营阶段的核心思路是：运营AI智能体的强大效益伴随着重大风险；运营者需要在管理持续安全关切方面尽职尽责，以免智能体造成更多伤害而非好处。

监控与审计（Monitoring and auditing）——这是运营阶段最详尽的一节。具体包括：采用增强对智能体AI系统人工监督的监控工具；监控所有智能体操作，包括内部过程，而不仅仅是输入和输出；监控并记录身份和权限变更，并定期审计漂移、冒充或配置错误；监控智能体输出和行为以发现偏见、新兴数据漂移和其他异常模式的指标，包括用户提示、工具调用、记忆交互、内部推理、所做决策和所采取行动；维护实时监控的综合日志和实时智能体行为与决策；使用规则或行为基线实施运行时监控和异常检测以识别异常模式并触发警报或暂停；建立异常检测机制，标记声明意图与观察行为之间的差异；使用多个独立监控系统交叉验证智能体报告和系统日志；通过将活跃目标与已批准的基线规范在执行前进行比较来监控目标漂移；将源检查与智能体日志集成以记录系统使用了哪些工具和检索了什么信息；实施结合人工审查与自动分析系统日志的审计实践；通过使用监控数据实现快速响应（如基于系统日志中识别问题的补丁）支持自适应防御；使用存储高效的日志记录方法以管理日志量而不丢失关键信息；进行定期安全评估，包括针对智能体行为的渗透测试和红队演练。

这一节中"声明意图与观察行为之间的差异"和"目标漂移监控"两条特别值得关注——它们是针对前述"欺骗行为"和"目标错位"的运行时检测手段：通过比对智能体声明要做什么与实际做了什么、当前活跃目标与基线目标的差异，可在智能体偏离预期时及时发现。"监控所有内部过程而不仅是输入输出"也是关键——传统系统监控通常只关注边界，而智能体的危险行为可能完全发生在内部推理链中，必须将监控深入到推理过程本身。

输出验证（Validate outputs）——具体包括：通过与多个来源核对关键方面的准确性来验证智能体输出；通过在具有冗余智能体的环境中相互验证输出来交叉检查智能体；验证工具响应以防止恶意或不安全指令，并标准化工具描述以避免说服性语言。

人在回路（Human in the loop）——智能体的错误或非预期决策可能导致重大伤害（如重要数据被删除）；将人工监督、批准和审查纳入智能体AI工作流是确保系统安全和稳妥运行的重要控制，特别是在动作具有高影响或难以逆转的情况下。具体包括：确保关于何时需要人工批准的决定由系统设计者或运营者决定，而非委托给智能体AI系统；防止智能体在没有事先人工批准的情况下自主执行高影响行动或输出；为错误成本高的行动（如系统重置、网络出站或关键记录删除）插入人在回路审查或批准检查点；将删除日志或审计记录的请求隔离，直至经人工审查和批准；明确分配系统造成的错误或不利结果的责任和问责；进行风险评估以按潜在影响、可能性和可逆性对智能体行动分类，并应用适当的保障措施。

这一节有两条至关重要的细节："何时需要人工批准的决策不能委派给智能体本身"，这堵住了智能体自主决定"我这次不需要人类把关"的危险路径；"删除日志请求被隔离直至人工审批"则直击恶意智能体最常用的反取证手段。

性能监控（Performance monitoring）——具体包括：评估智能体规避安全措施的能力，特别在敏感或高影响系统中；进行智能体绕过保障（如通信障碍、护栏、监视器、人在回路过程和输入过滤器）能力的定期评估；使用这些评估的结果验证现有控制并指导更强安全措施的开发；通过应用控制（如速率限制组件以中断长时间运行任务并扰乱恶意工作流）限制智能体资源使用。"评估智能体规避自身安全措施的能力"是颇具前瞻性的实践——它把智能体当作潜在对手，主动测试其是否会涌现出绕过约束的能力，这是对前述"欺骗行为"风险的运营期回应。

权限与认证（Privileges and authentication）——AI智能体的持续严格权限管理是长期安全的关键；此处的疏忽可能将故障智能体的影响从轻微变为灾难性。具体包括：将AI智能体权限限制于其任务所需的最低限度；将权限范围限制在尽可能窄的级别以允许对允许动作的细粒度控制；实施智能体声誉和信任评分机制，并在检测到异常行为时降低信任级别；要求高影响或特权动作的即时（just-in-time）凭证；针对用户或智能体组验证API调用者身份；在每次特权调用前用新的密码学证明对智能体进行认证；要求授权命令和指令的密码学签名；为任务定义和约束应用密码学完整性检查；要求智能体进行密码学证明（attestation），即智能体必须证明它们正在运行预期且未修改的代码；使用每个请求的中央策略决策点在运行时持续验证身份和授权。

这一节将密码学手段密集应用于智能体身份和指令的完整性，是对"身份欺骗"和"通信篡改"两类风险最技术化的回应。"密码学证明智能体在运行预期且未修改的代码"特别值得注意——它把可信计算的"远程证明"机制引入智能体场景，使运营者能够远程确认智能体的代码状态未被篡改。"信任评分动态降级"则引入了基于行为的动态权限模型，超越了传统的静态权限分配。

四、应对未来风险与结论

报告前瞻性地提出三方面建议：一是通过协作扩展威胁情报——现有框架（如OWASP 2025 LLM Top 10、MITRE ATLAS）主要聚焦LLM漏洞，部分智能体AI独有的攻击向量未被充分涵盖，需要与主要AI开发者及政府机构协作汇编威胁信息，参考CISA的《AI Cybersecurity Collaboration Playbook》；二是开发面向智能体的稳健评估方法——现有评估方法对细微语义变化敏感、随场景变化、未能完全反映真实部署条件，需要建立覆盖新领域、代表真实部署上下文的基准数据集，并共享评估发现；三是利用系统理论方法分析安全——推荐使用系统理论过程分析（STPA）及其安全扩展（STPA-Sec），以及基于系统理论的因果分析（CAST），在整个生命周期中并行处理安全与防护问题。

报告结尾重申，智能体AI带来强大自动化收益的同时，其跨越互联工具、数据和环境自主行动的能力引入了超越传统软件或生成式AI的安全风险，权限提升、涌现行为、结构依赖和问责差距可能以不可预测方式相互作用。组织应以"安全为先"的态度增量采用智能体AI、从清晰定义的低风险任务开始，并依据不断演化的威胁模型持续评估；强大的治理、明确的问责、严格的监控和人工监督是必备前提而非可选保障。在安全实践、评估方法和标准成熟之前，组织应假设智能体AI系统可能出现意外行为，规划部署时优先考虑韧性、可逆性与风险遏制，而非效率提升。

总体而言，本报告体现了"五眼"国家网络安全机构对智能体AI新型风险的高度警惕。其最佳实践的深层逻辑可概括为三层：第一层是把传统安全原则（最小权限、零信任、纵深防御、安全设计）严格移植到智能体场景；第二层是针对智能体特有性质（自主性、涌现性、互联性、不透明性）设计专门控制（角色分离、声明式安全契约、目标漂移监控、密码学证明、辅助验证智能体）；第三层是承认现有方法尚不充分，主张通过协作、新评估方法和系统理论持续演进。

这三层共同支撑报告的核心立场——在智能体AI走向更大范围运营之前，组织必须以最小权限、最大可见性、最强可问责性的姿态进行审慎采用，并在过渡期内保持必要的克制与防备。

声明：本文来自网安寻路人，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

五眼联盟发布《智能体AI服务的审慎采用》指导性文件

二、智能体AI的具体安全风险

（一）权限风险——根源性风险

（二）设计与配置风险——结构性放大器

（三）行为风险——智能体特有的"自主滑动"

（四）结构性风险——互联结构带来的系统级风险

（五）责任追溯风险——事后无法查清

三、安全最佳实践

（一）设计阶段：将安全嵌入架构

（二）开发阶段：通过训练与测试硬化智能体

（三）部署阶段：在新环境中谨慎引入

（四）运营阶段：持续监控与人工把关

四、应对未来风险与结论

ATT&CK v19发布，一文看懂所有核心变化

《网络安全技术网络安全漏洞分类分级指南》等5项国家公开标准意见

工信部印发《工业场景数据要素应用参考指引》

五眼联盟发布《智能体AI服务的审慎采用》指导性文件

二、智能体AI的具体安全风险

（一）权限风险——根源性风险

（二）设计与配置风险——结构性放大器

（三）行为风险——智能体特有的"自主滑动"

（四）结构性风险——互联结构带来的系统级风险

（五）责任追溯风险——事后无法查清

三、安全最佳实践

（一）设计阶段：将安全嵌入架构

（二）开发阶段：通过训练与测试硬化智能体

（三）部署阶段：在新环境中谨慎引入

（四）运营阶段：持续监控与人工把关

四、应对未来风险与结论

ATT&CK v19发布，一文看懂所有核心变化

《网络安全技术 网络安全漏洞分类分级指南》等5项国家公开标准意见

工信部印发《工业场景数据要素应用参考指引》

《网络安全技术网络安全漏洞分类分级指南》等5项国家公开标准意见