AI时代的威胁建模框架：MAESTRO

作者：孙志敏

本文首发于AI与安全公众号。

前言

威胁建模是安全设计中最重要的环节，只有准确识别、评估威胁，才能正确建立消减手段，这需要一个好的方法论。传统程序开发中已经有许多威胁建模方法，象微软的STRIDE方法等，这些方法在应对生成式AI的应用，显得不适应。

CSA推出了MAESTRO（Multi-Agent Environment, Security, Threat, Risk, and Outcome,多智能体环境、安全、威胁风险和结果），这是一个专为 Agentic AI 独特挑战而设计的全新威胁建模框架。如果您是安全工程师、AI 研究员或使用这些先进系统的开发者，MAESTRO 正是为您量身打造的。您可以使用它来主动识别、评估和降低整个 AI 生命周期中的风险，从而构建稳健、安全且值得信赖的系统。

该框架超越了传统方法，不再仅仅捕捉 AI 代理的复杂性，而是提供了一种结构化的、逐层的方法。它强调理解代理架构中每一层的漏洞、这些层之间的交互方式以及 AI 威胁的不断演变。使用 MAESTRO，您将能够以负责任且有效的方式部署 AI 代理。

MAESTRO 的原则

扩展安全类别
我们正在扩展 STRIDE、PASTA 和 LINDDUN 等传统类别，并融入 AI 专属考量。例如：多智能体与环境聚焦：明确考虑智能体与其环境之间的交互。自动驾驶汽车必须感知其他车辆、物体以及天气状况。
分层安全
安全不是单一的层，而是必须构建到代理架构的每一层中的属性。
人工智能特定威胁
应对人工智能带来的威胁，尤其是对抗性机器学习和自主性相关风险。
基于风险的方法
根据代理环境中的可能性和影响对威胁进行优先排序。
持续监控和适应
持续监控、威胁情报和模型更新，以应对人工智能和威胁的不断发展。

MAESTRO 的元素

MAESTRO 是围绕 Ken Huang 描述的七层参考架构构建的，使我们能够在细粒度级别上理解和解决风险。

图1给出了参考架构的思维导图。

图 1：Agentic AI 的 7 层参考架构

这种分层方法将复杂的AI代理生态系统分解为不同的功能层：从提供核心AI功能的基础模型，到管理信息和开发工具的数据操作和代理框架，再到确保可靠安全运行的部署基础设施和安全层，最终形成代理生态系统，业务应用程序可在此为最终用户创造价值。每一层都服务于特定的目的，同时抽象出上层的复杂性，从而实现模块化开发、清晰的关注点分离以及跨组织系统化地实施AI代理系统。

A. 特定层威胁建模

我们将对这七个层中的每一层进行威胁建模练习，重点关注与该层相关的特定威胁。

第七层：代理生态系统

描述：
生态系统层代表着人工智能代理与现实世界应用程序和用户交互的市场。它涵盖了各种各样的商业应用，从智能客户服务平台到复杂的企业自动化解决方案。
威胁形势：

受损代理：
旨在执行有害操作的恶意 AI 代理，通过伪装成合法服务渗透到生态系统中。
代理模仿：
恶意行为者通过模仿生态系统内的合法人工智能代理来欺骗用户或其他代理。
代理身份攻击：
破坏生态系统中人工智能代理的身份和授权机制的攻击，导致对代理的未经授权的访问和控制。
代理工具滥用：
人工智能代理被操纵以非预期的方式使用其工具，导致系统内出现不可预见的、潜在的有害行为。
代理目标操纵：
攻击者操纵人工智能代理的预期目标，使其追求不同于其原始目的的目标或对环境造成损害。
市场操纵：
旨在推广恶意人工智能代理或破坏合法代理声誉的虚假评级、评论或推荐。
集成风险：
用于将 AI 代理与其他系统集成的 API 或 SDK 中存在漏洞或弱点，导致交互受损和更广泛的安全问题。
水平/垂直解决方案漏洞：
利用特定于行业或特定功能的 AI 代理解决方案的弱点，利用垂直解决方案的独特设计。
否认：
人工智能代理否认其执行的操作，由于难以将操作追溯到人工智能代理，因此在系统中产生了问责问题。
受损代理注册表：
列出代理的代理注册表被操纵，以注入恶意代理列表或修改合法代理的详细信息，从而欺骗生态系统的用户。
恶意代理发现：
代理发现机制被操纵，以推广恶意 AI 代理或隐藏合法代理，从而影响生态系统中代理的可见性。
代理定价模型操纵：
攻击者利用或操纵AI代理定价模型造成财务损失或获得不公平优势，操纵AI代理的经济体系。
不准确的代理能力描述：
对人工智能代理的能力描述具有误导性或不准确性，导致误用、过度依赖或因对人工智能的错误理解而导致意外和潜在的有害后果。

第六层：安全性和合规性（垂直层）

描述：
这一垂直层贯穿所有其他层级，确保将安全性和合规性控制集成到所有AI代理操作中。该层假设AI代理也用作安全工具。
威胁形势：

安全代理数据中毒：
攻击者操纵人工智能安全代理使用的训练或操作数据，导致其错误识别威胁或产生误报，从而影响人工智能安全流程。
逃避安全 AI 代理：
恶意行为者使用对抗技术绕过安全 AI 代理，导致它们无法检测或正确应对威胁。
受损的安全 AI 代理：
攻击者控制 AI 安全代理，利用它们执行恶意任务或禁用安全系统，直接影响 AI 安全流程。
人工智能安全代理不遵守法规：
由于配置错误或培训不当，人工智能安全代理的运行违反隐私法规或其他合规标准，从而产生法律风险。
安全人工智能代理中的偏见：
人工智能安全代理中的偏见会导致不公平或歧视性的安全实践，某些系统没有得到充分保护。
安全AI代理缺乏可解释性：
安全AI代理的决策缺乏透明度，导致审计行动或识别安全故障的根本原因变得困难。
人工智能安全代理的模型提取：
攻击者提取人工智能安全代理的底层模型，通过了解系统的工作原理来创建绕过安全系统的方法。

第五层：评估和可观察性

描述：
这一层重点关注如何评估和监控人工智能代理，包括跟踪性能和检测异常的工具和流程。
威胁形势：

操纵评估指标：
对手通过毒害数据集或有偏见的测试用例来影响基准以支持他们的人工智能代理，从而导致不准确的性能数据。
受损的可观察性工具：
攻击者将恶意代码注入监控系统，窃取系统数据或隐藏恶意行为，从而损害人工智能监控过程的完整性和安全性。
评估基础设施拒绝服务：
破坏人工智能评估过程，以防止进行适当的测试和检测受损行为，导致人工智能代理性能缺乏可见性。
逃避检测：
人工智能代理旨在避免触发警报或被可观察性系统标记，使用先进技术掩盖其真实行为并避免安全警报。
通过可观察性泄露数据：
由于配置错误，敏感的人工智能信息会通过日志或监控仪表板无意中泄露，从而造成隐私和机密性风险。
毒害可观察性数据：
操纵输入人工智能系统可观察性系统的数据，向安全团队隐藏事件并掩盖恶意活动。

第 4 层：部署和基础设施

描述：
此层涉及 AI 代理运行的基础设施（例如，云、本地）。
威胁形势：

受损的容器镜像：
注入 AI 代理容器的恶意代码可能会感染生产系统，从而危及 AI 部署环境。
编排攻击：
利用 Kubernetes 等系统中的漏洞获取对 AI 部署系统的未经授权的访问和控制，从而破坏 AI 代理的功能。
基础设施即代码 (IaC) 操纵：
篡改 Terraform 或 CloudFormation 脚本以提供受损的 AI 资源，从而为 AI 代理创建不安全的部署基础设施。
拒绝服务 (DoS) 攻击：
压倒支持 AI 代理的基础设施资源，导致合法用户无法使用 AI 系统。
资源劫持：
攻击者利用受损的人工智能基础设施进行加密挖掘或其他非法目的，导致人工智能代理的性能下降。
横向移动：
攻击者获得对 AI 基础设施一部分的访问权限，然后利用该访问权限破坏其他敏感的 AI 区域，从而危及 AI 生态系统中的其他系统和数据。

第 3 层：代理框架

描述：
此层包含用于构建 AI 代理的框架，例如用于对话式 AI 的工具包或集成数据的框架。
威胁形势：

受损的框架组件：
AI 框架使用的库或模块中的恶意代码，会危及框架的功能并导致意外结果。
*后门攻击： AI 框架中隐藏的漏洞或功能，攻击者可利用这些漏洞或功能获取对 AI 代理的未授权访问和控制权。*输入验证攻击：利用 AI 框架处理用户输入方式的弱点，允许代码注入并可能危及 AI 代理系统。*供应链攻击：针对 AI 框架的依赖项，在交付和分发之前危害软件，导致 AI 代理软件受损。*框架 API 拒绝服务：破坏 AI 框架的运行能力，使服务过载并阻止 AI 代理正常运行。*框架规避：专门设计用于绕过框架内的安全控制的 AI 代理，使用高级技术执行未经授权的操作。

第 2 层：数据操作

描述：
这是为 AI 代理处理、准备和存储数据的地方，包括数据库、向量存储、RAG（检索增强生成）管道等。
威胁形势：

数据中毒：
操纵训练数据以损害人工智能代理的行为，导致人工智能决策出现偏差结果或意外后果。
数据泄露：
窃取存储在数据库或数据存储中的敏感 AI 数据，泄露与 AI 系统相关的私人和机密信息。
模型反转/提取：
通过API查询重建训练数据或窃取AI模型，导致与AI模型特别相关的IP盗窃和数据泄露。
数据基础设施拒绝服务：
破坏 AI 代理所需数据的访问，阻止代理功能并中断 AI 系统的正常运行。
数据篡改：
修改传输中或静止的人工智能数据，导致人工智能系统内的代理行为不正确或结果不准确。
受损的 RAG 管道：
将恶意代码或数据注入 AI 数据处理工作流，导致错误结果或恶意 AI 代理行为。

第 1 层：基础模型

描述：
构建代理的核心 AI 模型。可以是大型语言模型 (LLM) 或其他形式的 AI 模型。
威胁形势：

对抗性示例：
专门设计的输入，用于欺骗人工智能模型，使其做出错误的预测或以意想不到的方式行事，从而导致人工智能不稳定或做出错误的反应。
模型窃取：
攻击者通过 API 查询提取 AI 模型的副本以用于不同的应用程序，从而导致与 AI 相关的 IP 盗窃或竞争劣势。
后门攻击：
人工智能模型中的隐藏触发器，导致其在激活时以特定方式运行，通常是恶意的，从而导致人工智能模型出现不可预测且具有潜在危害的行为。
会员推断攻击：
确定特定数据点是否用于训练人工智能模型，可能会泄露私人信息或违反训练数据的机密性。
数据中毒（训练阶段）：
将恶意数据注入AI模型的训练集以危害其行为，导致AI系统中的模型行为出现偏差或偏见。
重新编程攻击：
将人工智能模型重新用于不同于其初衷的恶意任务，操纵模型用于意想不到的有害用途。

B.跨层威胁

这些威胁跨越多个层级，利用层与层之间的交互。例如，攻击者可能利用容器基础设施（第 4 层）中的漏洞，获取正在运行的 AI 代理实例的访问权限。之后，他们可以利用此访问权限将恶意数据注入代理的数据存储（第 2 层），进而毒害下一次模型更新，最终危及基础模型（第 1 层）。

供应链攻击：
破坏某一层中的组件（例如，第 3 层中的库）以影响其他层（例如，代理生态系统）。
横向移动：
攻击者获得某一层（例如第 4 层）的访问权限，然后使用该访问权限破坏其他层（例如数据操作）。
权限提升：
代理或攻击者在某一层获得未经授权的权限，并使用它来访问或操纵其他权限。
数据泄漏：
某一层的敏感数据通过另一层暴露。
目标错位级联：
一个代理中的目标错位（例如，由于第 2 层中的数据中毒）可以通过代理生态系统中的交互传播到其他代理。

C. 缓解策略

特定层的缓解措施：
针对每层的特定威胁实施定制的控制（如上所列）。
跨层缓解措施：

纵深防御：
实施多层安全保护。
安全的层间通信：
使用安全协议进行层间通信。
系统范围监控：
监控所有层的异常行为。
事件响应计划：
制定跨多层级的安全事件应对计划。

特定于 AI 的缓解措施：

对抗性训练：
训练代理对对抗性示例具有鲁棒性。
形式验证：
使用形式方法和规范验证代理行为并确保目标一致。
可解释的人工智能 (XAI)：
提高代理决策透明度以允许审计。
红队：
模拟攻击以发现漏洞。
安全监控：
实施运行时监控以检测不安全的代理行为。

D. 使用 MAESTRO：分步方法

系统分解：
根据七层架构将系统分解为组件。定义代理的功能、目标和交互。
特定层级威胁建模：
使用特定层级的威胁态势来识别威胁。并根据系统的具体情况定制已识别的威胁。
跨层威胁识别：
分析各层之间的交互，以识别跨层威胁。思考某一层中的漏洞可能如何影响其他层。
风险评估：
使用风险测量和风险矩阵评估每种威胁的可能性和影响，并根据结果确定威胁的优先顺序。
缓解计划：
制定应对优先威胁的计划。实施特定层级、跨层级以及特定 AI 的缓解措施。
实施与监控：
实施缓解措施。持续监控新威胁，并随着系统发展更新威胁模型。

代理架构模式

本节提供了一些代理架构模式的示例及其相关风险。

单代理模式

描述：
一个独立运作的 AI 代理，以实现目标。
威胁：
目标操纵
威胁场景示例：
AI 代理被设计为最大化某个值，但攻击者可以改变此目标，使其最小化。这可能导致看似无害的 AI 系统产生有害后果。
缓解措施：
实施输入验证，并限制对代理内部参数的访问。

多代理模式

描述：
多个AI代理通过通信渠道协同工作。代理身份之间通常会建立信任。
威胁：

通信通道攻击：攻击者拦截 AI 代理之间的消息。
身份攻击：攻击者伪装成合法的人工智能代理或创建虚假身份。

示例威胁场景：
攻击者将恶意数据注入通信通道，导致 AI 代理之间沟通不畅并破坏正常功能。
缓解措施：
安全通信协议、相互认证和输入验证。

不受约束的对话自主性

描述：
一种对话式人工智能代理，可以处理和响应各种输入，而不受严格的限制。
威胁：
即时注入/越狱
示例威胁场景：
攻击者制作恶意提示以绕过安全过滤器并从对话式 AI 中引出有害输出。
缓解措施：
强大的输入验证和专为对话式 AI 用例设计的安全过滤器。

面向任务的代理模式

描述：
一种旨在执行特定任务的 AI 代理，通常通过向其他系统发出 API 调用。
威胁：
通过过载进行拒绝服务 (DoS)
示例威胁场景：
攻击者向 AI 代理发送大量请求，使合法用户无法使用，从而阻止 AI 系统的正常运行。
缓解措施：
为 API 交互设计的速率限制和负载平衡。

分层代理模式

描述：
一个具有多层 AI 代理的系统，其中较高级别的代理控制下级 AI 代理。
威胁：
高级特工控制下属
示例威胁场景：
攻击者获得对更高级别 AI 代理的控制权，并可以操纵其他下属 AI 代理执行恶意任务，从而影响整个层次结构。
缓解措施：
AI 代理之间的安全通信、强大的访问控制和定期监控。

分布式代理生态系统

描述：
在共享环境中工作的许多 AI 代理的分散系统。
威胁：
通过代理模拟进行 Sybil 攻击
示例威胁场景：
攻击者创建虚假的人工智能代理身份，以在生态系统中获得不成比例的影响力，操纵市场动态或共识协议。
缓解措施：
强大的身份管理和基于信誉的系统，以区分合法和恶意的人工智能代理。

人机协作

描述：
人工智能代理在迭代工作流程中与人类用户交互的系统。
威胁：
操纵人类输入/反馈以扭曲代理行为
示例威胁场景：
攻击者操纵人类输入，使人工智能代理学习不必要的行为或偏见，从而导致人工智能行为出现偏差和扭曲。
缓解措施：
对所有用户与 AI 系统的交互进行输入验证和强大的审计跟踪。

自学习和自适应代理

描述：
可以根据与环境的交互随着时间的推移自主改进的 AI 代理。
威胁：
通过后门触发器注入造成数据中毒
示例威胁场景：
攻击者将包含隐藏触发器的恶意数据注入 AI 代理的训练集中，当激活该触发器时会导致恶意行为，从而影响 AI 模型的学习过程。
缓解措施：
数据清理，以及对人工智能系统使用的训练数据进行强有力的验证。

结论

MAESTRO 强调全面、多层次的安全方法，并认为保护 Agentic AI 系统需要结合传统的网络安全措施、AI 专用控制措施以及持续监控。这并非一次性修复，而是一个反复的过程。我们鼓励您开始使用 MAESTRO，为其开发做出贡献，并分享您的发现，与我们共同努力，打造更安全、更可靠的 Agentic AI。

声明：本文来自AI与安全，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

AI时代的威胁建模框架：MAESTRO

港科大发布大模型越狱攻击评估基准，覆盖6大类别37种方法

MirageFlow：一种针对Tor的新型带宽膨胀攻击

PrompTrend：持续社区驱动的大型语言模型漏洞发现与评估