自主商业智能体的12类攻击向量和五层安全框架

像 OpenClaw 这样的自主 Agent，正在把“人类监督下的智能助手”推向“可以独立参与商业活动的机器主体”。与之配套的支付和商业协议也在迅速出现，例如 ERC-8004、AP2、x402、ACP、ERC-8183、MPP、MCP 等。这些机制让 Agent 能够买服务、做支付、跑结算、调工具，但也带来了一个过去的安全框架没有完整覆盖的新攻击面。

这也是最近一篇很值得关注的论文《SoK: Security of Autonomous LLM Agents in Agentic Commerce》想解决的问题：当 Agent 可以自己管理数字资产、调用支付协议、与其他 Agent 协商交易，甚至在链上链下环境中自主完成结算时，我们应该如何重新理解它的安全边界。

https://arxiv.org/pdf/2604.15367

作者判断：自主商业智能体的安全问题，本质上是跨层问题。 风险可能起于模型推理层，最后却在钱包、交易、结算、市场乃至合规层面爆发。

风险地图

这篇论文不是一篇单点攻击论文，也不是提出某个新防御算法的技术报告。它是一篇 SoK，也就是“知识体系化”论文。它做的事情，是把原本散落在 LLM 安全、支付协议安全、区块链安全、多智能体系统安全、金融科技监管这些不同方向的研究和案例，重新拼成一张完整的风险地图。

作者认为，今天的 Agentic Commerce 已经不是一个纯粹的模型问题，也不是一个纯粹的支付问题，而是模型能力、工具调用、身份信任、交易协议和合规责任相互耦合之后形成的新系统。

在这张地图上，论文首先给出了一个五维威胁框架。作者把自主商业智能体面临的安全风险分成五类，分别是 Agent 完整性、交易授权、Agent 间信任、市场操纵和监管合规。

这个框架的价值，在于它把我们熟悉的“提示注入”“工具投毒”“密钥托管”“身份伪造”“市场操纵”“KYC/AML”等原本分散的安全议题，放进了同一个执行链条中讨论。也就是说，它不再只是问“模型有没有被攻击”，而是追问“这个攻击会不会最终演变成一笔错误支付、一笔违规交易，或者一轮被放大的市场波动”。

这也是这篇论文最有启发的一点。过去很多安全研究停留在模块视角，模型看模型，钱包看钱包，协议看协议，风控看风控。但在自主商业智能体场景中，这种切块式理解已经不够用了。一个嵌在网页内容里的恶意提示，可能沿着“外部输入—模型推理—工具调用—交易签名—链上结算”的路径一路传导，最后变成一笔不可逆的资产转移。对人类来说，这仍然像一次“AI 误判”；对系统来说，它已经是一场完整的资金风险事件。

五个安全维度

1. Agent 完整性

这一层问的是，智能体的决策过程本身有没有被污染。论文把提示注入、模型投毒、工具妥协和长期记忆污染都放在这里，因为它们都会改变 Agent 的推理方向。特别是在商业场景中，提示注入不再只是“让模型说错一句话”，而是可能通过行情信息、新闻、社交媒体内容、交易对手消息、链上元数据甚至 Agent 间通信，把恶意指令送进决策流程。一旦智能体具备支付和执行能力，这种攻击的危险性会被大幅放大。

2. 交易授权

这里的核心问题很简单，但也最容易被忽略：Agent 凭什么可以做这笔交易。论文强调，在自主商业环境里，模型推理不能直接等同于支付授权。即便一个智能体“认为”自己应该付款、转账或购买服务，也不代表它天然拥有执行权限。真正的安全边界，应该落在可收缩的授权机制、可核验的支付意图、可绑定的请求参数以及与任务上下文匹配的交易范围上。换句话说，能“想”不等于能“付”，能“规划”也不等于能“签名”。

3. Agent 间信任

一旦商业活动开始由 Agent 对 Agent 发起，传统的人类信誉和人工审核机制就会快速失灵。论文指出，地址和签名可以证明“是谁在发消息”，却不能证明“这个 Agent 的权限是什么、能力边界在哪里、历史行为是否可信”。在这种情况下，身份伪造、Sybil 攻击、声誉操纵、恶意评估者和 Agent 合谋都会成为现实问题。更关键的是，一个 Agent 的输出可能成为另一个 Agent 的输入，这意味着提示注入和不可信内容不再是单点风险，而可能在 Agent 网络中传播。

4. 市场操纵

这是这篇论文非常有意思、也非常“商业化”的一部分。作者提醒我们，自主商业智能体不仅会成为攻击对象，也可能反过来成为操纵市场的工具。大量结构相似、模型同源、策略接近的 Agent 可能对同类信号做出相似反应，从而形成对抗性羊群效应。攻击者如果理解这些行为模式，就可以通过精心构造的虚假信息、价格信号或交互策略，引导一批 Agent 同时买入、卖出、报价或退出市场，最终把局部操纵放大为系统性波动。

5. 监管合规

当交易主体逐渐从人转向 Agent，很多过去默认成立的监管前提就被动摇了。比如 KYC 和 AML 应该约束谁，责任应该落在智能体本身、部署者、框架开发者，还是支付与托管基础设施提供方？论文认为，合规问题不能等 Agent 大规模落地之后再补，而应该在协议和系统设计阶段就纳入考虑。尤其是审计链路，不能只记录一笔交易的结果，还要尽可能记录导致这笔交易发生的上下文、工具调用、支付意图和执行绑定关系。

12条“跨层攻击路径”

如果说五个维度是在重画风险地图，那么论文进一步提出的 12 类跨层攻击向量，就是在告诉我们这些风险究竟会沿着什么路径传导。作者特别强调，最危险的攻击往往并不只停留在单层，而是从一个看似普通的入口进入，最后在另一个完全不同的层面造成损害。论文在 Table III 中把这 12 类向量进行了概括。

这 12 类攻击分别是：P2T、T2R、A2M、R2I、T2T、P2K、M2A、C2E、O2P、I2M、N2C 和 S2I。别看这些缩写有点硬核，但它们背后的逻辑其实非常清楚。

P2T 是“提示到交易”，也就是通过提示注入，最终触发一笔签名交易。
T2R 是“工具到推理”，表示工具或数据源输出了错误信息，污染了 Agent 的判断。
T2T 是“工具到交易”，和 T2R 不同，它不是在前面污染决策，而是在后面篡改真正要执行的交易参数。
P2K 是“提示到密钥”，重点不在让 Agent 产生一个错误意图，而是试图跨越认知层与托管层之间本该存在的边界，诱导其直接动用签名或密钥能力。
A2M 是“Agent 到市场”，强调 Agent 间博弈和谈判偏差如何被利用，最终影响市场结果。
I2M 是“身份到市场”，意思是攻击者通过 Sybil 账户和虚假信誉积累，制造看似可信的市场行为并实现操纵。
C2E 是“合谋到托管/结算”，对应的是多个 Agent 或评估者联合操纵 escrow 机制，把结算过程本身变成攻击目标。
O2P 是“预言机到仓位”，通过持续而轻微的数据偏移，让投资组合或仓位选择逐步漂移。
N2C 则是“协商到合规”，即通过拆分支付、结构化交易等方式绕开 AML 阈值。
S2I 是“供应链到完整性”，说明一个后门插件、一个被污染的依赖项，可能在用户几乎无感知的情况下，把恶意行为直接埋进 Agent 的执行路径。

论文还专门指出，在这 12 条路径中，P2T、T2R、T2T 和 S2I 是最直接、最应优先防范的部署风险。原因很简单，这几类攻击可以把外部公共输入、工具输出和依赖组件的风险，最短路径地转化为真实、已授权的金融或商业动作。

相比之下，C2E、O2P 和 N2C 更像是慢变量风险，爆发不一定立刻，但一旦积累起来，往往更难察觉。

至于 R2I 和 M2A，论文认为目前的公开证据还不算充分，更适合作为早期预警方向，而不是已经高度定型的攻击类别。

这部分内容对安全从业者最大的提醒在于，今后做 Agent 安全测试，不能只测“模型会不会被带偏”，而要测“这个被带偏的结果会不会穿过权限、工具、钱包、结算和市场机制，最终变成真实损害”。如果只盯着模型输入输出，你可能会错过最关键的一环：很多风险不是发生在模型“说话”的时候，而是发生在模型“做事”的时候。

传统“大模型护栏”不够用

从今天很多大模型安全产品的设计来看，主流思路仍然是把护栏放在输入和输出两端。输入侧做风险识别，输出侧做违规拦截，中间加一些敏感问答干预或越狱检测，这种模式对于纯内容生成场景当然是有价值的。

但论文讨论的这个场景已经明显越过了这一边界。因为在自主商业环境里，风险不只来自用户输入，也来自 Agent 的工具调用结果、长程记忆、注册表元数据、交易对手的消息、第三方评估者的结论和供应链依赖。换句话说，攻击面已经从“内容入口”扩展到了“执行全链路”。

这也是为什么作者反复强调“跨层问题”这个词。一个网页里的恶意提示，如果最终没有权限、没有签名、没有结算，它顶多算一次模型误行为；但如果系统把模型推理、工具访问、支付授权和交易执行绑定得过于松散，攻击就能一路向下穿透。

真正需要改变的，不是简单增加一个更强的注入检测器，而是把安全控制点前移到每一个关键执行节点上。只有这样，才能把“模型被扰动”真正截断在“资金损失”之前。

五层安全框架

在分析完风险之后，论文进一步提出了一套五层纵深防御架构。这个部分很值得国内做 Agent 安全、支付安全和智能体网关的团队认真看，因为它其实已经勾勒出一条比较清晰的产品化路径。作者认为，安全控制不能只停留在模型层，而应该覆盖整个执行路径。具体来说，这五层分别是 Prompt 与工具卫生、可验证执行上下文、支付授权与托管、Agent 间信任控制，以及市场与合规监测。

第一层强调的是Prompt 与工具卫生。它要求外部输入在进入模型之前先被清洗，Agent 来源内容需要被显式标记，工具调用前要核验其来源与可信度。这一层要解决的，是那些最容易被忽视的入口问题：公共数据、注册表信息、第三方工具和插件，不应在没有任何验证的情况下直接参与智能体决策。

第二层是可验证执行上下文。这一步的作用，是让一个“局部看起来合理”的计划，仍然需要在执行前接受上下文匹配检查。比如这个动作是否符合当前任务、是否匹配当前交易对手、是否仍在允许的流程节点上、是否超出了被授予的能力图谱。换句话说，智能体不是想到什么就做什么，而是每一步都要落在可核验的业务语境中。

第三层是支付授权与托管。这恐怕是整套框架里最关键的一层。论文明确主张，把认知和托管分开。也就是说，模型负责理解、规划和决策建议，但真正的签名、支付、额度控制和参数绑定，应该由独立的授权与托管机制完成。像 ERC-8004 的限额、AP2 的支付意图机制，以及 x402、MPP 里的请求绑定，都是在往这个方向靠。核心目的就是让交易的最终执行必须和原始意图一致，不能因为中间某个组件被劫持就悄悄改掉参数。

第四层是Agent 间信任控制。既然商业活动越来越可能变成 Agent 对 Agent，那么身份认证、声誉机制、质押式评估者选择、合谋检测和 Sybil 监测就会变成基础设施级能力。论文特别提醒，像 ACP 和 ERC-8183 这样的机制虽然引入了 escrow 和 evaluator，降低了交易双方直接互信的成本，但也引入了新的评估者信任假设。如果 evaluator 自身被操纵，结算过程反而会成为新的攻击入口。

第五层是市场与合规监测。这一层不是为了拦下一次单点攻击，而是为了防止那些慢变量风险累积成系统性事件。作者提出，系统应该具备熔断器、累计仓位漂移检测、风险敞口聚合和防篡改审计链路。这样一来，哪怕某些攻击没有在上游被完全挡住，也能在损害扩大之前被看见、被追踪、被追责。

启发

如果把这篇论文放到国内 AI 安全产品的发展脉络中看，它给出的启发其实非常直接。未来的 Agent 安全系统，恐怕不能再只是一个“内容安全护栏”，而要逐步演进为一个“智能体行为控制面”。它不仅要看用户输入和模型输出，还要看外部数据源、工具结果、执行计划、支付意图、签名请求、结算状态和交易后果。真正的风险管理对象，不再只是文本，而是行为。

这也意味着，安全能力的部署位置会发生变化。过去我们习惯把风控统一放在模型网关前后，但在 Agentic Commerce 场景里，这样做明显不够。搜索结果、行情源、MCP 工具、第三方服务返回值、Agent 间协作消息和长期记忆写入，都应该被视为独立的安全检查点。它们不是“模型输入”的简单组成部分，而是不同风险属性的上游来源。只有把风控前移到这些节点，才能避免所有风险最后在模型上下文里混成一锅粥。

更进一步说，这篇论文也提示我们，未来做 Agent 安全评测，不能只看越狱率、拒答率、违规回复率，还需要引入新的评价维度。比如是否存在意图与动作不一致，是否会在工具调用中被参数篡改，是否可能在多 Agent 环境下被信誉操纵，是否具备慢变量市场风险，是否在交易后保留了可审计链路。这些指标，才更接近自主商业智能体的真实安全画像。论文也明确提出，金融 Agent 基准测试仍然薄弱，现有 agent-security 和 financial-LLM 测试集都还没有很好覆盖“不可逆执行、Agent 间结算和累积性操纵”这些关键风险。

Agent 安全正在走向“行为可信”

从更大的视角看，这篇论文最值得关注的地方，不在于它列出了 12 条攻击路径，也不只在于它提出了五层安全架构，而在于它非常清楚地指出了一个趋势：随着 Agent 开始掌握资源调度权、支付权和交易执行权，AI 安全的重心正在发生迁移。

过去我们关心的是模型能不能生成安全、合规、可信的文本；未来我们更要关心的是，它是否在正确的权限边界内行动，是否会因为一个小小的推理偏差造成真实的资产后果，是否会因为规模化部署而放大成市场级风险，又是否能够在出事之后留下完整的责任链路。也就是说，Agent 安全最终比拼的不只是“模型能力有多强”，而是“系统约束有多硬，执行链条有多可验证，出现偏差时有没有刹车”。

如果只用一句话来概括这篇论文，我会说：当 Agent 开始自己做生意，AI 安全就进入了资产安全时代。 这也是为什么“自主商业智能体”会成为一个值得高度重视的新方向。因为从这一刻起，提示注入、工具投毒、身份信任、结算设计和监管责任，不再是五个平行的问题，而是一条连在一起的风险链。

写在最后

这篇论文不是那种“提出一个新模型然后刷榜”的热门工作，但它非常像一篇给行业“打底”的文章。它把很多原本零散的问题放到一个统一框架里，也把自主商业智能体安全从“模型安全”推进到了“交易安全、市场安全和合规安全”的层面。

对今天正在做智能体平台、Agent 工具链、安全护栏、支付协议、风控系统和监管技术的人来说，这篇论文最大的意义，也许不在于它给出了所有答案，而在于它让我们更早看见了问题会往哪里走。

声明：本文来自模安局，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

自主商业智能体的12类攻击向量和五层安全框架

12条“跨层攻击路径”

传统“大模型护栏”不够用

五层安全框架

启发

Agent 安全正在走向“行为可信”

写在最后

恶意Skill基准来了：3维攻击向量，15类恶意行为，108个有效攻击单元

Agent安全里的“狼人杀法官”：如何把可信中介变成可验证协议

明知是骗局，Agent仍会提交你的隐私