像 OpenClaw 这样的自主 Agent,正在把“人类监督下的智能助手”推向“可以独立参与商业活动的机器主体”。与之配套的支付和商业协议也在迅速出现,例如 ERC-8004、AP2、x402、ACP、ERC-8183、MPP、MCP 等。这些机制让 Agent 能够买服务、做支付、跑结算、调工具,但也带来了一个过去的安全框架没有完整覆盖的新攻击面。

这也是最近一篇很值得关注的论文《SoK: Security of Autonomous LLM Agents in Agentic Commerce》想解决的问题:当 Agent 可以自己管理数字资产、调用支付协议、与其他 Agent 协商交易,甚至在链上链下环境中自主完成结算时,我们应该如何重新理解它的安全边界。

https://arxiv.org/pdf/2604.15367

作者判断:自主商业智能体的安全问题,本质上是跨层问题。 风险可能起于模型推理层,最后却在钱包、交易、结算、市场乃至合规层面爆发。

风险地图

这篇论文不是一篇单点攻击论文,也不是提出某个新防御算法的技术报告。它是一篇 SoK,也就是“知识体系化”论文。它做的事情,是把原本散落在 LLM 安全、支付协议安全、区块链安全、多智能体系统安全、金融科技监管这些不同方向的研究和案例,重新拼成一张完整的风险地图。

作者认为,今天的 Agentic Commerce 已经不是一个纯粹的模型问题,也不是一个纯粹的支付问题,而是模型能力、工具调用、身份信任、交易协议和合规责任相互耦合之后形成的新系统。

在这张地图上,论文首先给出了一个五维威胁框架。作者把自主商业智能体面临的安全风险分成五类,分别是 Agent 完整性、交易授权、Agent 间信任、市场操纵和监管合规。

这个框架的价值,在于它把我们熟悉的“提示注入”“工具投毒”“密钥托管”“身份伪造”“市场操纵”“KYC/AML”等原本分散的安全议题,放进了同一个执行链条中讨论。也就是说,它不再只是问“模型有没有被攻击”,而是追问“这个攻击会不会最终演变成一笔错误支付、一笔违规交易,或者一轮被放大的市场波动”。

这也是这篇论文最有启发的一点。过去很多安全研究停留在模块视角,模型看模型,钱包看钱包,协议看协议,风控看风控。但在自主商业智能体场景中,这种切块式理解已经不够用了。一个嵌在网页内容里的恶意提示,可能沿着“外部输入—模型推理—工具调用—交易签名—链上结算”的路径一路传导,最后变成一笔不可逆的资产转移。对人类来说,这仍然像一次“AI 误判”;对系统来说,它已经是一场完整的资金风险事件。

五个安全维度

1. Agent 完整性

这一层问的是,智能体的决策过程本身有没有被污染。论文把提示注入、模型投毒、工具妥协和长期记忆污染都放在这里,因为它们都会改变 Agent 的推理方向。特别是在商业场景中,提示注入不再只是“让模型说错一句话”,而是可能通过行情信息、新闻、社交媒体内容、交易对手消息、链上元数据甚至 Agent 间通信,把恶意指令送进决策流程。一旦智能体具备支付和执行能力,这种攻击的危险性会被大幅放大。

2. 交易授权

这里的核心问题很简单,但也最容易被忽略:Agent 凭什么可以做这笔交易。论文强调,在自主商业环境里,模型推理不能直接等同于支付授权。即便一个智能体“认为”自己应该付款、转账或购买服务,也不代表它天然拥有执行权限。真正的安全边界,应该落在可收缩的授权机制、可核验的支付意图、可绑定的请求参数以及与任务上下文匹配的交易范围上。换句话说,能“想”不等于能“付”,能“规划”也不等于能“签名”。

3. Agent 间信任

一旦商业活动开始由 Agent 对 Agent 发起,传统的人类信誉和人工审核机制就会快速失灵。论文指出,地址和签名可以证明“是谁在发消息”,却不能证明“这个 Agent 的权限是什么、能力边界在哪里、历史行为是否可信”。在这种情况下,身份伪造、Sybil 攻击、声誉操纵、恶意评估者和 Agent 合谋都会成为现实问题。更关键的是,一个 Agent 的输出可能成为另一个 Agent 的输入,这意味着提示注入和不可信内容不再是单点风险,而可能在 Agent 网络中传播。

4. 市场操纵

这是这篇论文非常有意思、也非常“商业化”的一部分。作者提醒我们,自主商业智能体不仅会成为攻击对象,也可能反过来成为操纵市场的工具。大量结构相似、模型同源、策略接近的 Agent 可能对同类信号做出相似反应,从而形成对抗性羊群效应。攻击者如果理解这些行为模式,就可以通过精心构造的虚假信息、价格信号或交互策略,引导一批 Agent 同时买入、卖出、报价或退出市场,最终把局部操纵放大为系统性波动。

5. 监管合规

当交易主体逐渐从人转向 Agent,很多过去默认成立的监管前提就被动摇了。比如 KYC 和 AML 应该约束谁,责任应该落在智能体本身、部署者、框架开发者,还是支付与托管基础设施提供方?论文认为,合规问题不能等 Agent 大规模落地之后再补,而应该在协议和系统设计阶段就纳入考虑。尤其是审计链路,不能只记录一笔交易的结果,还要尽可能记录导致这笔交易发生的上下文、工具调用、支付意图和执行绑定关系。

12条“跨层攻击路径”

如果说五个维度是在重画风险地图,那么论文进一步提出的 12 类跨层攻击向量,就是在告诉我们这些风险究竟会沿着什么路径传导。作者特别强调,最危险的攻击往往并不只停留在单层,而是从一个看似普通的入口进入,最后在另一个完全不同的层面造成损害。论文在 Table III 中把这 12 类向量进行了概括。

这 12 类攻击分别是:P2T、T2R、A2M、R2I、T2T、P2K、M2A、C2E、O2P、I2M、N2C 和 S2I。别看这些缩写有点硬核,但它们背后的逻辑其实非常清楚。

  • P2T 是“提示到交易”,也就是通过提示注入,最终触发一笔签名交易。

  • T2R 是“工具到推理”,表示工具或数据源输出了错误信息,污染了 Agent 的判断。

  • T2T 是“工具到交易”,和 T2R 不同,它不是在前面污染决策,而是在后面篡改真正要执行的交易参数。

  • P2K 是“提示到密钥”,重点不在让 Agent 产生一个错误意图,而是试图跨越认知层与托管层之间本该存在的边界,诱导其直接动用签名或密钥能力。

  • A2M 是“Agent 到市场”,强调 Agent 间博弈和谈判偏差如何被利用,最终影响市场结果。

  • I2M 是“身份到市场”,意思是攻击者通过 Sybil 账户和虚假信誉积累,制造看似可信的市场行为并实现操纵。

  • C2E 是“合谋到托管/结算”,对应的是多个 Agent 或评估者联合操纵 escrow 机制,把结算过程本身变成攻击目标。

  • O2P 是“预言机到仓位”,通过持续而轻微的数据偏移,让投资组合或仓位选择逐步漂移。

  • N2C 则是“协商到合规”,即通过拆分支付、结构化交易等方式绕开 AML 阈值。

  • S2I 是“供应链到完整性”,说明一个后门插件、一个被污染的依赖项,可能在用户几乎无感知的情况下,把恶意行为直接埋进 Agent 的执行路径。

论文还专门指出,在这 12 条路径中,P2T、T2R、T2T 和 S2I 是最直接、最应优先防范的部署风险。原因很简单,这几类攻击可以把外部公共输入、工具输出和依赖组件的风险,最短路径地转化为真实、已授权的金融或商业动作。

相比之下,C2E、O2P 和 N2C 更像是慢变量风险,爆发不一定立刻,但一旦积累起来,往往更难察觉。

至于 R2I 和 M2A,论文认为目前的公开证据还不算充分,更适合作为早期预警方向,而不是已经高度定型的攻击类别。

这部分内容对安全从业者最大的提醒在于,今后做 Agent 安全测试,不能只测“模型会不会被带偏”,而要测“这个被带偏的结果会不会穿过权限、工具、钱包、结算和市场机制,最终变成真实损害”。 如果只盯着模型输入输出,你可能会错过最关键的一环:很多风险不是发生在模型“说话”的时候,而是发生在模型“做事”的时候。

传统“大模型护栏”不够用

从今天很多大模型安全产品的设计来看,主流思路仍然是把护栏放在输入和输出两端。输入侧做风险识别,输出侧做违规拦截,中间加一些敏感问答干预或越狱检测,这种模式对于纯内容生成场景当然是有价值的。

但论文讨论的这个场景已经明显越过了这一边界。因为在自主商业环境里,风险不只来自用户输入,也来自 Agent 的工具调用结果、长程记忆、注册表元数据、交易对手的消息、第三方评估者的结论和供应链依赖。换句话说,攻击面已经从“内容入口”扩展到了“执行全链路”。

这也是为什么作者反复强调“跨层问题”这个词。一个网页里的恶意提示,如果最终没有权限、没有签名、没有结算,它顶多算一次模型误行为;但如果系统把模型推理、工具访问、支付授权和交易执行绑定得过于松散,攻击就能一路向下穿透。

真正需要改变的,不是简单增加一个更强的注入检测器,而是把安全控制点前移到每一个关键执行节点上。只有这样,才能把“模型被扰动”真正截断在“资金损失”之前。

五层安全框架

在分析完风险之后,论文进一步提出了一套五层纵深防御架构。这个部分很值得国内做 Agent 安全、支付安全和智能体网关的团队认真看,因为它其实已经勾勒出一条比较清晰的产品化路径。作者认为,安全控制不能只停留在模型层,而应该覆盖整个执行路径。具体来说,这五层分别是 Prompt 与工具卫生、可验证执行上下文、支付授权与托管、Agent 间信任控制,以及市场与合规监测。

第一层强调的是Prompt 与工具卫生。它要求外部输入在进入模型之前先被清洗,Agent 来源内容需要被显式标记,工具调用前要核验其来源与可信度。这一层要解决的,是那些最容易被忽视的入口问题:公共数据、注册表信息、第三方工具和插件,不应在没有任何验证的情况下直接参与智能体决策。

第二层是可验证执行上下文。这一步的作用,是让一个“局部看起来合理”的计划,仍然需要在执行前接受上下文匹配检查。比如这个动作是否符合当前任务、是否匹配当前交易对手、是否仍在允许的流程节点上、是否超出了被授予的能力图谱。换句话说,智能体不是想到什么就做什么,而是每一步都要落在可核验的业务语境中。

第三层是支付授权与托管。这恐怕是整套框架里最关键的一层。论文明确主张,把认知和托管分开。也就是说,模型负责理解、规划和决策建议,但真正的签名、支付、额度控制和参数绑定,应该由独立的授权与托管机制完成。像 ERC-8004 的限额、AP2 的支付意图机制,以及 x402、MPP 里的请求绑定,都是在往这个方向靠。核心目的就是让交易的最终执行必须和原始意图一致,不能因为中间某个组件被劫持就悄悄改掉参数。

第四层是Agent 间信任控制。既然商业活动越来越可能变成 Agent 对 Agent,那么身份认证、声誉机制、质押式评估者选择、合谋检测和 Sybil 监测就会变成基础设施级能力。论文特别提醒,像 ACP 和 ERC-8183 这样的机制虽然引入了 escrow 和 evaluator,降低了交易双方直接互信的成本,但也引入了新的评估者信任假设。如果 evaluator 自身被操纵,结算过程反而会成为新的攻击入口。

第五层是市场与合规监测。这一层不是为了拦下一次单点攻击,而是为了防止那些慢变量风险累积成系统性事件。作者提出,系统应该具备熔断器、累计仓位漂移检测、风险敞口聚合和防篡改审计链路。这样一来,哪怕某些攻击没有在上游被完全挡住,也能在损害扩大之前被看见、被追踪、被追责。

启发

如果把这篇论文放到国内 AI 安全产品的发展脉络中看,它给出的启发其实非常直接。未来的 Agent 安全系统,恐怕不能再只是一个“内容安全护栏”,而要逐步演进为一个“智能体行为控制面”。它不仅要看用户输入和模型输出,还要看外部数据源、工具结果、执行计划、支付意图、签名请求、结算状态和交易后果。真正的风险管理对象,不再只是文本,而是行为。

这也意味着,安全能力的部署位置会发生变化。过去我们习惯把风控统一放在模型网关前后,但在 Agentic Commerce 场景里,这样做明显不够。搜索结果、行情源、MCP 工具、第三方服务返回值、Agent 间协作消息和长期记忆写入,都应该被视为独立的安全检查点。它们不是“模型输入”的简单组成部分,而是不同风险属性的上游来源。只有把风控前移到这些节点,才能避免所有风险最后在模型上下文里混成一锅粥。

更进一步说,这篇论文也提示我们,未来做 Agent 安全评测,不能只看越狱率、拒答率、违规回复率,还需要引入新的评价维度。比如是否存在意图与动作不一致,是否会在工具调用中被参数篡改,是否可能在多 Agent 环境下被信誉操纵,是否具备慢变量市场风险,是否在交易后保留了可审计链路。这些指标,才更接近自主商业智能体的真实安全画像。论文也明确提出,金融 Agent 基准测试仍然薄弱,现有 agent-security 和 financial-LLM 测试集都还没有很好覆盖“不可逆执行、Agent 间结算和累积性操纵”这些关键风险。

Agent 安全正在走向“行为可信”

从更大的视角看,这篇论文最值得关注的地方,不在于它列出了 12 条攻击路径,也不只在于它提出了五层安全架构,而在于它非常清楚地指出了一个趋势:随着 Agent 开始掌握资源调度权、支付权和交易执行权,AI 安全的重心正在发生迁移。

过去我们关心的是模型能不能生成安全、合规、可信的文本;未来我们更要关心的是,它是否在正确的权限边界内行动,是否会因为一个小小的推理偏差造成真实的资产后果,是否会因为规模化部署而放大成市场级风险,又是否能够在出事之后留下完整的责任链路。也就是说,Agent 安全最终比拼的不只是“模型能力有多强”,而是“系统约束有多硬,执行链条有多可验证,出现偏差时有没有刹车”。

如果只用一句话来概括这篇论文,我会说:当 Agent 开始自己做生意,AI 安全就进入了资产安全时代。 这也是为什么“自主商业智能体”会成为一个值得高度重视的新方向。因为从这一刻起,提示注入、工具投毒、身份信任、结算设计和监管责任,不再是五个平行的问题,而是一条连在一起的风险链。

写在最后

这篇论文不是那种“提出一个新模型然后刷榜”的热门工作,但它非常像一篇给行业“打底”的文章。它把很多原本零散的问题放到一个统一框架里,也把自主商业智能体安全从“模型安全”推进到了“交易安全、市场安全和合规安全”的层面。

对今天正在做智能体平台、Agent 工具链、安全护栏、支付协议、风控系统和监管技术的人来说,这篇论文最大的意义,也许不在于它给出了所有答案,而在于它让我们更早看见了问题会往哪里走。

声明:本文来自模安局,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。