原文标题:Beyond Jailbreak: Unveiling Risks in LLM Applications Arising from Blurred Capability Boundaries

原文作者:Yunyi Zhang, Shibo Cui, Baojun Liu, Jingkai Yu, Min Zhang, Fan Shi, Han Zheng

录用会议:Network and Distributed System Security (NDSS) Symposium 2026

录用会议:https://yunyizhang.net/assets/pdfs/llmapp-ndss-26.pdf

前言

大模型能力的突破为我们的生活带来了前所未有的变化。有的人期盼着通用人工智能的到来,而有些人则担心“终结者”变成现实。但是,我们真的已经准备好迎接拥有大模型的世界了么?

本工作系统性地研究了大语言模型应用中因能力边界模糊而引发的新型安全风险。LLM 应用的开发范式相较于传统应用发生根本转变,开发者不再“实现功能”,而是“限制能力”,即利用大语言模型的部分能力实现特定的任务需求。此时,不当的应用设计可能为大模型滥用提供无穷的入口,“We can do anything by using any application”。本文呼吁社区关注LLM应用设计的安全性,建立更健壮的 LLM 应用开发规范与平台安全机制。

本文较原文有所删减,详细内容可参考原文。

研究问题

“The more the people, the less control.”

大模型应用为普通用户提供了广泛的大模型使用入口,可以使用大模型的能力,而无需考虑使用门槛。一旦应用开发缺乏安全考虑,这些广泛的入口可能被攻击者利用,通过任意一个应用实现“one for all”的能力,即突破应用开发者的应用限制,滥用背后的基座大模型执行任意任务。

这里介绍一个潜在的业务场景案例。在Web3企业中,操作员操作的合规性关乎到用户资金的安全性,因此需要对其严格审查。一些Web3企业引入了基于LLM审计机器人来审查操作员操作的合规性,如图1a所示。如果审查合格,则操作正常进行,如果操作存在异常,则会直接告警,并进行人工审查。在这个步骤中,一个恶意的操作员可以通过特定的操作或者prompt弱化基于LLM的审查机器人的能力,绕过审查,进而窃取用户资产。该场景中,恶意操作的输入不会违反当前LLM的基础约束,仅仅是降低应用在特定任务上的能力,如图1b所示。

其次,一个应用即使没有被完全越狱,仍有可能被滥用于其原始任务之外的任务。比如,操作员可以通过精心设计的输入,迫使审查机器人执行额外的任务,进而滥用公司资产进行营利,如图1c所示。

image-11.png

图 1 LLM应用能力边界潜在风险案例图

真实事件:2025年初,当tiktok的美国用户大量涌入小红书时,小红书迅速上线了基于LLM的翻译功能。虽然基于LLM的翻译迅速的缓解了小红书的多语言支持问题,但是该功能很快被网友滥用,被绕过了应用的能力限制,可以执行任意的任务。

image-10.png

图 2 小红书翻译功能被滥用

LLM 应用能力空间

在新的开发范式下,应用的内涵已经发生变化。开发者已经不再需要针对目标任务开发特定的功能,而是利用大模型的能力来完成目标任务。大模型已经在很多任务上表现出了非常强大的能力,开发者需要从中圈定目标任务所需的能力,同时限制其他能力,进而为用户提供一个可以解决目标任务的“LLM 应用”。

image-8.png

图 3 能力空间示意图

本工作将LLM应用程序的能力空间定义为:

LLM 应用能力空间风险定义

本文将LLM应用能力空间边界风险概括为下面3种场景。

(1)能力降级。能力降级的目的是削弱应用程序在其主要的预期任务上的性能。攻击者使用特定的输入在应用程序的能力边界中造成“漂移”(图4a),迫使它产生不正确的输出。

(2)能力升级。能力升级的目标是扩展应用程序的能力空间,使其能够执行超出其最初预期范围的任务。但是,它不允许任意任务执行,因此是在完全功能越狱之前的中间状态。通过精心设计的输入,攻击者可以诱导应用程序执行超出其定义的功能边界的任务。如图4b所示,其中App1的功能被扩展到包括App2的功能。

(3)能力越狱。能力越狱的目标是同时绕过应用程序预期的功能限制和底层基础LLM的安全约束,从而使应用程序能够执行任意任务。在这种状态下,应用程序的功能边界被完全破坏,攻击者可以使用精心设计的输入来滥用应用程序来执行任何任意任务,如图4c所示。

image-7.png

图 4 能力边界风险示意图

LLMApp-Eval: LLM应用能力风险评估

为了评估能力边界风险对LLM应用生态系统的影响,本文设计了一个LLM应用评估框架 LLMApp-Eval。

image-9.png

图 5 LLMApp-Eval框架图

  1. LLM应用收集及分类

本文收集了来自4个LLM应用平台(包括GPTs store,Coze,AgentBuilder和Poe)的807,207个应用程序的元数据。其中收集了agentbulider上部分应用公开的 prompt。然后,借鉴工作[1]使用NLI-based Zero Shot Classification模型对应用进行分类。

  • Prompt 质量评估

通过分析流行应用的prompt设计原则,本文结合 Anthropic [2] 和 Google [3] 白皮书的agent设计指南,设计了4个维度的指标,包括目标、步骤、能力和限制。

目标(TScore):关注prompt中应用的目标介绍的清晰度。

步骤(PScore):关注是否具有引导性的步骤。

能力(CaScore):关注能力描述的详细程度。

限制(CoScore):关注明确的能力限制说明。

最终对4个维度的分数进行加权组合:

image-3.png

  • 能力边界测试

为了全面地评估LLM应用所面临的风险,本文针对三类风险构造专门的任务集合。

能力降级。通过评估间接提示注入如何影响LLM在同一任务上的性能,来间接的评估能力降级风险。如图

image-6.png

图 6 Llama-3.1-8B上的边界案例情况示例。通过嵌入精心制作的对抗句子(红色),一份无法通过评估的简历可以成功地逃避LLM助手的筛选。该场景模拟来企业LLM招聘系统。

能力升级。本文基于之前确定的应用类型构建了一个跨类别的测试用例集。本文假设是如果A类应用程序(App 1)可以执行B类应用程序(App 2)的任务,那么App 1则面临能力升级的风险。具体主要构造了下面三种类型的测试样例。

  • 默认用例。应用程序通常会提供少量的默认问题来指导用户。本文从每种类型的应用程序中收集了这些默认问题,作为它们能力空间的代表。

  • LLM生成案例。对于每种类型,随机选择5个应用程序,创建它们的能力概要,并使用gpt - 4o为每个类型的应用程序生成5个测试用例。

  • 通用案例。包含一组通用能力案例(例如,“一年有多少个季节?”),来测试应用程序的通用性能。

能力越狱。首先构建一个包含各种恶意问题类型的测试用例集。然后,重现了最先进的越狱技术 [4 ,5, 6, 7],以生成对抗性测试用例。

评估结果

跨平台LLM应用的实现情况

  1. 尽管不同平台的应用程序数量不同,但应用程序类型的分布非常相似,每个类别的百分比的平均绝对偏差小于2%。

  2. 不同平台支持的LLM差异很大。GPT和AgentBuilder只支持它们自己专有的LLM,而Coze和Poe更灵活,支持几十种不同的大型模型。

  3. 超级开发者在LLM应用程序生态系统中扮演着至关重要的角色,但是这使得低质量、低使用率的应用程序占据了当前LLM应用程序生态系统的很大一部分,某些开发者发布了大量同质化的应用。

  4. 平台提供的默认插件可能存在潜在的安全风险。例如,在AgentBuilder上,一款离婚咨询应用程序配置了百度Map插件。

image-5.png

图 7 GPTs上的超级开发者

Prompt 质量评估

  1. 48.62%的应用得分AppScore低于50,表明当前的prompt在我们4个维度的评价指标上表现都不好。

  2. 大部分的开发者缺少能力限制的意识。应用程序在限制(CoScore)这个维度呈现出两极分化的趋势。43.41%的应用程序没有添加任何功能约束,对于添加了限制的应用中有20%的得分低于60分。

  3. 使用优化prompt的应用表现出对能力空间外任务更多的拒绝,执行的能力外任务数量降低了5.3%-80%。比如,在AgentBuilder上,没有增加约束之前,应用可执行15/21种不同类型的任务,而增加约束后,该数量降低到了3。

  4. 基座LLM也会影响提示的有效性,因为使用不同的LLM时,相同的提示可能产生不同的结果。例如,与文心(AgentBuilder)相比,相同的能力约束在Claude-3-Haiku (Poe)上的执行力明显更弱。

风险评估

(1)能力降级

本文使用2790对边界测试用例评估了6个开源LLM。结果表明,大多数模型受到插入的误导信息的影响。Mistral受影响最大,有993例出现错误反应,而LLaMA表现最好,但仍有668例出现错误响应。如果应用基于这样的模型来构建,并且加入其他的防御措施,那么它将可能遭受能力降级风险。

表 1 LLM的能力降级实验

image-4.png

(2)能力升级

  1. 在测试199个流行应用中,144个(72.36%)受能力升级影响。每个应用都可以完成15类以上不同的类型的任务。

表 2 能力升级和能力越狱测试结果

image-2.png

  • 能力升级的风险在不同的平台上差异很大,与其他三个平台相比,GPTs明显更容易受到能力升级的影响。从不受影响的应用来看,固定的工作流和多模态输入/输出需求这些类似于传统应用中输入输出限制成为影响能力升级的关键因素。

image-1.png

图 8 四个平台LLM应用的能力升级实验结果绿色表示应用程序的原始类型。橙色的强度表示应用程序完成的来自该类型的测试用例的比例;颜色越深,比例越高。

  • 不同平台对基座LLM的支持和插件配置的差异性也是影响平台上应用遭受能力升级风险的关键原因。GPTs的默认配置包括Web搜索DALL·E图像生成,使其应用具有出色的多模式输入/输出和实时信息检索能力,也为能力升级提供了可能。相反,Coze 和 AgentBuilder 则缺少这些能力的支持,或者需要特定的配置。

(3)能力越狱

178个(89.45%)应用程序易受能力越狱的影响,至少完成了一个恶意任务。并且,有17个应用程序在没有使用对抗技术的情况下直接执行了恶意任务。

image.png

图 9 不同平台流行度前50应用的能力越狱实验结果

总结

本文探索了LLM应用开发实践中的风险,剖析了在新的开发范式下,LLM应用面临的潜在新风险点。通过大规模的现实评估,本文揭示了当前LLM应用开发中缺乏足够的安全考虑,能力空间边界不明确,导致应用可被滥用。伴随着LLM应用在现实生活中的广泛普及,其安全风险将变得更加不容忽视。为避免任意应用成为攻击的入口,本文呼吁社区关注LLM应用设计的安全性,建立更健壮的 LLM 应用开发规范与平台安全机制。

作者简介

张允义,清华大学水木学者博士后,合作导师为刘保君副教授。主要研究方向包括网络基础设施安全、网络测量、网络犯罪和大模型应用安全与隐私,在国际顶级会议及期刊USENIX Security、ACM CCS、ACM IMC、NDSS、IEEE TDSC等发表学术论文十余篇。

参考文献

[1] C. Yan, R. Ren, M. H. Meng, L. Wan, T. Y. Ooi, and G. Bai, “Exploring chatgpt app ecosystem: Distribution, deployment and security,” in Proceedings of the 39th IEEE/ACM International Conference on Automated Software Engineering, ASE 2024, Sacramento, CA, USA, October 27 - November 1, 2024, ACM, 2024, pp. 1370–1382.

[2] Anthropic, “Building effective agents,” https://www.anthropic.com/rese arch/building-effective-agents, 2024.

[3] Julia Wiesinger, Patrick Marlow and Vladimir Vuskovic, “AI Agent,” https://drive.google.com/file/d/1oEjiRCTbd54aSdB eEe3UShxLBW K9xkt/view?pli=1, 2024.

[4] Y. Zeng, H. Lin, J. Zhang, D. Yang, R. Jia, and W. Shi, “How johnny can persuade llms to jailbreak them: Rethinking persuasion to challenge AI safety by humanizing llms,” in Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2024, pp. 14 322–14 350.

[5] F. Jiang, Z. Xu, L. Niu, Z. Xiang, B. Ramasubramanian, B. Li, and R. Poovendran, “Artprompt: ASCII art-based jailbreak attacks against aligned llms,” in Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2024, pp. 15 157–15 173.

[6] P. Chao, A. Robey, E. Dobriban, H. Hassani, G. J. Pappas, and E. Wong, “Jailbreaking black box large language models in twenty queries,” CoRR, vol. abs/2310.08419, 2023.

[7] J. Yu, X. Lin, Z. Yu, and X. Xing, “GPTFUZZER: red teaming large language models with auto-generated jailbreak prompts,” CoRR, vol. abs/2309.10253, 2023.

安全学术圈招募队友-ing

有兴趣加入学术圈的请联系 secdr#qq.com

声明:本文来自安全学术圈,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。