CPA-RAG：针对大语言模型中检索增强生成的隐蔽毒害攻击

基本信息

原文标题：

CPA-RAG:CovertPoisoningAttacksonRetrieval-AugmentedGenerationinLargeLanguageModels

原文作者：

ChunyangLi,JunweiZhang,AndaCheng,ZhuoMa,XinghuaLi,JianfengMa

作者单位：西安电子科技大学（中国西安）、蚂蚁集团（中国杭州）

关键词：RAG系统、黑盒攻击、投毒攻击、大语言模型、对抗样本

原文链接：

https://arxiv.org/abs/2505.19864v1

开源代码：暂无

论文要点

论文简介：检索增强生成（RAG）通过整合外部知识增强了大语言模型（LLM），但其开放性带来了可被投毒攻击利用的漏洞。现有的针对RAG系统的投毒方法存在局限性，比如泛化能力差以及对抗文本缺乏流畅性。在本文中，研究者提出了CPA-RAG，这是一种黑盒对抗框架，能够生成与查询相关的文本，从而操纵检索过程以诱导出目标答案。所提出的方法结合了基于提示的文本生成、通过多个LLM进行的交叉引导优化以及基于检索器的评分，以构建高质量的对抗样本。研究者在多个数据集和LLM上进行了广泛的实验以评估其有效性。结果表明，当top-k检索设置为5时，该框架的攻击成功率超过90%，与白盒性能相当，并且在不同的top-k值下保持约5个百分点的持续优势。在各种防御策略下，它也比现有的黑盒基线高出14.5个百分点。此外，研究者的方法成功地攻破了阿里巴巴的百炼平台上部署了商业化的RAG系统，展示了其在实际应用中的威胁。这些发现强调了需要更强大和安全的RAG框架来抵御投毒攻击。

研究目的：随着RAG系统被广泛应用于金融、医疗、法律等对准确性要求极高的领域，其安全性问题引发了广泛关注。现有攻击方法多依赖白盒假设（如可访问模型参数、检索器配置），这在实际部署中并不现实。而黑盒攻击虽更贴近真实威胁模型，但在生成文本的流畅性、可检索性和隐蔽性方面仍有不足。为此，本文旨在提出一种现实可行、隐蔽性强、攻击效果稳定的黑盒攻击框架，以警示业界加强RAG系统的安全防护。

研究贡献：

1. 明确提出了三大成功攻击的核心条件：检索干扰、生成操控和文本隐蔽；

2. 构建CPA-RAG黑盒攻击框架，通过多模型提示与检索器评分生成高质量对抗文本；

3. 在多个数据集、检索器和LLM中评估CPA-RAG，展现了出色的攻击成功率、泛化能力和隐蔽性；

4. 针对主流防御策略进行了系统性实测，揭示其在应对此类隐蔽攻击时的不足。

引言

近年来，检索增强生成（Retrieval-AugmentedGeneration,简称RAG）已成为提升大语言模型（LLMs）能力的重要手段。该方法通过在推理过程中引入外部文档，辅助模型生成更准确、更具时效性的回答。例如，GPT-4、LLaMA2和DeepSeek等主流大模型在集成RAG后，能够广泛应用于金融、法律、医疗等知识密集型场景，提供更可信赖的事实性输出。

然而，这种系统的“开放性”设计也带来了前所未有的安全隐患。由于RAG系统通常依赖从开放或半开放渠道（如论坛、博客、维基百科等）获取信息，攻击者可以通过向这些信息源中注入精心设计的恶意文档，间接干扰模型的生成过程，诱导其输出偏离事实甚至完全错误的信息。更令人担忧的是，这种攻击方式无需接触模型内部组件，极具隐蔽性和现实威胁。

虽然已有研究验证了RAG系统在理论上易受投毒攻击影响，但在实际操作层面，现有攻击方法的效果却大打折扣。以目前较为流行的白盒攻击为例，尽管能精准控制检索器和生成模型的行为，其前提却是攻击者需拥有完整的系统访问权限，在现实部署环境中极为罕见。而黑盒攻击则试图规避这一限制，但通常在对抗文本的生成流畅度和覆盖率方面表现较差，难以突破系统常见的防御机制（如困惑度过滤、重复文本移除等）。

举例来说，PoisonedRAG是一种典型的投毒攻击框架，其将“检索对抗文本”与“生成对抗文本”视为两个独立部分，并在最终阶段将两者拼接。这种方法存在诸多问题，如文本语义割裂、不自然，导致其难以通过系统的语言质量检测，易被防御机制识别。在黑盒版本中，该方法甚至直接使用目标问题作为检索诱导器，造成生成文本高度重复，进一步削弱了攻击的实际效果。

针对上述挑战，本文提出了一种更为实用且隐蔽性更强的黑盒投毒框架——CPA-RAG（CovertPoisoningAttackforRAG）。该框架统一优化检索与生成过程中的对抗文本，通过多模型引导生成、多轮语义优化及检索器相似度评估，构造出在自然语言结构上极具迷惑性的攻击样本。实验结果表明，CPA-RAG在k=5的检索设置下可达到超过90%的攻击成功率，效果媲美白盒攻击，且在不同检索深度（top-k）下保持稳定优势。此外，它还成功突破了阿里巴巴“百炼”平台上的商业RAG系统，进一步验证了其现实威胁。

研究背景

随着大语言模型（LLMs）在自然语言处理任务中的广泛应用，其“知识盲区”问题逐渐暴露出来。为缓解这一问题，学术界和工业界纷纷探索将外部知识库与语言模型结合的方法，其中最具代表性的便是“检索增强生成”（Retrieval-AugmentedGeneration，RAG）。RAG系统采用“两阶段架构”：第一阶段由检索器负责从庞大的文档库中选出与用户问题语义最相关的前K个文档；第二阶段，生成器在结合这些上下文信息的基础上生成最终答案。这种架构不仅弥补了语言模型“记忆有限”的短板，还赋予其实时调用外部知识的能力，使其在金融、医疗、法律等对时效性与准确性要求极高的领域中展现出强大应用潜力。

然而，这种外部开放的结构设计也引入了严重的安全隐患。RAG系统往往依赖于开放式文档源，如维基百科、新闻网站、博客甚至社交论坛，而这些信息源的可编辑性也意味着攻击者可以向其中注入精心伪造的对抗性文本。这类“知识投毒”操作虽不涉及模型参数或系统结构的直接篡改，却能通过影响检索器的选择结果，间接干扰生成模型的输出行为，诱导其产生特定的、有误导性的回答，进而危害系统的可信度与实用性。

已有一些研究尝试探讨RAG系统在遭遇投毒攻击时的脆弱性，尤其聚焦于“白盒攻击”情景，即攻击者对系统拥有完全访问权限，可通过梯度信息直接修改模型行为。例如Hotflip、GCG等方法能有效生成目标对抗样本，但其部署门槛高、现实适用性差，且生成内容往往缺乏语言自然性，容易被检测系统识别。而“黑盒攻击”更符合现实场景，其不依赖模型内部细节，但当前的研究尚不成熟。现有黑盒方案如PoisonedRAG仍存在诸多缺陷：检索与生成过程割裂、攻击文本格式模板化、语义重复率高等，导致其在面对如困惑度过滤、重复内容检测等常见防御手段时表现乏力。

更为严峻的是，大部分现有研究在攻击效果评估上未能充分覆盖现实使用中的多样性。它们往往仅在单一模型或特定检索器上进行测试，缺乏跨系统泛化验证，难以真实反映攻击方法在多样化实际部署环境中的威胁程度。

在这样的背景下，本文提出的CPA-RAG框架，不仅填补了现有研究在黑盒攻击中自然性、鲁棒性与隐蔽性兼顾能力方面的空白，也推动了针对RAG系统安全机制设计的深入反思。通过整合跨模型生成、多轮语义优化及高精度检索模拟评分机制，CPA-RAG有效提升了黑盒投毒攻击的实战能力，具有显著的研究价值和现实警示意义。

威胁模型

在现实世界中，检索增强生成（RAG）系统被广泛部署于金融、医疗等高风险应用场景，这些系统通常依赖可编辑的知识库（如维基百科、新闻平台或社区论坛）提供外部信息。这种开放结构虽然提升了模型响应的实时性和知识广度，却也为恶意攻击者提供了“投毒”入口。攻击者无需获得系统内部权限，只需向这些知识源中注入伪造文本，即可在模型回答用户查询时，潜移默化地干扰其输出，诱导其产生错误甚至具有误导性的信息。

本文设定的威胁模型为现实中的“黑盒攻击”场景，即攻击者无法访问RAG系统的检索器配置、知识库结构或语言模型参数。但攻击者可通过反复发起查询，对系统响应进行推测分析，从而间接识别其所使用的检索器类型和模型架构。例如，通过语义相似度判断或响应风格识别，攻击者可初步锁定系统使用的是GPT-4、LLaMA等LLM模型，并据此选择适配的攻击策略。

在攻击目标方面，攻击者预先设定一组目标查询问题Q1,Q2,...,QMQ_1,Q_2,...,Q_MQ1,Q2,...,QM，并为每个问题指定一个希望系统输出的错误答案RiR_iRi。接着，攻击者向系统可访问的知识库中注入设计好的对抗文本集合Γ\\GammaΓ，以此操控检索结果，使系统在回答查询QiQ_iQi时更可能引用这些恶意内容，从而误导生成模型输出RiR_iRi。

更值得警惕的是，即便攻击者对系统结构一无所知，仍可借助开放LLM和检索模型构建仿真环境，进行迭代测试与优化，从而在“黑盒”状态下实现高成功率的干扰攻击。这种隐蔽性极高的攻击方式对当前RAG系统的安全性提出了严峻挑战，凸显出强化检索源可信度与增强对抗文本检测机制的迫切性。

CPA-RAG设计

CPA-RAG（CovertPoisoningAttackforRAG）是一种面向RAG系统的黑盒对抗攻击框架，其核心目标是在不依赖模型内部结构信息的前提下，生成自然且具有误导性的文本，诱导RAG系统输出攻击者预设的错误答案。该框架设计充分考虑了现实攻击中的三大关键挑战：能否被检索（retrievercondition）、能否诱导目标回答（generationcondition）、是否具备隐蔽性（concealmentcondition）。

CPA-RAG的攻击流程分为三个阶段：

1. 信息收集阶段：攻击者通过向目标系统发起探测性查询，分析其可能采用的检索器（如Contriever、DPR）和语言模型（如GPT-4o、Qwen）。虽然无法访问模型参数，但这种行为可辅助构建高相似度、高适配度的攻击文本生成模板。

2. 初始文本生成阶段：攻击者设定查询问题和目标答案，并利用多种开源LLM（GPT-4o、Claude、DeepSeek等）结合多样化提示模板，生成语义自然、语气真实的初始对抗样本。这些文本必须能够在系统响应中诱导错误答案出现，同时避免触发原始正确答案。

3. 优化与筛选阶段：CPA-RAG对初始生成文本进行多轮优化，包括语义重写、相似度校准、模型多轮协同生成等。通过多个检索器计算与目标问题之间的语义相似度，筛除不符合条件的文本；再通过目标LLM验证生成结果是否达到预期。最终保留的文本具备高度的检索相关性、自然语言流畅度和攻击有效性，难以被系统的困惑度检测、重复文本过滤等防御机制发现。

这种系统化、模块化的设计不仅提升了黑盒攻击的命中率，还极大增强了对抗文本的“伪装能力”，使CPA-RAG在现实世界中的RAG系统中具备极高的攻击潜力与研究价值。

实验比较

为全面评估CPA-RAG的攻击效果与泛化能力，作者在三个主流数据集（NaturalQuestions、MS-MARCO、HotpotQA）上进行了系统性实验，涵盖多种检索器（如Contriever、DPR、ANCE）和大语言模型（如GPT-4o、DeepSeek、Qwen、LLaMA2、Vicuna、InternLM等），构建了高度贴近真实应用场景的测试环境。

实验结果显示，CPA-RAG在top-k=5设定下攻击成功率（ASR）高达92%，在不同模型和数据集上均表现稳定，且其综合攻击成功率（CASR）相较于最强黑盒基线方法PoisonedRAG提升了5%以上。在top-k=10检索文本增多、干扰增强的情况下，CPA-RAG依然保持高稳定性，显著优于白盒和黑盒对手。

此外，CPA-RAG在文本可检索性（F1-score）、可读性（如FleschEase、语法错误率）、重复率、语言流畅度等多个维度上全面领先。特别是在“隐蔽性”方面，CPA-RAG生成的对抗样本更接近真实语料，难以被困惑度检测、重复文本识别等防御机制发现。

更具现实意义的是，CPA-RAG还成功攻破了阿里巴巴“百炼”平台上部署的商业RAG系统，充分证明其在真实世界中的可行性和威胁性。这一实验结果不仅验证了CPA-RAG框架的技术有效性，也向现有RAG系统的防御机制敲响了警钟，亟需更高级别的安全对策。

论文结论

CPA-RAG展示了无需访问内部组件即可精准干预RAG系统输出的能力，在实际场景中具有高度可行性与威胁性。它在生成文本自然性、可检索性、误导性与对抗检测能力等多方面均达到了新的高度。该研究强烈呼吁业界重新审视RAG系统的信任假设，并尽快研发专门应对RAG投毒攻击的防御机制，以提升系统整体安全性。

声明：本文来自安全极客，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

CPA-RAG：针对大语言模型中检索增强生成的隐蔽毒害攻击

单Token攻击：只需一个“:”，主流大模型全军覆没

50款主流大模型的网络攻击能力深度测评

MCP协议的七种安全风险解析与防护