随着企业竞相部署能自主规划、使用工具并做出决策的AI智能体(Agentic AI)系统,一种全新的风险随之产生。这些风险潜伏在模型、工具、数据源和记忆存储的交互过程中,难以被传统的测试方法捕捉。

针对这一挑战,NVIDIA(英伟达)与Lakera AI的联合研究团队发布了一套全新的安全与安保框架。该框架旨在绘制并量化真实工作流中的智能体风险。除了提出新的风险分类法和动态评估方法外,研究团队还详细剖析了NVIDIA AI-Q Research Assistant的案例,并开源了一个包含超过一万条攻击与防御轨迹的数据集,以支持行业研究。

以下是该框架的核心内容及研究发现:

传统测试失效:智能体系统面临新挑战

研究指出,代理式AI系统的行为更加难以预测和测试。与传统的LLM(大语言模型)不同,智能体系统依赖模型生成计划和行动,即使输入相同,输出路径也可能不同。

传统的LLM测试通常局限于“提示词-响应”层面,而作者认为这种方法忽略了系统级风险。在智能体工作流中,工具使用、记忆调用和其他组件的交互会产生“连锁效应”,导致单一环节的微小风险在后续步骤中被放大。

该框架提出了一个新的视角:将“安全(Safety,防止不可接受的后果)”与“安保(Security,防御对抗性入侵)”结合考量。因为在智能体系统中,一次安保失败(如提示注入、记忆投毒、工具滥用)往往直接导致安全危害。

建立实用的风险分类法

为了系统性地应对威胁,研究团队提出了一套连接“组件风险”与“系统危害”的操作性分类法:

  • 低影响风险:工具选择错误、检索内容的接地性(Grounding)问题。

  • 中等影响风险:个人身份信息(PII)泄露、记忆泄漏。

  • 高影响风险:权限受损、智能体欺骗、多智能体合谋。

这种分类设计不仅帮助团队追踪需要关注的系统模块,还支持组合风险评估——即评估多个组件级风险如何相互作用,最终引发意想不到的系统级故障。这也强调了对智能体系统进行“端到端”可观测性的需求,包括审计日志和中间状态的追踪。

动态框架:嵌入式红队测试

该论文的核心是一套嵌入在智能体工作流内部的安全框架。它包含两个阶段:

  • 风险发现与评估:攻击者和评估者智能体在沙箱环境中运行。

  • 防御与监控:部署缓解措施,评估者智能体在实时运行中持续监控新问题。

架构上,该框架引入了多角色的智能体协作:

  • 全局安全智能体(Global Safety Agent):制定策略并维护权威状态。

  • 本地攻击者(Local Attacker):在检索文档、工具输出或中间步骤中注入威胁。

  • 本地防御者(Local Defender):验证函数调用、检查输入输出、执行权限规则。

  • 本地评估者(Local Evaluator):记录工具选择质量、文本接地性及危险动作率等指标。

创新方法:通过探针进行智能体红队测试

针对由于系统复杂性导致的测试难题,作者引入了“通过探针进行智能体红队测试”(Agent Red Teaming via Probes)的方法。

不同于试图构建能够绕过检索排名或工具路由的“通用提示注入”,该方法允许评估人员直接在工作流的特定节点(Injection Points)注入对抗性内容。这些注入点与评估探针配对,探针会观察威胁在系统中移动时的行为变化。

通过定义“威胁快照”(Threat Snapshot)——包含攻击目标、注入点、评估点和评分指标——团队可以测试现实场景(如直接用户滥用或RAG中的间接攻击),并跨版本追踪结果。

案例研究:NVIDIA AI-Q的实测数据

研究团队利用该框架对AI-Q Research Assistant(一个用于生物医学和金融报告的多步骤RAG系统)进行了实测。

  • 测试规模:在用户输入、搜索工具输出和所有摘要阶段部署探针。

  • 场景覆盖:创建了22个威胁快照,涵盖记忆投毒、拒绝服务(DoS)、越狱、偏见、内容安全、PII泄露及网络安全风险。

  • 执行密度:每个场景使用21种攻击,每种攻击执行5次以捕捉非确定性行为,最终在三个评估节点产生了超过6000次风险测量。

关键发现:

  • 风险具有流动性:攻击行为随着对抗性内容从早期摘要流向后期细化阶段而发生变化。某些风险在经过更多处理步骤后减弱,而另一些则持续存在。

  • 多层防护的重要性:研究验证了多层护栏的必要性。例如,通过将自动评估指标与人工标签进行比对,发现其匹配度达到76.8%,这有助于校准自动化评估的误差范围。

展望:从静态测试走向持续评估

作者最后强调,静态测试无法揭示智能体系统中所有涌现的风险。为了实现规模化的安全部署,企业需要将安全智能体、探针工具和持续评估器直接嵌入到工作流中。

随论文发布的数据集包含了大量真实的攻击与防御轨迹,英伟达希望以此推动社区对智能体风险进行更深入的研究。

论文链接:

https://arxiv.org/pdf/2511.21990

声明:本文来自GoUpSec,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。