基于源的入侵检测系统的综合分析

原文标题：Sometimes Simpler is Better: A Comprehensive Analysis of State-of-the-Art Provenance-Based Intrusion Detection Systems

原文作者：Tristan Bilot, Tristan Bilot, Tristan Bilot, Tristan Bilot, Khaldoun Al Agha, Anis Zouaoui, Anis Zouaoui

发表会议：USENIX Security Symposium 2025

笔记作者：焦宇彤@安全学术圈

主编：黄诚@安全学术圈

编辑：谷雨@安全学术圈

1、引言

基于溯源的入侵检测系统（PIDS）通过分析系统实体（进程、文件等）间交互形成的因果图（溯源图）来检测高级威胁，在过去十年受到广泛关注。尽管近期研究报道了接近完美的检测性能，但这些系统在实际部署中面临重大障碍：架构日益复杂，评估方法不一致，且缺乏对实际部署约束（如实时性、资源开销）的考量。

为此，本文对八种最先进的 PIDS 进行了迄今为止最全面的分析。研究通过构建统一框架复现这些系统，系统性地识别了阻碍其实际应用的九大缺陷，并提出了一种名为Velox的轻量级检测系统。实验表明，一个简单的神经网络在九个基准数据集中的八个上超越了现有复杂系统，同时实现了更低的计算成本和实时检测能力。

2、方法论：统一分析框架与系统缺陷识别

本文的核心方法是构建一个统一的实验框架，对选定的八种 PIDS 进行模块化复现和系统化分析，从而识别其共同缺陷并探索更优设计。

2.1 统一实验框架的构建

为进行公平、可重复的比较，研究构建了一个统一的代码框架。

系统选择与模块化：选择了八种具有开源代码或可复现的先进 PIDS，包括 SIGL、Threatrace、Nodlink、MAGIC、Kairos、FLASH、R-CAID 和 ORTHRUS。将这些系统的原始代码库模块化为七个通用组件（如特征提取、编码、解码、检测），并集成到统一的抽象架构中。
高效实验管道：框架采用基于哈希的流水线系统。每个任务的输出保存在由参数哈希值决定的唯一文件夹中。修改参数会更新哈希并仅重新执行受影响的后继任务，极大减少了冗余计算，支撑了总计453 天的计算实验。

2.2 九大关键缺陷的系统性识别

通过在上述框架中进行的广泛实验，研究量化并阐述了阻碍 PIDS 实际应用的九大缺陷（SC1-SC9），部分核心缺陷如下：

SC1：检测粒度不足：大多数系统在图或邻域级别进行检测，导致分析师需要审查数千个节点，而实际期望是 10-100 个节点。不切实际的标注策略（如将 2 跳内所有节点标记为恶意）夸大了性能。

SC2：缺少衡量攻击检测的指标：精确率、召回率等指标依赖特定阈值，且无法区分多个独立攻击。为此，本文提出了攻击检测精度（ADP） 曲线及面积度量。ADP 绘制了“检测到的攻击比例”与“节点级精确率”的关系，能无阈值依赖地衡量系统区分不同攻击的能力。
SC3：不切实际的阈值方法：许多系统使用固定阈值或依赖全部测试数据进行聚类（数据窥探），无法适应动态环境或存在部署偏差。
SC4：与基线的不公平比较：现有研究通常省略对基线系统的超参数调优——尽管基于溯源的入侵检测系统（PIDS）对这些设置非常敏感——而只是依赖在差异很大的实验设置中获得的默认超参数。这种做法导致了经过充分调优与未经调优的系统之间不公平的比较。
SC5：未测量不稳定性：所有系统在相同配置下都表现出预测不稳定性（由权重初始化等随机因素导致）。如图 6 所示，ORTHRUS 在 E3-THEIA 数据集上的 ADP 可在 0.1 到 1.0 之间剧烈波动，这严重损害了系统可靠性。

SC7：过度复杂的架构：现有 PIDS 普遍采用复杂的图神经网络（GNN）架构，但缺乏消融研究证明其必要性。
SC8：可扩展性不足：系统训练时间长、内存占用高，限制了它们在需要频繁训练和低内存现实环境下的实际应用
SC9：缺乏实时检测：普遍采用批处理检测模式，无法实现实时报警。

2.3 轻量级系统 Velox 的设计

基于对缺陷的分析，研究设计了 Velox 系统。

架构简化：通过网格搜索消融实验发现，边缘类型预测目标函数表现最佳，且一个简单的线性层编码器搭配 Word2Vec 文本嵌入，就能达到与复杂 GNN 编码器相当的 ADP 分数。这表明对所用数据集而言，建模图结构并非必需。
Velox 实现：Velox 采用极简神经网络。它丢弃了 GNN，直接对每条流入的边进行操作：获取其两端节点的文本嵌入，通过一个线性层（编码器），然后经过一个浅层 MLP（解码器）来预测边类型，预测误差即为异常分数。这种设计使其天生支持实时、逐事件的处理。

3、实验评估

3.1 实验设置

数据集：使用 DARPA 透明计算项目的 E3、E5 和 OpTC 数据集，均带有精细的节点级真实标签。
对比系统：8 个现有的 PIDS 及新提出的 Velox。
评估重点：遵循前述缺陷分析，采用节点级检测，使用ADP作为主要评估指标（克服 SC1, SC2），并重复实验 5 次以衡量不稳定性（SC5）。所有文本嵌入仅使用训练数据训练以避免数据窥探（SC6）。

3.2 检测性能对比

表 4、5、6 展示了在所有数据集上的详细结果，核心发现如下：

Velox 的卓越性能：简单的 Velox 在 9 个数据集中的8 个上取得了最佳或接近最佳的（平均/最佳）ADP 分数（图 12a），唯一例外是 H501-OpTC。这表明对于这些基准，复杂 GNN 带来的性能增益被高估了。
现有系统的局限性：许多系统（如 SIGL, Threatrace）在节点级检测任务上 ADP 接近 0，因为它们并非为此设计。即使先进系统如 ORTHRUS，也表现出较高的不稳定性（图 12b）。
计算成本与性能权衡：如图 13 所示，Velox 在几乎所有数据集上都占据了“成本-性能”帕累托前沿的有利位置，即以低得多的计算开销（运行时间、内存）实现了顶级检测性能。

3.3 实时性与资源开销

Velox 的轻量级设计使其在实际部署方面优势明显：

实时检测：Velox 可逐事件处理，推理速度约 2400 边/秒，远超数据集中最高事件率（1832 边/秒）。
低资源占用：在实时检测场景下，峰值内存占用仅为 5.7MB，远低于行业报告中建议的 160MB 上限；CPU 占用峰值约 107%（即略超单核），平均开销很低。

4、总结

本文对最先进的基于溯源的入侵检测系统（PIDS）进行了大规模、系统性的分析，揭示了其在评估方法、架构设计和实际部署方面存在的九大关键缺陷。

研究最核心的发现是：当前文献中普遍采用的复杂图神经网络（GNN）架构对于达到高检测性能并非必要。实验表明，一个简单的线性神经网络模型（Velox）在大多数标准基准上超越了现有复杂系统，同时实现了低计算成本、高稳定性和真正的实时检测能力。

这项工作挑战了该领域对模型复杂度的固有追求，为开发更实用、可部署的 PIDS 提供了新的基础，并呼吁社区采用更严谨、统一的评估协议。所有代码和框架均已开源，以支持未来研究。

安全学术圈招募队友-ing
有兴趣加入学术圈的请联系 secdr#qq.com

声明：本文来自安全学术圈，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。