论文题目：MEGR-APT: A Memory-Efficient APT Hunting System Based on Attack Representation Learning
论文作者：Ahmed Aly, Shahrear Iqbal, Amr Youssef, Essam Mansour
发表会议：TIFS 2024
主题类型：威胁情报
笔记作者：周俊安@Web攻击检测与追踪
主编：黄诚@安全学术圈

研究概述

本文提出了MEGR-APT，这是一个针对高级持续性威胁（APT）狩猎的高效内存系统。该系统基于攻击表示学习，旨在从大规模溯源图中发现与攻击场景匹配的可疑子图。MEGR-APT通过创新的内存高效方法和图神经网络（GNN）技术，显著降低了内存消耗，同时保持了与现有先进系统相当的检测性能。

1. 研究背景

APT攻击因其隐蔽性和持久性而难以被传统入侵检测系统发现。APT狩猎需要处理大规模溯源图（Provenance Graphs, PGs），这些图通过连接系统实体和事件来捕捉攻击的持久行为。然而，现有系统要么基于内存，导致内存消耗巨大，要么基于磁盘，导致性能受限。因此，开发一个既高效又可扩展的APT狩猎系统成为了一个亟待解决的问题。

2、研究方法

图 1 MEGR-APT的整体架构

图1展示了MEGR-APT系统的整体架构。系统的核心在于其两阶段APT狩猎过程：首先是内存高效的可疑子图提取，然后是基于GNN的快速子图匹配。系统采用基于资源描述框架（RDF）的图模型来表示溯源图，支持大规模溯源图的增量构建和高效查询。在子图提取阶段，MEGR-APT通过查询语言SPARQL与RDF图数据库交互，仅提取与攻击场景相关的可疑子图，避免了加载整个溯源图到内存中。在子图匹配阶段，系统利用基于关系图卷积网络（RGCN）的攻击表示学习模型，将子图嵌入到固定大小的向量中，并通过图匹配模型计算查询图与子图之间的相似度，从而识别出匹配的子图。

3、实验与结果

实验部分，作者使用了DARPA TC3和OpTC这两个广泛使用的APT基准数据集，以及一个真实的企业数据集来评估MEGR-APT的性能。结果表明，MEGR-APT在内存消耗上比现有的先进系统如Poirot和DeepHunter降低了至少一个数量级，同时在检测时间和准确性上保持了相当的水平。例如，在处理DARPA TC3数据集中的Linux_3攻击场景时，DeepHunter因内存不足而崩溃，Poirot消耗了21GB内存，而MEGR-APT仅消耗了288MB内存。此外，MEGR-APT在真实企业数据集上的应用也证明了其在实际场景中的有效性，能够在短时间内检测出恶意子图，并且没有产生误报。

4、结论

MEGR-APT通过其创新的内存高效方法和基于GNN的攻击表示学习，为APT狩猎提供了一个既高效又可扩展的解决方案。该系统不仅显著降低了内存消耗，而且保持了高检测性能，使其能够处理大规模溯源图并快速发现APT攻击痕迹。未来的工作将集中在优化系统以支持流式溯源图，并探索使用自然语言处理技术自动化从网络威胁情报报告中构建攻击查询图。

贡献分析

贡献点1：论文针对现有的APT狩猎系统在处理大规模溯源图时面临内存消耗巨大或性能受限的问题，提出了MEGR-APT这一可扩展的APT狩猎系统，实现了在保持与现有先进系统相当的时间和准确性的同时，将内存消耗降低了一个数量级，显著提高了系统的可扩展性，使其能够更高效地处理大规模溯源图，从而更快速地发现APT攻击痕迹。；
贡献点2：论文针对APT狩猎中从大规模溯源图中提取可疑子图效率低下的问题，提出了一种基于RDF图模型的高效表示方法和基于IOC的子图提取算法，实现了在不加载整个溯源图到内存的情况下，通过增量构建溯源图和查询优化，快速、高效地提取出与攻击场景匹配的可疑子图，大大减少了提取过程中的内存占用和计算时间，提高了APT狩猎的效率和准确性；
贡献点3：论文针对现有基于图神经网络的APT狩猎方法在表示学习中无法有效反映攻击行为的问题，提出了基于攻击表示学习的GNN模型，实现了将攻击行为融入到图嵌入中，使得模型能够更好地理解和区分恶意子图与正常子图，从而更准确地检测出与攻击场景匹配的子图，提高了APT狩猎的检测精度。

代码分析

代码链接：GitHub - CoDS-GCS/MEGR-APT-code: MEGR-APT: A Memory-Efficient APT Hunting System Based on Attack Representation Learning

点评：

代码使用了time、pickle、torch、matplotlib、pandas、numpy等开源类库，用于数据处理、分析和自动化任务。代码包含多个目录和文件，涉及多个模块和脚本，规模庞大，工作量较大。代码关键实现的模块主要包括数据预处理模块、APT 检测模块、结果分析模块和训练模块。数据预处理模块从结构化的数据库（如 Postgres）中查询内核审计日志，并将其转换为适合后续处理的格式。APT 检测模块基于给定的攻击查询图的 IOC（Indicators of Compromise）提取可疑子图，并使用预训练的 GNN 模型进行匹配。结果分析模块对检测到的可疑子图进行分析，生成调查报告，供分析师使用。训练模块训练 GNN 图匹配模型，用于 APT 检测。

论文点评

1.论文优点

（1）创新性：MEGR-APT 提出了一种基于图神经网络和攻击表示学习的内存高效型 APT 狩猎系统，有效解决了现有 APT 狩猎系统在处理大规模溯源图时面临的内存消耗巨大或性能受限的问题，为 APT 检测领域带来了新的技术思路。

（2）技术深度：论文深入研究了如何将溯源图转化为 RDF 三元组并存储于图数据库中，以实现大规模溯源图的高效查询和子图提取，同时设计了基于 GNN 的攻击表示学习模型，能够自动学习攻击场景的图表示，避免了手动特征工程，技术含量高。

（3）实验全面：使用了 DARPA TC3 和 OpTC 两个广泛使用的 APT 基准数据集以及真实企业数据集进行评估，从内存消耗、检测时间、准确率等多个维度与现有先进系统进行了对比，验证了 MEGR-APT 的优越性能，实验结果具有较强的说服力。

2.论文缺点及改进方向

（1）查询图构建依赖专业知识：

问题：构建查询图需要从 CTI 报告中提取攻击特征，这要求一定的领域知识，否则可能无法准确构建出能够有效匹配攻击子图的查询图，限制了系统的易用性。

改进方向：利用大语言模型自动化地从 CTI 报告中提取攻击特征并构建查询图，降低对专业知识的依赖，提高系统的自动化程度和可用性。

（2）对横向移动检测能力有限：

问题：MEGR-APT 仅分析操作系统日志，不考虑网络流量日志，可能导致对横向移动攻击（攻击者在不同系统间传播）的检测能力不足，而横向移动是 APT 攻击中常见的行为之一。

改进方向：将网络流量日志纳入分析范围，或者与专门的网络横向移动检测器集成，以增强对横向移动攻击的检测能力，更全面地应对 APT 攻击的复杂性。

论文文献

T. Liliengren and P. Löwenadler,“Threat hunting, definition and framework,”Ph.D. dissertation, School Inf. Technol., Halmstad Univ., Halmstad, Sweden, 2018.
A. Alshamrani, S. Myneni, A. Chowdhary, and D. Huang,“A survey on advanced persistent threats: Techniques, solutions, challenges, and research opportunities,”IEEE Commun. Surveys Tuts., vol. 21, no. 2, pp. 1851–1877, 2nd Quart., 2019.
R. Langner,“Stuxnet: Dissecting a cyberwarfare weapon,”IEEE Secur. Privacy, vol. 9, no. 3, pp. 49–51, May 2011.
A. Alsaheel et al.,“ATLAS: A sequence-based learning approach for attack investigation,”in Proc. 30th USENIX Secur. Symp. (USENIX Security), 2021, pp. 1–19.
M. Zipperle, F. Gottwalt, E. Chang, and T. Dillon,“Provenance-based intrusion detection systems: A survey,”ACM Comput. Surv., vol. 55, no. 7, pp. 1–36, 2022.

安全学术圈招募队友-ing
有兴趣加入学术圈的请联系 secdr#qq.com

声明：本文来自安全学术圈，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

MEGR-APT：一种基于攻击表示学习的内存高效APT狩猎系统

研究概述

贡献分析

代码分析

论文点评

论文文献

深度剖析：Skills架构攻击面、实战案例与开源生态调研

基于大语言模型的个人信息抽取及其对策评估

利用生成过程对开源大语言模型进行越狱