ScannerGrouper

原文标题:ScannerGrouper: A Generalizable and Effective Scanning

Organization Identification System Toward the OpenWorld

原文作者:Xin He, Enhuan Dong, Jiyuan Han, Zhiliang Wang, Hui Zhang, Liang Liu, Lianyi Sun, Supei Zhang, Pengfei Xue, Guanglei Song, Han Li, Xiaowen Quan, Jiahai Yang

原文链接:ACM CCS

发表会议:ACM Conference on Computer and Communications Security (ACM CCS) 2025

笔记作者:董恩焕@安全学术圈

主编:黄诚@安全学术圈

1. 研究背景和研究意义

  • 近期测量研究表明,互联网扫描活动显著增加,其中很大一部分源自近年来涌现的扫描组织[9, 29, 31, 50, 53, 54]。得益于扫描技术的进步[19, 28, 29, 34, 35]以及云服务器租赁服务的广泛普及,这些扫描组织现在能够对公共地址空间进行频繁且大规模的扫描。

  • 扫描组织通常使用多个扫描探针来分配扫描任务。基于对现有研究的全面调研,我们将扫描探针(Scanner)定义为由公网IP地址标识的实体或程序,其向一个或多个远程主机发送探测数据包,目的是:(1)检测响应数据包的主机,以及(2)从主机发送的响应数据包中提取信息。如今,大量扫描探针正活跃地扫描互联网[9, 26, 27, 29, 31, 38, 50, 53, 54, 61, 66]。

  • 识别扫描探针所属的组织具有重要价值[8, 26, 27, 38, 61, 66]:

  • 指导网络安全防御:识别扫描探针所属的组织能够帮助防御者实施有针对性的策略,从而减轻或阻止潜在的网络攻击。文献[66]首次全面揭示了某些扫描组织的伦理问题,包括其未经授权的访问、服务漏洞信息的泄露、私人数据的披露、身份隐藏等。识别这些组织的IP地址能够支撑在线安全防御设备(如:防火墙和NIPS等)。

  • 支持对扫描行为的深入分析:扫描探针的组织信息能够帮助安全分析师进行更深入的行为分析,有助于识别扫描组织数据收集重点和偏好目标,例如特定的IP地址、端口、服务或软件。诸如[8, 18, 26, 27, 38]等研究表明,扫描流量反映了目标的兴趣,有助于攻击面分析,尤其是在扫描探针所属组织已知的情况下。

  • 深入分析扫描组织身份:识别扫描探针所属组织有助于揭示潜在攻击组织的身份和规模。例如,[26]报告了对Shadowserver的发现,此前作者对此一无所知;[66]进一步指出,某些有效载荷字段可以帮助推断扫描组织的身份。

2. 研究现状

  • 分析扫描探针来源的问题已在多项研究中得到探讨。然而,在实际场景中有效且普遍地识别扫描探针组织的问题仍然没有得到解决。大多数关于识别扫描探针来源的研究都无法准确确定扫描探针背后的组织[18, 22, 24, 29, 31, 42, 53, 54, 63]。他们通常依赖于初步方法,例如 WHOIS 查询、IP 地理位置定位和反向 DNS 解析,这些方法通常只能粗略地识别扫描探针来源。这些方法无法在组织级别溯源那些没有域名也未列入官方扫描探针列表的扫描探针,我们称它们为未溯源扫描探针。

  • 剩余研究工作试图在组织层面识别更多未溯源扫描探针的来源[8, 26, 27, 38, 61, 66]。然而,这些研究往往缺乏普适性,在实际场景中效果不佳,或者两者兼而有之。

    • 首先,[8, 26, 27, 38]中提出的解决方案基于Darknet(例如,加州大学圣地亚哥分校的/8网络 [5]),这需要大量未使用的、可路由的公共IP地址[3, 47]——这种特权只有少数人拥有,尤其是在IPv4方面。另一种方法是使用来自外部Darknet的扫描探针组织归属信息(例如,DomainTools[13]),但这种方法对于日益普遍的局部扫描无效。研究[31, 50, 53]表明,此类扫描通常针对特定路由前缀(例如,企业网络)内的大多数IP地址。总而言之,基于Darknet的解决方案缺乏普适性,并且对局部扫描无效。

    • 其次,在实际场景中,现有测量研究[9, 29]表明,扫描探针扫描端口的时间特征和扫描探针活动的统计特征存在显著差异。然而,文献[8, 26, 27, 38]提出的解决方案将这些特征作为识别扫描探针组织的特征,导致这些解决方案在实际场景中的鲁棒性较差。

    • 第三,在实际场景中,文献[26, 27, 38]提出的解决方案无法评估未溯源扫描探针的识别结果,它们依赖于人工评估。

    • 最后,某些解决方案[8, 61, 66]的适用范围存在局限性。在涉及众多不同扫描组织的实际场景中,它们无法展现出一致的有效性。

3. 研究目标和研究挑战

  • 以往研究工作在普适性方面的主要局限性源于它们对Darknet流量的依赖。本文旨在设计并实现一个独立于Darknet的系统,该系统能够有效地识别真实场景中的扫描组织。作为Darknet替代方案的监控系统包括蜜罐和网络入侵检测系统 (NIDS),这些系统可以部署在受保护的目标网络中。

  • 然而,设计和实现这样的系统极具挑战性。首先,它必须足够稳健。如前所述,许多现有工作[8, 26, 27, 38]的一个主要局限性在于它们所依赖的特征具有高度可变性。为了确保整个系统能够抵御变化的扫描探针行为,需要对扫描活动有透彻的理解并进行精心的系统设计。

  • 其次,在实际场景中,识别扫描组织面临着开放世界的挑战[4, 25];也就是说:存在属于未知扫描组织的未溯源扫描探针,整个系统需要具备增量更新能力,以便持续适应扫描探针特征的可能变化,并最大限度地减少每次更新所需的时间。

4. 系统设计

  • 为了应对这些挑战,我们开发了 ScannerGrouper,这是首个独立于Darknet的互联网扫描探针组织溯源系统,旨在实现通用性、高效性,并适用于开放世界场景。我们的核心思想是:

  • 为了增强系统的鲁棒性,我们对蜜罐收集的扫描流量进行统计分析,以筛选出能够区分扫描组织的稳定特征,然后通过整合多个分类器的结果来改进识别方法;

  • 为了应对开放世界场景的挑战,我们对一个最先进的开放集模型进行了改进,使其能够更好地识别我们的扫描组织,并提出了一种适用于整个系统的增量更新方法。

5. 系统实现和实验验证

  • 我们实现了 ScannerGrouper 并进行了全面的实验来评估其有效性。与几种基线方法[26, 27, 38]相比,ScannerGrouper 的加权平均 F1 分数提高了 1.63 到 4.05 倍。

  • ScannerGrouper 的增量版本通过每周更新,稳步提升性能,最终接近“一次性全量数据集训练”的性能。训练时间也在可接受范围内。

  • 通过分析未知类别扫描探针的结果,ScannerGrouper 能够识别未溯源扫描探针中的已知组织的扫描探针,通过有效载荷检查发现新的扫描组织,并增强分析人员对新兴扫描活动的理解,从而实现快速防御响应。

作者介绍、系统介绍

  • 通讯作者为 董恩焕 助理研究员 和 杨家海 教授。

  • ScannerGrouper 已经常态化运行。

安全学术圈招募队友-ing

有兴趣加入学术圈的请联系 secdr#qq.com

声明:本文来自安全学术圈,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。