工作来源
IMC 2025
工作背景
确定一个自治系统背后的运营组织是互联网分析测绘的基础数据,这远比想象中的要困难得多。以 Level3 公司为例,在成立后的几十年间,该公司收购了 Global Crossing 又被 CenturyLink 收购。后续母公司更名为 Lumen,而后将部分业务分拆给其他公司。
传统基于 WHOIS 数据中的组织 ID 进行聚合,近期 as2org+ 通过 PeeringDB 的数据,构建规则从备注(notes)与别名(aka)中提取关系,但这么做的局限性仍然很大。
工作设计
WHOIS 数据反映的是法律层面的归属,PeeringDB 则更多地反映了网络运营层面的归属。利用 WHOIS 数据中的组织 ID(whois.org_id)和 PeeringDB 中的组织 ID(pdb.org_id),对自治系统进行初步聚类。
利用大模型从 PeeringDB 中的 notes 和 aka 中抽取出属于同一组织的自治系统号,同时屏蔽掉无关的信息(上游提供商、对等互联伙伴等)。
抓取 PeeringDB 中各个自治系统填写的网站域名,并且跟踪所有的重定向。如果不同自治系统的网站最终跳向相同的域名,那这两个自治系统极有可能属于同一家公司。
此外,再次利用大模型基于网站图标对网站进行分类,以此区分出公司和通用模板。
工作准备
CAIDA 提供了 PeeringDB 和 AS2Org 的存档,分别为 2024 年 7 月 24 日与 2024 年 7 月 1 日的数据。
代码开源
https://github.com/NU-AquaLab/borges
工作评估
大模型的效果很好,工具整体的效果也很好,这里不再赘述了。
简单看一下两处应用到大模型的提示词,如下所示:
工作思考
大模型在处理文本信息上的优势被发挥的很好,可能所有类似的场景下都可以使用大模型进行效果提升。
声明:本文来自威胁棱镜,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。