本周,Sophos 和 ReversignLabs 公司宣布公开 SoReL-20M 数据库,内含2000万个 Windows 可移植可执行(PE)文件,其中有1000万个恶意软件样本。

该数据库旨在改善整个行业在安全方面的提升,提供了文件的元数据、标签和功能,供感兴趣的实体下载恶意软件样本,开展进一步的研究。这个公开可访问的数据集中包含精选的经过标记的样本集和相关元数据,有望加速通过机器学习开展的恶意软件检测研究工作。

Sophos 公司认为,尽管机器学习模式的构建基于数据,但安全领域缺乏可供所有用户类型(独立研究员、实验室、企业等)轻松访问的大规模的标准数据集,而标准数据集是新功能和模型进行开发、测试和互相比对的方式,因此限制了机器学习研究的发展。该公司还表示,“获取精选的经过标记的样本昂贵且富有挑战性,而鉴于知识财产相关的问题以及向未知第三方提供恶意软件存在的风险,通常难以共享数据集。因此,多数关于恶意软件检测工作的相关论文基于非公开的内部数据集,从而导致这些结果无法进行直接比对。”SoReL-20M 数据集是涵盖2000万个样本的生产规模的数据集,其中含有1000万个已解除的恶意软件样本,旨在解决上述问题。

对于每个样本,该数据集中都包含了基于 EMEBER 2.0 数据集(EMBER 数据集是解决上述问题的第一步,但其规模相对较小,仅含约100万个文件,而且每个样本中仅包含单一标签,从而限制了可开展的实验范围)、标签、检测元数据和所含恶意软件样本的完整二进制而提取的特征。另外,基于该数据进行训练的PyTorch 和 LightGBM 模型作为基线、需下载并根据数据迭代的脚本以及用于加载、训练和测试模型的脚本均已提供。

Sophos 公司指出,鉴于所发布的恶意软件已“解除”,因此需要“知识、技能和时间才能重组”和运行。话虽如此,但该公司承认具有相关技能的攻击者确实会学习这些样本或使用它们创建攻击工具,不过“存在很多更容易、更快速且成本效益更高的其它恶意软件信息和样本,使攻击者能够访问恶意软件信息和样本。”因此,该公司认为这些解除的样本更易受到寻求提高独立防御能力的安全研究员的影响。

Sophos 指出,已发布的恶意软件二进制已在野外存在一段时间,即使是可运营的,但预计将回调已受陷的基础设施。此外,多数反病毒厂商应该已经能检测到这些样本。该公司指出,同时希望发布该数据集有助于提升研究员在恶意软件识别和防御方面的能力。

ReversingLabs 公司指出,“恶意软件作为一个行业,不仅限于 Windows 或甚至是可执行文件,这就是为何研究人员和安全团队总是需要更多代表需保护基础设施的数据。”该公司声称提供含有120亿个非恶意软件和恶意软件文件的数据集且值得信赖。

数据集地址:https://github.com/sophos-ai/SOREL-20M

原文链接

https://www.securityweek.com/sophos-reversinglabs-release-20-million-sample-dataset-malware-research

声明:本文来自代码卫士,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。