欧洲学者分析AI大模型在网络安全自动化领域的应用前景

编者按：欧洲学者在2025年北约国际网络冲突大会上发文，回顾人工智能最新技术发展以及对网络安全自动化的影响，重点探讨了生成式人工智能和大语言模型如何促进全自动网络蓝队的愿景，研究了生成式人工智能在网络防御领域的潜在应用，并提出了实现自动化网络蓝队愿景的挑战和机遇以及未来建议措施。

文章称，北约网络防御演习“锁定盾牌”试验将人工智能纳入网络防御行动的试验平台，利用工人工智能来提供更快的威胁检测和响应、管理复杂基础设施的可扩展性并持续学习攻击模式，从而提升网络防御能力；该演习将蓝队作为主要培训对象，其任务主要包括四个阶段，包括初始加固、监控与响应、报告以及恢复；有学者2021年为网络防御演习中的AI参与者开发了一种通用自动化网络蓝队架构，其主要组件包括传感器、执行器、态势感知数据库、人工智能引擎和控制逻辑。其中，传感器提供测量值或数据，所提供数据示例包括网络流量、事件日志、设备凭据或用户支持工单等；执行器在演习网络中执行动作，示例包括远程管理、修改防火墙规则、重置或重启设备或生成对支持工单的响应等；态势感知数据库包含所有传感器数据；人工智能引擎学习和应用人工智能模型以增强态势感知数据库；控制逻辑根据态势感知数据库的内容触发执行器。

文章称，作为一项人工智能技术，大语言模型主要影响“人工智能引擎”组件，同时显著扩展了“处理传感器数据”和“生成执行器输入”的可能性，在蓝队四大任务阶段均有具有显著优势的用例。在“初始加固”阶段，基于大语言模型的方法为检测漏洞和错误配置提供了更高的灵活性和效率，包括通过精确识别SQL注入、远程代码执行和跨站点脚本等问题来检测大型代码库中的漏洞，以及通过检查数据库或Web服务器设置、精确定位不安全的网络参数或宽松的访问控制来检测错误配置。在“监控和响应”阶段，基于大语言模型的方法为网络流量分析引入了新范式，能够处理和理解大量非结构化数据，并自动执行事件响应操作，减少了人工分析所需的时间和精力；虽然较传统的基于数据挖掘的算法需要更多的计算资源，且速度往往较慢，但具有自身优势，例如在日志数据不足的情况下仍能推断出正确的模板；能够通过解释支持工单的自然语言内容，提取IP地址、错误代码、账户名称等关键信息，并将其与相应的技术操作进行匹配，从而提高了人机交互的效率；可以将高级策略描述或抽象指令转换为代码或命令，从而自动生成恢复受感染或配置错误的系统所需的恢复脚本和配置。在“报告”阶段，基于大语言模型的方法通过自动化提取、情境化和优先级排序等任务，提供了一种变革性的方法来处理失陷指标数据并将其集成到安全信息和事件管理系统中，通过生成全面的报告来提供可操作的见解，从而提高态势感知和决策能力并促进事后分析。在“恢复”阶段，基于大语言模型的方法能够识别和记录受影响的系统并通过了解事件的范围和影响来确定恢复工作的优先级，通过与版本控制存储库集成来跟踪系统配置的长期变化并利用回滚机制恢复设备、错误配置和补丁故障，通过支持创建详细的事后恢复分析和经验教训文档来确保组织能够根据过往事件改进防御措施。

文章称，自动化网络防御未来研究面临的挑战包括以下六个方面：一是数据可用性，训练或微调大语言模型需要大量高质量数据集，数据不足可能导致模型表现不佳或无法有效推广；二是提示工程，精心设计的提示尤其具有挑战性，包括大语言模型上下文的大小以及信息的预处理等；三是幻觉，大语言倾向于生成不准确或虚假的信息且很难识别，这在完全自动化的系统中可能产生严重后果；四是集成复杂性，实现通用自动化网络蓝队架构各个组件间的无缝接口构成重大工程挑战；五是计算能力，运行大语言模型可能需要大量的计算资源；六是衡量有效性，需要以可重复的方式评估自动化测试系统及其组件的性能。文章建议采取两项步骤促进大语言模型与自动化网络蓝队的集成，包括：一是集成并评估各大语言模型组件，首先需要解决四个用例，包括自动化支持工单处理、生成人类可读的报告、检测和修复错误配置以及结合数据获取可操作的见解；二建立支持频繁、可重复测试的测试环境，作为自动化红队与自动化蓝队的试验场，促进两个领域的进步并对新兴的攻防策略进行全面评估。

奇安网情局编译有关情况，供读者参考。

网络蓝队自动化的下一步

——利用大语言模型的力量

摘要：2021年，在人工智能（AI）和自动化技术持续进步的推动下，先前的研究为网络防御演习（例如“锁定盾牌”）引入了全自动蓝队架构。此后，技术和科学进步进一步加速。尤其是通过大语言模型实现的生成式人工智能的快速发展，显著增强了网络安全自动化的能力。

本文回顾了网络蓝队自动化如何从这些最新进展中获益，重点探讨了生成式人工智能和大语言模型如何重塑用于防御复杂网络基础设施的自动化策略。以“锁定盾牌”演习为例，我们探讨了基于生成式人工智能的自动化如何应对日益复杂的网络威胁。本文提出了生成式人工智能如何增强全自动蓝队的有前景方向，并填补了该领域一个重大的研究空白——缺乏用于训练和评估的高质量数据集。为应对这一挑战，我们引入了一个全新的数据集，其中包含标记的网络流量和终端主机日志，这些流量和日志是在2024年“锁定盾牌”演习之前的“合作伙伴竞赛”（partners’ run）期间收集的。该数据集源自捕获的超过400 GB的网络流量和超过600万条日志条目。它捕捉了现实世界中的红队行为，并公开发布，以促进蓝队自动化领域的研究和人工智能发展。

我们最后总结了自动化网络防御未来研究面临的挑战。

关键词：自动化网络防御锁定盾牌人工智能大语言模型数据集

引言

人工智能（AI）正以前所未有的速度颠覆几乎所有领域。网络安全领域也不例外，它正在彻底改变攻防格局。攻击者越来越多地利用AI来自动化和增强其网络攻击方法，而防御者则利用AI来改进检测、响应和缓解策略。例如，AI可以识别网络流量或应用程序日志中的可疑模式和异常，比传统方法更快、更准确地查明潜在威胁。除检测外，AI也越来越多地用于响应自动化，例如协调防御机制或在有人或无人干预的情况下修复漏洞。

然而，尽管人工智能取得了显著进展，但其先进程度尚不足以完全取代人类专家在网络防御领域的工作。例如，人工智能难以适应与其训练数据不同的场景。此外，误报的可能性以及缺乏高质量的标记数据限制了人工智能在实际应用中的有效性。在此基础上，Zhang Zhimi等人（参见2022年2月《网络安全中的人工智能：研究进展、挑战与机遇》）探索了人工智能在网络安全领域的应用，包括用户访问身份验证、网络态势感知、危险行为监控和异常流量识别。他们强调了人工智能在增强网络安全措施方面的作用，并提出了一个概念性的“人机环”（humanin-the-loop）网络安全模型，强调了人类参与与人工智能系统协同工作的重要性。

本文分析了人工智能在网络防御自动化领域当前的实力。我们重点关注此类自动化技术在实战网络防御演习（例如“锁定盾牌”）中的应用，因为这些演习为新技术提供了理想的试验场。本文以罗兰·迈尔等人于2021年开发的自动化蓝队框架（参见2021年5月《迈向人工智能驱动的网络防御演习》）为起点，探讨了自那时以来人工智能发展的影响，并提出了在网络防御演习中实现完全自动化防御团队愿景的后续步骤。我们的讨论基于正在进行的、适用于“锁定盾牌”（全球规模最大的国际实战网络防御演习）的研究工作。我们还发布了本次演习的带标签数据集，以便研究界能够使用真实数据开发和测试其模型，并可能将其用于训练或改进网络安全自动化的大语言模型。

总而言之，我们论文的主要贡献是：

回顾生成式人工智能背景下的最新发展及其对蓝队自动化的影响（第三节）；
讨论蓝队自动化生成式人工智能的主要用例（第四节）；
提出实现自动化蓝队愿景的下一步计划，以及生成式人工智能带来的挑战和机遇（第五节）；
提供一个包含标记网络流量和终端主机日志的新型数据集，以促进研究（包括新大语言模型的训练）（第六节）。

网络防御演习背景

网络防御演习对于提升作战准备、促进跨学科合作以及在不断发展的网络领域改进网络防御至关重要。其中最突出的例子是“锁定盾牌”实战演习，这是北约合作网络防御卓越中心（CCDCOE）自2010年以来组织的年度实战演习。最近，它作为将人工智能纳入网络防御行动的试验平台，获得了更高的关注度。

“锁定盾牌”演习为期两天，以防御为主，围绕虚构的地缘政治冲突展开。蓝队由快速反应网络安全单位组成，其任务是保卫虚构国家“贝利里亚”（Berylia）的IT和关键基础设施，抵御红队（代表敌对国家“克里姆索尼亚”，Crimsonia）的攻击。总体而言，蓝队的任务可分为四个阶段：初始加固（在攻击开始前加固系统）；监控与响应（检测并缓解攻击）、报告（记录观察到的攻击）；恢复（从备份或在演习组织者的帮助下恢复演习网络系统）。

蓝队是“锁定盾牌”演习的主要训练对象，其评分涵盖多个类别，包括防御红队攻击、事件报告和维护服务可用性。每个蓝队负责维护超过140个物理和虚拟主机的正常运行时间和安全性，这些主机包含标准IT系统、工业控制系统以及5G基础设施等专用组件。

最近的研究将人工智能引入了逻辑安全领域，展示了其增强防御策略的潜力。此类人工智能系统可以通过提供更快的威胁检测和响应、管理复杂基础设施的可扩展性以及对攻击模式的持续学习来提升防御能力。

自动化蓝队的愿景

2021年，罗兰·迈尔等人为网络防御演习中的AI参与者开发了一种通用架构。该架构如图1所示。它由以下主要组件组成：

传感器是提供测量值或数据的组件。传感器及其提供的数据示例包括：网络流量、事件日志、设备凭据或用户支持工单。

执行器是在演习网络中执行动作的组件。执行器的示例包括：远程管理（例如，通过SSH或RDP）、修改防火墙规则、重置或重启设备，或生成对支持工单的响应。

传感器和执行器之间有三个额外的构建块：态势感知数据库（包含所有传感器数据）、人工智能引擎（学习和应用人工智能模型以增强态势感知数据库）和控制逻辑（根据态势感知数据库的内容触发执行器）。

图 1：罗兰·迈尔等人开发的自动化蓝队架构

2021年，罗兰·迈尔等人无法预见即将到来的生成式人工智能革命，最显著的标志是2022年11月发布的ChatGPT。这一发布标志着生成式人工智能发展的一个里程碑，展示了其进行复杂的、类似人类的对话和解决问题的能力。

从根本上讲，生成式人工智能（Generative AI）是一种旨在创建内容而非简单地分析或分类现有数据的人工智能。生成式人工智能模型（例如OpenAI的ChatGPT1、谷歌的Gemini2或Meta的Llama3）可以根据训练过程中学习到的模式生成文本、图像、代码和其他创意输出。对于大语言模型（LLM）而言，其重点是生成连贯、上下文感知且模仿人类语言的文本。

LLM的核心是建立在名为“变换器”（Transformers）的神经网络架构上，该架构擅长处理和生成序列数据，例如语言。这些模型基于海量数据集进行训练，包括书籍、文章、网站和其他文本来源，以识别单词、短语和上下文之间的统计关系。其目标并非像人类一样“理解”语言，而是生成符合自然语言模式和结构的文本。

如今的LLM能够生成高质量的输出，并处理包括IT和网络安全在内的各行各业的广泛任务。事实证明，LLM在调试代码、查找漏洞和分析系统日志等领域发挥着重要作用。然而，需要注意的是，LLM缺乏真正的理解力或推理能力。它们仅仅基于学习到的模式来生成内容，如果训练数据中存在此类问题，就可能生成有偏见或不正确的信息。

大语言模型在蓝队自动化中的应用

作为一项AI技术，LLM 主要影响图1中的“人工智能引擎”组件。然而，它们也显著扩展了处理传感器数据和生成执行器输入的可能性。在本节中，我们将探讨LLM相较于先前技术具有显著优势的关键用例。

我们根据网络防御演习的四个阶段对这些用例进行分类：初始加固、监控与响应、报告以及恢复。表1提供了概述，本节的其余部分将更详细地解释所有用例。

表1：LLM与以前的方法相比具有显著优势的用例概述

1、检测漏洞和错误配置

软件漏洞是指应用程序在设计、实现或配置中存在的缺陷或弱点。在像“锁定盾牌”这样的演习中，这些弱点可能包括安全性较差的Web应用程序、配置错误的Docker容器，以及红队故意放置的隐藏后门。对于蓝队来说，快速发现并修复这些漏洞至关重要。

传统方法已被证明有效，但通常耗时且需要专业知识。例如，传统的静态分析技术虽然能够大规模发现大量漏洞，但却难以跟上日益复杂的系统。同样，动态污点分析为自动化漏洞检测开创了先例，但在现代环境中却面临着可扩展性问题。

基于LLM的方法提供了更高的灵活性和效率。像LProtector这样的系统，基于GPT模型构建，擅长检测大型代码库中的漏洞。通过在大量代码库上进行训练，这些模型可以非常准确地识别SQL注入、远程代码执行和跨站点脚本等问题。同时，AI驱动的代码生成工具（例如GitHub Copilot）的使用也受到了严格的审查，以发现潜在的安全风险。

LLM还可以通过检查数据库或Web服务器设置、精确定位不安全的网络参数或宽松的访问控制来检测错误配置。这种主动方法可以通过模拟可能的攻击媒介来帮助预防攻击。

研究还表明，AI驱动的安全策略规则调整可以跟上新兴威胁的步伐。通过根据严重程度对漏洞进行优先级排序，防御者可以更有效地分配资源。最后，虽然基于LLM的直接修复仍是一个新兴课题，但机器学习驱动的安全自动化领域的先前研究已表明了一个有希望的方向。

2、网络流量分析

随着基于数据挖掘的算法以及近期LLM的融合，网络流量分析领域取得了显著进展。传统算法（例如决策树或支持向量机）曾被用于分析流量以检测模式和异常。

基于LLM的方法为流量分析引入了一种新的范式：LLM可以处理和理解大量非结构化数据（例如网络日志），并自动执行事件响应操作。它们可以推荐或自主执行预先定义的威胁响应，从而减少人工分析所需的时间和精力。

与最先进的方法相比，基于LLM的方法还可以使用有限量的训练数据对不同类型的恶意软件进行分类：尽管网络协议的结构与自然语言不同，但凯尔·斯坦等人（参见2024年9月《新型恶意数据包识别：少量学习方法》）证明基于“变换器”（Transformer）的模型可以捕获和学习复杂的序列模式。与许多经过预训练再进行微调的LLM不同，RTIDS（参见2022年6月《RTIDS：一种基于Transformer的强健入侵检测系统方法》）表明，基于Transformer的入侵检测系统（IDS）通过在训练过程中批量处理网络流集合从头开始训练时可以获得良好的结果。然而，这种监督方法需要大量带标签的数据集，而获取这些数据集可能具有挑战性。随本文发布的LSPR23（2024年9月《LSPR23：来自最大规模实战网络安全演习的新型IDS数据集》）数据集和LSPR24（编注：即2024年“锁定盾牌合作伙伴竞赛”）数据集促进了此类研究。

3、日志分析

已经提出了几种基于数据挖掘的算法来分析文本事件日志（参见2022年7月《评估日志消息模板识别技术准确性的指南》）。这些算法侧重于从文本事件日志中检测线条模式或模板，以下示例展示了两个示例日志消息和一个代表它们的模板：

sshd[27713]: Accepted password for charlie from 10.2.1.223 port 44286 ssh2

sshd[19403]: Accepted password for oscar from 192.168.4.2 port 29643 ssh2

Template: sshd[<*>]: Accepted <*> for <*> from <*> port <*> ssh2

模板检测的目的是识别事件日志中的可变部分，并用通配符替换这些部分（如上例所示）。这有助于从日志中检测事件类型并协助制定事件解析规则。此外，这些见解还可以支持在网络演习中识别和记录受影响的系统，并通过了解事件的范围和影响来确定恢复工作的优先级。

最近的研究证明了LLM在模板检测任务中的潜力。尽管基于LLM 的方法比传统的基于数据挖掘的算法需要更多的计算资源，因此速度往往较慢，但它们也具有一些优势。例如，一些LLM即使在日志数据不足的情况下也能推断出正确的模板。

一些算法，例如LLMParser（参见2024年4月《LLMParser：一项关于使用大语言模型进行日志解析的探索性研究》）和LogPPT（参见2023年7月《基于提示的少量学习日志解析》），使用了局部LLM的微调，这需要使用事件日志消息和预期模板的示例对LLM进行额外训练。另一种更常用的方法是上下文学习，它涉及为LLM提供有关模板检测任务的指令（提示）。通常，提示包含一些带有预期模板的事件日志消息示例以及实际的事件日志消息。图2展示了一个使用ChatGPT的示例。

图 2：LLM提示从日志消息中提取模板

（使用 CHATGPT 4o）

由于LLM的响应是以自然语言提供的，因此通过上下文学习使用LLM的算法必须解析LLM的答案，以便识别收到的响应中的模板。

依赖于上下文学习的算法可以是监督的，也可以是无监督的。现有的监督算法LILAC（参加2024年7月《LILAC：使用具有自适应解析缓存的LLM进行日志解析》）和DivLog（参见2024年4月《DivLog：通过提示增强上下文学习的日志解析》）假设人类专家必须创建一个更大的示例日志消息集，并为每条消息提供正确的模板。在构建提示时，算法会分析用户提供的事件日志消息，并从人类专家准备的集合中选择最合适的示例。监督算法的主要缺点是需要带有专家提供模板的数据集。LUNAR（参见2024年8月《LUNAR：基于无监督 LLM 的日志解析》和LLM-TD（参见2025年3月《使用LLM从安全事件日志中检测模板》）是无监督算法，它们不使用大型手动创建的示例集来构建提示，而是使用带有静态指令和示例的提示。LLM-TD挖掘系统日志消息，而LUNAR采用层次聚类算法来检测适合在一次查询中提交给LLM的类似消息。

在上述依赖上下文学习的算法中，DivLog、LILAC和LUNAR采用了公共的LLM（例如，通过OpenAI接口的ChatGPT）。由于LLM-TD是专门为分析安全事件日志而设计的，因此它通过Ollama框架使用本地LLM，以避免将潜在的敏感日志数据提交给外部服务提供商。

4、与人类互动

在网络防御演习中，蓝队通常负责处理持续不断的用户咨询、状态更新和事件报告。传统上，这些任务通常分配给人工分析人员，他们必须解析支持工单，并执行相关的技术操作或将问题委托给其他专业团队成员。

LLM通过解释支持工单的自然语言内容，提取关键信息（例如IP地址、错误代码、账户名称），并将其与相应的技术操作进行匹配，从而提高了此流程的效率。例如，基于LLM的系统可以扫描大量工单，识别出不同的类别，例如“硬件故障”或“网络钓鱼嫌疑”，并自动启动内部任务以重置凭据或阻止恶意域名。因此，LLM显著压缩了审核周期。

LLM还可以创建易于理解的摘要和事件报告。分析人员无需手动起草冗长的事件后描述，而是可以依靠LLM将系统日志、相关的失陷指标（IoC）和事件时间线汇编成连贯的叙述。在对团队进行事件报告全面及时性评分的演练中，此功能可确保清晰度和一致性，从而降低沟通不畅的风险。

5、远程管理

除协助人机交互外，LLM在直接控制基础设施方面也发挥着关键作用。IT环境需要实时维护配置文件、脚本或修复命令。高效地处理这些问题可能颇具挑战性，尤其是在实战演习的时间压力下，多个系统需要同时更新或打补丁。

LLM可以将高级策略描述或抽象指令转换为代码或命令，从而自动生成恢复受感染或配置错误的系统所需的恢复脚本和配置。例如，当控制逻辑组件标记关键服务器上的未授权进程时，LLM可以建议一个合适的脚本来终止该进程、隔离文件或修改防火墙配置。这样一来，人工操作员无需研究合适的语法或调用不常用的命令。此外，通过与版本控制存储库集成，LLM可以跟踪系统配置的长期变化，并在某个操作无意中破坏了合法服务时提供自动回滚。

一个特别有前景的途径是将LLM与“计算机使用”模式相结合，使LLM可以直接与网络设备或云端管理控制台交互。在这种情况下，语言模型会构建命令，根据已知的最佳实践或策略约束进行验证，然后自主或在最低限度的监督下执行这些命令。虽然这简化了远程管理，但也引发了访问控制方面的问题，以及攻击者操纵LLM发出恶意命令的风险。

6、集成威胁情报源和SIEM系统

利用外部威胁情报源，例如由恶意软件信息共享平台（MISP）提供的情报源，对于增强网络安全工作流程至关重要，因为它可以实现失陷指标（IoC）共享并促进协作。LLM 通过自动化提取、情境化和优先级排序等任务，提供了一种变革性的方法来处理这些数据并将其集成到安全信息和事件管理（SIEM）系统中。

在像“锁定盾牌”演习这样的场景中，LLM可以动态分析威胁情报源，按严重程度对威胁进行分类，并将相关的IoC与更广泛的活动联系起来，从而提供可操作的见解，从而提高态势感知和决策能力。通过LLM将外部情报源与SIEM集成，可以创建一个管道，用于将IoC与内部日志关联起来，按相关性对威胁进行排序，通过上下文分析扩充数据，并提出自动响应建议，例如阻止IP或隔离设备。

这种协同作用减轻了分析师的负担，提高了检测速度，并通过生成全面的报告来促进事后分析。此外，它还支持创建详细的事后恢复分析和经验教训文档，确保组织能够根据过往事件改进其防御措施。尽管存在这些优势，但仍存在一些挑战，包括确保数据质量、通过本地托管或微调模型维护隐私，以及解决LLM 输出中的可解释性问题以证明其决策的合理性。结合MISP、SIEM和LLM的实验框架可以为实际应用提供宝贵的见解，为更高效、更自动化的网络防御铺平道路。

挑战和后续步骤

基于前几节的见解，我们现在在更高层次上讨论当前面临的挑战，并概述实现自动化蓝队愿景的后续步骤。

1、挑战

数据可用性：训练或微调LLM需要大量高质量的数据集。如果数据不足，模型可能会表现不佳或无法有效推广。“锁定盾牌”等网络防御演习为收集高质量的训练数据提供了良好的基础。然而，同样重要的是要注意演习与现实世界事件之间的差异，因为现实世界中的攻击更加隐蔽，并且会运用更广泛的策略。

提示工程：精心设计的提示对于指导LLM的行为至关重要。这尤其具有挑战性，因为最终的愿景是让这些提示自动生成，无需人工干预。一个相关的挑战是所谓的LLM上下文大小。这指的是它一次能够处理的最大信息量（即其“记忆”能力）。如果LLM需要处理大量信息（例如日志文件或网络数据），则需要进行预处理，以便仅为LLM提供相关信息。

幻觉：LLM的幻觉是指指的是它们倾向于生成不准确或虚假的信息，并且很难识别。这种情况在任何LLM申请中都会发生，但在完全自动化的系统中，由于没有“人为干预”来检测幻觉，其后果可能更为严重。

集成复杂性：实现各个组件之间的无缝接口（见图1）是一项重大的工程挑战。

计算能力：运行LLM可能需要大量的计算资源。不过，也有一些有前景的替代方案，例如针对商用现成GPU优化的模型，以及可以缓解此问题的基于云的模型。

衡量有效性：以可重复的方式评估自动化测试系统（及其组件，包括LLM）的性能至关重要。虽然像“锁定盾牌”这样的网络防御演习为此类实验提供了宝贵的机会，但这些演习通常每年只进行一次，这阻碍了进展。理想情况下，应该有一个可重复的环境，以便每年多次测试系统。

2、后续步骤

为了将LLM集成到自动化蓝队中，我们建议采取以下步骤：

集成并评估各个LLM组件：我们估计，以下用例最有可能使LLM比传统解决方案获得显著优势。因此，应首先解决这些用例：

自动化支持工单处理：利用LLM将人工编写的支持工单转换为可操作的技术指令，例如代码、命令或配置文件。
生成人类可读的报告：利用LLM创建详细、易于理解的报告或对支持工单的回复。
检测和修复错误配置：使用LLM识别系统错误配置并生成精确的纠正措施，包括代码或命令。
结合数据获取可操作的见解：使用LLM分析和综合来自多个来源的数据（例如事件日志和网络流量），以发现有价值的见解和模式。

建立可重复的测试环境：为了对自动化蓝队进行持续评估和改进，需要一个支持频繁、可重复测试的测试环境。为了最大限度地提高效率，测试环境的运行应该无需人工专家（例如红队）的手动操作，因为此类资源通常难以获得。该环境可以利用自动化场景，例如在网络靶场内运行，以模拟真实的攻防互动。此外，红队自动化是一个相关的研究领域，我们在本文中并未涉及。然而，这样的测试环境可以作为自动化红队与自动化蓝队的试验场，促进这两个领域的进步，并对新兴的攻防策略进行全面评估。

LSPR24数据集

LSPR24数据集是在2024年“锁定盾牌”演习前的合作伙伴竞赛期间收集的，为蓝队自动化研究提供了坚实的基础。我们发布该数据集是为了促进研究界进行AI驱动的模型训练。该数据集还可以验证集成多源日志的自动化框架，其结构允许更有效地进行日志分析和自动响应，尤其是与LLM结合使用时。

LSPR24的一个关键特性在于它源自复杂而真实的环境。它捕获了超过400 GB的网络流量，涵盖了各种硬件配置、软件堆栈和用户行为，使其成为机器学习的强大资源。主机日志、网络流量和Suricata/Zeek的输出可帮助研究人员观察良性和恶意行为，包括横向移动和命令与控制（C2）方法。

图3展示了LSPR24的高级网络图，连接政府、军事和能源部门。它将5G、AI监控和混合云系统等先进技术与传统的卫星通信、防空和边境安全相结合。

图3：在演习网络中捕获LSPR24数据集的高级概览

图4：LSPR24数据集中的每小时活动

图 4 显示了整个数据集的流量活动。良性流量（绿色）持续保持高位——每小时约100万次流量——而恶意流量（红色）波动较大。值得注意的是，它在第一天格林威治标准时间17时左右急剧下降，然后在第二天再次增强。流行的传统入侵检测系统Suricata（蓝色）的检测结果显示了许多误报（在没有恶意活动的时候）。这表明需要更复杂的技术来检测攻击。

LSPR24包含31.6小时内2000万条流量、20亿个数据包和287 GB的传输数据。该集合涵盖13000个IPv4和IPv6地址的活动，其中372个与红队关联。

与前身LSPR23相比，LSPR24弥补了入侵检测系统（IDS）签名中的缺陷，包括针对Cobalt Strike信标流量的签名。它还改进了内部流标记功能，能够准确分类“踏脚石”攻击，从而增强对受防御网络中可疑行为的分析。

结论

本文回顾了最初于2021年发表的“全自动蓝队”愿景，并探讨了生成式人工智能的进步如何助力实现这一愿景。通过研究生成式人工智能在网络防御领域的潜在应用，我们发现了该领域仍然存在的机遇和挑战。

一个关键的实际障碍是缺乏开发和评估人工智能模型所需的高质量数据集。为了弥补这一差距并促进进一步的研究，我们发布了一个新的标记数据集，该数据集包含在全球规模最大的实弹网络防御演习“锁定盾牌”期间收集的网络流和事件日志。

本文深入剖析了生成式人工智能的作用，并为研究界提供了资源，为迈向完全自动化蓝队的目标奠定了基础和指南。未来的研究应侧重于应对突出的挑战，并利用现有资源来实现这一愿景。

值得注意的是，生成式人工智能不仅对蓝队有用，对红队也同样有用，它有可能在日益自动化的对抗系统和防御系统之间创造新的动态。虽然本文侧重于蓝队的视角，但蓝队和红队自动化之间的相互作用为未来开辟了另一个相关的研究方向。

作者简介：

阿拉德·迪克：荷兰国防学院助理教授

罗兰·迈尔：瑞士网络防御园区科学项目经理

科西莫·梅莱拉：北约合作网络防御卓越中心网络安全专家

毛诺·皮赫尔加斯：塔林理工大学高级安全研究员

里斯托·瓦兰迪：塔林理工大学副教授

文森特·伦德斯：瑞士网络防御园区创始董事

声明：本文来自奇安网情局，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

欧洲学者分析AI大模型在网络安全自动化领域的应用前景

上海人工智能实验室王迎春：走向人工智能安全评估新阶段

从风险清单到治理体系：人工智能安全治理框架的演进逻辑分析

吴世忠院士：统筹发展和安全，积极应对人工智能治理新挑战