基本信息
原文标题:Security Logs to ATT&CK Insights: Leveraging LLMs for High-Level Threat Understanding and Cognitive Trait Inference
原文作者:Soham Hans, Stacy Marsella, Sofia Hirschmann, Nikolos Gurney
作者单位:USC Institute for Creative Technologies, Northeastern University
关键词:认知型网络安全、大语言模型(LLM)、网络心理学、入侵检测系统(IDS)、MITRE ATT&CK、认知偏差
原文链接:https://arxiv.org/pdf/2510.20930
开源代码:暂无
论文要点
论文简介:该论文关注如何从低层次的网络安全事件数据自动推断出攻击者的高层次意图与决策心理特征。传统的网络防御依赖于人类分析专家对入侵检测系统(如Suricata)日志的手动解读,以及对MITRE ATT&CK攻击链的映射,这一过程不仅耗时费力且容易出错。
本文提出利用大语言模型(LLM)自动解析和分段IDS网络日志,通过策略驱动的提示(prompt)策略将连续网络流量分解为具有行为意义的阶段,并基于检索增强生成(RAG)方法将这些阶段映射为MITRE ATT&CK技术类别和攻击心理偏好。方法能够揭示日志中行为序列与攻击者心理决策点之间的联系,桥接网络层数据与高层意图的语义鸿沟,并为认知自适应网络防御和攻击者认知特征推断提供基础。
实验结果表明,所提方法能够直接从纯网络日志层面有效还原诸如侦察、横向移动等攻击阶段,并具有较高的精度,尽管在受网络可观测性限制的阶段存在缺口。
研究目的:本研究旨在解决传统网络安全事件分析中存在的核心难题,即如何从庞杂、碎片化且语义低层的入侵检测日志自动推断出高层次的攻击战略、MITRE ATT&CK技术阶段以及攻击者的认知意图和心理特性。现有方法依赖于人工关联和解释,效率低且容易遗漏攻击细节,尤其在需要实时反应的网络防御场景下显得力不从心。对此,作者提出基于LLM的自动化方法,突破仅凭规则或静态特征匹配的局限,尝试实现对攻击流行为阶段、战术映射及潜在认知特征的机器化捕获,为未来认知自适应网络防御体系奠定基础,并推动网络心理学特征推断的落地。
研究贡献:
- 提出了一种基于LLM的IDS日志行为分段与高层策略自动推断框架,实现从原始网络流量到MITRE ATT&CK技术的端到端推理。 
- 设计了策略驱动的提示与日志分段方法,有效提升了对连续网络活动行为单元的自动化识别能力。 
- 将检索增强生成(RAG-LLM)技术引入网络行为到ATT&CK映射任务,利用外部知识库增强推断准确性。 
- 深入探讨行为序列中的协议变换、工具切换等特征与攻击者认知决策模式的关联,并验证能够捕捉认知偏差(如损失厌恶、风险容忍等)的潜力。 
- 在真实网络攻防实验数据集(Operation 418)上进行了对照验证,与基于人类自述行为记录的推断结果进行了严格对比,展示了LLM方法在仅依赖网络日志场景下的有效性及边界。 
引言
在网络防御领域,安全分析人员需不断从大量网络遥测数据,如入侵检测系统(IDS)生成的告警与流量日志中,提取威胁信号并试图洞悉攻击者的策略与意图。传统IDS仅能提供离散、细粒度的事件流,难以给出攻击链的全貌,更无法揭示不同事件之间的因果关联与战略层面的联系。大量研究和实际操作表明,将这些底层事件手动映射至MITRE ATT&CK等高层行为模型通常需要资深分析师介入,对事件进行逐步递归、归纳和假设,其过程繁琐,不仅效率低下且容易因主观偏差或信息碎片化导致重要线索遗漏,无法适应实战环境下对实时性和准确性的要求。
针对上述挑战,本文提出一种结构化的大语言模型框架,直接基于IDS网络日志推断攻击者行为阶段、策略意图及可能的认知偏好。新方法通过策略化提示与分段流程,将连续的网络事件高效分组为语义明确的行为阶段,每一阶段再利用知识增强型的LLM对其进行MITRE ATT&CK技术映射,并进一步挖掘如工具切换、协议变换、网络枢纽操作等行为特征对应的认知心理信号。此框架的核心理念是,攻击者在网络中的操作反映了其基础认知偏向,如损失规避、目标持久性等,这些特征可通过仔细分析事件序列被自动捕捉与建模。因此,该研究不仅旨在实现端到端的攻击行为理解,更推动了以认知为核心的自适应网络防御新范式,改变仅凭低层规则检测的局面,让网络安全推理更贴近真实的攻击心理和策略逻辑。
相关背景与相关工作
MITRE ATT&CK作为当前主流的攻击者战术、技术和操作(TTPs)本体论,不仅成为行为级网络威胁分析的基础架构,也在研究、实战及行为建模等多领域被广泛采用。主流做法多依靠静态规则或人工设定的告警与技术映射,但此类方法往往难以捕获跨主机、跨时间的上下文关联,难以实现对复杂攻击策略和意图层面的有效推理。机器学习与大语言模型的最新进展使学界对从非结构化或半结构化行为数据中捕捉复杂意图充满期待,部分研究已将LLM应用于分析网络安全报告或攻击者文字记录,在可读性强的数据上挖掘攻击心理特性。
遗憾的是,这些成功多集中在具备丰富自然语言信息的领域,对于纯粹“机器生成”的网络日志——如Suricata IDS输出——由于缺乏直观的语言结构、上下文连贯性以及行为切割界限,现有LLM技术难以直接迁移。近期已有工作尝试将LLM用于攻击者认知推断,但大多仍依赖于有意识编写的攻防笔记,对实际网络运营环境的数据闭环分析能力欠缺。
因此,本论文基于上述不足,提出将结构化提示工程、检索增强生成与行为分段等先进技术融合,对原始网络日志进行自动分段、战略映射与认知解释,不仅补全现有以规则驱动为主的网络安全分析能力,也为实现在运环境中的心理模型推断提供了坚实的技术支撑。
数据集与实验设置
本研究所采用的数据集来源于Operation 418攻防实验,这是一个高度控制的网络攻防演练,旨在最大限度还原真实企业场景下攻击者的行为决策过程。参与者为受过专业训练的红队人员,其任务是在为期两天的对抗中,突破包含分区内网、域控、Web与文件服务器等企业网络设施的防御,与模拟蓝队形成实战攻防。所有攻击操作均在隔离虚拟机下进行,网络访问和外部资源受限,以保障数据的真实性和可控性。
作为实验数据采集的主体,本研究重点使用Suricata IDS对入侵流量进行全量捕获,涵盖告警、流量元数据、协议信息等多维度字段。值得注意的是,所有数据被封装在加密通道内,因而实际载荷内容不可见,分析需依赖流行为特征(如时间戳、数据包数量、方向、TLS指纹等)及头部元数据。此外,为支撑实验结果的科学评估,作者采用同一实验数据集下攻击者自述操作笔记(OPNOTES)建立上限对照组,两者分别反映行为从“机器可见”与“人类自述”两个角度的全貌。
实验评价采用战术覆盖率、精度、召回率和F1分数等多项指标,从整体与各技术类别两个粒度精确对比模型推断能力。如此实验设计不仅具备透明的溯源性,也满足了结果可复现与可对照的科学要求。
研究方法
本文提出的分析框架采用了两阶段处理流程:首先是基于LLM的行为动作分段,其次是结合检索增强生成(RAG-LLM)的MITRE ATT&CK映射。具体而言,Suricata IDS原始日志通常存在冗余和碎片化,有时一个用户操作会对应多条相互相关的日志记录,彼此间的内在联系若人工归纳十分繁琐。为此,作者设计了一个LLM驱动的增量分段算法——新日志条目会在与当前行为组的上下文总结基础上被判别是否属于同一操作,或另起新分组。这样,每条操作的起止边界均自动确定,最终得到以操作决策为单位的、结构化人类可读行为序列。

接下来,每个分段行为被输入到一个RAG-LLM模块,该模块先通过与全量MITRE ATT&CK技术与战术知识库的文本和元数据做检索比对,再由大语言模型根据匹配结果生成推断与解释,并结合前后相关操作实现上下文逻辑推理。例如,若行为以侦察为主,后续出现横向移动,则模型可综合历史操作链,实现对更深层策略的连续推理。这样一来,原本低语义密度的IDS事件流被自动转化为结构化的ATT&CK战术、技术序列,且每个映射结果具有详细解释。框架还特别关注如协议转换、工具切换、链路枢纽行为等复杂操作,这些特定信号常是攻击者策略调整或认知策略转变的外部表现。通过LLM的深度分析,可以进一步探索与人类心智特征——如损失规避、模糊厌恶或目标持久性——的隐含关系,为网络心理建模提供素材基础。
实验结果
在验证阶段,作者以OPNOTES(人类自述操作笔记)推断结果为理想“上限”,将仅依赖机器网络日志与全知人类记录的战术推理准确性进行了系统对比。总体上,Suricata + LLM方法在绝大多数攻击阶段展现出高精度,尤其是在网络流量可观测(如侦察、横向移动、数据收集等)存在明显流量特征的环节,模型提示的ATT&CK标签与OPNOTES高度重叠,战术覆盖率接近基线。

但在依赖主机内部、会话暂不可见或认知主导的阶段(如持久化、命令与控制、敏感信息导出等),受限于网络流量观测天然短板,Suricata日志分析法召回率相较OPNOTES明显减弱。不过模型在行为判别时依然具备稳定的泛化能力,能充分挖掘网络层可观测的所有攻击迹象。分技术类别来看,侦察、横向移动等外部可见性强的阶段基本与OPNOTES推断结果一致,而如持久化、命令控制与数据导出则往往在OPNOTES有丰富记载,Suricata日志层面难以直接推断。可理解的是,这种结果反映了“观测界限决定推理边界”的本质——只有被网络传感器感知的数据才能被模型捕捉。

整体来看,Suricata日志驱动的LLM模型有效还原了多数关键攻击阶段及其结构,验证了利用机器日志自动推理高级战术的可行性,并为未来在实际无人工支撑条件下的认知推理提供了基础。此外,实验在横向分析如流量枢纽切换、工具更替等复杂行为时,发现模型可敏感捕获此类认知信号的变换节点,为攻击者心理刻画开辟了新路径。

讨论与未来展望
本文结果充分表明,大语言模型具备从低语义、强结构化的网络日志中抽取行为模式并推断高层策略的能力,部分场景下甚至逼近基于人类自述操作笔记的最优解释界限。虽然在主机内行为与受限可观测方面存在固有限制,但通过上下文优化、知识库增强和阶段分段,模型在外部表现行为上的解释可信度大幅提升,也让自动化威胁推测更加高效和细致。
作者也清晰指出,当前方法的主要边界在于网络传感器所能观测的维度——主机内操作、情境化决策和某些深层心理驱动因网络流量本身不见得有明确外在表现,模型难以直接捕捉。不过,即便如此,LLM依然能够捕获诸如工具切换、协议变换等行为节点,这些正是心理动因在技术操作上的外显表现,说明自动化认知型推理在网络安全实战中具备落地价值。
展望未来,作者计划进一步扩展方法的适用范围,如融合多类型数据源(主机日志、登录行为、外部情报等),以“全栈化”攻击链视角丰富推理上下文,提升推断的全面性。同时,计划深入探索攻击者认知偏差自动检测,接入理论性更强的心理建模工具,尝试拟合真实攻防环境下的认知型对抗博弈。最终目标则是将该框架部署到实时监控体系,实现持续、动态的高级威胁与心理特性推断,使网络防御不仅能知其然,更能知其所以然。
论文结论
综上,本论文提出并验证了一种基于大语言模型和逻辑增强分段的网络入侵日志高层行为推理框架,首次实现了从纯网络机器日志到MITRE ATT&CK技术及攻击者认知特质的端到端自动化推断。
实验证明,所提方法在网络层明文可观测阶段具备高精度与合理召回,基本达成对多数攻击链的重构,且适用于缺乏人类辅助记录或实时响应要求较高的复杂安全场景。尽管受制于观测边界尚存在不足,但通过行为节点切换、流量模式变换等特征,LLM可初步捕捉认知心理特征与策略转变,推动了认知自适应网络防御研究的前沿。
作者预计,结合多源数据、提升心理建模深度并实现实网部署,有望开启网络安全领域“智能认知”与“心理驱动”防御的新纪元,为主动、实时、高层次的威胁狩猎与攻击者画像提供技术支撑。
声明:本文来自安全极客,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。
