基本信息
原文标题:FALCON: Autonomous Cyber Threat Intelligence Mining with LLMs for IDS Rule Generation
原文作者:Shaswata Mitra∗, Azim Bazarov†, Martin Duclos‡, Sudip Mittal§, Aritran Piplai¶, Md Rayhanur Rahman∥, Edward Zieglar∗∗, Shahram Rahimi††
作者单位:The University of Alabama, Mississippi State University, The University of Texas at El Paso, National Security Agency
关键词:网络安全、入侵检测系统、规则自动生成、大语言模型、Agentic AI
原文链接:https://arxiv.org/pdf/2508.18684
开源代码:暂无
论文要点
论文简介:网络入侵检测系统(IDS)是现代网络安全防御体系的核心,其运行高度依赖于人工维护与生成的规则库,以识别和阻断不断演化的恶意攻击。然而,随着网络威胁的快速发展,现有人工生成规则的方式已难以满足及时性与规模化的安全需求。近年来,基于大语言模型(LLMs)的Agentic AI系统展现出自动决策与过程自循环优化的能力,在网络安全自动化领域引发广泛关注。本文提出FALCON框架,一个利用大语言模型驱动的自主网络威胁情报(CTI)挖掘与IDS规则自动生成系统。FALCON可实现CTI信息到IDS规则的自动转化,通过内置多阶段验证机制保障语法、语义和运行效率。论文进一步构建了覆盖主流IDS平台(Snort和YARA)的CTI-规则数据集,对方法的通用性和有效性进行了定量定性评估。实验结果显示,FALCON自动生成规则的准确率达到95%,安全分析专家一致性达84%,验证了该方法在复杂威胁环境下的实用性和前沿性。
研究目的:随着全球每年数万亿次入侵尝试的发生,以及新旧威胁的持续迭代,入侵检测系统(IDS)在保障网络与主机安全方面扮演至关重要角色。当前,大多数IDS依赖专家利用CTI分析结果人手编写规则,过程繁琐且极易受制于人员短缺与知识转化瓶颈。新型威胁层出不穷,每一次变体攻击都可能需要新增、调整甚至重构规则库,然而人工方式无法高效应对如此高频的变化。此外,传统规则库膨胀带来性能负担,进一步增加系统维护难度。为打破这一桎梏,本文旨在构建一个高度自动化、面向异构平台(网络/主机)、内嵌验证的IDS规则生成框架,显著提升规则开发与更新的响应速度、准确性及可扩展性,从根本上缓解人工分析的困境,为网络安全自动化提供坚实技术支撑。
研究贡献:
提出FALCON——一种自主的IDS规则生成框架,实现网络威胁情报(CTI)到可部署规则(Snort/YARA)的自动化高效转化。
创新性构建CTI与IDS规则的语义相似度评估模型(CTI-Rule Semantic Scorer),量化威胁情报与规则之间的逻辑/功能一致性。
实现基于已有规则自动检索与复用机制,能够根据新CTI自动决定生成新规则或对现有规则进行优化与更新,提升规则管理的适应性与效率。
构建并公开覆盖Snort和YARA平台的CTI-规则对齐高质量数据集,并结合量化指标与专家质性评估,系统验证FALCON的准确性和通用性。
引言
入侵检测系统(IDS)作为抵御网络攻击的重要工具,每年要面对惊人的攻击次数,同时90%以上的安全漏洞均源于未得到及时修复的已知弱点。现有主流的签名型IDS依赖于一套由安全运营中心(SOC)分析师手动积累和维护的规则库,对网络或主机的行为和内容进行比对和判断。这些规则的制定通常需要综合自动工具提取的攻击签名、在沙箱或受控环境中观察得到的行为特征以及相关威胁情报(CTI)等信息,并通过人工分析转化为可被IDS引擎实时检测的格式。
然而,这类依赖专家手工分析和规则编写的模式在现代网络安全体系中正面临巨大挑战:一方面,攻击者不断丰富战术和手段,产生新的攻击变体,推出大量需要快速应对的零日威胁;另一方面,规则库的规模和复杂度持续增长,维护难度和系统负载进一步上升。任何规则库的延迟更新或疏漏都会直接降低整体安全防护能力,增加业务损失甚至安全事件发生的风险。此外,大量结构化与非结构化的CTI信息每日涌现,包括IoC(威胁指示器)、沙箱分析日志、行为轨迹等,人工分析与转化已成为制约规则开发响应速度和准确性的主要瓶颈。同时,由于威胁变体会导致规则膨胀(rule bloat),过多冗余或重复的规则不仅耗费算力,还可能造成检测准确率下降或误报增多。因此,除了要求能高效识别新型攻击,IDS还要具备对已有规则库智能更新、合并、废弃等适应变化的能力。
在此背景下,本文提出一种自主性的IDS规则自动生成和管理框架FALCON,通过结合大语言模型强大的文本理解和生成能力,赋能智能Agent,实现从CTI分析到规则输出、验证和优选的全过程自动化与智能化,显著减少人工参与,提升响应效率。同时,为支持实际生产环境,FALCON不仅能够针对网络型(Snort)和主机型(YARA)IDS生成有部署价值的规则,还将复杂的语法、语义和性能校验内嵌在系统中,最终由人类安全专家进行人工复核。本文的工作聚焦于充分利用agentic LLM体系创新自动化网络威胁防御手段,实现规则开发的灵活性、准确性以及可解释性,为网络安全防御体系升级提供了强有力的理论和实践支撑。
相关背景
入侵检测系统(IDS)是保护计算机网络和主机系统安全的核心工具,主要分为两大类:网络型(NIDS)和主机型(HIDS)。NIDS旨在检测和阻断网络层面流量中的恶意行为,如Snort即为主流开源NIDS代表;HIDS则侧重于本地主机级别的异常监控与威胁发现,YARA是在安全研究/反病毒领域广泛使用的HIDS规则引擎。就检测技术路径而言,签名型IDS由于高效、低误报和对已知威胁识别能力强而被广泛应用,其核心在于维护一套高质量的攻击特征/行为签名规则库。
随着人工智能、特别是大语言模型(LLMs)的快速发展,AI自动化能力在网络安全领域获得了新的突破。LLMs由于对自然语言、多种格式信息的理解与编码能力突出,已被用于安全日志分析、威胁情报综述、IoC提取、自动生成安全测试用例等任务,但其在规则自动生成、场景适配和实际部署的深度融合仍处于探索阶段。
近年来,Agentic AI的兴起,即具备自主目标管理、过程规划和自反馈优化能力的智能体,将其用于网络安全自动化防御逐渐成为前沿研究方向。例如,早期的NeuroYARA尝试利用学习排序机制选优YARA规则,但缺乏真正的自主性与多阶段自我优化链;代码生成领域的Agentic范式则常用于自动化描述转代码、语法/性能多层次迭代完善,借此为安全规则生成与优化流程提供参考。部分最新进展显示,将LLM作为情报理解和规则推理引擎引入,辅以多轮反馈机制,可以显著提升自动化程度和输出质量。然而,现有研究多聚焦单步生成,缺乏深度内建的评估-反馈-再优化闭环,且在语法、语义、性能等多维度验证方面仍不足。FALCON正是在此基础上,融合Agentic AI和定制化语义评估,推进IDS规则自动生成的全流程智能化和高信度演进。
FALCON方法框架
FALCON框架定位为一个完全自主的IDS规则生成与智能验证系统,其总体架构分为“生成阶段”和“验证阶段”两大流程,旨在实现从原始网络威胁情报(CTI)到最终可部署规则的完整闭环。
在生成阶段,系统首先接受CTI输入,其中包含IoC(如IP地址、文件哈希)、行为特征等结构化或半结构化威胁描述。随后,通过内置的规则检索模块,自动关联并检索当前已部署的相关IDS规则,为后续生成提供上下文补充,提升新规则与现有知识库的一致性和资源复用率。之后,Rule Generator LLM Agent结合CTI内容、检索到的相关规则与任务指令Prompt,输出初步的规则候选(如YARA或Snort语法规则)。
针对输出的候选规则,FALCON设计了包括语法校验、语义匹配、性能评估在内的多级验证流程。首先,Syntax Validator子模块会检测规则格式是否满足目标平台(如Snort、YARA)语法约束,确保可被实际解析和运行。若语法正确,则Semantic Validator进一步评估规则与CTI的功能一致性。由于CTI与规则在表现形式、信息粒度等方面高度异质,传统代码相似度/抽取式措施往往难以捕捉其深层语义映射。为此,FALCON引入了创新的CTI-Rule Semantic Scorer模块,基于Bi-Encoder神经网络架构,分别对CTI描述与规则内容独立编码,并通过余弦相似度衡量二者在语义空间的耦合程度。该模型采用对比学习方法进行微调训练,使得真正对应的CTI-Rule对在嵌入空间距离收敛,显著提升跨模态任务的适配率。
在性能验证阶段,Performance Validator则考察规则在实际部署环境中的运行影响,具体如执行效率、资源消耗、与已部署规则的冗余度等,智能化探测低效/过度复杂的规则结构。整个流程中,任何一环未达到预设阈值均会向Rule Generator模块反馈定向优化信息,形成多轮优化的Agentic自循环机制。最终,所有通过系统自动校验的规则将由人工安全专家进行终审,为实战部署保驾护航。
技术实现细节方面,框架内部模块均通过Orchestration Agent统一调度,兼顾自动化与人工可控性。CTI-Rule Semantic Scorer在模型结构与微调过程中坚持高效、轻量化和泛化能力强的设计原则,保证在大规模实际安全场景下具备落地价值。此外,FALCON的数据流、决策逻辑及交互均可裁剪和精细配置,适配多源威胁情报输入和主流IDS平台需求。历经规则输入、上下文检索、LLM自动生成、三重验证与人工复核的链式流程,FALCON实现了网络威胁防御领域的自动化、智能化与可靠性的有效统一。
实验设计评估
为全面验证FALCON的有效性与鲁棒性,论文开展了多维度的实验和评测。首先,作者从开源社区与威胁分析报告中收集了大量高质量的Snort和YARA规则及其对应的威胁情报,构建了覆盖面极广的数据集。数据集内每条规则至少关联两个不同CTI实例,覆盖不同复杂度和场景,既包含结构化输入也支持半结构化文本,以反映真实应用环境。为测试检索与语义映射能力,还特别构建了“相关但已过时规则”集合,用于模拟升级、修订、优化现有规则的自动化场景。
在评估内容上,首先对创新的CTI-Rule Semantic Scorer开展检索准确率(Recall@10、MAP)和语义一致性(对角召回、阈值F1)测试,对比各类主流编码模型和传统稀疏检索算法,充分展现本方法在跨模态高效匹配中的突出优势。其次,选取了多种大语言模型(包括GPT-4o、Llama-3.3、Qwen3、Mistral等),对比不同模型在自动规则生成中的表现,分别给出CTI-Rule匹配度、RAGAS、BERT-F1多元评分,考察各种参数规模、模型家族下的普适表现及实际适配性。随后,论文将FALCON完整自动化流程应用于60个人工分类易/中/难三档的实际案例,邀请三名资深安全专家独立打分,采用Likert尺度评价生成规则的语法、语义和性能等多维质量,兼顾通用性与可解释性。与此同时,所有实验均使用现代GPU平台,关键逻辑明晰可复现,数据及代码完全公开,支持随时二次开发与真实环境匹配测试。
实验结果
实验结果充分显示FALCON在自动化IDS规则生成与验证领域具备极高准确性与适应能力。具体而言,CTI-Rule Semantic Scorer在Snort数据集上的召回率Recall@10达到35.8%,MAP达到28.2%,语义一致性F1值高达0.941,远超市面主流嵌入模型(如MiniLM、mpnet等)及稀疏检索基线,甚至比GPT-4o等通用大模型表现更稳定。这表明FALCON创新的跨模态Bi-Encoder架构切实捕捉了CTI与IDS规则间复杂的功能和逻辑映射,为多步骤自动化流程奠定坚实基础。
在规则生成端,使用不同容量的LLM,FALCON都能获得CTI-Rule语义分数0.70-0.73的高水平表现,结合RAGAS与BERT-F1多元评测,显示复杂场景下的自动规则生成任务也能达到与人类专家相当的决定水平。值得注意的是,大模型通常首次输出即接近可用标准,而小模型(如3B-8B规模)往往需要多次验证与迭代方可达标,这一现象突出印证了系统内设多轮Agentic反馈循环设计的必要性和有效性。此外,专家评分(Likert量表)显示,最终自动生成的规则,在语法、语义、性能三维达成85%以上的平均一致性,部分任务可达100%,高度实现人工与自动化的一致和互补。
更深层的分析发现,传统层面对规则与语义的评价指标各有倾向:如RAGAS往往高估复杂任务的语义匹配度,而BERT-F1则易出现低估现象;相比之下,FALCON语义评分器的得分曲线与专家打分、人工对比结果几乎完全一致,表明其不仅在形式上实现了自动评价,更在“语义映射”本质上切实还原了人工规则评审中的逻辑判断。由此,FALCON的创新点不仅体现在自动化和效率,更在于实现了“可解释性、安全性、人工智能与安全专家评判标准”的深度融合。
论文结论
本文提出的FALCON体系代表了一种以大语言模型和Agentic AI技术为核心驱动力的新一代网络威胁智能响应方案。通过端到端自动化CTI到IDS规则的生成、验证和优化流程,FALCON显著提升了规则库开发、升级和适配的全流程效率,突破了长期困扰网络安全领域的人工瓶颈。系统性实验表明,其创新设计的多级验证机制与跨模态语义评分模型,不仅在实际部署中具备极高的准确性和复合安全专家标准的可信性,还为业界带来了自动化+可解释性+灵活扩展的全新范式。同时,FALCON提供了覆盖主流平台的数据集与代码,便于学界和业界持续优化迭代。未来,作者建议进一步拓展FALCON对于多模态威胁情报(如图像、流量、日志等)的适配能力,并引入实时威胁反馈机制,实现更大规模、更高频次的规则更新与系统自我学习。本研究为提升自动化网络安全攻防、推进IDS智能化与持续进化提供了坚实的理论基础和实践参考。
声明:本文来自安全极客,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。