基本信息
原文标题:MultiFuzz: A Dense Retrieval-based Multi-Agent System for Network Protocol Fuzzing
原文作者:Youssef Maklad, Fares Wael, Ali Hamdi, Wael Elsersy, Khaled Shaban
作者单位:
MSA University, Giza, Egypt(前四位作者)
Qatar University, Doha, Qatar(Khaled Shaban)
关键词:协议模糊测试、网络安全、有限状态机、逆向工程、大语言模型、多智能体系统、密集检索、检索增强生成、链式思考
原文链接:https://arxiv.org/abs/2508.14300
开源代码:暂无
论文要点
论文简介:本论文提出了一种创新性的网络协议模糊测试框架——MultiFuzz。它针对传统AFL系协议模糊测试工具在语义理解和变异方法上的局限,结合最近LLM(大语言模型)驱动的研究进展,构建了基于密集检索的多智能体系统,实现了检索增强的生成(RAG)和结构化工具辅助推理,在提升协议状态空间探索的同时,提升了协议变异的合理性和稳定性。
MultiFuzz以模块化多智能体协作为核心,每组智能体负责特定子任务,通过密集向量检索对协议文档进行高语义索引,增强模糊测试过程的语境适应与推理能力。实验以实时流媒体协议(RTSP)为对象,结果显示MultiFuzz在状态空间探索、分支覆盖等多个维度均较NSFuzz、AFLNet与ChatAFL等前沿工具有显著提升。这一工作不仅拓宽了自动化协议模糊测试的新范式,也为未来智能体模糊测试系统的研究提供了可扩展的基础架构。
研究目的:本文聚焦于网络协议模糊测试领域,特别是应用于复杂、状态丰富的网络协议时,现有模糊测试工具面临多方面的挑战。传统方法无法有效理解并利用协议的复杂语义和文法结构,对状态深度探索能力不足,且难以应对会话级多包交互中的有效状态维护。近年来,LLM被引入模糊测试以辅助语法推理和输入生成,但也存在模型幻觉、不可靠输出以及对协议知识假定过多等问题,实际应用中依然存在盲区。为此,作者提出以多智能体协作、检索增强生成和工具辅助推理为核心的新型框架,旨在显著提升模糊测试对协议状态空间的探索能力、增加变异的语法合规性、降低系统失效点,并兼容主流模糊测试生态体系。最终目标是推动协议模糊测试向智能化、自主化方向跃升,解决协议感知、深状态探索与稳定性方面的瓶颈问题。
研究贡献:
提出MultiFuzz,一种基于ChatAFL架构的多智能体协议模糊测试系统。每组智能体针对特定子任务,增强工具集成、向量数据库上下文感知以及基于CVE的漏洞知识。
提出了一种基于智能体分块和嵌入的新型协议RFC文档处理方法,实现了协议知识的语义化索引和检索,服务于多智能体推理流程。
在智能体推理流程中,集成了密集检索机制,实现了协议上下文感知和高效的模糊变异指引。
在面向状态协议的场景中进行了系统评测,实验证明MultiFuzz在分支覆盖、状态探索及状态转移等维度均优于NSFuzz、AFLNet和ChatAFL等主流前沿工具。
MultiFuzz实现了协议感知和生成式AI智能协调的深度结合,为构建可拓展的智能化自动模糊测试系统奠定了基础。
引言
网络协议作为现代通信系统的核心,其安全性若遭受破坏,将严重威胁到整个基础设施的可靠运行。协议模糊测试作为漏洞挖掘的重要方法,通过自动化生成测试用例,故障注入和异常交互,已被广泛应用于协议实现脆弱点的挖掘。随着网络服务复杂度与规模的提升,探索协议实现中的缺陷,尤其是面向具有有限状态机(FSM)的状态协议,愈发重要。协议模糊测试旨在系统性地测试协议实现,通过生成畸形、预期外或半合法的协议消息,检测系统异常行为。然而,传统模糊测试方法难以应对结构复杂、状态丰富的协议,难以高效管理深层状态转移与会话级多消息交互,亦常因缺乏语义理解导致会话失效等问题。
近年,学界在协议模糊测试领域进行了多项创新,包括状态感知输入生成、逆向工程支持的自动化协议分析等。尽管如此,在未公开或专有协议下,模糊测试的高覆盖率与深度状态探索依旧充满挑战。与此同时,LLM的兴起为自动化软件工程、网络安全领域带来了新的机遇。LLM因其强大的推理与生成能力,已被应用于协议文法推理、有效输入序列生成、状态行为模拟等多项任务,展现出巨大潜能。ChatAFL等LLM驱动的协议模糊测试工具有助于提升状态空间探索深度,但其结果依赖LLM固有知识,易受幻觉、输出不一致等问题困扰,尚难全面突破实际需求瓶颈。
针对这些难题,本文提出了MultiFuzz:一种集成密集检索、多智能体协作的协议模糊测试新架构。它以ChatAFL为基础,融合检索增强生成与ReAct式的链式思考推理,将模糊测试流程模块化分配给多个具备专责的智能体,利用工具辅助与向量数据库检索,实现协议上下文的高效维护与推断。作者通过实验验证了MultiFuzz框架在RTSP(实时流协议)等复杂状态协议场景下的有效性,数据显示在分支覆盖、状态探索和状态转换等方面,均显著优于目前最优(SOTA)的主流协议模糊测试工具。论文最后阐述了结构安排,并指出后续工作的研究方向。
相关工作与背景
网络协议模糊测试是信息安全领域的重点技术之一,致力于通过异常包注入、输入变异和状态遍历,发现协议实现中的安全漏洞。传统网络协议模糊测试技术主要包括变异型和生成型两大类。变异型方法通过对已有有效输入进行位反转、算术替换、块级调整等操作生成新测试用例,虽然易于部署,但难以充分探索协议的复杂文法与状态。生成型方法则直接依据协议规范或模板自动构造测试用例,但依赖详尽的协议知识,难以适配闭源或文档不全的实现。在知晓目标系统程度上,模糊测试还分为黑盒(仅通过输入输出观测驱动)、白盒(需代码级分析,如符号执行与污点分析引导测试)、灰盒(采用轻量化插装、覆盖反馈指导变异)三类。实际应用中,受限于协议代码可得性,灰盒方法(如AFLNet)因兼顾低部署成本和较优的覆盖能力被广泛采用。
近年来,LLM的引入极大拓展了协议模糊测试的智能化边界。LLM通过大规模语料和文法预训练,具备复杂协议语义的抽象理解与输入推理能力。最新研究如ChatFuzz、ChatAFL通过LLM帮助语法推理、协议输入构造和状态预测,大幅提升了覆盖率,部分突破了传统模糊测试在输入变异和状态探索方面的限制。MSFuzz则利用LLM提取协议抽象语法树,辅助语义感知的变异。与此同时,LLM也日渐融入其它自动化流程,如RPA与安全扫描等,体现出潜力巨大。大模型与安全自动化的结合,正逐渐形成新的技术范式。
多智能体系统方面,近年来在自动化安全测试领域亦受到关注。典型如PentestAgent框架,将渗透测试流程分解为若干专责智能体,各司其职、协同作业,提升了效率和任务适应性。在协议模糊测试中,多智能体架构有助于拆解复杂流程,提升任务分工与上下游协同的灵活性,但同时也带来了任务分配优化、上下文共享与记忆管理等新问题。
整体来看,前人的协议模糊测试方法在深状态探索与协议上下文理解方面始终存在瓶颈。LLM驱动的新方法虽提升智能性,但仍然易受幻觉和协议知识覆盖不足的限制。多智能体+LLM+密集检索正成为整合多方优势、突破现有限制的新方向,本文的MultiFuzz框架正是在这一技术交汇点上的创新典型。
MultiFuzz框架与方法详解
MultiFuzz框架是在AFLNet和ChatAFL架构基础上,融合了密集语义检索与多智能体协作的新一代协议模糊测试平台。其基本思路是,将协议文档(RFC)经过智能过滤、分块、命题化重构和向量化嵌入,建立可被多智能体即时检索的上下文知识库,各智能体协同参与模糊测试不同阶段,利用密集检索获取高相关协议知识,辅助输入生成与变异决策,实现变异的结构化、协议感知与场景自适应。
整个流程第一步是对协议RFC文档进行预处理。本文将协议文档细分为段落,通过语义分类器自动筛选出协议相关的技术性材料,包括状态机描述、命令格式和响应规范,仅保留对模糊测试有用的内容。随后采用LLM驱动的命题化处理,将每个段落转化为可独立理解的原子命题,全部命题构成协议知识的基础。
在命题化后,通过Agentic Chunking机制,进一步利用LLM将语义相近的命题归并为若干语义一致的小块(chunk),每块生成精炼标题与摘要,实现“主题-实体-语义三位一体”的协议知识索引。所有chunk采用高维向量嵌入,存储于Chroma数据库,为后续密集检索提供支持。
框架的智能体系统分为三大“crew”:语法提取组、种子增强组、覆盖突破组。语法提取组负责利用检索知识,生成协议请求的结构化JSON模板和格式化输出,丰富后续模糊输入变异空间。种子增强组基于协议FSM与上下文检索,将新的协议请求插入现有测试序列,确保输入序列在协议语法和状态机层面兼容和深度充分探索。覆盖突破组则聚焦于模糊测试过程中遇到“覆盖瓶颈”时,通过分析历史通信、检索协议知识及CVE漏洞信息,生成突破状态限制、引发新状态转移的智能输入,有效避免模糊测试长期陷入“状态盘旋”难以前进。
各组均配备密集检索智能体负责上下文检索,支持协作推理与一体化上下文感知。为了实现高度模块化与自动化,MultiFuzz使用了LangChain和CrewAI作为智能体和工具编排的基础框架,支持结构化分工与流程自动推进。
实验设计与评估指标
MultiFuzz的实验设计充分考虑了协议状态机深度、语法复杂性及与主流工具的公平对比。作者选择了Live555媒体流服务器的RTSP协议作为测试对象,RTSP以丰富的状态交互和复杂的会话管理闻名,是状态感知型模糊测试的理想评估场景。实验采用Llama系列大语言模型,分别分配至各智能体队列,兼顾推理能力与长文本窗口,实际运行过程中通过多种模型组合提升各子任务协同效能。
实验在同一硬件与操作系统(Ubuntu 24.04.02 LTS,Intel Core i5-11300H,16 GB内存)环境下,与AFLNet、NSFuzz和ChatAFL三款SOTA模糊测试工具分别对照进行。所有工具均以默认参数、24小时独立测试时长、三次重复实验,确保结果的公平性和统计显著性。测试指标涵盖协议实现中的唯一崩溃数、状态覆盖、分支覆盖、路径总数等,多维度衡量模糊测试系统在实际协议漏洞挖掘中的效率及深度。
为方便复现与数据管理,评测平台基于ProFuzzBench自动化基准环境构建,采用Docker容器运行并严格对实验条件及测试周期进行一致性控制。所有原始数据均在多轮实验后做均值统计分析,以消除偶然性和测试噪音影响。
评估关注三大核心指标:
分支覆盖(Branch Coverage):测试中被触达的唯一条件分支总数,衡量测试深度与漏洞发现概率。
状态数(Number of States):被探索到的协议有限状态机状态数,反映对协议行为空间的覆盖广度。
状态转移数(Number of State Transitions):有效触发的协议状态迁移次数,衡量对协议状态机动态变化的探索能力。
这样多维度的设计确保了与现有协议模糊测试最优工具的横向对比科学、可靠且具代表性。
实验结果与分析
实验结果充分验证了MultiFuzz在协议模糊测试各项关键指标上的显著提升。首先,在分支覆盖率方面,MultiFuzz平均覆盖分支数达到2940个,对比ChatAFL的2912.67、AFLNet的2860和NSFuzz的2807,分别提升约0.9%、2.8%和4.7%。虽然看似百分比变化有限,但考虑到协议模糊测试本身每一条新增分支都是潜在漏洞挖掘的突破点,这种累计提升具有重要意义。同时,MultiFuzz的分支覆盖表现十分稳定,覆盖区间小且重复实验间波动有限,优于AFLNet与NSFuzz的高波动性,以及ChatAFL偶发的极值现象,这也印证了框架结构化、多智能体协作对于结果稳定性的贡献。
在协议状态机的深度探索方面,MultiFuzz表现同样出色。三轮实验平均状态转移数最高,为163.33次,显著领先于ChatAFL(159.67次)、AFLNet(84.0次)和NSFuzz(90.33次)。其中对AFLNet和NSFuzz优势尤为明显,分别高达94.4%和80.8%的提升,这突显了密集检索+多智能体推理在深度探测协议状态变迁、突破陷入“局部极值”的能力。
进一步看被成功覆盖的协议FSM状态数,MultiFuzz平均探索14.67个状态,高于ChatAFL(14.33)、AFLNet(10.0)、NSFuzz(11.7)。与ChatAFL相比,MultiFuzz提升2.4%,与AFLNet和NSFuzz面对复杂状态协议时更显示深层优势,增幅分别达到46.7%和25.4%。上述数据不仅说明了MultiFuzz更智能地挖掘协议行为边界,提高了模糊测试的广度和深度,也反映出多智能体-密集检索机制实现了高效的知识协同、状态导航和体系化策略部署。
对比分析进一步发现,传统灰盒模糊测试(如AFLNet)虽运行稳定,但缺乏协议语义理解和符合上下文的输入构造能力,容易陷入状态层面的局部最优。LLM驱动的单智能体方法(如ChatAFL)虽然在语法与序列推理方面提高了测试效能,但在结构化上下文维护、状态转移定位及突破“覆盖瓶颈”等方面依然受限于模型幻觉和不稳定输出。MultiFuzz则通过多智能体分工、上下文密集检索和工具辅助,优化了输入生成的协议合规性和上下文相关性,使测试过程更自动化、更具探索深度,并有效避免了盲目变异和冗余路径的无效探索。
通过对协议状态机、分支空间和状态转移等多维性能的系统测试,MultiFuzz展示了极具前沿性和推广价值的技术实力,是协议模糊测试领域面向未来智能自动化突破的一项重要成果。
论文结论
本论文围绕协议模糊测试的深层智能化难题,提出了MultiFuzz这一基于密集检索和多智能体协作的创新性架构。通过智能化的RFC知识抽取、语义分块、上下文感知及结构化推理,MultiFuzz有效弥补了传统模糊测试和单智能体LLM驱动方法在协议智能理解、多状态深度探索、会话上下文维护等方面的不足。实验证明,MultiFuzz在协议分支覆盖、状态转移和深度状态探索等核心指标上均超越目前主流最优工具,表现出更高的稳定性和扩展性。更重要的是,本文的多智能体+检索增强生成范式,推动了协议模糊测试从反馈驱动到知识驱动、碎片化推理到结构化智能协同的方向跃迁,为今后协议逆向工程、自动化漏洞挖掘和AI安全测试系统的构建提供了理论和工程基础。
论文也指出,现阶段MultiFuzz可进一步融合自动化逆向分析、符号解析和流量指纹识别,以实现更精细的全流程自动化。此外,通过领域数据指导智能体微调,有望在专有协议、复杂定制场景下持续提升推理与适应能力。综上,MultiFuzz不仅印证了多智能体-密集检索-生成式AI在实际协议模糊测试中的突破潜力,也为智能安全测试系统的未来发展提供了全新思路与基础框架。
声明:本文来自安全极客,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。