隐藏在AI流量中的攻击：利用MCP进行大模型驱动的智能体红队演练

基本信息

原文标题：Hiding in the AI Traffic: Abusing MCP for LLM-Powered Agentic Red Teaming

原文作者：Strahinja Janjuesvic、Anna Baron Garcia、Sohrob Kazerounian

作者单位：麻省理工学院（Massachusetts Institute of Technology）、Vectra AI

关键词：生成式AI、LLM、红队攻防、命令与控制（C2）、模型上下文协议（MCP）、多代理系统、群体智能、渗透测试、隐匿通信、AI对抗、事件驱动通信、网络检测与响应（NDR）、端点检测与响应（EDR）

原文链接：https://arxiv.org/pdf/2511.15998

开源代码：暂无

论文要点

论文简介：生成式人工智能（AI），尤其是大型语言模型（LLM），正迅速重塑攻防领域，为网络红队操作带来前所未有的自动化可能。尽管当前AI红队方法在渗透测试中已取得初步成效，却普遍面临泛化与专业化的权衡、实际部署中的幻觉、上下文受限以及伦理风险。

本论文提出了一种新颖的命令与控制（C2）架构，首次将新兴的模型上下文协议（MCP）引入红队C2通信，实现分布式、自适应的AI侦察代理在企业网络中的隐匿协作。该架构大幅提升了整个系统的目标导向行为，并有效消除了传统C2易被检测的主机及网络特征痕迹。论文系统回顾了当前领域主流的生成式AI红队方法，重点剖析MCP驱动C2架构如何突破现有限制，实现异步、并行操作及实时情报共享，并通过实验展示其在真实场景下以极高效率和隐蔽性实现域渗透。

论文进一步讨论了该架构所赋能的先进攻击能力及检测规避策略，并对其潜在的双用途伦理风险展开探讨，提出了针对性防御措施及实验室安全评估建议。实验对比表明，MCP C2体系在降低人工操作、缩短任务执行时间和隐匿性方面均大幅优于传统C2。论文最后展望了以自主化、群体智能和攻防博弈为特征的新一代AI红队的未来发展。

研究目的：本文旨在探究和实现一种更高效、隐蔽且具备高度自主化能力的红队攻防命令与控制（C2）架构。当前依赖生成式AI的红队工具，在实际落地过程中遇到了上下文窗口受限、操作可靠性不足、通用性与专业性难以兼顾等核心瓶颈，且传统C2方案不论是人工控制还是周期性信标，均容易被现代防御组件检测。

本文研究问题主要包括：（1）当前生成式AI红队技术的主流体系及其各自的优势与局限；（2）AI渗透工具在红队链路中的缺位环节及改进空间，尤其是C2阶段的创新不足；（3）如何利用MCP协议实现分布式多代理的红队自主协作，并提升体系整体目标导向性与隐匿性；（4）该体系能否在实际企业网络测试中验证其高效性、隐蔽性，并有效降低人力成本和被检测概率。通过系统性的实验和案例，论文力图为红队攻防进入“AI自治与智能化”的新时代提供理论支撑与实现路径。

研究贡献：

提出创新性的基于MCP协议的红队C2架构，实现跨网络、自适应的分布式AI侦察代理隐匿协作，突破了传统C2架构易被检测的技术瓶颈。
系统回顾并量化分析了当前主流生成式AI红队方法，明确梳理微调型专家模型与多代理智能系统两大路线上各自的实践优势与瓶颈。
设计并实现了解耦式“任务-推理”双通道C2通信流程，通过MCP协议将恶意任务隐藏于正常AI服务流量中，显著消除周期性信标和特征化网络行为。
支持多代理并行、自治隐匿、实时OODA循环、策略层与工具层分离等AI赋能的新型攻击能力，并详述链路隐匿、动态规避等进阶机制。
在Vectra Cyber Range靶场环境下完成实证测试，实验结果表明MCP C2体系能极大提升攻防效率、隐蔽性，并大幅度降低人工成本和被检测率。
首次对MCP协议被滥用作为红队C2通道的双用途风险与道德困境进行了系统性分析，提出了实验室安全评测、技术与运营多维度防控建议，并探讨了AI红队与防御智能体未来对抗趋势及监管方向。

引言

随着生成式AI与大型语言模型（LLMs）的飞速发展，网络安全攻防领域正迎来“AI自主化”时代。在此背景下，越来越多研究和产业团队开始尝试用LLMs驱动红队渗透环节，从漏洞发现到漏洞利用，实现了攻击流程部分自动化。尽管初步成果令人瞩目，但现有AI红队方案普遍直面诸如可靠性不足、扩展性受限、安全与伦理的权衡等关键挑战。近期业界高调提出“AI黑客智能体”威胁，警示未来攻击者可能仅凭陈述高层次目标，即可触发AI自主制定并完成复杂攻击计划。类似于“Vibe Coding”赋能开发者生成代码但不必深刻理解其机理，这一抽象极大降低了技术门槛，或将赋能更多缺乏专业知识的攻击群体，使高阶红队攻击实现“下放”，带来难以忽视的防御压力和伦理隐患。

当前主流渗透测试与C2技术高度依赖人工经验，且网络流量模式（如周期性信标）具有明显特征，使其既劳动密集又易被检测。生成式AI的引入为攻防带来“根本性范式转变”：自主代理不仅能推理和自适应，还能在分布式环境中通过事件驱动方式实现隐蔽通信与情报融合。然而，业界尚未实现LLM驱动红队“从端到端”的完全自动化，主要瓶颈在于C2阶段未出现真正AI原生的创新架构。当前AI攻防系统多集中在渗透链早期阶段（如侦察、武器化、投递与初始利用），而对后期持续控制与高级协作（C2）环节研究较为薄弱。更有甚者，虽然已有部分方案通过LLMs远程下发渗透命令，但其核心控制与通信层仍囿于传统C2通道，未体现AI原生特性。

面对这种局限，本文提出创新性的MCP协议驱动红队C2体系，核心思想是利用MCP为自适应红队代理赋能，实现横跨多网络、多点分布、自主协作的隐蔽作战。该协议原为AI模型上下文管理设计，具备天然的加密、安全、自然语义和事件驱动特性，可无缝“混迹”于企业AI服务流量，极大削弱传统网络检测对恶意通信的识别能力。体系总体采用“逻辑任务-推理通道”解耦设计，通过MCP通道伪装恶意任务下发及情报回传，推理与工具执行则直接访问高信誉度LLM云API，两者协同实现极高的分布式隐蔽操作能力。在Vectra Cyber Range等企业实网靶场进行的实验进一步证明该架构具备极高的效率、隐蔽与目标导向能力。本文还系统回顾了AI红队领域的主流方法体系与存在瓶颈、MCP C2的设计与攻防能力，以及AI红队“黑箱+自治”与“可用性+伦理”间制衡下的若干争议，最后对未来的发展趋势进行了前瞻性探讨。

生成式AI红队攻防研究现状

当前生成式AI在红队攻防中的应用大致分为两大技术流派：一是微调型专家LLM，二是多模块/多代理系统。

微调型专家LLM以专门攻击知识为语料，通过在红队/渗透场景数据集上微调主流LLM，从而获得更高的特定任务准确性和响应专业度。典型如CIPHER模型，采用RAG机制确保上下文相关性，并通过数据增强优化决策过程，尤其适用于标准化、明确的问题解答。但其受制于训练数据覆盖范围，在遇到超出训练分布的新颖漏洞或复杂逻辑推理时，表现易受限且缺乏应变能力。类似WhiteRabbitNeo则专注去除安全限制，支持攻击性内容输出，但带来显著的伦理与双用途风险。

与之对立的是基于LLM的多代理系统，典型代表包括RedTeamLLM、PentestAgent和VulnBot等。这类系统将红队攻防流程拆解为互相协作的多个功能模块或智能体，分别负责侦察、漏洞分析、利用、计划与修正等阶段，并通过结构化记忆和RAG等机制实现信息共享。以PentestAgent为例，不同的智能体轮流采集情报、调整动作，支持完整的闭环反馈和自主适应变化环境，增强复杂多阶段攻击链的覆盖能力和灵活性。相比微调模型，多代理系统能更好适应复杂目标和任务分配，但工程实现难度极高，对数据协调、故障恢复和异常处理等提出更高要求，当前多数实现仍需人工“把关”关键节点，自动化与可靠性仍不完美。

值得注意的是，两派方案均面临理论与实践落地的重大鸿沟：LLM的幻觉、上下文窗口限制、跨场景泛化等经典AI难题，在实际企业级网络和真实目标环境下均暴露无遗。例如，AI驱动的系统在面对未见过的实际配置、动态网络分布、混杂旧系统等环境时，能力大打折扣。部分框架尝试通过递归总结、外部记忆等缓解，但AI在决策链上“丢失关键信息”或被输入掩盖问题依然突出。此外，AI相关幻觉会导致虚假漏洞情报、伪造或无效利用代码的大量生成，这些失误如无人监管甚至会对目标系统产生负面影响。因此，大多数AI红队框架目前仍高度依赖人类监督，无法实现完全无人值守的攻防自主。

更进一步，学界和产业多聚焦于红队杀链前半部分（如侦察、利用、投递），而对核心C2相关的持续、协调、隐匿控制层研究不足。虽有部分系统短暂集成AI赋能的后渗透动作，但其本质通信链路仍沿袭传统C2周期信标、单一主控之旧法，缺乏AI时代应有的智能协同与动态适配能力。整体而言，自动化与专业化、“理论AI能力”与“工程可靠落地”间的平衡，依然是生成式AI红队领域当前最大的挑战。

基于MCP的自主C2架构设计与实现

论文提出的核心是利用MCP协议搭建的多代理隐匿C2架构。MCP（Model Context Protocol）作为近年新兴的AI模型/代理通信标准，本设计将其由“模型状态同步”变形为跨主机红队C2通信通道，具备天然的加密、事件驱动、异步传输等隐蔽性特性。

整个架构由三大组件组成：Reconnaissance Agents（侦察代理）、MCP Coordination Server（协调服务器）和Red Team Command Agent（红队指挥代理）。侦察代理是轻量化、多平台植入体，部署于受控主机后能够本地采集环境、利用嵌入的AI（如通过Claude API）自主分析、计划与执行渗透动作。MCP协调服务器托管于云端，通过标准HTTPS/WSS端口对外开放，充当全体代理的登録、指令下发、情报回收与任务共享的“中枢”，同时通过SQLite数据库支撑全体情报和状态的持久化存储。人类指挥或AI主控代理则负责高层任务分解、战略调整和多代理管理，通过MCP服务器对各个侦察体实现指令编排、结果收敛和全局情报整合。

架构设计上，所有通信经过TLS和标准CDN外壳（如Cloudflare），通过MCP协议封装，伪装成正常AI上下文同步API流量。侦察代理本体高度自适应，能基于当前操作系统与工具集自动调整战术，如在Windows环境下调用PowerShell、WMI，本地情报回传则通过MCP协议伪装同步，实现无周期信标、事件驱动上报与指令拉取。推理型任务（如流程规划、利用代码自动生成）则直接访问高信誉度LLM云API（如Anthropic Claude），充分利用模型的自然语言指令理解与动态决策能力。人机接口支持高层目标（如“收集Windows凭据并侧移”）自动分解为多步并行子任务，结合SQLite持久化全局态使得系统在断点复原、智能聚合等功能上显著优于传统C2。

该体系最突出的创新是“解耦式双通道”C2：一端通过MCP通道封装、下发、回收红队任务和结果，并通过混迹正常AI流量实现网络隐蔽；另一端直接以事件驱动（而非同步信标）与第三方LLM API通讯，由AI规划、联合多个工具，并按需生成特定payload，实现本地执行与结果上传。所有流程配备高度细粒度的操作权限管理与功能认证，代理发起初始化注册及API访问时均随机化特征和行为，极大降低EDR/NDR检测风险。架构允许单点/多点并行，灵活拓展规模，支持“群体智能”模式下多代理协作与联合决策。实验表明，该MCP架构能在企业实际环境下以极高自适应性、隐蔽性和稳定性支撑分布式红队任务的自动完成，兼具理论前瞻和工程实用价值。

架构赋能的进阶攻击能力与隐匿机制

MCP C2架构融合LLM智能与事件驱动通信后，赋予了红队行动一系列传统难以实现的进阶攻防能力。首先，该体系凭借无周期信标的事件驱动通信彻底消除固定流量“心跳”特征，通过侦察代理主动向MCP服务器请求任务、上传结果，仅在需求触发时链接主控，极大降低被NDR等网络安全设备捕获的几率。所有与MCP服务器和LLM API的通信以TLS加密，伪装成常见AI开发或企业服务流量。与此同时，代理本地尽量“Living off the Land”（LotL），即优先利用系统内置工具和原生命令进行侦察与利用，如在Windows上伪装为合法进程，通过PowerShell、WMI实现最小化新增二进制和痕迹，Linux则使用系统命令且伪装为系统服务。为进一步规避内容检测，所有可执行payload动态由LLM分析目标环境、情况后自适应生成，避免固定签名和重复利用，生产“变种型”新攻击代码，缓解传统特征检测压力。

其次，该架构支持多代理并行和“群体智能”作战。MCP协调服务器汇总多点情报，主控AI可实时纵览全场、智能任务分解。线下实验展示多个侦察代理可以根据检测到的局部情报，自动执行跨子网/主机的侧移、联合利用。例如，某代理发现的凭据可通过MCP直接传递给另一代理，用于新环境的专用渗透，无需人工判读，即时扩大战果。此外，AI主控具备“自动OODA”（观察-定向-决策-行动）循环能力，能依照反馈动态调整策略：如在凭据侧移受阻后，自动调度LLM临时生成变异payload并发起二次利用，或在跨网段协作中，实现高效的主机分工与情报共享。对于特殊目标，AI主控还能按需扩展工具链，自动下载/部署所需开源渗透工具，并成为“全局知识汇聚者”，通过数据库持久化，避免重复扫描与信息丢失。

在规避检测方面，MCP协议“躲于AI流量”的天然特性让其通信形态与常用AI工具如Copilot、ChatGPT极为相似。再加之伪装域名和CDN前端保护，即便企业部署极为严格的NDR/EDR，也难以使用现有流量基模型或特征检测工具直接甄别。更关键的是，体系支持多种行为模拟——例如代理可以类似软件开发者疑问/编程交互方式与LLM频繁互动，在流量层级复现人类操作节奏，而AI规划师还可有意引入人性化停顿和多样化命令组合，进一步混淆自动化与人工特征。

真实企业测试中，本文还演示了通过AI驱动的自动EDR评估。例如，Win11主机下代理独立识别终端安全控件、防护状态，尝试利用“自带易受攻击驱动（BYOVD）”等高阶渗透技术，在受限条件下智能调整攻击策略，自动报告未被拦截的流程与结果，最终实现“全流程无人看护”的安全评测。这在传统人工红队中需大量人工干预，而在本架构下得以标准化、自动复现。

该框架将AI智能与安全隐匿渗透技术深度融合，为红队行动赋予了“快、准、隐、自适应”四大特性，推动攻防对抗进入“群体智能+黑箱自治”的新阶段，同时势必推动红队检测与蓝队防御进一步智能化、行为化发展。

实验评测与对比分析

为了量化评估MCP C2架构的实际优势，作者在Vectra AI Cyber-Range实验室完成了基准性对比测试与详细案例分析。目标环境为企业级分段网络架构，包括用户区、DMZ和服务器区，安全防护堆栈搭载了主流网络检测（NDR）、端点检测（EDR）、安全信息与事件管理（SIEM）、SOAR等多重防御措施，确保测试环境接近真实复杂企业网络。

在实验比对中，AI代理与传统人工C2（Cobalt Strike等平台）分别被赋予相同的高层红队目标。测试结果显示，MCP代理在无人操作条件下即可于15分钟内完成整场任务，而传统人工C2则需数天且由人类频繁下发细致命令，效率提升呈数量级。在攻击流量检测层面，传统C2易被周期信标等网络特征输出识别，MCP代理之事件驱动通信则成功混迹合法AI API流量，未被现代NDR系统直接标记。主机侧，AI代理以Living off the Land和本地自动化为主，未造成EDR平台报警，而人工C2则常因频繁/复用payload及操控失误导致多起告警。此外，多代理并行、持久化共享情报机制进一步增强了体系的健壮性，保障单体损失不致丢失全局情报，提升容错能力。

实验中还模拟了多轮自动EDR评测。MCP代理根据主控AI下发的综合任务，自主识别系统防护控件，寻找可能利用点（如BYOVD），自动切换不同攻击策略并对每一次尝试生成详细英文评估报告，即使个别攻击被拦截（如AMSI阻断进程注入），整个流程任务均安全、隐蔽、高效完成，且对目标系统未构成预期外损害。

整体来看，实验对比验证了新架构在攻防效率、隐蔽性、自动化水平方面远超传统方案，证明其具备高度在实际企业红队、靶场和防御测试中落地推广的基础。

伦理考量、对抗与未来展望

MCP驱动AI红队框架的突破性同时带来不可回避的“双用途”伦理难题与安全挑战。一方面，该工具将红队行动自动化门槛显著降低，未来“意图陈述即攻击成案”的趋势可能使技术门槛较低攻击者获得与资深红队专家媲美的作战能力，加剧大规模恶意利用风险。传统技术管控（如微调模型内核加锁、API访问验证、文件签名）已难以完全遏止此类系统被逆向、滥用、转化为攻击犯罪平台。

为应对上述风险，作者提出多维防护建议：一是敏感工具仅限受控授权分发，对使用场景/期间专门设定访问白名单、证书认证与命令审核机制，将实际可利用性合法化；二是在AI框架本身嵌入“道德护栏”，如AI系统提示、规则限制攻击目标范围、反馈湖测试环境等元信息，减少非授权或无人值守部署过程中产生越权行为的概率；三是所有行为链条实施完整日志与审计，确保事件溯源与责任归属可追踪。制度上，AI红队工具使用应参照漏洞库、攻击工具等敏感资产管理，强化合规与管理约束。与此同时，随着AI方式攻击大规模普及，安全厂商和蓝队亦要主动学习，开发更具前瞻性的检测与对抗机制，例如行为特征建模、AI流量分析、引入防御型AI智能体参与实时博弈甚至诱骗（蜜罐）与对抗生成。

从攻防一体化角度看，作者强调，AI自主C2框架的最大积极意义在于“以AI攻挑战AI防”，可被安全团队用作端到端全链路靶场/EDR/训练平台，为蓝队提供自动生成、多样化、具挑战性的对抗环境，降低人工红队负担，完善检验现有安全堆栈的手段与标准。随着未来技术进步，论文展望攻击侧将进一步发展为边缘化小模型在设备本地自治、完全告别对云端API依赖，实现更高隐蔽性；防御侧则孕育“数字免疫系统”型AI防御智能体，实时监控、调整安全策略甚至主动诱捕外部AI智能体。

最后，AI攻防最大风险在于失控，因此研究应同步推进AI“自动能力”与“可控机制”的均衡发展，如通过环境容器隔离、强化伦理属性设计等方法，保障AI自主攻击不会在损失可控性时演化为失范威胁。

论文结论

论文系统性提出并实证了一种将MCP协议滥用为红队C2通道的AI原生攻防架构，展示了基于多代理、LLM智能驱动、事件驱动通信为核心的自动化红队体系。该体系全面超越现有基于人工驱动和传统信标C2的局限，在红队链后期实现攻防效率与隐蔽性的数量级跃升，同时极大推动“群体智能、多点协作、OODA循环”等一系列次世代红队技术发展。

作者系统回顾了主流AI红队方法的优劣，梳理了自动化攻防的关键挑战，设计并实现了解耦式、分布式MCP C2架构，并通过企业级靶场实验验证了其实用性。在安全与伦理方面，论文直面双用途风险，呼吁社区规范AI红队工具使用、提升对抗能力并注重责任可溯性。展望未来，随着小模型本地部署及数字防御智能体持续演进，人机协同、AI对抗AI将成为新常态。本研究代表着红队攻防从“部分自动化”走向“全链路智能协作”的关键一步，为安全行业应对下一代AI赋能威胁提供了理论基础与实证启示。

声明：本文来自安全极客，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

隐藏在AI流量中的攻击：利用MCP进行大模型驱动的智能体红队演练

基于大语言模型和RAG的自动化渗透测试框架研究

VULPO：基于策略内LLM优化的上下文感知漏洞检测

AutoMalTool：针对支持MCP的大模型智能体自动化红队测试