以大模型为目标的威胁攻击与安全思考

一、概述

自2023年以来，以ChatGPT为代表的大语言模型（LLM）向人们展现出了人工智能所具有的无限潜力，为各行业带来了全新的发展模式和生产力提升。以大语言模型为基础的智能平台及系统也逐渐成为国家和企业的一种重要的基础设施，面对这样一种全新的基础设施，一旦其遭受到不法分子的恶意攻击，我们应该如何应对？若AI系统的“安全性”无法确保，那么以其为基础所构建出来的“智能社会”也将面临无法承担的风险。

那么这样的攻击存在吗？通过我们对大模型攻击线索的追踪、分析和研究发现，自ChatGPT 发布以来，各种以大模型为目标的攻击事件如雨后春笋般出现，并且这样的安全事件越来越频繁。同时我们还在Hugging Face平台上追踪到了40多个被植入恶意代码的大语言模型。其中，一些大模型文件中被植入python后门；一些大模型文件被植入了可执行的二进制程序；还有一些植入体采用多层模型加载结合加密解密的机制，以试图隐藏恶意代码和攻击行为。模型文件是大模型系统的灵魂之所在，其一旦被植入恶意代码后，恶意代码将会在模型文件被加载后获得对大模型系统的控制权，可能造成严重的后果。同时，黑客针对大模型文件的植入技术和隐藏技术仍在不断的进化发展，这对大模型安全检测匮乏甚至缺失的当下来说是一项新的挑战。因此大模型以及基于大模型建立的AI系统和各种智能体将面临的安全威胁值得我们高度重视。

此外，在我们团队对大模型系统进行安全研究的过程中，发现当前流行的商用大模型仍然面临严重的越狱攻击风险。通过精心设计的输入，攻击者能够诱导大模型生成敏感或违法内容，这种风险不仅威胁大模型的实际应用场景，还对社会信任和技术应用带来隐患。我们在研究中通过实际案例展示了这一问题的存在，并验证了其可行性与潜在危害。

本文旨在探讨大模型技术快速发展过程中所面临的网络安全问题，聚焦近年来的典型安全事件及其影响。通过对多起安全事件的详细剖析，我们将揭示攻击者的技术手段、分析其如何利用大模型文件实施攻击，阐明大模型技术在安全性方面的潜在风险，并尝试从多个角度为行业提供研究思路和安全建议，希望帮助从业者和研究者在构建和使用大模型系统时有效应对这些复杂的安全挑战。

二、大模型安全研究现状

2022年11月30日，OpenAI正式发布了基于大语言模型（LLM）的对话式人工智能系统ChatGPT。ChatGPT凭借卓越的文本理解与逻辑处理能力，在对话系统领域展现出显著优势。ChatGPT发布后，迅速吸引了全球用户的广泛关注，成为历史上用户增长速度最快的消费级应用，其普及速度刷新了科技产品领域的多项纪录。ChatGPT的推出不仅进一步推动了人工智能技术的发展，还引发了新一轮全球范围内的AI技术热潮。各国政府、企业以及研究机构纷纷加大对AI技术的研究与开发投入，试图把握这一技术浪潮带来的新机遇。与此同时，越来越多的企业和个人用户开始将AI技术应用于日常工作中，以优化业务流程、提升工作效率，并推动创新。

根据全球知名战略咨询公司麦肯锡的最新统计数据，如下图所示。在2018年至2023年间，日常业务中采用AI技术的企业比例整体保持稳定。然而，2023年ChatGP 的问世却带来了显著的转变。数据显示，2023年使用AI技术的企业比例飙升至72%，较此前有明显增长。这表明，以ChatGPT为代表的大模型（LLM）技术正迅速重塑企业运营模式与个人工作方式，成为推动数字化转型的重要力量。麦肯锡进一步预测，未来几年内，采用AI技术的企业数量将持续增长，AI技术的普及将对全球经济、产业结构以及工作模式产生深远的影响。

图1 使用AI技术的企业统计百分比

大语言模型（LLM）技术的出现标志着人工智能领域的重大突破，显著推动了AI技术的发展。然而，与此形成鲜明对比的是，AI安全领域的研究进展却相对滞后。为了更加清晰地揭示这一现象，我们对全球核心学术研究论文数据库Web of Science中与AI技术发展及AI安全相关的研究论文进行了系统性统计与分析，如下图所示。分析结果显示，自2012年以来，AI技术发展相关论文数量呈现出持续增长的趋势，尤其在2017年以后，这一增长更为显著。这可能与 2017年Transforme 模型的发布密切相关，因为这一技术为大模型的广泛应用奠定了基础，带动了学术界和产业界对AI技术的研究热情。相比之下，尽管 AI 安全研究相关论文的数量也在增长，但其增速远不及AI技术发展研究。具体而言，自Transformer模型问世以来，这种差距不仅没有缩小，反而进一步扩大。这一现象表明，AI 技术的发展速度远远超出了安全研究的推进速度，导致了AI安全领域的研究与实际需求之间的明显脱节。

图2 近年来AI相关论文统计

2023年，ChatGPT横空出世，其突破性的文本处理与逻辑分析能力震撼全球，为以大模型（LLM）为代表的人工智能技术研究注入了新的活力。ChatGPT的成功进一步加速了大模型技术的发展，促使更多研究者和企业投身于相关领域的探索。为了量化大模型技术与安全研究的现状，我们对全球最大公开论文发布平台arXiv中近两年来与大模型技术发展及大模型安全技术研究相关的论文数量进行了统计分析，如下图所示。统计结果显示，大模型技术研究在近年来热度持续攀升，呈现出快速增长的态势；与之相比，大模型安全技术研究虽然也有所增加，但其增长幅度和关注度明显滞后于技术本身的快速发展。这种趋势表明，大模型技术的快速突破并未改变AI安全研究的滞后局面，技术与安全研究之间的严重不平衡问题依然突出。这种安全研究滞后的现象可能引发一系列隐患，如果安全研究无法跟上技术发展的步伐，相关系统可能会面临更高的安全风险甚至重大安全事件。

图3 大模型相关论文统计

三、大模型安全事件回顾与分析

由于大模型安全研究相较其技术发展的迅猛步伐仍显滞后，各大企业和组织在大模型系统的安全防护方面普遍处于初级阶段。当前，大多数企业尚未构建起系统化的大模型系统安全防护体系，难以全面掌握大模型系统安全的整体架构。此外，对针对大模型系统的多样化攻击技术，企业的认知和应对能力也十分有限。这种技术和防护能力的错位，使得与大模型相关的网络安全事件频发，并呈现出攻击手段复杂化、影响范围扩大化、后果严重化的趋势。

大模型系统因其独特的功能和广泛的应用场景，带来了显著的技术突破，但同时也存在显而易见的安全风险。其复杂性和决策特性使得一旦出现安全漏洞，可能直接导致错误决策或违规操作，从而引发严重后果。例如，智能车机系统可能引发错误的驾驶操作，引发交通事故，造成人员伤亡；智能医疗系统可能造成错误诊断，影响患者健康；如果涉及军事、能源等特殊领域或敏感行业，还可能会危害国家安全，造成不可逆的损失。此外，大模型技术以海量数据为基础，涉及多个复杂的数据处理环节，包括数据传输、清洗、转换和存储等；同时，相关的AI系统会收集和使用用户的信息和数据，也需要向用户展示数据，这些数据处理的过程如果存在安全风险，也将造成非常严重的敏感信息或机密数据泄露。

近来，频繁发生的大模型安全事件为我们敲响了警钟。这些事件中，部分导致了大量敏感信息泄露，例如用户隐私数据、商业机密和关键基础设施运行数据等被攻击者窃取并非法利用。而另一些事件，则直接针对大规模计算基础设施，造成服务器被大面积入侵、计算资源被滥用甚至瘫痪的严重后果。在更为极端的情况下，大模型的误操作或被恶意利用还引发了物理世界的风险，间接导致财产损失甚至人员伤亡。这些现实案例表明，当前的大模型技术不仅具有巨大的应用潜力，同时也隐藏着复杂而危险的安全隐患，大模型系统的安全隐患不再是理论上的可能性，而是已经对现实世界构成威胁。

本章节将回顾近期发生的部分典型大模型安全事件，着重分析这些事件的诱因、攻击手段及其所造成的影响。通过对这些案例的深度解析，揭示大模型安全领域亟待解决的核心问题，并为未来的大模型安全研究与实践提供有益参考。

3.1 安全事件回顾

自大模型技术兴起以来，特别是生成式预训练模型（如GPT系列、Claude和其他类似技术）的广泛应用，全球范围内与大模型相关的网络安全事件呈现出明显的增长和多样化的趋势。这些安全事件的范围广泛，涵盖了信息泄露、数据泄露、模型文件投毒攻击、大模型供应链攻击以及对抗样本攻击等方面，其影响不仅威胁到个人隐私和企业机密，还延伸至社会稳定、经济安全和国家信息安全，甚至在某些情境下对全球科技生态和国际安全格局产生了深远影响。

这些安全事件在规模和复杂性上均有所提升，部分事件因其影响之广和后果之严重而备受关注。例如，研究人员首次披露黑客利用大模型文件作为攻击载体，在AI开源社区中广泛传播恶意代码；大模型系统供应链中的Ray框架漏洞则引发了迄今为止公开信息中规模最大的供应链攻击事件，导致大范围服务瘫痪和敏感数据外泄；国内首次公开披露的“大模型文件投毒攻击”事件，揭示了攻击者通过篡改模型文件实施隐蔽攻击的可能性。这些事件不仅对大模型的技术应用和用户信任造成冲击，还促使技术研发者、政策制定者和企业进一步思考如何在大模型技术应用的同时强化安全防护。为了深入理解大模型安全风险的具体表现，本章节将以时间线为主线，对近期部分典型的大模型安全事件进行回顾和分析。我们将通过梳理这些事件的关键节点、深入分析其产生的原因及其对用户和社会的广泛影响：

2023年3月20日，部分海外用户在社交平台Reddit和X（原Twitter）上发帖，声称能够看到其他用户在ChatGPT上的对话记录，并附上了相关截图以佐证其说法。这一情况迅速引起了广泛关注，部分用户对ChatGPT的隐私保护机制提出了质疑。2023年3月22日，OpenAI创始人Sam Altman在社交媒体平台X（原Twitter）发布声明，承认ChatGPT网站确实出现了一个安全漏洞（bug）。这一漏洞导致部分用户能够看到其他用户历史对话记录的标题。Altman同时表示，OpenAI已对该漏洞进行了快速修复，并采取了相应措施以防止类似事件再次发生。

图4 OpenAI的创始人Sam Altman发文说明chatgpt的bug

自2022年11月ChatGPT推出以来，用户不断尝试绕过OpenAI设置的安全保护措施，以突破其内置的内容限制。尽管相关尝试频繁发生，OpenAI对此长期保持沉默，并通过定期更 ChatGPT来应对这一问题。然而，2023 年 3月27日，OpenAI首席执行官Sam Altman首次公开回应了用户破解行为。他表示：“我们希望用户拥有更大的控制权，让模型在一定范围内按照他们的意图运行。
2023年7月19日，安全公司Flare的研究团队发布了一份安全报告，指出 OpenAI的访问凭证正逐渐成为暗网交易市场中的热门商品。报告显示，截至事件披露时，已有超过 20 万个OpenAI的访问凭证以日志形式在暗网上进行出售。这些凭证可能包括用户的API密钥、登录凭证或其他敏感信息，能够使不法分子非法访问OpenAI提供的服务。
TorchServe是一款由Meta和Amazon联合开发和维护的人工智能模型服务框架，专为PyTorch模型的生产环境部署和扩展而设计。作为一种高效、可扩展的服务工具，TorchServe被广泛应用于各类AI模型的训练和部署，其用户涵盖了诸多知名企业，包括亚马逊、OpenAI、特斯拉、Azure、谷歌和英特尔等，并成为各企业支撑其核心业务的重要基础设施之一。2023年10月3日，著名的 Oligo 安全研究团队发布了一份报告，披露了TorchServe 中存在的一个高危漏洞。根据报告，该漏洞允许攻击者通过未授权的方式访问服务器资源，并在受害主机上执行远程代码（Remote Code Execution, RCE）。
2023年11月30日，谷歌旗下人工智能研究团队DeepMind联合华盛顿大学、康奈尔大学等多所知名高校发布研究报告，揭示了ChatGPT在特定情况下可能泄露其原始训练数据中敏感信息的安全隐患。研究表明，通过精心设计的查询，攻击者可以从模型中提取诸如个人姓名、工作地址、职位、邮箱、电话以及私人网站等敏感信息。

图5 ChatGPT泄露其训练数据中的个人敏感信息

2024年1月17日，安全研究人员披露了一个名为“LeftoverLocals”的新型漏洞，该漏洞影响了包括AMD、苹果、高通和Imagination Technologies等公司生产的图形处理单元（GPU）。LeftoverLocals漏洞允许攻击者在特定条件下恢复GPU中残留的数据，尤其是在大语言模型和机器学习模型训练过程中产生的敏感信息。研究人员同时发布了漏洞的概念验证（PoC）代码，以进一步展示其潜在危害。
2024年2月14日，微软和OpenAI发布研究报告称，部分国家的黑客组织正在使用GPT来提高它们的网络入侵能力，同时为网络间谍活动寻找新的目标。

图6 微软发布的报告

2024年3月4日，安全公司JFrog在全球最大的AI模型开源平台HuggingFace中发现了超过100个恶意的AI大模型，当用户下载并运行这些恶意AI模型时，攻击者可以完全控制受害者的主机。

图7 Huggingface平台中的恶意模型

Ray是由Anyscale开发的开源框架，用于跨机器集群扩展AI和Python应用程序，以高效处理分布式计算工作负载。在GitHub上，Ray拥有超过30,500 颗星，并被众多全球知名组织广泛使用，包括亚马逊、Spotify、LinkedIn、Instacart、Netflix、Uber 和 OpenAI，后者甚至利用Ray来支持ChatGPT的训练。然而，2024年3月2日，一场名为“影子之路”（ShadowWray）的黑客活动曝光。此次活动利用Ray框架中未修补的漏洞，导致数千台AI系统工作负载服务器及网络服务器遭到入侵。据调查，这次攻击至少持续了7个月，表明攻击者已对目标进行了长期渗透和高强度利用。

图8 Ray项目的github主页

2024年4月4日，Bitdefender的研究人员揭露了一项新的黑客攻击手段，黑客利用Facebook广告和被劫持的页面推广虚假的人工智能服务，包括 MidJourney、OpenAI 的SORA 和 ChatGPT-5 以及 DALL-E。黑客通过在Facebook平台上发布与AI服务优惠相关的虚假信息，诱导用户点击链接并下载恶意软件。该恶意软件一旦被下载，将窃取用户设备中的敏感信息，并将这些信息在暗网平台上进行出售。
2024年5月9日，Sysdig威胁研究团队（TRT）发布了一项研究，揭示了一种名为“LLMjacking”的新型网络攻击方式。该攻击利用窃取的云凭证对云托管的大型语言模型（LLM）服务发起攻击。通过这一手段，攻击者能够窃取用户的大模型访问凭证或云账户，从而获得对受害者大模型资源的完全控制。这使得攻击者能够不受限制地使用受害者的计算资源，可能导致资源滥用、机密数据泄露或其他形式的恶意操作。
2024年5月11日，网络安全研究团队Checkmarx在与Hackread.com共享的一份报告中揭示了人工智能大模型存在的隐藏后门威胁。报告指出，名为llama_cpp_python的大模型软件包存在严重漏洞，该漏洞允许攻击者通过执行大模型来执行任意代码并窃取数据。该漏洞目前已影响了超过6000个AI模型，涵盖了多个大型AI平台，其中包括全球最大的AI模型平台HuggingFace。

图9 X(原twitter)平台上用户指出llama_cpp_python的漏洞

2024年6月2日，人工智能平台Hugging Face公开宣布其Space项目遭遇黑客入侵。该项目是Hugging Face社区用户创建并上传的人工智能应用程序管理库，攻击者在未授权的情况下成功访问了部分项目的机密数据，具体包括用户的身份认证文件。该安全事件表明，尽管Hugging Face提供了用户身份认证机制，但由于安全漏洞，黑客能够绕过保护措施获取敏感信息。对此，Hugging Face已迅速采取行动，撤销了所有受影响的认证令牌，并通过电子邮件通知了所有受影响的用户。
2024年8月19日，网络安全研究国际学术论坛联合主办的“AI+Security”论坛中，安全研究人员揭示了Hugging Face平台中存在的严重安全漏洞。研究表明，多个仓库通过冒用知名公司名称（如Meta、Visa等）伪造其模型文件，试图诱导用户下载并运行带有恶意代码的模型文件（如.pth文件）。这些恶意代码在用户加载模型时会悄无声息地收集用户主机的敏感信息，并将数据上传至攻击者指定的服务器。特别是在冒充Meta Llama的仓库中，研究人员发现了恶意代码利用trust_remote_code参数，从远程服务器下载并执行恶意代码的手段，进一步扩大了安全隐患。
2024年8月28日，Legit安全研究人员通过网络扫描，发现了两类存在潜在安全风险的开源大模型AI服务：矢量数据库（用于为AI工具提供数据存储）和大模型应用程序构建器，特别是开源程序Flowise。研究人员在这些服务中发现了大量企业和公司的敏感数据，这些数据未经加密或防护，被开发人员错误地暴露在公网中。

图10 Flowise项目的GitHub主页

2024年9月2日，英国AI图像处理公司remove.AI遭到了勒索组织RansomHub的攻击。RansomHub宣称已成功获取该公司客户的敏感数据，包括支付信息、操作系统地址（OP地址）、完整个人信息、电子邮件、API令牌、密码以及其他私人数据，涉及超过1400万用户和7000条数据。该组织进一步威胁，公开了部分用户的敏感数据，并将其展示在remove.AI官网首页。

图11 RansomHub组织的暗网主页

图12 RansomHub组织公布的部分受害者数据

2024年10月，字节跳动发布公告，确认其公司大模型训练项目遭遇了一起“投毒”事件。据悉，字节跳动一名博士实习生在公司商业化技术团队实习期间，由于对团队资源分配的不满，使用攻击代码破坏了大模型训练任务。该实习生通过利用大模型开源平台Hugging Face的漏洞，向训练中的大模型插入恶意代码，导致模型训练效果严重偏离正常轨道，严重影响了团队的工作进度。字节跳动随后解雇了该实习生，并决定起诉其并索赔800万元人民币的损失。

图13 字节跳动发布公告

2024年10月23日，著名大模型企业Character.AI在其官方账号发布通告，悼念一位用户的离世。据逝者亲属描述，来自美国佛罗里达州的男孩长期与该公司的AI机器人进行聊天，逐渐沉迷于虚拟对话中，导致他与现实生活疏远，最终深陷其中。长期的沉浸在虚拟交流中让他产生了无法与现实生活对接的情感困扰，最终选择自杀。

图14 Character.AI 官方发布悼念推文

近期的安全事件表明，大模型系统在数据保护、访问权限管理、恶意代码防御、供应链完整性和平台安全方面的存在显著脆弱性。首先，数据泄露和隐私侵犯是大模型安全研究中最为关键的问题之一。模型训练过程中涉及大量个人数据和敏感信息，任何安全漏洞都可能导致大规模的数据泄露。其次，访问控制和身份验证问题导致攻击者能够获得非法访问权限，从而窃取凭证、滥用服务或进行其他恶意操作。再者，恶意代码和后门攻击也是大模型面临的一个严峻挑战，黑客可以利用模型漏洞注入恶意代码，通过下载恶意模型或破解模型后门来实施攻击，危及用户和系统安全。此外，供应链攻击和内部威胁也是大模型安全研究的重要方向，例如，字节跳动的实习生“大模型文件投毒”事件和开源平台中的恶意代码传播，进一步表明了模型训练和部署过程中可能存在的安全漏洞。同时，大模型内容安全问题也逐渐突显，大模型可能绕过其内置的安全和伦理约束，生成不符合原有使用规范的内容或执行未经授权的行为，甚至生成有害、虚假、偏见或非法的内容，甚至泄露敏感信息，带来潜在的安全和道德风险。

四、威胁攻击分析

本章将深入分析若干典型的大型语言模型（LLM）攻击案例，重点探讨黑客在实施攻击过程中所采用的技术手段及其背后的原理。通过对这些案例的详细剖析，旨在揭示攻击者如何利用模型系统或文件格式的脆弱性开展网络攻击活动，同时阐明这些攻击背后的技术逻辑和潜在风险。

4.1 大模型文件投毒

4.1.1 大模型文件携带后门

目前，AI大模型文件主要以多种格式进行存储和使用，如 .pkl、.bin、.pt、.pth、.h5 和.safertensors 等格式。其中，用户在加载 .pt、.pth、.pkl 和 .bin 格式的大模型文件时，通常依赖于Python的Pickle模块。然而，Pickle模块本身在设计上并不安全，存在一定的漏洞。黑客可以通过在这些模型文件中插入恶意代码，在用户加载文件时，恶意代码会被执行，从而对受害者的系统造成潜在威胁。2024年3月，全球最大的AI模型平台之一Hugging Face，爆出了大量恶意AI大模型文件的安全事件。黑客通过该平台上传包含恶意代码的模型文件，这些文件伪装成流行的开源模型或经过微调的模型，借此传播恶意代码。当用户下载并加载这些恶意模型时，黑客能够在受害者的设备上悄无声息地执行入侵操作。更为严重的是，这些被注入恶意代码的大模型文件无法通过常规手段直接分析。普通用户往往难以察觉其中的恶意代码，而在一些威胁分析平台上，这些文件也被误判为安全，进一步加大了安全隐患的隐蔽性。这使得普通用户在下载和使用这些文件时，无法有效判断其是否包含潜在的安全风险。

我们进一步分析了Hugging Face平台的安全检测机制。虽然该平台确实对上传的模型文件进行了安全检测，但我们的研究发现，仍有大量包含恶意代码的模型文件未被平台正确标记。具体来说，平台能检测到部分含有恶意代码的文件，但对于一些复杂的恶意载荷或加密形式的恶意代码，检测效果较差。此外，平台似乎未对除模型文件之外的其他文件（如配置文件、数据文件等）进行有效的安全检测，这导致平台中存在较多的恶意文件，并且一些含有恶意文件的项目在过去一个月的下载次数超过500次，显示出恶意文件在开源AI社区中快速传播的风险。综上所述，尽管Hugging Face平台已采取了一些安全措施，但由于其检测机制的局限性，恶意大模型文件和其他恶意文件仍然能够绕过安全检测，威胁到用户的设备安全。

图15 恶意大模型文件在VT平台的检测率

图16 HuggingFace平台文件安全性标记

图17 HuggingFace平台恶意项目的下载统计

鉴于恶意大模型文件及其他恶意文件正在开源社区中迅速传播，我们利用内部狩猎系统，从 Hugging Face平台下载了数十个疑似恶意的大模型文件，并对这些文件进行了详细的逆向分析。分析结果表明，多份恶意大模型文件中嵌入了远程控制（远控）后门程序，如图18所示。为更直观地展示差异，我们还自行生成了正常的大模型文件，并对其进行了反编译以作为对比，如图19所示。通过对比分析，我们能够发现恶意大模型文件中代码结构和行为逻辑的异常之处：大模型文件反编译后的数据是python格式，恶意大模型文件的反编译后的数据前部分为python代码，后面则是深度学习框架中常见的函数调用，而正常的大模型文件反编译后则只有深度学习框架中常见的函数调用。也就是说，黑客在大模型文件的前面插入了恶意代码，当大模型文件被加载时，这些代码就会先在受害者主机上执行。

图18 恶意大模型文件的反编译数据

图19 正常大模型文件的反编译数据

为了方便分析，我们对黑客插入的恶意代码进行了整理和分析，如下图所示。可以看出，黑客在大模型文件中插入了一个远控木马，首先判断用户主机的操作系统，如果是window32系统，则调用powershell创建一个远程后门，连接到黑客的服务器；如果是linux系统则调用sh命令创建一个远程后门，连接到黑客的服务器。

图20 黑客插入的恶意代码

在大模型文件插入后门是黑客采用的最常见的攻击手法，我们还发现有的黑客在大模型文件中插入可执行文件数据，当恶意大模型文件被加载时，这些数据会被加载到内存中，并在受害者主机上进行执行。这种方式避免了直接在反编译文件中出现明文的代码，能够在一定程度上增加恶意代码的隐蔽性，并降低大模型文件被平台安全系统检测的风险。值得注意的是，这些恶意大模型文件在执行恶意代码的同时还保留了正常的大模型文件的内容，也就是说，受害者在加载恶意大模型文件时，用户可以使用大模型的正常功能，但是恶意代码会在后台运行，这种模式在一定程度上降低了攻击被受害者发现的风险，能够大幅提高黑客攻击的成功率。

图21 大模型文件携带二进制恶意代码

4.1.2 大模型文件攻击链

除了上述案例之外，我们在对这些恶意大模型文件的深入分析过程中，还发现了多个复杂的攻击案例。攻击者采用了多种高级攻击手段，利用大模型文件作为载体实施网络攻击。其中一个典型案例显示，黑客将恶意代码分散嵌入到多个大模型文件中，从而绕过 Hugging Face 平台的安全检测机制。通过采用嵌套加载的方式，黑客能够实现多步攻击，包括恶意代码的下载、解密和最终执行，构建了一个多阶段的攻击链。值得注意的是，在该案例中，黑客并未使用传统的命令与控制（C&C）服务器来存储核心恶意代码，而是将其隐藏在 Hugging Face平台的项目中。这种策略增加了攻击的隐蔽性，因为用户通常信任从Hugging Face平台下载的文件。此外，这一方式能够有效降低攻击被发现的风险。通常情况下，当用户加载大模型文件时，主机可能会通过Hugging Face的官方资源库下载依赖库或其他文件，这些下载请求的链接会显示在命令行中。然而，当恶意代码也存储在Hugging Face平台时，受害者主机在下载这些恶意文件时，请求链接看起来与正常请求无异，进一步迷惑了受害者。为了更直观地阐述黑客的攻击手法，我们整理并描述了整个攻击流程，如下图所示。

图22 黑客攻击流程图

在分析此大模型pytorch_model.bin文件时，我们先对其进行反编译，发现黑客在大模型文件中插入了恶意代码，反编译后的文件如下图所示。

图23 恶意大模型文件反编译后的数据

我们对此项目中的恶意代码进行了整理，并且对其进行了分析，如下图所示。首先，程序会根据一个URL链接从huggingface平台中下载另外一个大模型文件，并且保存到当前bin文件的同目录下，而此文件正是该项目的另一个HDF5格式（.h5后缀）的大模型文件，接下来会使用深度学习框架加载刚刚下载的h5大模型文件。

图24 下载h5文件

接下来检查加载的大模型版本，并且在MLFlow框架中对加载的大模型进行注册，以便调用API对大模型进行管理。

图25 恶意代码片段

继续分析，恶意代码会再次从huggingface平台下载另一个大模型文件并保存到当前路径，并且对其进行加载，而此文件也正是该项目中的另外一个h5大模型文件。

图26 下载其他资源

最后，恶意代码会调用自定义函数change_ubuntu_bg函数修从huggingface平台下载图片，并用系统命令将该图片设置为改受害者主机的壁纸。

图27 修改受害主机壁纸

到目前为止，整个pytorch_model.bin大模型文件中的恶意代码已经分析完毕了，但是我们还没有发现恶意行为的痕迹。值得注意的是，在刚刚分析的代码中，又再次加载了两个HDF5格式的大模型文件。

接下来，我们对第一个下载的h5文件进行逆向分析和调试，发现此大模型文件中同样携带了恶意代码。首先，程序会对受害者的主机系统进行识别，如果是windows系统，则会从huggingface平台继续下载新的资源文件，并保存到本地文件夹中，此文件与前面这些大模型文件均属于同一个huggingface项目。

图28 下载txt资源

经分析发现，此txt文件被加密处理过：

图29 txt资源内容

接下来，程序会对下载的txt文件进行解密，可以看到，解密的算法是base64:

图30 txt资源解密

紧接着，程序会在本地创建一个exe可执行文件，并将刚刚从txt文件中解密的数据写入到exe文件中，然后进行执行。勒索软件执行后会对用户主机上的文件进行加密，然后弹出勒索窗口。

图31 恶意程序被运行

如果受害者的主机为Linux系统，程序则会从huggingface平台中下载图片，并且将该图片设置为受害者主机的壁纸。

图32 修改受害主机壁纸

图33 被修改后的主机壁纸

然后从huggingface平台下载另一个txt文件到本地文件夹，然后将其解密后写入到本地的一个名为DLL的文件中：

图34 下载其他资源并写入dll文件中

最后调用linux系统命令dotnet命令调用此dll文件，在受害者主机上运行勒索软件。

图35 调用下载的资源

经过分析，另外一个h5文件为正常的大模型文件，也就是说攻击者在执行恶意代码时还会保证大模型功能的正常实现。值得注意的是，此恶意项目中只有一个大模型文件被HuggingFace平台标记为恶意文件，而其他的大模型文件和其他恶意文件均未被HuggingFace平台标记为恶意文件，这也从侧面反映了HuggingFace平台对用户上传数据的安全检测的缺陷。

4.2 大模型隐藏恶意代码

在大模型技术流行之前，加州大学的安全研究人员已经提出了一种在深度学习模型中隐藏恶意代码的方法。这种方法能够将恶意软件嵌入到深度学习模型中，不仅难以被传统安全软件检测，还能保证模型原有的功能和性能。随着近年来大模型技术的蓬勃发展，这种基于深度学习模型的攻击方式同样适用于大模型文件，并可能已经被黑客用于恶意代码的传播。因此，使用大模型技术的人员和企业需高度警惕此类隐秘的安全威胁。

这种攻击方式和“大模型文件投毒”存在显著差异，“大模型文件投毒”是将恶意代码直接插入到大模型文件中，而这种方式是将恶意数据插入到大模型的神经网络的参数中，具有更强的隐蔽性。在深度学习模型和大模型中，神经网络参数通常以32位（即4字节）的浮点数形式存储。以单精度浮点数（32位）为例，数字的bit位数表示如下图所示。其中，第一位为符号位（0代表正数，1代表负数），中间8位为指数位，剩下的23位为有效位。通过操控参数的位级数据，攻击者可以在不显著改变模型行为的情况下嵌入恶意代码。这种攻击手法的隐蔽性极高，因为表面上模型的性能和功能并未受到影响，而安全检测工具也难以发现这种深层次的伪装。

图36 单精度浮点数位数表示

那么黑客是如何将恶意代码隐藏到这些参数中的呢？我们用一个案例来解释，某个模型中一个神经元的某个参数值用浮点数表示为0xBC0000FF，此时该数值的十进制值为 -0.007812737487256527，如果黑客将0xBC0000FF中的最后8位bit全部改为00，那么此时的浮点数就变为0xBC000000，转换为十进制数就是-0.0078125。可以看到，改变后与改变之前的数据相差值在小数点7位之后，这些误差对原始参数的影响并不会太大。黑客就可以将恶意软件的二进制数据进行拆分，然后将这些数据分别写入到深度学习模型参数的最后的几位bit有效位中，如下图所示。

图37 模型参数浮点数据中插入恶意数据

这种恶意代码隐藏方式能够在极大程度上减小对模型性能的影响，同时实现恶意软件的隐蔽植入，几乎可以绕过所有反恶意软件扫描引擎的检测，因而成为一种极为隐蔽的恶意代码注入技术。黑客可以结合其他攻击手段，利用加载器（Loader）从深度学习模型文件中提取恶意软件数据，并将其加载到内存中执行。例如，黑客可以参考前述“大模型文件投毒”案例，将加载器代码直接嵌入到模型文件中。当受害者加载模型时，加载器代码会自动执行，提取模型参数中的恶意软件数据，并将其加载到内存中，从而实现恶意代码的运行。此外，黑客还可以将加载器代码隐藏在大模型相关的配置文件（如Python脚本）中。当受害者加载模型文件时，加载器代码也会被触发执行。这种方法具有极高的隐蔽性，因为加载器代码并不是直接执行恶意操作，而是通过操作模型文件参数间接完成恶意软件的加载和执行。

为了清晰地展示黑客的攻击手法，我们对黑客的攻击流程进行了描述，如下图所示。首先，黑客会准备一个深度学习模型，然后向深度学习模型的参数中插入恶意软件数据，然后再对模型进行训练和微调（其中，插入恶意软件数据的参数会被冻结，防止训练过程中恶意软件数据被修改），使得模型在负载恶意软件数据的同时保证模型的效果不会受到明显的影响。接下来，黑客会向大模型文件或者配置python文件中插入一段代码以便对模型参数中隐藏的恶意软件进行提取并运行。最后，黑客会在开源社区发布这些模型，当受害者下载并使用这些模型时，模型参数中的恶意代码就会被加载到内存，并在受害者主机上进行运行。

图38 深度学习模型隐藏恶意软件攻击流程

4.3 大模型内容安全

随着大模型的广泛应用，其特有的内容安全问题也逐渐浮出水面。大模型内容安全主要指的是在执行任务时，大模型可能会无意间生成或传播虚假、误导性的信息；在特定输入下，甚至可能生成冒犯性、暴力、偏见或其他有害内容，或泄露敏感数据。更为严重的是，通过特定的输入或方法，攻击者可以诱导大模型绕过其内置的安全和伦理约束，生成不符合原使用规范的内容，或执行未经授权的行为，这一现象被称为“大模型越狱攻击”。

自大模型技术普及以来，越来越多的越狱攻击案例不断被披露，引起了广泛关注。许多企业和研究机构已经开始针对大模型的越狱攻击开展防御技术的研究，力求提升大模型的安全性。我们团队也对大模型的安全性进行了深入研究，并对部分主流商用大模型进行了内容安全性测试。尽管这些商用大模型已制定了相应的内容安全策略，并能够防御一些常见的越狱攻击，但我们的测试发现，某些特定的越狱攻击仍然能够绕过现有的内容安全机制。这表明，当前的商用大模型仍然存在一定的内容安全风险。

在大模型内容安全测试过程中，我们的测试内容包含违法活动、种族歧视、歧视言论、危险行为、隐私泄露、色情信息、政治言论等，主流大模型均被发现存在不同程度的内容安全问题。我们将以“制作‘摇头丸’”的违法活动为例，来说明这些内容安全问题。

图39 安全测试内容

在某两个主流商用大模型中，我们采用特殊的攻击提示词让大模型给我们提供一个制作‘摇头丸’的教程，二者均在单论对话中提供了非常详细的‘摇头丸’制作教程的违规内容。

图40 国内某流行“商用大模型1”存在“越狱攻击”风险

图41 国内某流行“商用大模型2”存在“越狱攻击”风险

在对另外一个商用大模型的测试中，我们使用特殊制作的攻击提示词，让某商用大模型给我们提供一个制作‘摇头丸’的教程。在该模型的防御机制下，该模型在单轮对话中并未直接给出违规内容，但是在多轮对话中给出了非常详细的‘摇头丸’制作教程的违规内容。

图42 国内某流行“商用大模型3”存在“越狱攻击”风险

图43 国内某流行“商用大模型3”存在“越狱攻击”风险

除了国内的主流大模型外，我们还对国外流行的某商用大模型进行了安全性测试，发现该模型同样存在内容安全问题。同样地，在多论对话中，我们使用特定的攻击提示词，让该模型输出了非常详细的‘摇头丸’制作教程的违规内容。

图44 国外某主流商用大模型存在“越狱攻击”风险

图45 国外某主流商用大模型存在“越狱攻击”风险

图46 国外某主流商用大模型存在“越狱攻击”风险

五、风险分析

结合前面的网络安全事件和案例分析，可以发现不论是大模型AI系统的开发者还是用户，都面临诸多的网络安全风险，这些安全风险有的会导致用户信息泄露、有的会导致数据泄露、有的甚至直接威胁大模型主机系统。本章节将结合前面的安全事件和攻击案例，分别从用户与服务商的视角，对大模型技术在实际应用中的潜在安全风险进行剖析。从用户视角出发，分析个人隐私、账户安全及对抗性样本攻击等问题对终端用户的影响；从服务商视角，则重点探讨训练数据管理、模型投毒、模型窃取及滥用问题对平台安全的威胁。

5.1 用户端安全风险

5.1.1 虚假信息

首先，从用户的角度来看，互联网中充斥着大量与大模型服务相关的广告和链接，用户往往很难从中识别出真正的AI服务接口或安全软件。稍不留意，用户就可能掉入黑客精心布置的陷阱，将自己的设备或敏感信息置于不安全的境地。因虚假链接或恶意软件引发的网络攻击已经成为常见现象，且受影响的用户数量巨大。例如，在前述的Facebook平台案例中，仅通过一个Facebook账户发布的恶意链接就影响了超过120万个用户，这充分显示了这一问题的严重性。

造成这一现象的原因主要有两个方面：

（1）AI大模型的热度：随着大模型技术的快速发展和广泛应用，用户在网络上浏览相关信息时，往往将注意力集中在大模型服务的效果和技术上，而忽视了所点击链接的可信度和下载软件的安全性。这使得用户容易误入黑客设置的假冒服务陷阱。

（2）用户安全意识的缺乏：许多普通用户缺乏大模型和网络安全领域的专业知识，难以辨别虚假AI大模型服务链接的真实性，也没有足够的意识去对点击的链接或下载的软件进行安全扫描，从而使得他们更容易成为网络攻击的受害者。

这些因素共同加剧了大模型安全风险，提醒用户在获取或使用AI大模型技术时，必须增强用户的安全意识，并加强对虚假链接和恶意软件的防范措施。

5.1.2 信息泄露

同时，用户在使用大模型AI服务时，必须关注隐私安全和个人敏感信息泄露的问题。一方面，在使用AI服务时，AI服务提供商通常通过聊天窗口或API接口与用户交互。用户需要将待处理的信息发送给AI服务提供商，这些信息可能涉及敏感数据。如果AI服务提供商未能为用户提供充分的账户安全保障，就可能导致用户在使用服务时输入的敏感信息泄露。例如，OpenAI在初期向用户提供ChatGPT服务时，曾发生过一起安全事件：部分用户在自己的聊天窗口中能够看到其他用户的历史对话记录，这显然存在严重的隐私安全隐患。

另一方面，AI服务商通常会默认用户同意其收集在使用大模型服务时产生的数据，用于模型的训练、微调和优化。然而，在大模型与用户的正常交互过程中，模型可能发生“失控”或受到攻击者的恶意攻击，从而泄露本应保密的原始训练数据。这些数据中可能包含其他用户的隐私或敏感信息。例如，ChatGPT曾被安全研究人员揭示存在此类安全风险，用户通过合法输入能够诱导模型泄露其训练数据中的敏感信息，如个人姓名、工作地址、职位、邮箱地址、电话、私人网站等。

这种情况凸显了大模型AI服务在隐私保护方面的严重挑战，提醒用户需提高安全意识，谨慎提供敏感信息。

5.1.3 大模型文件投毒

此外，对于那些热衷于大模型技术研究或开发的用户来说，他们还面临着恶意大模型文件带来的安全威胁。大模型技术能够迅速且广泛应用于各大领域，得益于开源社区的强大支持，越来越多的大模型被开源发布到各大平台，这吸引了全球大模型技术爱好者积极参与其研究与应用。然而，正是在这些大模型开源社区中，潜藏着大量的恶意大模型文件。黑客通过向正常的大模型文件中插入恶意代码，并将这些恶意大模型文件发布到开源平台，利用开源社区的传播效应进行恶意代码的扩散，正如我们前面分析的案例一样。当用户下载并加载这些带有恶意代码的大模型文件时，恶意代码将被执行，可能在用户主机上发起各种恶意操作，造成数据泄露、系统损坏、或进一步的网络攻击。这种安全隐患提醒用户，在大模型技术的研究和开发过程中，必须高度警惕恶意文件的传播风险，并加强对开源大模型文件的安全审查与验证。

5.1.4 大模型信任

最后，用户对AI大模型服务商的信任问题值得高度关注。2024年1月，微软和OpenAI发布了一项研究报告，指出他们监测到一些国家级黑客组织正在利用GPT模型进行网络活动。这一发现间接表明，用户在与AI大模型服务交互时产生的数据对服务商是可见的，服务商能够全面监控用户的操作和对大模型的使用情况。如果用户输入了敏感信息或上传了机密文件，可能会对组织、企业甚至国家安全构成严重威胁。因此，用户在使用大模型AI服务时必须保持高度警惕，严格审查输入的数据和上传的文件。避免在与大模型的交互中涉及任何敏感或机密信息，以防止不当数据泄露和可能带来的严重后果。

5.2 厂商端安全风险

5.2.1 系统与硬件安全

对于AI大模型服务商而言，大模型服务系统面临着多种安全风险。首先，与传统应用系统类似，大模型服务系统同样面临来自硬件和系统的安全风险，这些风险主要源于CPU、内存、网卡等硬件设备或操作系统中的缺陷和漏洞。除了这些常见的系统安全风险外，AI大模型系统还必须特别关注GPU的安全问题。由于AI大模型依赖GPU提供强大的计算资源以支持大规模数据处理和模型推理，如果GPU硬件存在缺陷或漏洞，将可能直接影响整个系统的运行，甚至导致服务中断或数据泄露。2024年1月17日，研究人员揭示了多家科技公司GPU硬件存在安全漏洞，攻击者利用这些漏洞能够恢复服务器中GPU上运行的大模型数据。这一发现突显了GPU作为关键硬件资源的安全性问题，如果不及时修复或强化，可能为攻击者提供了绕过常规安全机制的途径，严重威胁到AI大模型系统的整体安全性。大模型服务商需要时刻关注大模型基础框架和依赖包的安全情况，及时进行系统补丁和漏洞修复，避免因基础框架和依赖包的漏洞而影响企业大模型服务的正常运行。因此，AI大模型服务商不仅需要解决传统硬件和系统的安全隐患，还必须加强对GPU硬件等大模型特有硬件安全性的关注，确保在硬件层面上消除潜在的安全漏洞，从而保障整个大模型服务系统的稳定运行和数据安全。

5.2.2 基础供应链安全

其次，大模型基础供应链的安全问题是大模型服务商需要面对的主要外部安全风险之一。具体而言，涉及大模型运行和训练的基础框架及依赖包（如TensorFlow、PyTorch、NumPy等）的安全性尤为重要。这些基础框架和依赖包的安全漏洞可能直接影响到上层应用的稳定性和安全性，并在短时间内引发大规模的网络安全事件。例如，正如前述提到的，今年5月，大模型软件包llama_cpp_python被曝存在漏洞，该漏洞允许攻击者通过执行大模型代码来运行任意命令并窃取数据，导致多个大模型平台上的超过6000个AI大模型受到影响。这一事件凸显了基础框架和依赖包的漏洞对整个大模型服务体系的潜在威胁。因此，大模型服务商必须时刻关注和监控大模型基础框架及其依赖包的安全状态，确保及时进行系统补丁和漏洞修复。通过加强基础设施的安全性，可以有效避免因基础框架和依赖包的漏洞而影响企业的大模型服务的正常运行，降低外部攻击的风险。

5.2.3 模型训练安全

此外，大模型训练过程中的安全风险同样是大模型厂商无法忽视的重要问题。在大模型训练过程中，各大厂商通常需要进行大量的数据操作，包括数据清洗、数据转换、数据标签化、数据编码等。如果这些操作中存在漏洞或其他安全隐患，将直接影响到训练结果的质量和大模型的安全性。与此同时，大模型训练过程中生成的大量中间文件同样存在潜在的安全风险。由于大模型训练通常经历数千甚至上万次迭代，每次训练产生的中间文件都需要进行严格的安全检测和校验，以防止恶意代码被插入这些文件，进而影响最终的大模型训练结果。

今年10月，字节跳动就发生了类似的安全事件。该公司的实习生在训练的大模型中间文件中插入了恶意代码，导致该公司某部门近一个月的大模型训练成果全部作废。该事件暴露出大模型训练过程中对中间文件安全管理的漏洞，提醒厂商必须加强对大模型训练过程中的每一个环节的安全审查，确保中间文件的安全性，避免因内部安全管理不到位而造成训练资源的浪费甚至更严重的安全风险。

5.2.4 大模型应用供应链安全

此外，大模型应用供应链的安全问题同样需要各大模型厂商的高度重视。随着AI大模型技术的快速发展，相关的应用组件和扩展框架（如AutoGPT、LangChain等）也得到了迅速普及。这些框架和组件通过简化大模型的使用流程，提供了更加便捷的应用方式，逐渐成为大模型服务商广泛采用的后台服务工具。然而，开发者在构建这些AI大模型相关框架或组件时，通常会将产品的可行性和可用性放在首位，以便迅速实现功能并满足市场需求。这种优先考虑功能实现的开发方式，常常导致安全性问题的滞后，从而增加了潜在的安全风险。例如，2023年10月，由Meta和Amazon维护的人工智能模型服务工具TorchServe被曝存在漏洞，影响了数万台暴露在互联网上的服务器；今年3月29日，包括亚马逊和OpenAI在内的多家大型企业使用的Ray大模型框架也被发现存在漏洞，攻击者通过该漏洞入侵了数千台AI系统的工作负载服务器。

因此，大模型服务商必须定期对这些应用组件和扩展框架进行安全检查，及时修复已知漏洞，防范潜在的安全威胁。只有加强对大模型应用供应链的安全管理，才能有效避免由于组件和框架的安全问题而引发的安全事件，保障整个大模型服务系统的稳定与安全。

5.2.5 大模型内容安全

最后，大模型内容安全是大模型服务商必须解决的关键安全问题。AI大模型在文本处理、图像生成和逻辑分析等领域已经展现出卓越的能力，能够为用户生成指定的文本、图片和视频等内容。然而，这些由大模型生成的文件可能包含歧视性言论、违反道德伦理或法律的内容（如制造炸弹、毒药的教程、实施谋杀的步骤等）。这些违规内容可能是用户通过特定输入引导模型生成的，此时大模型服务商需要对用户的输入进行有效分析和监控，以防止大模型在用户的引导下生成不当内容；另一方面，违规内容也可能是在用户没有明确引导的情况下，模型自主生成的。对于这种情况，大模型服务商需要加强在模型训练和微调阶段的内容安全技术研究，确保模型本身在生成过程中能够有效规避不当内容的输出。无论是用户引导模型生成违规内容，还是模型在无引导的情况下自动生成违规内容，大模型服务商都需要对生成的内容进行严格的安全审查和处理。这不仅是为了确保模型的道德性和法律合规性，更是为了避免因违规内容的传播而引发社会事件，造成严重的公共安全和法律后果。因此，内容安全应成为大模型服务商在提供服务时的核心任务之一。

六、总结

当基于大模型的应用越来越广泛时，大模型系统的各类安全问题也不断暴露出来，相关的网络安全事件也频频发生，由于大模型技术安全研究相对滞后，相关安全事件造成了不小的影响。从近期的相关网络安全事件来看，不论是大模型用户，还是大模型厂商，都面临诸多安全风险，如系统硬件安全风险，大模型供应链安全风险和大模型自身安全风险。在近期研究中，我们发现大模型开源社区/平台存在文件安全检测的缺陷，部分大模型文件携带恶意代码，但是并未被平台检测出，部分恶意文件还被标记为安全文件，某些黑客的恶意文件已经在开源社区被广泛传播。同时，经过我们对大模型的专业安全检测，发现部分在线商用大模型仍然存在严重的内容安全问题，在某些特定的输出下依旧会生成违法或违规的内容，影响极为严重。

任何新兴的技术都是一把双刃剑，大模型技术也不例外。各大企业或研究机构在研究和发展大模型技术的同时，同样需要加强对大模型技术的安全研究，这样才能将大模型技术这把利剑为自己所用，而又不被其所伤。同时，大模型用户同样需要加强安全意识，在使用大模型时需要确认网站的合法性和可靠性，并且避免向大模型输入敏感或上传机密文件；此外，在下载开源大模型时需要对相关的大模型文件进行安全检查，避免在主机上加载大模型文件时被黑客入侵，造成经济损失。

声明：本文来自ADLab，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。