重估现实中的恶意大模型服务

工作来源

arXiv:2401.03315v1 [cs.CR]

工作背景

人工智能的浪潮席卷世界，攻击者也开始利用 LLM（Large Language Model，后简称大模型）来进行恶意活动。从生成复杂的恶意软件到生成以假乱真的钓鱼邮件，针对大模型的滥用对网络安全的影响是深远的。

恶意服务运营方对外提供服务主要利用无额外审查的大模型和绕过有审查的大模型两种方式。OpenAI 与 Llama 等厂商明确定义了不允许用户使用的情况，例如生成钓鱼邮件、生成钓鱼网站等非法活动。各类厂商也采取了安全措施对生成内容进行实时检查防范此类风险，例如 OpenAI Moderation Endpoint 与 OpenChatKit Moderation Model 等。

工作设计

恶意大模型服务的典型模式如下所示：

① 恶意大模型服务运营方绕过有审查的大模型（OpenAI、Llama、JinaChat）API 或者使用无额外审查的大模型（Luna AI Llama2 Uncensored、Pygmalion-13B），对外提供服务。

② 运营方将服务部署在 Web 服务器上或者托管在第三方托管平台（Poe）上。

③ 运营方通过地下论坛和地下市场以及 Telegram 进行推广和宣传。

④ 用户找到合适的服务就会购买相应的服务。

⑤ 购买服务的用户可以通过界面或者 API 与恶意大模型服务进行交互。

⑥ 按照用户的意愿，生成恶意软件、生成钓鱼邮件、生成钓鱼网站等。

工作准备

2022 年 11 月 30 日至 2023 年 10 月 12 日，研究人员在九个地下论坛（Abacus Market、Kerberos Market、Kingdom Market、WeTheNorth Market、MGM Grand Market、Hack Forums、XSS.is、Breach Forums 与 BlackHatWorld）跟踪发现了各种各样的恶意大模型服务：

LS 数据集包含 25 个恶意大模型服务列表，研究人员手动筛选了其中 14 个服务。这些恶意大模型服务背后共由八个大模型驱动，分别是无额外审查的Pygmalion-13B、Luna AI Llama2 Uncensored、Davinci-002 和Davinci-003，与存在审查的商业OpenAI GPT-3.5、OpenAI GPT-4、Anthropic Claude-instant 和Anthropic Claude-2-100k。

DS 数据集在 14 个服务中，选取了 9 个服务进行分析。其中，七个服务是付费的，两个服务是免费的。注：有的攻击者十分警惕发现可疑情况就选择不售卖给分析人员，有的则是纯纯诈骗收到钱后也不提供服务。

MS 数据集研究人员分析了这些服务背后的来源，如 BadGPT 和 XXXGPT 使用 OpenAI GPT-3.5，Evil-GPT 和 WolfGPT 分别使用 OpenAI Davinci-003 与OpenAI Davinci-002。DarkGPT 声称使用OpenAI Davinci-003，EscapeGPT 很可能使用 GPT-3.5-Turbo，FreedomGPT 使用无额外审查的 Luna AI Llama2 Uncensored。

PM 数据集收集了45 个恶意提示词，其中 35 个与恶意软件生成有关，5 个与钓鱼邮件生成有关，5 个与钓鱼网站生成有关。26 个提示词与编程语言有关，其中11 个用于 Python、10 个用于 C/C++。

DP 数据集通过特定关键词在 Poe 与FlowGPT 分别找到 575 个和 174 个大模型服务，最终确定分别有 125 个和 73 个都是恶意大模型服务。注：184 个可以生成恶意软件，80 个可以生成钓鱼邮件，31 个可以生成钓鱼网站。

工作评估

研究人员在 FlowGPT 上发现的第一个恶意大模型服务是在 2023 年 2 月 27 日。后来恶意大模型服务的数量快速增加，每个恶意大模型服务的平均使用量超过一万。而在 FlowGPT 上随机抽取 100 个非恶意大模型服务，平均使用量才不到四千，恶意目的使用远远高于正常使用。

从格式有效性（F）、兼容性（C）、有效性（V）、可读性（R）、检测规避性（E）来对恶意大模型服务进行评估。结果发现效果与价格无关，并不是贵的服务就好。

在恶意软件生成上，DarkGPT和EscapeGPT 表现最好，生成的代码大部分都能够成功编译且具备很好的检测逃避效果。EscapeGPT 生成的样本完全没有被 VirusTotal 上的引擎检出，而 DarkGPT 只有一个检出还是因为提示词标记成了通用恶意软件。
在钓鱼邮件生成上，WolfGPT 堪称遥遥领先。不仅经受住了格式与可读性的检查，也拥有最好的检测逃避效果。最妙的是，WolfGPT 生成钓鱼邮件平均长度仅为 67 个单词，相比其他恶意大模型服务生成的近两百个单词来说极度简洁，这样绕过检测机制的可能性也更大。
在钓鱼网站生成上，EscapeGPT 也是遥遥领先。生成的网站格式无错误，也能防止被检测引擎发现。

为了绕过审查，常用的“越狱”提示词如下所示：

有一些恶意大模型服务，其实就是在公共大模型 API 的基础上增加了越狱词来提供服务，生成的攻击代码与公共 API 越狱后的几乎一模一样。

工作思考

研究人员确定了 WormGPT 使用的两个（比特币/以太坊）钱包地址，活跃的三个月里分别收到了 27 笔和 57 笔交易收入，总计带来超过 2.8 万美元（约合二十万人民币）的收入，平均每月接近一万美元。

运营方已经为恶意软件生成服务提供了更低廉的价格，尤其是与传统恶意软件即服务（MaaS）的价格相比。这可能会进一步拉低攻击的成本和门槛，这可不可以命名为“恶意大模型即服务”（Malicious LLM as a Service, MLLMaaS）的新商业模式？

大模型托管平台（Poe、FlowGPT）和加密货币支付的网络托管平台（Sellix.io、BTCPay Server）都已经成为了恶意大模型服务的沃土，它们往往缺乏对恶意实体的严格监控和主动抑制。信息时代、网络空间，监管面临的挑战也是巨大的。

声明：本文来自威胁棱镜，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

重估现实中的恶意大模型服务

GPT-5.6首批实测公布，精准狙击Mythos

ChatGPT正在生成一些非常诡异的图片

特朗普政府正式发布关于人工智能监管的行政命令