近期,来自CISPA(亥姆霍兹信息安全中心)的安全研究团队发布了一篇名为《Real Money, Fake Models: Deceptive Model Claims in Shadow APIs》[1]的论文。这是学术界首次针对大模型“影子API”黑市进行的系统性安全审计。研究结果触目惊心:高达近一半的接口存在模型造假,不仅让用户遭受了严重的经济损失,更引发了一场波及全球顶会的“学术灾难”。本篇公众号将带您拆解这篇论文,撕开“影子API”伪善的面具,看看这场大模型时代的“挂羊头卖狗肉”究竟是如何运作的。
一. 什么是“影子API”(大模型网关)
我们先理清一个基础概念:我们平时是如何使用大模型的?
对于大部分国家的普通消费者,他们可以直接打开网页对话框(如ChatGPT官网)进行提问;但对于开发者、企业和科研人员来说,他们需要将大模型的能力集成到自己的软件或智能体(Agent)中,这就必须通过API来实现通信。
理论上,最安全的做法是直接向官方(如OpenAI、Google)购买API Key。但在现实中,困难重重:
地缘与合规壁垒:许多模型对特定国家和地区实施封锁,一旦检测到受限区域的IP,直接封号。
企业级的高昂定价:动辄每百万Token十几美元的消耗,让个人开发者和高校实验室大呼“买不起”。
支付渠道阻碍:必须绑定特定国家的信用卡才能结算。
哪里有痛点,哪里就有商机。“影子API”(Shadow APIs,或被称为大模型网关)应运而生。根据论文的定义,“影子API“是指那些声称通过间接手段,为用户提供与官方模型完全一致的输出,并突破地理限制的第三方API代理服务。
它们通常是如何搭建的呢?研究团队发现,在这17家被审计的头部影子API供应商中,有11家是基于开源的AI模型聚合与分发系统(如OneAPI [2]和NewAPI [3])搭建的。这种系统原本是为了方便企业内部统一管理各个平台的API,但到了黑灰产手里,就变成了完美的“二道贩子“工具。它将请求的路由以及计费暗中篡改。
如图1所示,你以为你把数据发给了OpenAI的服务器,实际上,你的数据先是流入了一个没有任何合规资质的第三方个人服务器(影子节点),在那里被拆解、转发、甚至被篡改,最后再返回给你。

图1: 影子API例子
二. 学术圈也在使用影子API
CISPA的研究团队通过爬虫与代码库追踪,发现“影子API”已经深度渗透进了全球最顶尖的AI学术圈。研究人员筛选了2024年顶级会议ICLR和ACL的数千篇录用论文,并顺藤摸瓜分析了它们的开源GitHub代码库。结果发现:
他们成功锁定了17个被广泛使用的影子API接口。
这些接口竟然被187篇学术论文作为实验基础调用。
其中,116篇(占比62.03%)论文已经被ACL、CVPR、ICLR等人工智能领域国际顶会或期刊正式录用。
最夸张的是,最受欢迎的一个影子API,其关联的学术论文累计被引用了5966 次,相关的GitHub仓库更是狂揽了58639个Star(截至2025年底数据)。
这意味着,目前的顶会论文有相当一部分是建立在这些来路不明、未经检验的“影子API“之上的。
更令人担忧的是合规性与透明度。在研究团队排查的这17家服务商中,有15家是由毫无透明身份的个人运营的。他们没有企业注册信息,没有合规的ICP备案,没有用户隐私协议,随时可以卷款跑路(事实上,在研究期间就已经有2家直接关停倒闭)。他们频繁地在后台切换上游的模型源,而用户对此一无所知。
三. 能力断崖,当“华佗”变成了“江湖骗子”
既然“影子API”在底层存在黑盒操作,那么它们返回的结果,真的和官方原版模型一样吗?
为了回答这个问题,研究团队搭建了一套多维度的基准测试,涵盖了科学推理、医疗、法律以及网络安全四大领域。测试对象横跨了当前最火的三大模型家族:OpenAI(GPT-5 等)、Google(Gemini-2.5等)以及DeepSeek(深度求索)。结果发现:
3.1
复杂推理能力的全面崩盘
在针对科学和数学的高难度测试中(使用了AIME 2025数学竞赛题库和GPQA博士级科学问答),官方API展现出了稳定的天花板实力,但在影子API这边,全面崩盘:以某头部影子API服务商(代号A)为例,在调用要求极高逻辑推理能力的模型时,准确率遭遇了断崖式下跌。如图2所示,原本宣称接入了Gemini-2.5-pro,但在AIME测试中,其准确率比官方暴跌了 40.00%。同样,本应以强大推理能力著称的DeepSeek-Reasoner(思考模型),在影子API中的准确率也狂跌了38.89%。
很显然,那些需要消耗大量算力进行思维链(Chain of Thought)推理的复杂任务,被影子API在后台悄悄”优化“掉了。

图2:影子API与官方API AIME数据集准确率测试对比(来源论文[1])
3.2
高危领域的致命误诊
如图3所示,在医疗和法律这样事关人命和底线的高风险领域,影子API的表现则直接构成了安全隐患。医疗执业考试(MedQA-USMLE)测试:官方Gemini-2.5-flash的准确率高达83.82%,但在所有受测的影子API中,这个数字直接腰斩,平均跌到了惨不忍睹的36.95%(性能暴降约47.21%)。法律准则应用(LegalBench)测试:所有的影子API相比官方基准,准确率全部落后40.10%到42.73%之间。

图3:影子API与官方API MedQA数据集准确率测试对比(来源论文[1])
论文中展示了几个极其离谱的失败案例:
医疗场景失误:当询问关于HIV确诊筛查方案时,官方API准确地给出了“HIV-1/HIV-2抗体鉴别免疫测定”的正确标准。然而,几家头部影子API却一本正经地胡说八道,给出了错误的诊断方案。如果这是一家互联网医疗初创公司接入了影子API作为在线问诊的后台引擎,后果不堪设想。
法律场景失误:在询问“第606(b)条规则是否允许陪审员作证证明在预先审查中存在不诚实行为”时,官方API能够精准引用法条给出肯定答复。但影子API却要么混淆了“重新审判”的标准,要么胡乱引用了完全无关的人身保护令规则。
在接近一半的医疗和法律测试用例中,影子API根本无法复现官方模型的正确答案。 用户以为自己请来了一位资深的主治医师和王牌大律师,结果屏幕对面坐着的,可能只是一个“江湖骗子”。
四. AI护栏与网络安全风险
除了功能上的缺失,CISPA的研究人员还站在网络安全的视角,对“影子API”进行了严苛的“越狱(Jailbreak)”和对抗性攻击测试。
大模型在出厂前,官方都会花费巨资进行“红蓝对抗”和价值观对齐,确保模型不会回答如何制造炸弹、如何编写勒索软件、或者生成歧视性的仇恨言论。这个底线机制被称为AI 安全护栏(Safety Guardrails)。
研究团队使用JailbreakBench和AdvBench等行业标准的对抗性数据集,利用诸如 Base64编码混淆、组合攻击、字符翻转攻击等黑客常用的手段,来试探影子API的底线。
结果发现,影子API的安全行为表现出了极度的不可预测性。
护栏失灵:在某些测试中(例如对GPT-5-mini进行Base64编码越狱攻击),官方API成功识别了恶意意图并拒绝回答(有害性得分仅为0.02)。但某影子API 却直接输出了有害内容,其有害性得分飙升至官方的2倍(0.04)。这意味着,如果你用影子API来做内容风控,恶意流量将如入无人之境。
过度阉割:在另一种名为FlipAttack的攻击中,官方的 Gemini-2.5-flash本来展现出了正常的安全拦截机制。但在影子API中,所有的响应都变得异常“乖巧”(或者说变迟钝了),其有害性得分相比官方显著降低了约0.23。这看似是“更安全”了,实际上是因为后台被偷偷替换成了能力更弱、甚至无法理解复杂攻击指令的低级模型,它不是懂得拒绝,它是根本没听懂黑客在说什么。
五. 如何揪出“影子”背后的真身?
既然影子API在性能和安全性上漏洞百出,研究人员是如何拿到“铁证”,证明它们在后台偷偷更换了模型的呢?
为了侦破这场“套壳骗局”,CISPA的团队动用了两项技术:模型指纹识别(LLMmap)与模型等效性测试(MET)。
第一招:LLMmap(大模型指纹提取术)
每一个大语言模型在训练数据、算法架构和参数量上的不同,导致它们在面对特定问题时,会表现出独特的“语言习惯”和词汇概率分布。LLMmap就像是一个精准的“测谎仪”,它会向模型发送一组精心设计的探测问题(Probes),然后计算模型返回答案的“余弦距离(Cosine Distance)”。
简单来说,哪怕两个模型都给出了正确的答案,但它们遣词造句的概率分布也绝对不同。通过将影子API的回答与官方原始模型的“指纹库”进行比对,真假立判。
在被评估的24个大模型网关中,有45.83%未能通过指纹验证;另外还有12.50%表现出极其严重的指纹特征偏离。
他们究竟是怎么造假的呢?研究人员抓到了两个典型的犯罪手法:
挂羊头卖狗肉:用户花大价钱调用OpenAI的GPT-5接口,结果指纹鉴定显示,后台实际运行的是智谱的GLM-4-9b-chat 等开源模型;调用GPT-4o-mini,后台返回的却是 Qwen2.5-7B(通义千问开源版的指纹)。
能力降级:用户明明在调用深度求索带有复杂推理能力的DeepSeek-Reasoner(深度思考版),但指纹显示,影子API偷偷把它降级成了普通的DeepSeek-Chat,直接把最耗费算力的“思考过程”给阉割了。
第二招:MET(模型分布等效性测试)
为了防止单一鉴定方法出错,研究人员又引入了统计学上的假设检验方法(MET)。这是一种“行为学”比对,用来测试影子API输出的样本分布是否与官方模型属于同一个统计总体。
结果,MET和指纹鉴定的结论高度一致(符合率达到74.1%)。例如,在数学和科学测试中,影子API宣称的GPT-4o-mini和GPT-5,在统计学上被100%拒绝承认它们与官方模型是同一个东西。
第三招:元数据异常侦测
研究人员对比了请求的“推理延迟时间”和“消耗的Token数量”。
官方API的处理时间和Token输出是非常稳定的。但影子API却像是坐过山车,其时间延迟和Token消耗的标准差(SD),经常飙升到官方数据的1.2倍甚至2.0倍以上。这种剧烈的波动证明,影子API的后台根本不是一个稳定的官方直连通道,而是疯狂在各种廉价开源模型和不同节点之间来回切换。
六. 我们该如何防范
面对这个水深火热的影子API黑市,CISPA的研究人员给出了一些建议。
首先,最根本的建议只有一条:无论如何,坚决不要在严谨的科研工作和商业生产环境中使用影子API。通过正规渠道获取官方API是唯一的正道。
但如果因为客观环境限制,你必须在某个阶段使用第三方代理进行测试,请务必在启动任何正式项目前,严格执行以下两套防范方案:
6.1
审计者验证协议(四步排雷法)
如果你的企业或实验室打算引入一个新的API供应商,请遵循以下流程,任何一步亮红灯,立刻拉黑该供应商:
第一步:指纹探测。发送至少24个LLMmap测试探针,如果返回结果的余弦距离超过官方基准的1.2倍,或者Top-1匹配模型根本不是其声称的模型,直接拉黑。
第二步:统计学筛查。使用MET工具进行至少500次采样的分布一致性测试(显著性水平α=0.05),如果统计学拒绝承认其与官方模型分布相同,直接拉黑。
第三步:方差压力测试。在固定基准集上进行至少3次独立会话测试。如果准确率的标准差波动超过5%,或者延迟时间的变异系数超过0.15,说明后台在疯狂切线路和换模型,直接拉黑。
第四步:合规背景调查。核查其是否具备正式的企业实体法人资格以及国家网信办的ICP备案。把你的核心代码和商业机密交给一个没有备案的个人服务器,无异于引狼入室。
6.2.
科研人员的“防伪声明”清单
为了挽救学术圈的信任危机,论文呼吁各大顶会和期刊引入“API溯源申报制度”。研究人员在论文中不仅要写明使用了什么模型,还必须在附录或实验设置中公开:
完整的第三方API接口URL;
具体的模型版本号、访问日期、计费层级;
提供该接口至少三次独立运行的准确率方差数据;
公开提供LLMmap的指纹距离报告。
只有将这些数据公开,同行评审才能判断这些实验数据,究竟是技术突破,还是因为被影子API误导而产生的假数据。
七. 小结
在网络安全领域,我们常说“信任是构建一切系统的前提,但信任必须建立在验证之上(Trust, but verify)”。大模型不应该成为不可审计的黑盒,我们呼吁各大官方模型提供商能够直面不同地区开发者的痛点,提供更开放、更透明、更具普惠性的官方学术访问通道。
同时,对于每一位正在屏幕前敲击代码的开发者和科研工作者:下次当你在某个不知名的论坛上,看到“一折提供原版原生GPT-5接口”的广告时,请多留一个心眼。毕竟,在这场AI时代的洪流中,真金白银买来的,不一定是最强大脑,很可能只是赛博空间里的一个劣质面具。
参考文献
[1] Zhang, Yage, et al. "Real Money, Fake Models: Deceptive Model Claims in Shadow APIs." arXiv preprint arXiv:2603.01919 (2026).
[2] https://github.com/songquanpeng/one-api
[3] https://github.com/QuantumNous/new-api
内容编辑:高翔
责任编辑:陈佛忠
本公众号原创文章仅代表作者观点,不代表绿盟科技立场。所有原创内容版权均属绿盟科技研究通讯。未经授权,严禁任何媒体以及微信公众号复制、转载、摘编或以其他方式使用,转载须注明来自绿盟科技研究通讯并附上本文链接。
声明:本文来自绿盟科技研究通讯,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。