作者丨顾萍 徐世达

1. 引言

大型语言模型(LLMs、大模型)近年来发展迅速并得到广泛应用。与此同时,为了提高计算效率和访问的便利性,模型蒸馏技术应运而生,通过将大型复杂模型的能力迁移到更小更高效的“学生”模型中,实现了性能与成本的平衡。然而,伴随大模型及其蒸馏模型的普及,其潜在的知识产权风险日益凸显。这些风险不仅涉及训练过程中使用的大量数据,还包括模型本身可能存储或再现的内容等。模型蒸馏作为一种知识迁移过程,其固有的特性也带来了独特的法律挑战,并可能继承甚至放大其“教师”模型中存在的侵权风险。

本文旨在研究大型模型及其蒸馏模型可能面临的知识产权风险。以下将首先介绍模型蒸馏的技术过程,随后探讨蒸馏模型研发过程中存在的知识产权风险,以及蒸馏模型可能继承的“教师”模型的侵权风险。本文还将引用美国在人工智能领域具有代表性的案例,预测未来的侵权认定趋势和走向,并为中国人工智能行业提供启示。

2. 模型蒸馏的过程及侵权风险

i. 模型蒸馏的过程

“大模型蒸馏”(knowledge distillation)是人工智能模型优化的一种技术方法,其核心在于将大型AI模型中所包含的知识提炼和压缩到较小的模型中。[1]在这个过程中,通常由一个功能强大的“教师”模型作为知识源,通过输出大量训练示例,指导一个较小的“学生”模型进行学习,从而使学生模型能够具有接近教师模型的性能表现。[2]

模型蒸馏通常包含以下关键步骤:首先,教师模型需要针对大量的输入数据生成相应的输出,这些输出构成了一个包含教师模型行为和决策模式的数据集。[2]其次,学生模型的开发者会利用这个数据集进行微调,目标是模仿教师模型对各种输入的响应。 [2]在知识迁移过程中,开发者常常会采用一些技术手段,例如温度缩放,以柔化教师模型的输出,使得学生模型更容易学习到细微的模式。[2]对于分类任务,教师模型的输出可以作为学生模型的“软标签”,学生模型被训练来预测这些软标签。[3]此外,特征知识蒸馏还会利用教师模型内部的表示,例如输出分布或中间特征,来帮助学生模型理解教师的决策过程。[4]

模型蒸馏有多方面的优势,它可以显著降低计算成本,减少模型运行所需的能源消耗和硬件资源。[2]通过创建更小的模型,企业能够更容易地扩展其AI解决方案,并在更广泛的平台(包括移动设备)上部署先进的AI能力,从而覆盖更广阔的用户群体并提供更多样化的服务。[2]同时,蒸馏模型通常具有更快的推理速度,这对于需要实时响应的应用场景至关重要。[5]

然而,模型蒸馏也面临一些固有的挑战。最主要的挑战在于蒸馏模型与教师模型相比可能存在一定的性能差距,即学生模型可能无法完全捕捉到教师模型的复杂性和细微差别,导致在某些复杂任务上的性能有所下降。[6]此外,创建能够充分代表教师模型输出的全面数据集可能非常耗时且计算密集。[6]微调学生模型也需要专业的技术知识,并且需要仔细调整超参数和优化技术,以防止学生模型继承教师模型中存在的偏见。[6]学生模型的能力本质上受限于教师模型的优势和劣势。[6]

ii. 模型蒸馏的侵权风险

A. 模型蒸馏本身的侵权风险

大模型蒸馏在提升技术性能的同时,也引发了新的知识产权挑战。它模糊了传统知识产权权利的边界:学生模型虽独立存在,但其智能能力直接受益于教师模型的知识积累。蒸馏过程并非纯粹的再创造,而是一种对原始模型智力价值的萃取和重构,使得小模型的能力与行为在很大程度上源自大模型。

在现行法律框架下,传统的版权或专利侵权标准未必能够轻易套用于此,导致对蒸馏所得模型的侵权认定存在争议。例如在美国的OpenEvidence v. Pathway案件中,原告Open Evidence指控被告Pathway Medical通过“提示注入攻击”,非法提取其生成式AI模型中的敏感信息,特别是系统提示代码,用以开发竞争产品。 [7]原告认为被告的行为构成了违反商业秘密保护法、合同违约、计算机欺诈以及数字千年版权法侵权。[7]案件争议焦点主要在于:生成式AI模型中哪些内容可被认定为商业秘密,被告是否以不正当手段获取了这些信息,以及使用条款的违反是否足以认定为非法逆向工程。[7]目前该案件还在审理的早期阶段,其裁决将对未来如何保护生成式AI模型的知识产权和商业秘密保护产生深远影响。

未经授权的模型蒸馏可能引发多方面的法律风险,包括知识产权侵权、规避技术保护措施、违反服务条款及商业秘密盗用等。这些风险主要集中在未经授权的知识转移、规避访问限制、违反服务条款以及潜在的商业秘密盗用等方面。

在知识产权方面,通过反复调用教师模型的API接口,获取大量输出数据用于训练学生模型,可能侵犯教师模型权利人的著作权或商业秘密,尤其是在教师模型受专有技术或许可协议保护的情况下。此外,未经授权的蒸馏还可能违反服务条款。许多AI模型提供商(如OpenAI)已在其服务协议中明确禁止用户利用其模型输出训练竞争性模型,[6]若用户违反此类条款,可能构成合同违约责任。

除了知识产权和合同风险,未经许可的蒸馏行为还可能涉及商业秘密盗用。如果学生模型的开发过程中,获取并利用了教师模型的架构、超参数或其他专有设计,便可能构成商业秘密的非法使用,[11]尤其是在未授权情况下绕过访问限制或技术防护机制,更可能引发不正当竞争的法律纠纷。此外,若蒸馏过程涉及规避技术保护措施,可能触犯美国《数字千年版权法案》(DMCA),以及中国的《著作权法》和《信息网络传播权保护条例》,进一步增加法律风险。

然而,要证明未经授权的模型蒸馏行为在法律上是具有挑战性的,尤其是在学生模型具有与教师模型不同的架构的情况下。[10]即使大模型的权利人怀疑存在未经授权的蒸馏行为,收集系统性的关于API抓取或访问专有信息方面的具体证据也可能非常困难。基于服务条款违约提起的法律诉讼,在证明违约行为和由此造成的损害方面也可能面临障碍。

尽管存在这些挑战,大模型的权利人仍然可以采取一些措施来防止和应对未经授权的蒸馏行为。例如,权利人可以在服务条款中加入明确禁止蒸馏模型输出的条款,[10]还可以通过监控和限制异常的API请求来检测潜在的抓取行为。[11]在此之外,大模型的开发者还可以寻求专利保护,权利要求的保护范围不仅可以包括其作为教师模型的大模型,还可以触及通过蒸馏获得的未经授权的学生模型。[10]

B. 模型蒸馏的继承侵权风险

作为教师模型的大型语言模型在研发和应用过程中面临着显著的知识产权风险,其中最主要的风险之一是著作权侵权。这种侵权风险主要体现在两个方面:训练数据的使用以及模型本身都可能存储或再现侵权信息。

训练数据的著作权侵权是当前人工智能领域备受关注的问题。大型语言模型的训练通常需要海量的数据,这些数据可能来源于互联网、书籍、期刊等各种渠道。如果这些数据中包含受著作权保护的内容,而在未经权利人许可或没有合法依据(如合理使用)的情况下被用于模型训练,就可能构成著作权侵权。

模型本身也可能因为训练数据的缘故而存储或再现侵权信息。如果训练数据中包含了大量的受著作权保护的作品,模型在学习这些数据的过程中,可能会记住或者内化这些作品的表达,以及在生成内容时产生与原作品实质性相似的内容,构成侵权。

如果教师模型本身存在著作权侵权风险,例如其训练数据包含未经授权的受著作权保护的内容,那么通过蒸馏得到的学生模型也可能继承这些风险。如果教师模型在训练过程中学习了来自侵权数据的知识或模式,那么学生模型在模仿教师模型输出的过程中,也可能保留这些来自侵权数据的痕迹,从而在输出内容时产生与原受著作权保护的作品实质性相似的内容。[10]然而,在实践中,要追溯蒸馏模型的侵权输出是否直接来源于教师模型训练数据中的特定受著作权保护的材料,尤其是在训练和蒸馏过程中发生了知识的转换的情况下,是非常困难的。[11]

此外,如果蒸馏模型生成了侵权内容,责任应该由谁承担也是一个复杂的法律问题。可能是教师模型的开发者,也可能是执行蒸馏的实体,或者是使用蒸馏模型的用户,这需要根据具体情况和各方对侵权活动的控制程度以及对潜在侵权风险的知情程度来判断。

总而言之,教师模型中存在的著作权侵权风险很可能会通过模型蒸馏过程延续到学生模型中。这强调了在开发和使用大型模型时,确保训练数据的合法性和尊重他人知识产权的重要性。如果源头存在问题,那么通过其衍生的模型也很难完全摆脱这些风险。

3. 案例分析

3.1 汤森路透诉罗斯智能案[8]

汤森路透诉罗斯智能案是一个典型的涉及AI模型训练数据著作权侵权的案例。汤森路透是法律信息服务提供商,拥有Westlaw法律研究平台的著作权,其中包括其编辑创作的“headnotes”(案例要点)。罗斯智能是一家法律科技初创公司,开发了一款AI驱动的法律研究工具。罗斯智能为了训练其AI模型,在未获得许可的情况下,使用第三方公司LegalEase基于Westlaw的headnotes创建了“Bulk Memos”(批量备忘录)作为训练数据。汤森路透认为罗斯智能的行为侵犯了其在Westlaw headnotes上的著作权。

法院最终裁定罗斯智能构成直接著作权侵权,并驳回了其合理使用抗辩。法院认为,汤森路透的headnotes作为事实汇编和独立的著作权作品受到保护,因为其对司法意见的总结体现了一定的创作性。法院还认定,LegalEase为罗斯智能创建的Bulk Memo中的问题与汤森路透的headnotes在实质上非常相似。关于合理使用,法院考量了四个因素,认为罗斯智能的使用是商业目的,且并非转化性使用,因为它旨在创建一个与汤森路透服务直接竞争的产品,并且其AI工具的功能与Westlaw使用headnotes的方式类似,只是输出相关的法律意见,而不是生成新的内容。虽然法院认为Westlaw的材料的创造性不高,但市场影响因素对汤森路透有利,因为罗斯智能的工具旨在替代Westlaw的市场。此案强调了在AI模型训练中未经授权使用受著作权保护的材料的风险,尤其是在商业竞争且使用不具有转化性的情况下。

3.2 案例分析:安德森诉Stability AI案[9]

网络漫画家安德森诉Stability AI案则涉及生成式AI模型训练数据和模型输出的著作权问题。多名视觉艺术家对Stability AI提起集体诉讼,指控其在未经许可的情况下使用他们的受著作权保护的艺术作品来训练其文本到图像生成AI平台Stable Diffusion。原告认为,Stable Diffusion使用了数十亿张图片进行训练,其中包括他们的作品,导致Stable Diffusion能够生成“风格类似”甚至与他们的作品几乎相同的图像。

法院初步驳回了针对部分被告的索赔,但允许针对Stability AI的直接和间接著作权侵权索赔继续进行。原告提出了“模型理论”,认为经过训练的AI模型本身就构成了其受著作权保护作品的侵权复制品或演绎作品,因为它内化了这些作品的转换。法院认为,这些理论是否成立取决于原告的受保护作品是否以某种形式包含在Stable Diffusion产品中。原告方还提供了Stability AI首席执行官的声明以及学术论文作为证据,表明训练图像可能保留在Stable Diffusion中并被使用。法院还允许了关于诱导侵权的索赔,理由是原告充分指控被告参与了Stable Diffusion的训练和开发,暗示被告知道该产品有使用训练图像侵犯版权的潜力。此案目前在证据开示阶段,如果原告能够在后续的庭审中证明涉案AI模型的训练过程中不正当的复制了有著作权的作品,则该模型可能构成侵权。

这两个案例清晰地揭示了未经授权使用受著作权保护材料训练AI模型所带来的法律风险。汤森路透诉罗斯智能案的核心在于对于AI训练过程是否构成对于著作权作品的合理使用进行了探讨,法院认定,未经许可使用版权材料(如法律摘要)进行训练,并以缺乏转化性的方式商业化,构成侵权。而安德森诉Stability AI案则涉及生成式AI模型及其输出的潜在侵权问题,进一步探究了AI模型是否内化了受版权保护的作品表达,以及生成的内容是否构成侵权复制或演绎作品。

美国法院在应对人工智能技术带来的新型著作权挑战时,展现出审慎立场,尤其在商业竞争环境及缺乏足够转化性的使用场景下,对合理使用抗辩采取更严格的审查。这些判例正推动模型训练的法律边界不断演进,尤其对商业应用的合规性提出了更高要求。

4. 建议

对于从事大模型及蒸馏业务的企业而言,如何在享受技术红利的同时规避法律风险,是关乎长期发展和市场竞争力的核心问题。以下是几个关键建议,涵盖数据合规、知识产权保护及商业竞争策略:

i. 数据合规与授权管理

开发者在进行模型训练时,首先要确保训练数据的合法性,避免因数据来源不当引发著作权、数据隐私或商业秘密纠纷。建议建立数据权属清单,详细记录每项训练数据的来源、授权范围及适用限制(例如地域、用途、存续期限)。此外,企业应定期开展数据合规审计,确保数据的使用方式符合相关法律法规及许可协议。

对于使用第三方模型进行蒸馏的情况,企业需明确该模型的授权条款,特别是是否允许衍生开发或再训练。对于开源模型,企业需注意开源协议的“传染性”问题,避免因误用开源数据导致不必要的法律风险。

ii. 复制与著作权

开发者在大模型训练和蒸馏过程中,应采取措施减少对原始表达的直接复制,确保学生模型的训练数据在内容和形式上与教师模型有实质性差异,以增强合理使用的抗辩基础。

iii. 商业秘密与技术保护

模型蒸馏过程中,企业可能会接触并使用教师模型的架构、超参数、优化策略等。这些信息在某些情况下可能构成商业秘密,如果未经授权获取或使用,可能涉及商业秘密侵权。建议企业在内部实施严格的数据访问控制和安全措施,并对外采取API调用监控等措施,防止敏感技术信息的泄露。

此外,如果企业的大模型或蒸馏技术具有较高的商业价值,建议通过专利布局加强知识产权保护。企业可尝试申请涵盖模型结构、训练方法、数据处理流程的专利,以阻止竞争对手通过蒸馏方式规避权利限制,从而在市场竞争中获得更强的法律壁垒。

iv. 合规策略与国际法律动态

随着人工智能技术的全球化发展,各国对大模型及其衍生技术的监管政策仍在不断变化。特别值得注意的是,中国是《伯尔尼公约》等国际条约的缔约国,其他国家在知识产权法律的动向可能对中国国内的行为产生影响。因此,中国AI企业在开展相关业务时,不仅需符合国内法律,还应密切关注国际法律环境, 建议人工智能企业建立合规预警机制,密切跟踪国内外关于AI监管、数据合规及知识产权保护的新规,并在必要时调整业务策略。

5. 结语

模型蒸馏技术虽然能够显著提高包括大语言模型在内的人工智能系统的效率和商业价值,但其法律风险同样不容忽视。企业应通过完善的数据合规管理、知识产权保护、商业秘密防护和全球合规策略,在保障合法合规的前提下,充分释放人工智能技术的商业潜力,确保在全球市场中的长期竞争优势。

[注]

[1] AI蒸馏技术争议:OpenAI与DeepSeek的知识产权之战_模型_工具_行业[EB/OL]. (2025-03-25)[2025-03-25]. https://www.sohu.com/a/854920450_122118475.

[2] Model Distillation[EB/OL]. [2025-03-25]. https://humanloop.com/blog/model-distillation.

[3] Building Small Language Models Using Knowledge Distillation (KD)[EB/OL]. [2025-03-25]. https://techtalkwithsriks.medium.com/building-small-language-models-using-knowledge-distillation-kd-6825ce2f6d24.

[4] Knowledge Distillation: Transferring Knowledge from Large, Computationally Expensive LLMs to Smaller Ones Without Sacrificing Validity[EB/OL]. [2025-03-25]. https://zilliz.com/learn/knowledge-distillation-from-large-language-models-deep-dive.

[5] LLM distillation demystified: a complete guide[EB/OL]. [2025-03-25]. https://snorkel.ai/blog/llm-distillation-demystified-a-complete-guide/.

[6] What Is Model Distillation?[EB/OL]. [2025-03-25]. https://builtin.com/artificial-intelligence/model-distillation.

[7] OpenEvidence v. Pathway: The Legal Battle Over AI Reverse Engineering[EB/OL]. (2025-03)[2025-03-25]. https://patentlyo.com/patent/2025/03/openevidence-pathway-engineering.html.

[8] Thomson Reuters Enter. Ctr. GmbH & W. Publ"g Corp. v. Ross Intelligence Inc., 1:20-cv-613-SB.

[9] Andersen v. Stability AI Ltd., No. 3:23-cv-00201-WHO (N.D. Cal. Aug. 12, 2024).

[10] DeepSeek, Model Distillation, and the Future of AI IP Protection[EB/OL]. [2025-03-25]. https://www.fenwick.com/insights/publications/deepseek-model-distillation-and-the-future-of-ai-ip-protection.

[11] Distillation of models in AI: Efficiency, cost, and intellectual property considerations[EB/OL]. [2025-03-25]. https://medium.com/@fahey_james/distillation-of-models-in-ai-efficiency-cost-and-intellectual-property-considerations-dc0d6173fecf.

作者简介

顾萍 律师

纽约办公室 合伙人

业务领域:知识产权权利保护, 合规和调查, 反垄断和竞争法

徐世达 律师

北京办公室 知识产权部

声明:本文来自中伦视界,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。