2025年9月10日,布鲁盖尔研究所高级研究员Bertin Martens发布文章《欧盟受困于人工智能版权困境》(The European Union is Still Caught in an AI Copyright Bind)。文章指出,为推动《人工智能法案》落地,欧盟委员发布了《通用人工智能实践准则》(Code of Practice for General-Purpose AI Models, 以下简称“CoP”)等指南,但CoP等指南并没有解决人工智能训练数据版权的问题。一方面,人工智能模型的性能提升高度依赖海量、多元的训练数据,另一方面,当下的版权规则又限制了数据的使用,比如版权所有者可以通过“选择退出”(opt-out)机制禁止企业使用其数据训练人工智能。这种限制让欧盟的人工智能产业在全球竞争中陷入保护版权与发展人工智能的两难困境中。文章指出,解决这一困局需跳出版权主导的传统框架,借鉴专利制度的核心逻辑,同时推动监管焦点从训练数据输入层面转向人工智能的输出层面。

CoP版权条款的问题

只公开部分训练数据来源存在隐患

为了减少和海量版权所有者逐一谈判的麻烦,CoP规定人工智能企业不用列出所有训练数据的来源,只需公开对模型训练贡献最大、数据量最多的头部网站域名,小网站、小出版商的数据可以不公开。

这种简化执行的做法虽降低了合规难度,但也带来了两个问题一是加剧人工智能模型偏见。当前领先的人工智能模型已存在偏向英语等大语种、大平台数据的倾向,CoP对小语种、小众文化网站数据来源的省略与《人工智能法案》“减少偏见”的目标相悖。二是让监管变得模糊与混乱。CoP对人工智能训练数据的定义较为宽泛,包括合成数据、提炼数据等,但在公开来源时又仅要求企业简单描述。由于合成数据、提炼数据已成为企业核心竞争力,开发者对其制作过程高度保密,导致外界难以核查。与此同时,负责监管的人工智能办公室由此获得极大自由裁量权,容易导致不同地区监管尺度不统一。

此外,CoP试图通过公开数据来源推动版权谈判的设想本身就不具备可行性。如果与数百万版权所有者逐一协商许可,产生的交易成本甚至会超过最终获得的许可费总额。即便由中介机构开展集体谈判,中介定的统一价格也无法反映不同内容的实际价值,且欧盟各国版权管理组织可能各自制定规则与定价,加剧监管碎片化。

对训练后数据存在监管规范缺失问题

《人工智能法案》与CoP的版权条款仅覆盖训练阶段的数据,对训练后的数据,如为响应用户实时查询而临时从外部获取的新数据未作规范。且CoP新增了一项超出欧盟现有版权法范畴的特殊条款,要求人工智能企业即便不将版权方撤回许可的数据用于模型训练,也不得影响这些数据被其运营的搜索引擎找到,以维持出版商的流量与广告收入。

这一规定引发两个问题一是人工智能因不能使用版权方撤回许可的数据只能给出模糊答复,导致其回答的广度和准确性大幅下降,迫使用户智能自行检索、整理信息,增加了时间与认知投入,降低了学习效率,长期来看可能阻碍社会创新。二是条款面临失效风险,谷歌、微软、Open人工智能等企业已实现搜索与人工智能问答服务的融合,搜索引擎与人工智能的数据采集边界逐渐模糊,CoP的当前规定可能会很快跟不上技术发展的实际情况,失去可执行性。

国际监管差异会削弱欧盟人工智能竞争力

版权制度宽松的国家在人工智能创新上往往表现得更优异。如日本对人工智能训练数据的“中间性使用”(intermediate use)给予版权例外,美国版权法认可“转化性使用”(transformative use)的合理例外,且美国的《人工智能行动计划》(AI Action Plan)明确提出消除人工智能发展的监管障碍。若美、日等国确立较为宽松的版权规则,全球领先人工智能企业将不会为适配欧盟市场重新训练模型,这将进一步扩大欧盟与国际市场的人工智能差距。为了不让其他国家在宽松版权规则下训练的人工智能进入欧盟市场,欧盟在《人工智能法案》里增加了域外条款,但版权法具有地域性,该条款争议极大且执行困难。同时,通过修改欧盟版权相关法律的方式解决问题风险极高,除了法律修订周期漫长的问题,还可能在修订时引发更严苛的透明度要求。

结论与建议

解决欧盟人工智能的版权困境需跳出版权主导的传统框架,版权制度的初衷是促进创新,但在人工智能时代已异化为媒体行业掌控的保守力量,反而限制了人工智能技术的创新潜力释放,因此版权不应成为讨论人工智能数据规则的核心。

应效仿专利制度,专利制度通过公开创新内容,允许任何人从中学习并开展衍生创新,同时仅赋予专利持有人对原始发明的商业复制权。这种模式既能加速知识的传播与积累,又能有效保护原始创新者的权益。将这一逻辑延伸至人工智能领域,可具体应用于人工智能模型训练的数据及训练后的信息检索环节。这意味着人工智能模型与用户将能够从所有合法可获取的内容和数据中学习,无需再受困于版权许可的繁琐限制。

为实现这一目标,可寻求扩大对《欧盟数字单一市场版权指令》(EU Copyright in the Digital Single Market Directive)中“数据处理的版权保护豁免”(copyright protection exemption for digital data processing)条款的解释与适用。值得注意的是,人工智能输出结果与原作的相似度本质上属于模型输出层面的问题,而非数据输入层面的问题当前版权监管将重点过度集中于训练数据的输入偏离了问题本质,若能将政策讨论转向人工智能输出,至少能为输入端的无限制学习和转化性使用扫清障碍,缓解当前人工智能训练数据不足、模型偏见加剧、创新效率受限等多重矛盾。

来源|布鲁盖尔研究所

文字|张羽翔

审核|周雪静

声明:本文来自上海市人工智能与社会发展研究会,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。