【内容摘要】在人工智能需求快速升级的背景下,数据爬取成为获取海量数据的关键途径,却也因涉及隐私保护、著作权和商业竞争等多元利益而引发高度争议。对此,美国侧重案例驱动的弹性调整,欧盟强调自上而下的权利保护与文本数据挖掘例外,中国则以个人信息保护法和反不正当竞争法相结合并辅以行政监管与刑事打击。为满足AI对多元化、高质量数据的需求,应采用“指导思想为纲、行为规范为本、创新模式为径”的综合治理思路。唯有在“开放与保护”之间找到动态且可持续的平衡,才能使数据爬取在AI时代成为健康、高效的数据引擎,为社会整体创新与公共利益提供更大助力。

【关键词】数据爬取 人工智能 个人信息保护 版权与数据库权 数据治理

文章来源:《政法论丛》2025年第3期

因篇幅所限,省略原文注释及参考文献。

当前人工智能(简称AI)的飞速发展,对可获取的大规模数据提出了前所未有的需求。其中,“数据爬取”技术作为从互联网自动提取海量数据的手段,扮演了关键角色。无论是搜索引擎索引网页内容,还是机器学习模型收集训练语料,数据爬取的应用已无处不在。然而,围绕数据爬取的法律与政策问题也日益凸显:个人信息的大规模抓取可能侵蚀个人信息权益和隐私权,海量网络内容的复制利用引发版权和数据库权争议,未经许可的爬取还可能违反平台的服务条款和反不正当竞争法规,以及造成网络安全方面的担忧。如何在鼓励数据利用与保护权利之间取得平衡,成为AI时代亟待应对的挑战。本文系统阐释数据爬取的形态作用、涉及的法律冲突与比较,并提炼和分析学术界和实务界提出的研究方案,进而提出在AI时代实现各方面利益协调平衡的可行路径,以此作为本文的贡献。

一、数据爬取的基本形态与作用

(一)数据爬取的概念与类型

“数据爬取”通常是指通过自动化脚本或数据爬取程序从网页、数据库或社交平台批量收集信息的技术过程。数据爬取常见形式包括搜索引擎爬虫——如Google的网络爬虫每天抓取数十亿的网页以建立搜索索引;数据聚合爬虫——用于比价服务、信息聚合,例如旅游网站爬取航空公司票价或新闻聚合平台抓取多家新闻源内容;社交媒体爬虫——抓取微博、推特等平台的用户帖子或用户关系数据;学术与公共利益爬虫——如利用爬虫采集开放政府数据、学术论文文本用于研究或搜索引擎爬虫对超链接进行遍历式爬取以形成便于用户访问的索引。近年来,随着人工智能训练对数据需求激增,越来越多新型数据爬取被用于收集大规模的训练数据,包括抓取互联网上的文本、图像、音频以供机器学习模型训练。

这些不同类型的爬取在技术实现上可能类似,但作用和目标各异。一般而言,数据爬取可以分为公开网络数据爬取(针对无需登录即可访问的公开网页内容)和受限数据爬取(针对需要授权登录、绕过反爬机制才能获取的数据)。公开数据爬取通常涉及对“公开可访问”信息的收集,如网络新闻、论坛帖子、学术论文等;受限数据爬取则包括绕过网站的访问控制、使用模拟用户行为获取非公开或半公开数据,例如利用他人账户凭证批量获取社交网站用户信息等。数据爬取还可分为结构化数据与非结构化数据爬取:前者如通过开放应用程序接口(简称API)提取结构化的数据库记录,后者如解析网页HTML内容抽取文本、图像等非结构化信息。不同形态的爬取在法律属性上可能存在差异,这将在后文法律分析部分详细讨论。

(二)数据爬取的作用与价值

数据爬取在数字经济和AI研究中具有重要作用。一方面,它支撑了诸多正当、有益的实践应用。例如,搜索引擎正是依赖大规模网页爬取建立索引,方便公众检索信息;网络存档和图书馆利用爬虫保存网站内容以供历史研究(如Internet Archive的“时光机”服务);数据新闻和学术研究者使用爬虫收集公开数据以进行统计分析和社会研究。另一方面,在人工智能领域,数据爬取更是训练大模型的“粮仓”。当前最先进的生成式AI(如大型语言模型、图像生成模型)往往需要以互联网海量数据为训练语料库。据2024年Mozilla基金会报告,最大的开放网页爬取语料库Common Crawl规模已超过9.5PB,成为许多大型模型的主要数据源。例如,OpenAI的GPT-3模型有超过80%的训练字词来自Common Crawl抓取的网页数据。此外,2019-2023年间发布的47个主流大语言模型中,64%以上使用了Common Crawl等爬取所得的数据集作为训练材料。同样,在图像领域,LAION等开放数据集通过网络爬虫抓取了数十亿图像及其说明文本,为生成式视觉AI提供了训练基础。这些事实显示,没有大规模的数据爬取,许多AI技术突破将难以实现。数据爬取还为商业创新提供动力,如金融科技公司爬取公开财务数据以支持投资分析,营销公司收集社交媒体公开评论以洞察消费者情绪等。可以说,在数据驱动的时代,数据爬取已成为获取信息财富的“数字采矿”工具。

(三)数据爬取的发展趋势

近年来,数据爬取的规模和频率呈指数级增长。Solove和Hartzog教授将当下形容为一个“全民爬取”(great scrape)的时代:各类组织以空前的热情和速度在互联网上抓取数据。一项调研表明,2022年全球网络流量中约47.4%来自自动化的爬虫和机器人流量,较上一年上升5%,其中接近一半的自动流量可归类为“恶意爬虫”或不遵守规范的抓取。这意味着几乎每两次网络访问请求中就有一次是由程序而非真人发起。另一方面,提供数据抓取服务的产业也在扩大,一些数据公司专门从事网页内容提取和整理,然后将数据产品出售给需要的企业或研究机构。例如,社交媒体数据爬取服务可为学术研究提供社交网络分析的数据支持;电商价格爬虫服务可帮助商家进行竞争情报分析等。

然而,随着爬虫活动量激增,“反爬”措施也同步加强。许多网站开始部署更复杂的技术手段检测并阻止未经授权的爬取,包括使用机器人行为分析、增加登录验证、封禁可疑IP手段等。此外,一些内容提供者通过法律和政策手段抵制爬取行为,例如媒体行业日益警惕生成式AI对新闻内容的抓取和未经许可使用。根据牛津路透研究院统计,截至2023年底,全球十大国家中近48%的主流新闻网站已在其robots.txt文件中明确禁止OpenAI等AI爬虫抓取其内容;在美国这一比例更高达约80%。同样,一些社交平台调整政策限制数据访问,例如Twitter在2023年收紧了开放API的使用并限制未授权抓取。这种技术和政策上的博弈,反映出数据爬取在创造价值的同时也引致利益相关方的担忧。数据爬取的“盛宴”正遭遇来自数据权利方的强力反制也凸显出进行法律治理的紧迫性。下文将深入分析数据爬取涉及的主要法律冲突,以及各法域对此问题的不同应对。

总之,数据爬取作为互联网时代获取海量信息的基础手段,具有多重重要作用。从搜索引擎索引、信息聚合,到人工智能模型训练,数据爬取技术极大拓展了人类利用数据的能力。然而,数据爬取的迅猛发展也带来了新的矛盾:个人信息和受保护内容被大规模采集引发权利侵害之虞,网站运营者和数据所有者为捍卫自身利益纷纷设置技术和法律壁垒。可以预见,围绕数据爬取的法律博弈将更趋激烈。为此,有必要准确把握不同法律框架下对数据爬取的规制,以在促进数据共享创新和保护合法权益之间寻找平衡。以下笔者将从法律角度剖析数据爬取引发的主要冲突及中、美、欧的比较。

二、数据爬取所引发的利益冲突及立法与司法实践

虽然数据爬取带来了多种收益,但其大规模、自动化的数据获取方式也不可避免地触碰到多方权益,形成复杂的利益冲突。这些矛盾在全球呈现不断加剧之势,并在各国立法和司法实践中有所体现。本节将从四个维度分析数据爬取引发的主要利益冲突,并梳理美国、欧盟、中国在相关法律法规和典型判例中的立场异同。由于通用搜索引擎爬虫的公共利益属性及相关规则的特殊性,不在本章节及本文后续章节的讨论之列。

(一)利益冲突的主要表现

首先是个人隐私和信息自主权。数据爬取可能收集涉及个人的数据(例如社交媒体用户资料、发布的内容等),即便这些信息是在互联网上公开可见,未经当事人同意的大规模抓取和进一步利用仍可能被视为对隐私权的侵犯。用户原本只授予平台使用其数据的权限,而第三方数据爬取擅自获取并另作他用,违背了个人对自己数据流通范围的合理预期。由此引发的隐私争议在法律上表现为对人格权、个人信息保护法的潜在违反。

其次是知识产权与数据财产权益。网站上的多种内容(文本、图片、音视频)受版权等知识产权保护,爬取他人原创文章、摄影作品等并加以存储利用,可能侵犯著作权。如果数据爬取大量提取某数据库中整理汇编的数据,也可能触碰数据库制作者对数据集合的权益。一些平台将其收集整理的数据视为重要资产,数据爬取的不当获取被平台视作对其“数字财产”的攫取。由此产生的纠纷涉及著作权法、邻接权以及各国发展出的特殊数据权利(如欧盟的数据库权)等法律领域。

再次是网络安全与系统负担。高频度的大规模数据爬取可能对目标网站服务器造成沉重压力,影响正常用户访问,极端情况下甚至导致服务器宕机。另外,如果数据爬取为了绕过访问限制而采取规避登录验证、破解反爬措施等手段,则可能被视为“未经授权访问”乃至非法入侵计算机系统。从技术中立的角度看,数据爬取本身并非病毒或黑客工具,但在目标方看来,恶意数据爬取的行为方式(如模拟成合法用户持续请求数据)与入侵并无太大区别。当数据爬取引发安全事故或数据泄露时,往往会上升为刑事或行政执法问题。

最后是商业利益与公平竞争。对于掌握海量数据的平台而言,数据本身是其核心资产和竞争优势。如果竞争对手通过数据爬取不劳而获地获取并利用这些数据,就可能损害原权利人的商业利益,扰乱市场秩序。因此,此类行为常被诉诸反不正当竞争法律。例如,一家公司未经许可抓取另一公司平台上的内容或用户数据用于自身业务,被认为是“搭便车”式的不正当竞争,剥夺了原平台通过数据变现的机会,破坏了公平竞争环境。另一方面,也出现过大型平台滥用技术手段过度封锁数据、试图维持数据垄断的情况,引发关于数据开放共享的争议(如下面将提及的美国HiQ诉LinkedIn案,涉及平台封锁公开数据引发的竞争诉讼)。

总之,数据爬取涉及个人信息权益和隐私权、知识产权、财产性权益、网络安全和竞争公平等多重维度的冲突。在法律层面,各国依据不同的价值取向和制度设计,对这些冲突作出了不尽相同的规范回应。理解数据爬取行为的技术基础和利益张力,是进一步分析各国法律应对机制的前提。下文将分别介绍美国、欧盟、中国在数据爬取问题上的主要法律法规和典型判例,以梳理各司法辖区如何在实践中平衡创新利用与权益保护,并比较其异同。

(二)美国的立法与司法实践

美国目前并无专门规范数据爬取的联邦成文法,但数据爬取相关行为会被纳入现有多部法律框架下调整,包括计算机犯罪法、版权法、合同法、隐私法和反不正当竞争等。美国独特的法律环境使得法院判例成为确立规则的主要方式。近年来几起引人瞩目的数据爬取法律纠纷,集中在“未经授权访问”与“数据利用权”的博弈,以及版权公平使用的争议上。

1.计算机滥用与未授权访问。《计算机欺诈和滥用法》(Computer Fraud and Abuse Act,以下简称CFAA)是美国1986年颁布的联邦刑事法,主要用于打击黑客入侵等计算机犯罪行为。尽管CFAA并未明确提及数据爬取,但网站经营者有时尝试将恶意数据爬取纳入“未经授权访问”进行控诉。例如,社交平台LinkedIn曾援引CFAA警告数据公司HiQ不得抓取其用户数据,并采取技术屏蔽措施。HiQ提起诉讼反称LinkedIn封锁公开数据违反公平竞争。联邦第九巡回法院在2019年判决中倾向HiQ立场,认为访问未登录即可浏览的公开网页不构成CFAA下的未授权行为,并维持初审法院对LinkedIn的禁止令,允许HiQ继续获取公开信息。判决指出:CFAA旨在防范绕过身份验证、侵入封闭系统的行为,将对公众开放的数据视作禁区不利于信息自由流通。该裁决为善意数据爬取(尤其是针对公开网络数据的数据爬取)提供了一定保护。需要注意的是,美国最高法院在2021年Van Buren案中也作出了缩窄解释CFAA的裁决,强调只有超出持有者授权、进入受保护计算机领域的行为才是违法(比如利用合法访问权限窃取数据库内容),普通的超范围使用不在刑法之列。因此,在美国,对公开网站进行数据爬取通常不被视为刑事犯罪,除非数据爬取采取了破解密码、绕过技术屏障等明显侵入手段。不过,如果数据爬取违反了网站的服务条款,网站可能另辟蹊径以违约或民事侵权为由起诉,这属于下文讨论的范畴。

2.版权法与合理使用。在数字时代,大规模数据爬取引致新的版权争议焦点,即训练AI等用途对受版权保护内容的大量拷贝是否侵犯版权、能否适用“合理使用”抗辩。美国的版权法律制度以灵活的合理使用原则著称,法院会根据使用的目的和性质、被使用作品的性质、使用比例、对原作市场影响等因素综合判断。在新闻内容爬取领域的一个著名案例是美联社(The Associated Press,以下简称AP)诉Meltwater案(纽约南区联邦法院,2013年)。被告Meltwater提供收费新闻简报服务,其数据爬取定期扫描新闻网站并抓取AP新闻文章的部分内容片段和链接供客户阅读。法院认定这超出了搜索引擎提供摘要的合理范围,判决Meltwater构成版权侵权,不适用合理使用抗辩。法官指出,Meltwater提供的新闻摘要替代了用户点击阅读AP原文的需要,对版权人市场造成损害,不具备转换性。该裁决对后来者起到了警示作用:爬取他人内容并商业化,如果没有对原作品进行具有足够“转换性”的利用且影响版权人的利益,可能不被视为合理使用。当前在AI训练情境下,这一问题更加复杂。目前美国已有多起针对OpenAI、Meta等公司的集体诉讼,指控其通过数据爬取收集大量受版权保护的文本、图像用于训练模型,涉嫌侵犯版权和违约等。被告则多以合理使用为由抗辩,认为训练过程是非公开、非消费性的使用且具有转换性,属于机器学习必要的临时复制。此类案件(如美国作者协会诉OpenAI等)尚在审理中,结果将决定AI领域数据爬取的版权边界。可以预见,未来美国法院可能继续沿用“合理使用”框架,在保护创新和版权人利益之间寻找平衡。

3.违反服务条款与合同法。许多网站的用户协议或服务条款明确禁止未经授权的自动抓取行为。一旦数据爬取无视这些条款进行数据采集,网站可能主张其行为构成违约或“侵入他产”等普通法侵权。在早期案例eBay诉Bidder’s Edge案中,在线拍卖平台eBay以侵害财产使用权为由成功阻止了Bidder’s Edge网站的拍卖数据爬取,法院认为频繁爬取对eBay服务器资源造成占用,属于对eBay设备的不法干扰。在Facebook诉Power Ventures案中,Facebook起诉一家聚合服务未经许可抓取用户Facebook内容,法院认为当被告的访问是得到用户授权(由用户提供登录凭据)且未规避技术封锁时,爬取不违法,但当被告收到原告的书面停止和终止信后绕过IP封锁继续访问的行为,违反了CFAA和加州的计算机犯罪法。因此,在美国,通过“合同条款+州法”的组合,平台可以一定程度上禁止第三方数据爬取。但合同约束力仅及于同意条款的直接方,对于纯粹的陌生第三方数据爬取,由于数据爬取操作者通常未显示同意相关条款,合同法路径有时会遇到质疑。为此,权利人常寻求将违约行为上升为CFAA或州层面反黑客相关法来强化效力,这又回到未授权访问的问题。总而言之,美国在规范数据爬取方面采取了“案例驱动的弹性模式”:法院根据具体事实在既有法律框架下裁量,没有一刀切地禁止数据抓取,但也为恶意、超限的数据爬取设定了法律红线。

(三)欧盟的立法与司法实践

相较于美国通过案例逐步划定边界的做法,欧盟在数据爬取问题上更倾向于“立法先行,权利优先”的路径。欧盟拥有覆盖全境的统一个人数据保护制度和知识产权规范,对未经授权的数据抓取设定了较高的法律门槛。但同时,欧盟近年也意识到数据创新的重要性,开始在法律中引入例外和新机制以促进合法的数据共享与挖掘。

1.个人数据与隐私保护。欧盟的《通用数据保护条例》(GDPR)于2018年生效,确立了严苛的个人数据保护框架。根据GDPR,只要处理(包括收集)欧盟居民的个人数据,就必须基于合法依据(如数据主体同意、合同必要、合法利益等)并遵守目的限制、数据最小化等原则。对于数据爬取而言,这意味着即使目标信息在互联网上公开可见,也不能任意抓取使用,否则可能被认定违反GDPR的合法性和透明度要求。欧洲多国的监管实践表明:未经同意爬取公开个人信息并用于与原始目的不相符的用途,往往被视为非法处理个人数据。例如,美国公司Clearview AI通过数据爬取抓取全球社交媒体上的人脸照片建立面部识别数据库,其行为在欧盟被多个国家的数据保护机构认定违反了GDPR第5条(合法公平原则)和第6条(处理合法依据)等规定。2022年,意大利、法国等国对Clearview分别处以最高金额罚款(各2000万欧元),并命令其停止进一步抓取欧洲公民数据、删除已收集的信息。这些执法行动强调了欧盟对于个人数据自主权的重视:即使数据公开发布在网络上,大规模抓取用于陌生目的依然侵犯隐私。在GDPR框架下,数据爬取如需处理含有个人数据的内容,必须取得数据主体同意或符合法定事由,否则将面临高额罚款和禁令处罚。

此外,值得注意的是GDPR还赋予个人关于自动化决策的权利(第22条)等。虽然主要针对直接对个人的决策情形,但如果爬取个人数据用于训练AI模型并对个人进行自动化决策(如信用评分),可能引出额外的合规义务(如解释权、拒绝权)。总体而言,欧盟对涉及个人数据的数据爬取活动采取近乎零容忍的态度,要求事前取得明确合法性依据,这对商业数据爬取设下了极高的合规门槛。

2.知识产权。欧盟法律高度重视对数据集合和内容创造的知识产权保护。一方面,欧盟各国的著作权法保护网页内容本身,未经授权爬取受版权保护的作品进行复制存储属于侵权(除非满足合理使用或法定许可等特定条件)。另一方面,欧盟通过《数据库指令》(Database Directive)建立了独特的非原创性数据库权利,即“数据库权”(sui generis right)。只要数据库制作者对收集、整理、呈现数据投入了实质性投资,他人未经许可提取或重复利用其数据库的实质部分即违法。该权利与著作权不同,旨在保护数据汇编的投入而非内容本身。对于数据爬取而言,如果某网站的数据构成受保护的数据库,大量抓取其中内容供己用就会面临侵权指控。不过,欧盟法院在实践中逐步限定了数据库权的范围:如前述CV-Online Latvia案,法院引入了“影响投资回报”的判断标准,认为对于自由公开可获得的数据库,数据爬取将数据用于搜索引擎索引并提供链接,除非严重损及原数据库提供者收回投资的机会,否则不构成侵权。这一判决在一定程度上防止了数据库权被滥用来封锁公开数据,平衡了数据利用与权利保护,也被视为对聚合搜索服务的支持。

为应对人工智能时代的新需求,欧盟在2019年通过的《单一数字市场版权指令》(以下简称“版权指令”)中新增了“文本与数据挖掘”(TDM)例外条款。其中第3条要求成员国强制允许科研机构和文化保藏机构为科研目的对合法获取的作品进行文本与数据挖掘(包含爬取行为),无需权利人许可;第4条则规定商业主体在合法可获取的数据上也可进行TDM,但权利人可选择退出(opt-out)——例如通过机器可读方式声明不允许其作品被数据挖掘。这意味着,在欧盟只要数据来源合法且权利人未明确反对,AI开发者可以爬取受版权保护的网页数据用于训练等挖掘活动,但仅限于科研目的。各成员国已将此例外转化为本国法律。例如,德国版权法新设的第60d条即为相应规定。2024年,德国汉堡地方法院在一起案件中首次适用该条款,判定非营利组织LAION从网上抓取包含摄影作品的图像用于AI模型训练,属于科研目的且权利人未声明反对,符合TDM例外条件,不构成版权侵权。这是欧盟关于AI训练数据合法性的首批司法判决之一,充分体现了新例外条款在保护数据挖掘合法性方面的重要作用。

3.其他相关法规与数据治理。除了直接涉及数据爬取的隐私和知识产权法规,欧盟近年来通过的一系列数据立法也潜在影响着数据爬取生态。例如,2022年正式通过的《数字服务法》(DSA)要求大型在线平台提高系统透明度,其中第40条规定“非常大型平台”(简称VLOP)需向符合条件的研究人员提供访问其数据接口的权限,以审查算法风险。这意味着在监管框架下,研究者可能通过合法渠道获取平台数据,而无需私自爬取。《数据治理法》(DGA)和即将生效的《数据法案》(Data Act)旨在促进公共和私人数据的共享流通,建立可信的数据中介和公益性数据共享机制。如果这些制度成熟运转,将为数据需求方提供比数据爬取更合规便利地获取数据途径以减少冲突发生。欧盟的《人工智能法案》(EU AI Act)强调AI训练数据集必须遵守版权和个人数据保护等现行法律,要求AI系统的训练和使用具有可解释性和问责性。这些规定的出台表明欧盟试图通过顶层法律设计统筹规范数据利用,既维护欧盟公民和企业的权利,又为人工智能的发展创造明确的法治空间。

总体来看,欧盟对数据爬取采取的是“高保护、高规范”的模式:先筑起隐私和知识产权的“高墙”,然后在确保权利方具备控制力的前提下“开窗”给予部分数据挖掘权限。例如要求网站可以通过声明排除TDM,以保障其意愿。这种立法技术体现了欧盟偏重权利本位、秩序优先的价值取向。对数据爬取从业者而言,在欧盟运行数据爬取业务必须投入更多合规成本,确保遵守GDPR等强制性规定,同时也可以利用欧盟法律提供的数据开放渠道(如公共数据、科研例外)来获取所需数据。

(四)中国的立法与司法实践

近年来中国对于网络数据爬取的法律监管日趋严格。在立法上,一系列新颁布的基础性法律明确了数据权属和安全要求;在司法实践中,多起民事和刑事判例划定了数据爬取行为的合法边界。总体而言,中国兼具了欧盟式的个人信息严格保护和对商业数据的本国特色管控,对未经授权的数据抓取持审慎甚至否定态度,通过重罚严打营造“有序用数”的环境。

1.个人信息与数据安全法治。2021年生效的《中华人民共和国个人信息保护法》(以下简称《个人信息保护法》)和《中华人民共和国数据安全法》是中国数字领域的两部基础性法律。根据《个人信息保护法》,任何单位和个人在处理(包括收集、爬取)他人个人信息时,都须取得本人同意或符合法定情形,否则即属违法。值得注意的是,即便个人信息已经公开,处理者仍需在合理范围内、符合原始目的地使用,不能因为“公开可得”就任意抓取后商业化利用。这一规定体现了“公开数据不等于公共产品”的原则:用户公开发布在网上的个人信息仍属于其个人权益,第三方未经用户明示同意不得擅自抓取用于他途。司法观点也支持此看法。有学者评论:“用户通过与平台的协议将个人数据对外展示,但并不代表用户允许将其数据作为公共资源被爬虫深度加工牟利”,强调了用户对其公开信息仍享有控制期待。因此,如果数据爬取企业收集中国公民的个人信息用于盈利(如营销、查询征信),可能构成对个人信息权益的侵犯,需承担停止侵害、赔偿损失等民事责任,情节严重的还可能被追究刑事责任(如构成“侵犯公民个人信息罪”)。

2.反不正当竞争与商业数据权益。在商业数据方面,中国早在1993年出台的《中华人民共和国反不正当竞争法》(以下简称《反不正当竞争法》)及其司法解释为企业数据权益提供了保护工具。随着大数据产业发展,法院逐渐将未经授权的数据抓取并进行商业利用的行为纳入不正当竞争范畴进行规制。前述“酷米客诉车来了”案和“微博诉脉脉”案是具有代表性的判例。其中酷米客案被称为国内首例爬虫不正当竞争案,法院严厉谴责被告绕过技术措施爬取他人数据用于自身运营的行为,认为其违反了诚实信用原则和公认的商业道德,破坏了正常竞争秩序。新浪微博诉脉脉案则明确用户数据可以成为竞争性资源:脉脉公司超出授权范围抓取、使用新浪微博公司用户信息以拓展自己业务关系链,构成对微博公司合法数据权益的侵犯和不正当竞争。一审、二审法院均判令脉脉公司停止相关行为并赔偿经济损失200万元人民币。该案还指出,作为平台方的微博公司在保护用户信息上也负有法律责任,不应放任第三方主体违规获取。这些司法案例表明,中国法院普遍认可平台对其耗费成本收集维护的数据享有合法竞争利益,第三方主体擅自抓取利用属于“搭便车”行为,应承担法律责任。法院往往援引反不正当竞争法第2条的原则条款来裁判此类新型纠纷,强调保护投资数据收集的企业不被数据爬取无偿攫取成果。

3.刑事打击与行政监管。针对恶意数据爬取和数据黑产,中国近年显著加强了刑事打击力度。2017年生效的《中华人民共和国网络安全法》和2020年修订的《中华人民共和国刑法》第285条等法律条款完善了针对非法获取、买卖公民个人信息和入侵计算机系统的相关罪名。数据爬取如果绕过技术保护、突破授权获取本不应获得的数据,可能触犯“非法获取计算机信息系统数据罪”;利用数据爬取手段大规模窃取、倒卖公民个人信息,则可能构成“侵犯公民个人信息罪”。在“今日头条前员工爬虫案”中,两名今日头条公司前高管离职后利用技术破解原公司的反爬机制,爬取了大量业务视频内容,造成重大损失。法院以非法获取计算机信息系统数据罪分别判处二人有期徒刑9个月和1年,并处罚金。另一起2019年北京海淀法院审理的案件中,被告公司及员工用数据爬取程序侵入竞争对手视频网站,盗取数万部视频资源,也以相同罪名被判罚金并处有期徒刑。2018年曝光的上海“巧达科技”案中,公司数据爬取非法收集数亿条求职者简历并通过付费接口提供查询,公安机关以涉嫌侵犯公民个人信息罪查处了该公司,多名高管被刑拘。此外,从行政执法层面,2019年全国“净网”专项行动中,公安机关集中打击了一批利用数据爬取盗取数据的企业,包括某些征信和数据服务公司,大批从业者被调查或逮捕。监管部门还加强了日常监测,要求互联网企业定期自查数据爬取活动,防范内部员工或合作方滥用数据抓取。由此,中国通过“刑事威慑+行政监管”相结合,打造出对非法数据爬取的高压态势,迫使行业更加重视数据合规及其监管。

综上,与欧美相比,中国对数据爬取的监管更为严厉细致,法律合规要求更高。个人信息方面,中美欧都重视隐私保护,但中国《个人信息保护法》的执行力度和对应刑事责任规定更为直接,使得未经用户同意抓取个人数据几乎难有容身余地。商业数据方面,中国通过《反不正当竞争法》保护平台数据权益,对数据爬取“搭便车”行为“零容忍”,这在实践效果上类似欧盟的数据库权保护,但路径不同——属于一般法律条款的延伸适用。中国还格外关注网络安全和社会稳定,一旦数据爬取威胁到系统安全或牵涉数据黑市交易,往往会升格为刑事打击。整体而言,中国倾向维护数据控制者和个人的数据权益,对于未经授权的爬取行为持审慎甚至否定态度。这种立场保障了数字经济的健康秩序,但也对AI时代的数据获取提出了严峻挑战:当大量公开网络数据由于法律高压而无法被利用时,人工智能的发展可能陷入“无米之炊”的困境。如何在安全合规的前提下适度开放数据,成为中国下一步亟须探索的问题。

(五)美国、欧盟、中国对数据爬取的立场异同

通过以上分析可见,美国、欧盟、中国在应对数据爬取利益冲突时的法律立场各有侧重。

美国倾向于通过案例实现弹性平衡。奉行信息自由流动和商业创新优先的理念,美国对于公开数据的爬取相对宽松。HiQ案等判例表明,美国法院不愿轻易将数据爬取等同于黑客行为,而是根据具体情形裁量合法性。保护重点在于防止真正的入侵(CFAA)和维护版权、合同权益,对个人隐私则相对宽容(缺少统一联邦立法,仅依赖碎片化法规和州法)。这种环境为创业公司和研究者利用公开数据提供了较大空间,但也导致规则不明朗,需要逐案判决以澄清边界。美国模式赋予法官较大裁量空间,通过判例积累形成事实上的行为准则。

欧盟强调权利保障和事前合规。以GDPR为代表,欧盟将个人数据保护放在监管首位,对未经允许的个人信息爬取几乎零容忍。对于受知识产权保护的数据内容,亦设置了强有力的权利保护(著作权、数据库权),只有在立法明确的例外情况下(如TDM科研例外)才允许未经许可的抓取。欧盟整体上先筑起隐私和IP的高墙,再谨慎开“几扇小窗”供数据挖掘者使用。例如要求权利人可以通过选择退出(opt-out)来阻止挖掘。这种高规范模式下,企业在欧盟进行数据爬取活动必须投入大量合规成本,但个人权益和市场秩序得到充分尊重。欧盟模式体现了对人格权和创新利益的平衡追求:以刚性的法律规则保障基本权利,在此基础上逐步探索促进数据利用的途径。

中国采取严格许可和综合强制。综合借鉴了欧盟对个人信息的“严保护”和本国实践中的“强监管”,中国对数据爬取行为管理持相对谨慎的态度。现有法律要求几乎所有类型的数据抓取都应取得明确授权:个人信息需本人同意,重要数据需主管部门许可。执法上,对违规者通过民事、行政、刑事制裁多管齐下予以惩戒。在商业竞争维度,中国赋予企业对自身数据的控制权益,利用《反不正当竞争法》打击数据攫取行为。总体上,中国模式属于严监管、重处罚,以确保数据经济在规范中发展。这对于防范数据滥用、保护用户权益效果显著,但也可能在一定程度上抑制数据流通,需通过政策微调来平衡创新需求。

需要说明的是,以上立场并非一成不变。随着生成式AI等新技术的兴起应用,各法域也在动态调整:美国开始出现针对AI训练数据的版权和隐私集体诉讼,舆论呼吁加强立法;欧盟则继续完善数据法规(如通过《数据法案》和AI相关规则如《人工智能法案》)以适应技术发展;中国则在强化基础立法后逐步探索安全可控的数据开放机制。不同立场所反映的“信息自由、权利保护以及国家安全”之间的价值取向抉择将继续影响各国对数据爬取的政策决策。

在下一部分,本文将转向学术界和政策层面对解决上述冲突的方案研究。在理解各国法律现实的基础上,学者们提出了多种路径试图弥合数据爬取的利益冲突,包括技术层面的改进和法律制度层面的创新。对这些方案进行类型化归纳分析,有助于我们展望人工智能关键发展时期未来,构建更平衡高效的数据获取规则。

三、弥合数据爬取利益冲突的方案及类型化分析

面对数据爬取引发的上述矛盾,学术界和实务界提出了多种方案,试图在促进数据利用与保护各方权益之间找到平衡路径。总体来看,这些方案可以分为技术手段和法律政策手段两大类,分别从“技术”和“法规”两个层面着手治理。

(一)技术手段的方案

1.机器可读的数据使用协议。由于目前robots.txt协议在法律上缺乏强制力,且网站服务条款多为人工可读而机器无法自动理解,学者建议创建统一的机器可读数据使用协议标准。在现有robots协议基础上扩展,允许网站以结构化方式声明数据使用许可。例如在robots.txt中增加字段,指明“可用于学术研究/不可用于商业AI训练”等授权条件。数据爬取在抓取前即可自动读取并判断目标站点的许可政策,遵循相应规则,避免侵权风险。一些实践已经初步出现:例如知名数字艺术社区DeviantArt在网页头部嵌入了标签,声明不希望其内容被AI模型抓取用于训练。又如部分新闻媒体尝试使用特殊标记来限制搜索引擎摘要长度。虽然目前这些“NoAI”元标签还不是行业强制标准,但其理念是让内容提供者通过技术手段直接表达授权意愿。如果未来立法或行业公约认可此类机器可读许可的效力,数据爬取将有义务尊重这些指令,从而实现“机器自动遵守人类授权”的目标。这种方案得到了信息技术与法律专家的呼吁,希望建立统一的数据许可标识体系,方便数据提供方选择授权方式(类似知识共享许可的思路),并明确数据爬取遵循这些许可的法律责任。通过技术与法律结合,既提高了不同主体间的沟通效率,又收缩了权限不清的灰色地带。

2.隐私增强技术。针对数据爬取导致的个人隐私泄漏风险,学界提出运用隐私保护计算技术,让数据在利用过程中得到安全隔离。例如,平台在对外提供数据接口或允许爬取时,可以采用差分隐私技术对输出结果添加适度噪声,确保单个用户无法被识别,从而在不明显影响统计分析价值的前提下保护敏感个人信息不被获取。这一方法已在开放政府数据集、人口普查数据发布等场景得到应用,使得第三方即使通过数据爬取抓取到数据,也因经过匿名化处理而难以侵犯具体个人隐私。又如联邦学习也是值得关注的方向:各数据持有方(如不同机构的数据库)在本地完成模型训练,只共享模型参数而不交换原始数据,从而大幅减少直接爬取原始数据的必要。比如多家银行希望共享客户风控模型,却不能直接互相提供客户数据时,可采用联邦学习在各自服务器本地训练后再汇总模型,从而实现“数据可用不可见”。这种技术在一定程度上降低了集中爬取数据的需求和数据外泄风险。当然,隐私计算技术目前仍面临模型精度下降、计算开销增大等问题,但为“技术减缓冲突”提供了新思路。如果网站愿意输出经过隐私保护处理的数据,第三方利用数据爬取获得数据时对个人隐私的威胁将显著降低。

3.“阳光爬虫”计划。为了区分友善守规的爬虫(即“友好爬虫”)与恶意爬虫,一些研究者建议改进反爬机制,建立爬虫认证和白名单制度。网站可以为遵守规则、信誉良好的爬虫提供公开接口和更高配额,而对不守规矩的未知爬虫通过IP封禁、验证码、人机验证等措施予以阻挡。这类似于许多大型网站提供的开发者API:开发者注册并同意服务条款后,可通过官方API获取数据,在免费额度之外需付费申请更高配额。API模式下,数据提供方可以技术手段控制访问频率、监控使用情况,并在必要时终止服务。不使用官方API而强行抓取的网站则可加大检测和拦截力度(如通过行为分析识别异常爬虫流量、采用动态内容加载迷惑爬虫等)。同时,行业层面可以出台爬虫行为规范指南,要求爬虫开发者在User-Agent中标明身份信息(如公司/项目名称和联系邮箱),不绕过robots限制、遵守合理的请求频率等。这类似于一个“爬虫守则”,守法的爬虫不会刻意隐藏自己,网站管理员发现异常流量时也可以据此联系爬虫运营方协商,而非只能一刀切封禁。将爬虫行为放在阳光下、使其透明化,被认为有助于建立爬虫信誉机制,既保障正常数据获取需求,又能防范暗中进行的非法抓取。当然,要实现这一点,需要平台与爬虫开发方的合作意愿,以及必要的法律支撑(例如对通过白名单认证的爬虫获取数据的行为给予合法地位,明确未认证爬虫超范围抓取的责任)。“阳光爬虫”计划在学界引起兴趣,被视为技术共治的一种体现:通过正面引导和优待守规者,减少了攻防对抗,转而营造数据应用合作氛围。

4.数据溯源与水印。为了保护数据版权和防止爬取滥用,还有一些技术手段着眼于在数据或模型中植入水印和溯源机制。例如,网站可以在网页内容中嵌入难以察觉的数字水印(如零宽字符序列或特定格式排版),当有数据外泄或被不当抓取后,权利人可以通过识别这些水印来追踪源头。如果某数据爬取抓取并盗用了带水印的数据,被发现后即可依据水印证据主张权利。在AI模型训练领域,也有研究尝试在模型输出中检测训练数据痕迹,以确定某一特定来源的数据是否被模型使用过。这在未来可能帮助内容创作者验证自己的作品是否被某AI系统擅自用于训练,从而主张补偿或禁用权。这些技术目前仍在发展之中,但为数据应用监测和追责提供了新的可能。一旦数据使用方知道滥用数据将被追踪识别,其遵守规则的动机也会增强。水印和溯源机制可视为法律执行的辅助手段:通过技术提高违法利用数据的风险成本,促使数据爬取运营者自我约束。

总的来说,技术方案侧重于让机器读懂人类规则、让数据处理过程更透明安全。它们并非单纯站在数据提供者一边阻断一切数据爬取应用,而是寻求技术共治:网站提供机器可识别的使用规则和开放接口,数据爬取遵循规范获取所需数据;同时通过隐私计算、水印等技术防范数据被不当利用或泄露。在这种良性互动中,可以实现“抓取有度、各取所需”。当然,技术手段往往离不开法律的配合与强制力保障,否则规范性的协议可能被恶意主体无视。因此,需要结合法律和政策工具以形成完备的治理体系。

(二)法律和政策手段的方案

1.明确数据权属与授权机制。学术界长期讨论应赋予数据财产性权利,从而为数据爬取划定边界。这涉及“数据产权”或“数据权益”制度的构想。一种观点主张确立独立的数据专有权,承认数据收集者对其收集的公开数据享有类似知识产权的控制权益。欧盟在《数据库指令》中曾尝试过此路径,即赋予数据库制作者对其数据集合的专有权。然而实践证明,该模式在促进数据产业方面效果有限,一度被诟病为过度保护导致数据利用不足。美国则迄今未设立统一的数据产权,而是通过反不正当竞争、合同、技术措施等多元手段灵活保护数据,在法律结构上保持弹性。基于此,有学者建议中国立法不宜照搬单一的数据专有权模式,以免过度强化数据控制者地位、反而阻碍数据流通。更可取的是平衡模式:承认数据收集者对数据投入劳动后的合理利益,同时赋予数据主体(个人)对涉及自身数据的人格权益,并保障社会公共利益对数据的适当利用途径。在此框架下,可以引入数据授权许可机制:由数据控制者通过明示授权许可他人使用数据,许可可附条件(用途、期限、是否收费等)。如发生未经许可爬取,可依据现有法律如反不正当竞争法、民法定侵权责任编等追究责任。概言之,即建立“数据有主,使用有约”的规则体系,把目前处于灰色地带的爬取行为纳入合法许可轨道。在此体系中,网站作为数据控制者应明确其数据授权策略,数据爬取方则需遵循许可边界行事。这样既保障了数据收集者的权益,也为数据需求方提供了可预期的获取渠道。

2.鼓励数据共享与开放。为从根本上减少因数据垄断和封闭引发的爬取冲突,许多学者呼吁政府和行业推动数据共享。政府可以加大开放政府数据的力度。各级政府掌握着大量公共数据(如地理、交通、气象、统计数据等),通过政府数据开放平台将其依据机器可读的方式面向社会发布,可满足AI训练和数据分析的巨大现实需求,避免第三方不得不通过数据爬取抓取官方数据的不便。目前中国、美国、欧盟等均建立了官方开放数据门户,提供大量免费数据集,一些AI项目已经从中受益。在私人部门构建数据交易市场或数据合作平台也是方案之一。通过合法的第三方平台撮合,数据需求方可以付费获取授权的数据,而不必冒险爬取。例如金融机构出于风控需要,可以从数据服务商购买社交媒体风险数据,而这些数据服务商则通过与平台合作或用户授权合法取得数据。这种有组织的数据流通降低了各方法律风险,也为数据权利人创造了收益渠道。另外,值得倡导的是数据互惠计划:行业内有相辅性的公司可在中立机构的协调下交换一定范围的数据用于各自提升模型,但前提是做好数据匿名化等隐私保护措施,相当于建立数据联盟,联盟成员依据协议共享数据而对外仍保持对自有数据的控制。在医疗、交通等需要融合多源数据的领域,已经有这类共享机制的探索。总的来说,“官方开放+自愿共享”模式丰富了合法的数据获取渠道,在一定程度上削弱了第三方靠数据爬取强取数据的动机。

3.研究豁免与公益例外。为平衡商业利益和公共利益,不少学者建议引入数据公益使用的概念。即对于出于科研、教育等公益目的的数据爬取,在不明显损害数据权利人正常利益的前提下应被允许(类似版权法中的合理使用原则或欧盟TDM强制例外)。这实际上是赋予研究者和公益机构一定的数据获取权。在此框架下,可以要求数据控制者对可信的研究请求给予必要的数据访问支持,如提供专门API或数据沙盒供高校研究团队爬取分析。在此方面欧盟已率先实践,中国也可考虑在《个人信息保护法》的完善或未来的数据相关立法中设置“公共利益”例外内容,允许科研机构在符合严格条件下爬取公开网络数据而不构成侵权的后果。同时对其建立审核和监督机制,确保数据在确保采取隐私保护措施基础上仅用于声明的公益目的。这种做法类似建立数据沙盒,在可控环境下让研究者使用真实世界数据,促进学术创新和公共政策研究。其意义在于让社会公益目标得以实现,不因法律障碍错失大量互联网数据价值的实现;数据提供方在此受监督利用的情景下,也无须过度担心商业利益受损或隐私泄露。

4.数据使用收费与利益补偿。另一类方案关注通过经济手段在利益上再平衡。比如有学者提议建立“数据使用税”或补偿基金,向大规模抓取公众数据并商业牟利的AI公司征收费用,以补偿内容创作者和数据来源方。这类似版权领域的空白媒介补偿金制度。具体而言,可由立法规定某些类型的数据爬取(如用于训练大型商业AI模型)需缴纳一定费用,由行业协会或监管机构收取后按规则分配给原数据版权所有者或贡献者。这样,数据爬取公司在利用数据获利的同时也反哺利益给原数据生态,实现利益共享。当然,此方案的复杂之处在于如何确定收费标准和分配比例,而且还可能增加新进入者负担。但一些行业迹象表明类似实践正在开始:例如社交平台Twitter、Reddit等发现其数据被广泛用于AI训练后,已大幅提高API使用收费标准或关闭免费接口,旨在通过授权收费获得补偿。长期来看,如果能够建立起透明的收费许可机制,或许比诉诸法律禁令更容易让数据控制者接受数据爬取行为。毕竟在有利益回报的前提下,权利人才有动力允许他人使用其数据。这种经济激励型方案需要通过法律赋权执行,但一旦实施将会在一定程度上缓和数据供需双方的矛盾,使冲突走向利益分配而非零和争夺。

5.行业自律与常规监管。除了硬性立法,不少研究者主张制定明确的行业规范或国家标准,对数据爬取行为给出准则。例如由网络安全行业协会牵头出台《数据爬取行为规范指南》,内容包括:数据爬取应遵守的技术规约、伦理要求(如不得收集敏感个人信息、不得干扰正常服务等)、与被抓取方的沟通协调机制、争议解决方式等等。这些指南本身可能不具备强制力,但可作为评判数据爬取行为合法与否的重要参考,一旦产生纠纷,遵循指南的一方更易获得司法谅解。同时,政府监管部门也应发挥作用。网信部门等可以指定要求互联网企业定期报备其数据爬取活动、审查数据合规情况;对于用户投诉或安全事件,及时调查惩处并改进问题数据爬取;鼓励公众举报数据爬取黑产。通过常规监管而非事后惩罚旨在更早发现和纠正不当数据爬取。在个人信息保护领域,中国已建立个人信息处理活动的合规审计制度,完全可以把针对公众数据的数据爬取行为纳入检查范围。凡此种种都是希望通过“软法+监管”的手段,在正式法律之外构筑一套日常运行规则,引导数据爬取朝着正规有序方向发展。

综合以上,学术界和实务界提出的方案是多元且互补的。其中技术手段旨在搭建抓取方与被抓取方沟通的桥梁,减少误用误伤;法律政策手段则试图理顺权责利,在宏观上为数据流动制定游戏规则。值得注意的是,没有哪一种方案能够单独解决全部问题,因此需要组合施策。例如,开放数据可以满足一部分需求,但商业竞争数据仍可能需要许可获取;技术规范能约束自律者,但对黑灰产数据爬取仍需法律打击;收费补偿可以平衡利益,但需要法律授权执行。因此,许多研究主张制度“组合拳”,如“数据开放+许可授权+技术标准+司法救济”一揽子措施,共同营造良好的数据生态环境。沿着这个思路,笔者将在下文中试图提出自己的主张。

四、在人工智能发展的关键时期弥合数据爬取带来的利益冲突

当前,人工智能技术正处于关键的高速发展期,对高质量、大规模数据的需求比以往任何时候都更加迫切。如何在保障权益前提下充分释放数据要素潜能,成为社会各界关注的焦点。在这一背景下,重新审视数据爬取行为规范,寻求数据获取的平衡方案具有现实紧迫性。本部分将围绕人工智能的发展需求,讨论如何规范数据爬取以支撑AI训练,并提出若干可行的改进建议。

(一)确保人工智能高质量数据供给的关键考量

大模型和生成式AI的兴起,使得“数据即燃料”的特征愈发凸显。模型的性能高度依赖于训练数据的规模和质量。可以说,没有大规模数据,就没有当今令世人惊叹的AI模型。然而,“多”不等于“优”,高质量数据不仅要求数量庞大,还要求多样性、代表性、准确性和合法性兼备。当前AI训练数据获取面临诸多现实挑战:

一是数据多样性与覆盖面。AI模型要想具备广泛适用性,训练数据必须包罗万象,包括多语言、多地域、多文化背景的内容。如果法律和平台对数据爬取的限制过于严苛,将会导致AI开发者获取不到某些地区、语言或群体的数据,训练出的模型可能在这些欠缺数据的领域表现不佳,甚至出现偏见和歧视。现实中已经有实例表明,缺乏多元数据的人脸识别系统在识别少数族裔时错误率更高。这提醒我们:丰富且多元的数据来源对避免AI偏见至关重要。因而,在设计数据爬取监管政策时,需要考虑为公益性的数据收集开辟渠道,以免AI模型“缺粮”而影响对某些群体的服务。

二是合法合规。从长远看,AI行业的健康发展离不开公众和法律的信任。倘若大规模数据爬取游走在隐私或版权灰色地带,企业将面临潜在的法律诉讼和社会舆论风险。近期一些大型AI公司已深陷版权纠纷,企业形象深受影响。AI发展始终不能建立在“违背他人权益”的基础上,哪怕短期获得数据优势,长期来看会损害行业公信力,也不利于AI被社会广泛接受。因此,AI数据获取必须走合法合规的“正道”,让模型训练“干净”且令人安心。这也倒逼我们在政策上为AI提供合规的数据来源,同时严格打击非法抓取行为,营造良性环境。

三是可持续的行业生态。如果放任AI公司用数据爬取“强取豪夺”各网站数据,平台势必采取更严厉的反制,如封禁IP、诉诸法律等。双方冲突升级的结果很可能是数据源逐渐萎缩:网站方索性关闭部分公开接口或限制内容展示,AI公司失去抓取目标。这对AI持续进步极为不利。反之,只有在合理授权、利益共享的生态下,数据供给方才有动力开放数据,AI开发方也能稳定获取所需信息。共赢的生态才能支持AI源源不断获得高质量数据。因此,在平衡利益冲突时,要着眼于构建合作共生的行业生态——让平台看到分享数据也有益处,让AI公司意识到尊重权益才能长久。这需要制度设计使各方都有利可图,避免零和博弈。

四是技术门槛与公平竞争。目前大型科技公司拥有雄厚的算力资源和资金支持,可以自行抓取、存储海量数据,甚至能与数据平台达成独家协议获取数据。相反,中小型研究机构和创业公司往往不具备这样的资源。如果数据“大门紧闭”,他们难以通过合法途径获得训练所需的信息,只能望洋兴叹。这将导致AI领域的马太效应:有数据优势的巨头越强,缺数据的后来者越难超越,行业竞争被扭曲,创新活力降低。为保证AI产业的开放竞争,需要降低数据获取的门槛,给“小玩家”们进入赛道的机会。这意味着在利益冲突调和时,要在守规的前提下考虑扶持学术界、中小企业获得必要数据。例如,提供公共数据集、公益数据许可等,都有助于缩小数据鸿沟。只有竞争公平,整个行业才能百花齐放,而不是呈现被少数数据寡头控制的局面。

因此,在AI发展与数据保护的拉锯战下,各利益相关方需要找到新的平衡点。近期有报告指出,由于生成式AI的冲击,许多原本开放的网站开始设置技术屏障隔离数据,AI模型的“公共数据池”正在迅速萎缩。有人将这一现象称为“AI数据公地的衰落”:如果任由其发展下去,未来AI模型的训练要么受制于少数垄断数据的巨头,要么被迫使用质量较差的残余数据,创新活力将大打折扣。在此背景下,我们亟须在制度上重新平衡数据获取权。人工智能的发展关系社会整体利益,高质量数据的充分供给是实现可靠、公平AI的基础。一方面,不能容忍AI的进步建立在对个人和创作者权益的肆意侵犯上;但另一方面,也不能因过度保护使得AI研发陷入无数据可用的困境。平衡方案的核心在于保障合法合规的数据流动渠道,明确数据抓取的边界与规范,引导AI产业健康用数。

(二)指导思想为纲:利益协调促进数据源“丰富、开放、多元”

在人工智能发展的关键时期,我们务必要意识到两种极端策略的危害:一味过度保守地封闭数据,必然阻碍AI训练数据的获取,损害行业与社会整体利益;反之,完全放任数据爬取“横行”,又将使个人隐私、版权、平台权益得不到保障,长远看同样破坏创新生态。因此,理想的解决方案必须在开放与保护之间巧妙权衡,确保AI可以持续从丰富多样的数据源中汲取养分,同时利益相关方也受到应有保护。基于以上分析,以下是值得重点贯彻的思路:

其一,确立共赢思维。数据平台、个人用户、AI开发者、监管者都应被视为数据生态共同体,进而追求“平台有收益、个人享保护、AI得数据、社会促创新”的平衡格局。摒弃过去零和博弈的观念,用合作取代对抗。具体而言,通过法律保障和机制设计,让平台分享数据有利可图、个人授权数据有安全感、AI用数据有合规路径,各方利益协调就有基础。

其二,兼顾不同的主体需求。对待不同类型的数据爬取活动应当区别对待,精准施策。对于商业公司的大规模爬取,施加严格要求,比如强制备案、数据保护影响评估、限定可抓取范围等,防止其不正当牟利或损害竞争;对于学术研究和公益数据爬取,则应尽量宽松,例如快速审批许可,甚至豁免一般性公开数据的抓取限制,以鼓励研究创新;对于普通个人开发者的小型数据爬取,可提供技术指导、设定最低限度约束(如总量限制),既不让其违法,也不给其制造不必要的负担。这种差异化策略能够同时维护创新活力和秩序规范。

其三,构建良性技术支撑。大力推广匿名化、差分隐私、联邦学习、API接口等技术,在技术层面消解冲突点。通过更精细的权限控制和安全措施,使得数据的大规模使用并不必然和隐私保护正面冲突。鼓励网站部署机器可读的拒绝标记、数据爬取遵守行业标准协议,用技术协议降低误解和纠纷。技术进步是动态的,应充分利用其为我们重新绘制数据边界,而非固守旧有边界造成双输。

其四,加强国际合作。数据流动跨越国界已是常态,美国、欧盟、中国等主要法域需要在隐私、版权、网络安全等方面寻求若干共识。可以考虑建立跨国数据共享和争议解决机制,减少冲突或监管套利空间。例如,就AI训练数据的合理使用标准在国际上达成框架协议,对公开数据的抓取设立跨境认可的行为准则。特别是在公共健康、气候变化等全球公共利益相关的数据领域,推进多边数据合作意义重大。只有各国法规衔接、互信,才能避免数据爬取治理“按下葫芦浮起瓢”。

(三)行为规范为本:数据爬取治理规范支撑AI训练“高效、可信、安全”

上述思想需要通过清晰可行的数据爬取行为规范来予以落地。行为规范应结合法律要求和行业实践,既约束数据爬取方的行为,也对数据提供方提出相应要求,从而形成良性互动。基于前文讨论的各种方案,我们综合提出以下规范要点:

1.对数据爬取开发与运营方的要求。其一,明晰许可边界,杜绝法律禁区。数据爬取在设计和运行时,应内置合规审查机制,确保不触碰法律“红线”。具体而言,不得抓取法律明令禁止收集的信息(如涉及国家安全、公共安全的敏感数据);对于需要登录才能查看或受到技术保护的内容,如无授权,不应采取绕过、破解手段获取;对于他人享有著作权的作品,除非符合合理使用或法定许可,否则避免全文抓取和储存。在开发之初就应预设这些限制,将遵守法律作为数据爬取流程的前提条件。其二,尊重网站公开政策。数据爬取必须遵守目标网站通过robots.txt等渠道公布的抓取政策。如果网站在robots.txt或HTML元标签中声明禁止一切爬取或禁止特定用途的数据收集,数据爬取应当尊重。这体现了对网站自主权和用户选择的尊重,也有助于避免法律纠纷。特别是对于标注了“NoAI”等元标签声明的内容,数据爬取应避免将其用于AI训练数据集,以回应内容创作者不被AI利用的意愿。行业可以将遵守“NoAI”标签等纳入数据爬取行为准则,使之逐渐成为事实标准。其三,控制频率,文明抓取。数据爬取应采用合理的抓取速率和策略,不给目标服务器造成过重负担。一般要求包括:设置爬取间隔和并发上限,避免在短时间内向同一网站发送过多请求;避开目标站点访问高峰,尽量不影响正常用户体验;遇到验证码或反爬措施时不继续尝试绕过,以免被视为恶意攻击。正如一个良好的互联网公民,数据爬取也应讲究“礼貌”,不骚扰、不打扰。这不仅是道德要求,也是防止因过载被认定为拒绝服务攻击的重要防线。其四,身份声明与联络信息。建议数据爬取在Http请求的User-Agent字符串中标明自身身份(如公司/项目名称、联系方式)。这样,当网站管理员发现异常流量时,可以据此联系数据爬取运营方沟通协调,而非只能直接封禁。公开身份也有助于建立数据爬取信誉,即守规的合法数据爬取没有必要隐藏行踪。对于大型AI公司运营的数据爬取,更应主动公布其数据抓取范围和策略,以提升公众信任度。其五,限定数据用途,严禁二次滥用。数据爬取获取的数据应仅用于合法正当的目的,不得超出必要范围。举例来说,爬取公开网页数据用于训练公共语言模型可被视为有正当理由,但若将抓取的数据另行倒卖或用于侵犯个人隐私,就明显不当。数据爬取运营方应制定内部数据使用政策,明确禁止将抓取来的数据用于违法用途。一旦需要将数据分享给第三方或公开发布数据集,必须首先确认没有违反原网站的权利和用户隐私(例如数据已匿名化或获得授权)。其六,加强数据安全与隐私保护。在保存和使用抓取的数据时,要采取必要的安全措施防止泄漏或滥用。对含有个人信息的数据应及时进行匿名化、脱敏处理,尤其在对外开放数据集时,确保无法从中还原到具体个人。这不仅是对他人隐私的尊重,也是符合法律要求的基本义务。

以上措施既是法律的基本要求,也是体现AI开发者社会责任的应有之义。

2.对数据提供方(网站平台)的要求。其一,提供清晰的抓取政策。网站应当在服务条款或专门页面明确声明对于数据抓取的态度和允许范围,避免模棱两可。最好同时提供机器可读的规则(如完善robots.txt并辅以HTML元标签)来表达其意愿。如果某些数据愿意开放给研究或其他特定用途,也可以明确告知。清晰透明的政策有助于“友好数据爬取”的遵循,对恶意数据爬取也更容易举证追责。其二,开放合法获取途径。掌握大量数据的平台可以考虑提供受控的数据接口(API)或数据导出功能,供研究机构或开发者申请使用。这种官方途径可以附带许可协议,既便利了数据利用,也让平台掌握主动。对于拒绝开放的部分数据,建议平台给出合理解释或替代方案,避免一刀切封锁令研究者无所适从,被迫转向“非正规”途径。其三,监测与分级响应。网站应部署合理的反爬监测机制,但对检测到的可疑数据爬取应区别对待。在采取封禁措施前,如发现某数据爬取基本守规仅频率稍高,平台可以先发出警告或联系提醒,给予改正机会;对于明显违反规范、绕过封锁的数据爬取,则有权迅速采取技术和法律手段应对。通过建立黑白名单制度,将信誉良好的合作数据爬取和恶意数据爬取区分开来。对于列入黑名单的严重违规者,平台应保留追究法律责任的权利;而对白名单数据爬取的小偏差可适当宽容处理,以支持有益的数据应用。其四,通过以上双向规范,力争构建“可爬、可控、可纠、可罚”的局面。对遵纪守法的数据爬取,数据能够顺利获取,平台在可控范围内分享数据价值;一旦数据爬取越界,有明确规则判定并据此纠正、处罚。这种环境将极大有利于AI获取所需的数据资源,同时将对个人、企业利益的冲击降至最低。

(四)创新模式为径:数据供给模式推动数据生态“共建、共享、共赢”

在“指导思想为纲、行为规范为本”的整体逻辑下,前文已阐明了弥合数据爬取引发的利益冲突应以“丰富、开放、多元”的数据共享理念为目标,并通过“高效、可信、安全”的规范措施予以保障。然而,仅有原则与规则还不足以有效推进数据要素的流动与利用,需要进一步创新数据供给模式,将“利益协调”落到更具操作性的路径上,从而真正实现生态的“共建、共享、共赢”。

具体而言,创新模式既要呼应“利益协调”的指导思想,也要与“数据爬取行为规范”的制度基础相互衔接。一方面,必须在合规与尊重权益的前提下,打破传统数据封闭或分割的格局;另一方面,又要确保技术与机制的创新能够为各方创造可持续价值。只有在两者的支撑下,才能形成激励平台、个人与AI开发者共同投入数据共享的正向循环,让数据在合法、透明的通道中充分流动,为人工智能提供高质量“燃料”。在此背景下,各国与学界提出了诸多切实可行的创新方案,如强制开放关键数据API、扩大开放政府与公共数据、实行分级分类数据爬取许可制度、探索数据权益分润与补偿机制等。这些模式或以政策强制力来确保基础数据开放,或以公共利益为导向形成公益性数据池,或以精细化监管平衡商业与科研需求,或以收益共享增进平台、个人与AI企业间的合作动机。只有在“指导思想为纲”与“行为规范为本”的统领之下,将这些创新模式有机结合、灵活落地,方能有效推动数据生态迈向“共建、共享、共赢”新阶段。本文将针对具有代表性的方案,通过分析其可行性、潜在收益和实施挑战,探讨这些方案对AI数据供给的积极意义与可能局限,以期为我国制定更加完善、可持续的数据爬取治理框架提供参考。

1.方案一:强制开放关键数据的API接口。此方案提倡通过法律或监管要求关键行业的平台开放数据接口。例如,立法规定社交媒体、大型电商、搜索引擎等必须提供公共API,允许符合条件的第三方获取特定数据。接口可以设置访问频率、数据种类等限制,平台有权审查申请者的资质并收取合理费用。类似制度已有先例——欧盟PSD2指令强制银行开放支付数据接口供第三方金融服务,这证明政策干预可以打破数据孤岛。很显然,API比传统网页爬取效率更高、数据质量更整洁,可大幅减少重复抓取和对服务器的压力。同时,平台可以在API输出中内置隐私过滤和版权保护措施(如不提供某些敏感字段或限量输出),使数据使用天然合规。对AI开发者而言,统一的API意味着更少的数据清洗和数据爬取维护工作,可以专注于模型训练。对此,平台可能抵触强制开放,毕竟数据是其竞争力。一旦立法强推,平台可能游说反对或寻求漏洞。此外,明确接口收费标准和责任划分也复杂:是免费公益开放,还是市场定价?如何防止滥用接口进行不良操作?安全方面亦需考虑,开放接口可能成为新的攻击目标,需要制定认证和监控机制。但其在AI数据供给的意义确实存在积极意义。如果顺利实施,此方案将显著提高数据获取的合法性和效率。AI企业可以堂堂正正通过API获取多样数据,不必铤而走险用数据爬取“偷”数据;平台也从中获得收益或合作好处,更愿意持续提供高质量数据。尤其在多语言、多类型数据的覆盖上,API的推出可能大幅拓宽AI模型训练的数据面,使其能力更加全面。

2.方案二:扩大开放政府数据与公共数据集建设。由政府牵头整合公共领域和公益性数据建立统一开放平台。平台内容可以包括政府门户信息、科研数据、统计资料,甚至社交媒体上一些经过脱敏处理的公共帖子等。对涉及个人信息的公开数据需要对其进行充分匿名化后再开放。该平台向全社会开放访问,或对科研用途免费、商业用途收取一定范围内的成本费。这一方案已存在既有实践,许多国家已实施开放政府数据计划,提供API或数据集以供下载。

其优势在于集中管理的数据由政府背书,可信度高、格式规范。这为AI训练提供了高质量、有代表性的数据来源。平台可根据隐私、安全需要分级设置访问权限,既确保敏感数据不过度开放,又让无敏感顾虑的数据最大程度被利用。通过公开透明的开放,社会各界都能共享数据红利,避免数据垄断在少数企业手中。研究者和中小企业将因此降低获取数据的成本,对行业创新也有极大促进。其挑战是构建和维护这样的大型公共数据平台需要不菲的技术和人力资源投入。数据更新、错误纠正、标准制定都非易事。此外,哪些范围内的数据需纳入开放、如何对其脱敏、若遇隐私泄露事故如何追责等,都需要对其进行周密法律政策的设计。不同部门的数据壁垒、机构间协调问题也是现实障碍。不过,随着各国数据战略推进,这些挑战在逐步克服。

对AI数据供给来说,开放政府数据将为AI提供一个“永续矿场”:包含经济、环境、医疗、文化等方方面面的海量信息且来源真实可靠。对追求泛化能力的AI模型而言,这样的公共数据集可谓梦寐以求。更为重要的是,这种供给是合法合规的,不存在侵权或侵犯隐私的顾忌或疑虑,因此其社会接受度更高。一旦公共数据被充分释放,AI开发对游走于灰色地带的数据爬取依赖就会下降,利益冲突自然减轻。

3.方案三:分级分类的数据爬取许可制度。建立官方的数据爬取许可与备案制度,根据爬取数据类别和用途审批许可。比如,将数据类型区分为个人数据/非个人数据、敏感/非敏感;主体区分为商业公司/科研机构/个人开发者等,然后制定不同级别的许可要求:涉及敏感个人数据且商业用途的数据爬取需要严格审批,普通公开数据用于学术的可快速备案甚至豁免。对取得许可的数据爬取,可给予明确的行为范围指引;对无证或超范围数据爬取,则严惩处罚。

这个方案的优势是这种模式类似“环境排污许可证”,将复杂问题具体化、流程化。通过精准监管实现“该严则严,该宽则宽”:真正有益的研究和公益项目不会被“一刀切”封杀,商业公司也有合规路径可走,但需要接受评估和监督。行政审批能够有效筛除明显不当的数据爬取企图(如纯粹盗取竞争对手用户数据)以减轻事后执法成本。一旦获得许可,数据爬取者在许可规定范围内的操作将被视为合法,有利于其安心投入项目研发开展。但此方案实施起来行政成本较高。监管部门需要建立完善的申请审核机制和后续监控体系,对于行政机关的执法能力提出了要求。此外,数据爬取往往是跨境的,仅凭一个国家发证无法约束境外数据爬取的流入,国际协调难度大。不过,可以考虑在区域联盟范围内先行试点,比如在欧盟层面协调成员国发放统一的数据爬取许可。但这牵涉主权数据观念,各国未必都愿交由统一机构处理。对AI数据供给而言,许可制度为AI数据采集提供了明确的合规路径。AI研发者只要按照要求申请,获批后就能比较安心地抓取所需数据用于训练,而不必担心无意间因违法被起诉。这对于学术界和中小企业尤其重要,他们往往愿意遵守规则,只是苦于不知道使用边界何在。许可制度的建立将使他们获取数据的法律不确定性大幅降低,可释放更多精力在模型的研究开发上。长远看来这会增加合法数据来源,减少“打游击”式的非法爬取,有助于建立健康的数据循环。

4.方案四:数据权益共享与补偿机制。此方案的思路参照版权领域的法定许可,建立当AI企业使用他人数据牟利时对原始权益方的补偿制度。例如,可以立法要求:当AI模型利用某平台数据产生直接商业收益时,应按一定比例向平台支付“数据使用费”,由权利机构统筹分配给数据提供者。或者更广泛地对所有被大规模爬取并被商业化利用的数据源,设立数据分润基金,由使用者按流量或收益贡献缴费,定期向被爬企业和个人发放补偿。 此举缓解了“数据被掠夺”的不满。平台和个人看到自己贡献的数据有回报,就会提高分享意愿,甚至主动提供高质量数据供AI训练,大体上类似YouTube等内容创作平台通过给予内容创作者广告分成以激励更多优质内容的上传。对AI公司而言,虽然增加了一定经营成本,但换来了更顺畅的数据获取环境,不用时时担忧陷于法律纠纷,长远来看利大于弊。

挑战度量标准复杂是最大难题。AI模型训练往往融合数百万来源,如何确定每个来源的贡献度?简单按数量或字节计算不公平,按重要性又难客观评估。目前版权集体管理组织在这方面有经验(如广播电台支付音乐著作权使用费再分配给曲作者),但在实践中数据比音乐作品更复杂多样。另外,权利归属如何界定也是问题:比如一条微博数据,牵涉平台、发帖人、评论者等多方,分配利益需讨巧设计。尽管复杂,此方向值得探索,可从易于量化的领域(如影像、新闻等)先行试点。对AI数据供给的意义在于,如果克服实现障碍,这将大幅改善数据开放意愿。平台不再把数据爬取视为“洪水猛兽”,而是潜在的收入来源之一;个人用户知道将数据授权给AI使用也可能得到补偿或至少不会亏损。于是,封锁和对抗的动机意愿降低,取而代之的更多是谈判与合作。对于AI而言,这意味着更多网站可能主动开放数据或授权合作,数据爬取不再需要硬闯“禁区”,可接触数据的范围和质量都会提升。整体上,这是走向“数据共赢”生态的重要一步。

综合而言,上述方案各有针对性。一方面强制API偏政策强制力,政府开放数据偏公益供给,许可制度偏监管精细化,收益分享偏利益机制调整。这些方案并非相互排斥,完全可以组合运用。假如能在一个框架下同时推行多种改革措施,预期将最大程度弥合当前冲突,开创数据丰富、开放、多元又合规的新局面。

结语

在人工智能爆发式增长的时代,数据爬取不仅是获取海量数据的关键技术手段,更是引发个人隐私权益、著作权、平台数据权益等多方冲突的焦点。美国、欧盟与中国对于爬虫治理各有侧重:美国偏重司法判例的弹性调整,欧盟通过GDPR和数据库指令等立法强化权利保护并在文本与数据挖掘(TDM)例外中试图平衡创新,中国则以个人信息保护和反不正当竞争相结合,并辅以严格的刑事打击和行政监管,打造出更为严厉的合规环境。随着生成式AI技术对海量数据的需求日益上涨,“如何在合法合规下充分释放数据要素潜能”已成为全社会共同面对的课题。基于此,本文结合学术界与实务界对数据爬取治理的丰富探讨,提出了一套相对系统的思路。首先,在“指导思想为纲”层面,要确立利益协调的目标:让数据平台、个人与AI企业在合理的制度框架下实现共赢,而非零和博弈。一味封锁必然阻滞AI技术创新,完全放任又可能导致个人权益被侵蚀、原创内容被窃取乃至行业生态被破坏。只有在法律、政策和行业自律的共同引导下,让数据平台“看到”分享有利可图,让个人感受到隐私得到尊重,让AI企业拥有合规路径获取数据,才能形成人数之间的和谐互动。其次,在“行为规范为本”层面,应建立清晰可行的数据爬取合规要求:明确数据爬取方的义务,如尊重robots.txt、NoAI标签、限定抓取频率与范围、强化数据安全责任等,同时也对数据提供方提出相应要求,如制定透明可读的抓取政策、提供合法合规的数据接口、对守规数据爬取给予合理配额与技术支持等。这一双向约束不仅能防止数据爬取泛滥,更能在技术与法律的对接点上减少误解和纷争。在此基础之上,“创新模式为径”强调了多种可行的制度与机制设计,以最终推动数据生态的“共建、共享、共赢”。具体而言,强制开放关键行业的API接口可以为公众和中小企业带来统一、高质量的数据来源,减少重复抓取对网络资源的浪费;扩大政府数据和公共数据集的规模,则通过公益性数据供给培育AI研究的土壤,既能降低企业负担,也为公共领域的创新提供可靠的数据支持;实行分级分类的数据爬取许可制度,则有助于精细化监管,将研究与公益数据爬取与商业数据爬取作出区分,既避免一刀切式限制,又能为合理的学术与行业需求提供合规指引;在利益分配层面,建立数据权益共享与补偿机制,让被抓取的数据拥有一定的返还收益,可以有效激发平台与个人的分享意愿,从而缓解彼此间的对立。

需要强调的是,这些制度设计和技术改进无法单兵突进,而应相互配合、统筹实施。只有在“指导思想为纲、行为规范为本”的基础上,才能真正使“创新模式”落到实处。

综合来看,数据爬取治理是一个紧随技术演进而不断更新的过程。随着大模型、生成式AI等技术对数据质量与规模提出更高要求,国际各主要法域势必会持续调整其法律与监管策略。在此过程中,任何单一的“禁止”或“放任”都不足以应对复杂多变的现实局面;唯有兼顾开放与保护,通过立法、执法、行业共识和技术创新的有机结合,才能把数据爬取带来的利益冲突降至最低,才能让数据在可控、合规的通道中充分流动,才能使网络电在AI时代成为健康、高效的数据引警,为社会整体创新与公共利益提供更大助办。未来,不仅需要针对人工智能的需求不断完善现有制度,还要在全球层面加强跨境数据治理的沟通与合作。只有在整体利益格局中,通过正当的利益协调与规范实践,才能让AI产业持续获得优质数据的滋养,并同时兼顾个人权利、商业公平和社会公益的和谐共生。由此,数据爬取才能真正从一柄“双刃剑”,变为驱动新一轮数字经济与智能革命的重要推力。

作者简介

洪延青(1982-),男,福建漳州人,法学博士,北京理工大学法学院教授、博士生导师,研究方向为行政法学、数字法学、人工智能法学等。

本文原载《政法论丛》2025年第3期。转载时请注明“转载自《政法论丛》公众号”字样。

声明:本文来自政法论丛,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。