人工智能技术突破与产业落地,离不开海量数据的持续训练支撑。互联网公开数据作为AI模型学习的重要资源,其使用规则的制定正成为影响全球AI竞争格局的关键变量。
AI系统的核心能力,建立在对海量数字信息的分析与学习基础之上。随着各国AI监管进程的逐步推进,一个根本性问题日益凸显:开发者是否应当被允许使用互联网上的公开信息(即便其中包含个人数据)开展模型训练?
美国信息技术与创新基金会(ITIF)近日发布一篇题为《公开数据规则如何塑造人工智能的未来》(How Rules for Publicly Available Data Are Shaping the Future of AI)的文章。该文从公开数据的核心价值、现有治理矛盾、主要经济体监管差异、技术治理实践及政策制定原则等多个维度,系统分析了人工智能时代公开数据治理的关键议题,为产业布局与政策制定提供了参考。
一、公开数据:AI技术发展的重要支撑
AI模型训练需要大量学习文本、图像、代码等信息,互联网公开数据是训练素材的重要来源,与开放数据库、出版物等协作资源共同构成AI训练素材库。开发者将公开数据与授权数据、专有数据及合成数据相结合,训练出通用AI模型。
公开数据对培养AI的通用推理能力至关重要。基础模型的广泛能力构建,离不开万亿级规模的语料支撑,若仅依赖新闻档案或学术期刊等授权数据集,模型所能习得的人类知识大概率只是冰山一角,难以理解开放网络中的非正式表达、方言、小众技术话题或日常文化引用,最终成为专业领域表现优异、但在真实世界多样化沟通中表现脆弱的系统。
公开数据集承担着验证与基准测试的关键功能。可靠的AI系统,其输出必须以精准无误的信息为核心依据,政府统计数据、开放科学数据库等提供了被广泛认可的“客观事实基准”,开发者在AI生命周期的各个阶段都依赖这些数据:初期奠定事实基础,微调阶段提升准确性,评估阶段验证输出正确性。尤其对于智能体AI系统而言,公开数据是其验证主张、调取事实、核对输出准确性的重要参考。
二、隐私保护与数据利用:AI时代的治理矛盾
公开数据对AI发展的价值毋庸置疑,但互联网公开数据的属性特征也带来了个人信息保护的现实挑战,形成了“数据利用的公共价值”与“隐私保护的个体权益”之间的矛盾。
互联网公开数据中包含大量个人可识别信息(PII),社交平台、职业网站、政府备案等公开渠道留存着个人年龄、职业、财产、教育背景等诸多信息。这些信息原本均为特定目的发布,如今却能被AI系统规模化地收集与分析。与传统搜索引擎“引导用户访问原始网页”的模式不同,AI系统可整合多源信息并生成总结或答案——这一能力虽提升了生产与研究效率,却也让个人信息的聚合与暴露变得更为容易。
同时,数字信息的持久性与AI模型的学习特性,让个人信息的删除与管控面临技术难题。互联网打破了传统信息“转瞬即逝”的特征,形成了持久的数字档案;而AI模型的训练并非简单存储文档,而是将海量数据的规律融入数十亿甚至数万亿的模型参数中。一旦完成训练,要消除特定信息对模型的影响目前仍处于实验研究阶段,难以成为实际的合规工具。这意味着,公开数据中的个人信息一旦被用于AI训练,其影响将具有显著的长期性,传统“删除信息即可消除风险”的隐私保护思路,已难以适配AI时代的技术特性,不再具备现实适用性。
此外,AI借助对公开数据的规模化、自动化分析,能够挖掘出人工难以甄别与捕捉的信息关联潜在规律。这一能力在创造多元社会价值的同时,也催生了新的隐私隐忧:例如,AI能助力研究者高效分析科学文献、协助记者系统梳理信息记录,但也可能通过整合多源碎片化公开信息,构建出维度详尽的个人画像,让个人的行为轨迹、兴趣偏好、社会关系等隐私信息被间接暴露,进而引发“合理使用”与“过度挖掘”的边界争议。
本质上,这一系列矛盾的核心症结在于:AI技术的迭代发展,让公开数据的使用进入了“规模化、智能化”的全新阶段,而传统隐私保护框架受限于固有逻辑,已难以完全适配这一变革。政策制定者的核心任务,并非在“数据利用”与“隐私保护”之间做非此即彼的简单二选一,而是构建一套既能充分兼顾个人权益与公共利益,又能深度适配AI时代技术特性与发展需求的系统性治理体系。
三、美欧监管分化:塑造不同AI发展环境
目前,全球对公开数据的监管思路存在差异,以美国、欧洲为例,形成了两种截然不同的监管框架:美国采取宽松模式,欧盟则秉持严格规制。这两种框架在数据使用、隐私保护、合规要求等方面的差异,不仅塑造了不同地区的AI研发环境,也影响着企业的研发布局与投资决策。
美国在联邦层面,《计算机欺诈与滥用法案(CFAA)》明确规定,仅当访问计算机系统的受限区域时才构成违法;若信息未设置身份验证等技术壁垒,则被视为可自由访问。联邦法院在多起网络爬取纠纷案件中均确认,对无技术保护的公开数据进行爬取,不违反CFAA。版权法虽对数据收集有所限制——如《数字千年版权法(DMCA)》禁止绕开付费墙、身份验证等技术保护措施获取受版权保护的内容——但这一限制仅针对“非公开信息”,并未影响开发者对公开数据的规模化收集。州层面的隐私法规(如加州相关法律)虽不断完善,但仍普遍将“公开可用信息”排除在最严格的规制条款之外,仅对生物识别信息等特殊数据进行严格管控。
欧盟以《通用数据保护条例》为核心,将公开网站中的个人数据也纳入强保护范畴。企业处理个人数据必须具备合法依据,若以“合法利益”为依据,则必须举证证明企业所主张的利益优先级高于个人的隐私权益。“删除权”赋予个人要求删除其数据的权利,部分监管机构已明确,这些权利适用于利用网络爬取的个人数据训练AI的开发者。然而,当前技术水平难以满足“模型训练后删除特定个人信息影响”的合规要求,给开发者带来巨大的法律不确定性。叠加《数字单一市场版权指令》赋予权利持有者的“机器可读方式选择退出”权,以及《人工智能法案》对无目标抓取面部图像的禁令,欧盟的监管体系给开发者(尤其是初创企业)带来了高昂的行政成本与法律风险。
美欧两种监管框架的核心差异,本质是“开放创新优先”与“隐私保护优先”的价值选择不同。这种差异可能导致“监管套利”风险——即开发者将模型训练转移至监管宽松地区,使严格监管地区陷入技术落后与产业依赖的困境。
四、市场主导的技术治理:公开数据使用的协同探索
在全球监管规则尚未形成统一标准的背景下,互联网生态系统已自发演化出一套技术化、市场化的治理机制。这些机制跳出“完全禁止”或“完全允许”的二元思维,构建起更具弹性的“协商式网络”——既让网站所有者清晰地表达内容使用偏好,也使开发者能够遵循这些偏好开展活动。
这类技术治理机制的核心,是依托互联网标准构建的精细化访问控制体系,在传统规则的基础之上适配AI系统的需求。机器人协议(robots.txt)仍是控制自动化访问的主流工具,各大搜索引擎与AI开发者均将遵守该协议作为负责任爬取的行业准则;而XML站点地图、LLMs.txt等新兴工具,则进一步提升了爬取的效率与精准性。
其中,LLMs.txt虽尚未成为官方标准,但已被部分企业采用。网站借助这类机器可读的内容摘要,引导AI系统优先抓取权威信息,降低无关文本的处理成本,从而实现内容发布者与AI开发者的双赢格局。同时,研究人员也在探索更精细化的AI偏好信号机制,突破机器人协议“允许/禁止”的二元结构,让网站能对“搜索索引”与“AI训练”等不同数据用途进行区分规制。
在爬虫身份验证与信任机制方面,为应对身份伪造问题,基于HTTP消息签名的密码学机器人身份验证系统正处于快速发展阶段。该系统可让自动化代理为请求附加可验证签名,网站据此确认爬虫真实身份,既能为合规开发者提供身份背书,也能为违规行为留存清晰的审计追踪依据。
在程序化授权与商业化许可领域,HTTP 402“需要付款”状态码正被纳入自动化许可框架的探索范畴。网络基础设施提供商已开始试验相关系统,让内容发布者能向AI爬虫发出“特定内容需付费授权”的信号,爬虫则可自动启动授权交易流程。这种机制将市场逻辑引入公开数据使用场景,既保障了内容创作者的权益,也为数据使用的精细化定价提供了可能。
在隐私保护技术层面,AI开发者可在数据预处理阶段引入隐私保护技术,借助微软Presidio等开源工具,自动识别并对非结构化文本中的敏感个人信息进行匿名化处理。开发者通过在数据摄入阶段屏蔽或删除敏感数据,能在不排除公开内容的前提下有效降低隐私风险。
整体而言,这些市场主导的技术治理机制,体现了“技术适配、多方协同、弹性治理”的核心思路,推动公开数据的使用模式从“被动合规”转向“主动协商”。
五、智能体AI发展:重构公开数据治理的核心议题
当前关于公开数据与AI的讨论,多聚焦于“网络爬取”这一静态数据收集行为,但智能体AI系统的快速发展,正大幅拓展这一议题的边界。与传统AI模型“被动响应用户提示”不同,智能体AI能够代表用户规划任务、访问外部工具、检索信息并执行操作,其核心特征可概括为“主动交互、委托访问、多源整合”。这一转变使得隐私保护与数据使用的核心矛盾,从“静态数据集”转向“动态的权限与交互”,也让公开数据治理面临新的挑战。
委托访问与边界拓展:当用户授权AI助手访问其邮箱、日历等私人服务时,AI系统便能够接触到“私有但可访问”的数据。这种模式突破了传统法律框架的适用范畴,更催生了“间接提示注入”的安全风险——恶意攻击者可借助AI系统的委托权限,诱导其执行非预期操作。
主动触达与身份透明度:智能体AI能够主动发送消息、拨打电话,而接收方可能无法区分交互对象是人类还是机器。对此,欧盟《人工智能法案》与美国加州相关立法已要求在合理情况下披露AI身份,身份透明度建设已成为智能体AI规模化应用的必要前提。
多源整合与机对机通信:智能体AI能够整合用户私人数据与公开网络数据,挖掘潜在信息关联并构建详细个人画像。同时,其与其他自动化系统的直接通信,也使得用户对信息交换过程完全缺乏可见性,极易导致个人信息在无意识中泄漏。
智能体AI的发展态势表明,AI与公开数据的关系已不再是“简单的训练与被训练”,而是“动态的交互与深度利用”。未来的公开数据治理,不能再局限于“训练数据集的准入规则”,而需要将AI系统的“权限行使、交互行为、数据整合”纳入监管范畴,构建适配智能体AI时代的动态治理框架。
六、政策制定核心原则:平衡创新与隐私保护
面对AI时代公开数据治理的复杂挑战,政策制定者的核心目标不应是通过严苛规制限制公开数据的合理使用,而应在筑牢个人权益保护防线的前提下,维系并培育支撑数字创新的开放信息生态。基于全球实践与技术发展趋势,三大核心原则是平衡AI创新与隐私保护的务实路径。
聚焦有害输出,而非管控训练输入。试图通过规定“可用/不可用数据”来监管AI研发,既难以执行,也存在技术误区。相比之下,聚焦防止有害输出的思路更为可行。政府无需干预模型训练过程,而是明确输出安全底线,如禁止系统泄露非公开个人信息。若AI系统存在不当行为,则依据现有法律进行处罚。这种思路既能有效防范实际风险,又能保障开发者的创新活力。
强化智能体AI的透明度规范,而非施加僵化的披露要求。随着AI从“被动工具”向“主动智能体”演进,透明度成为维系数字通信信任的核心。政策制定者不应制定一刀切的规则,而应引导行业形成弹性规范:常规场景可简化披露,医疗、法律等敏感领域则明确要求披露AI身份。企业可通过“标注AI生成内容”“明确自动化代理身份”等方式落实,让透明度要求随技术发展动态调整。
为公开数据的负责任使用构建合法避风港,赋予开发者法律确定性。对于希望发展AI产业的国家和地区,保障公开数据可及时获取是核心前提,法律确定性是开发者开展研发活动的重要保障。政策制定者可设立合法避风港制度,明确只要开发者遵守行业公认的实践准则(如尊重网站机器可读退出信号、使用工具过滤敏感信息、对训练数据类型进行高层次透明度披露),即可获得法律保护。这一制度既能奖励负责任行为,又能避免僵化规则因技术迭代而过时。
七、结语
获取公开数据,已成为决定各国在先进AI系统研发中能否占据领先地位的关键因素。开放的互联网作为现代机器学习的共享知识基础设施,是AI创新的核心基础。不必要地限制对这一数字公开领域的访问,本质上是削弱未来AI创新的底层支撑,最终将导致产业竞争力的丧失。
AI时代的公开数据治理,核心是在“个人隐私保护”与“公共创新价值”之间找到平衡。这一平衡的实现,需要构建“政策引导、技术支撑、多方协同”的复合型治理体系。对于全球各国而言,谁能率先构建起这种平衡的治理框架,谁就能在保障个人权益的同时,留住AI研发的核心资源与创新活力,进而在下一代人工智能的全球竞争中占据主导地位。
文章参考来源:ITIF
声明:本文来自赛博研究院,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。