文 | 西安交通大学法学院、人工智能与信息安全法律研究中心 王新雷 张凯欣

生成式人工智能的发展离不开数据,而训练数据的质量尤为关键。然而,大量由人工智能(AI)生成的内容被混入训练数据后,通过递归迭代和语义扭曲的方式形成“污染链条”,最终导致模型性能退化甚至崩溃。这种趋势不仅威胁AI系统的稳定性,还可能给社会、经济乃至政治等多个领域带来负面影响。因此,亟须从法律规范、制度设计与技术手段三个维度协同发力,构建多层次、系统性的治理机制,防控AI生成数据对大模型训练的污染风险。

一、生成式人工智能中数据的重要作用及训练原理

当前,以DeepSeek、ChatGPT、豆包、Kimi等为代表的国内外大模型正在迅速涌现并加速发展,带动了生成式AI的广泛应用。2023年7月10日,国家网信办联合国家发展改革委等七部门发布的《生成式人工智能服务管理暂行办法》,将生成式AI界定为“具有文本、图片、音频、视频等内容生成能力的模型及相关技术”。生成式AI的技术核心在于通过神经网络与深度学习算法,在海量网络数据中进行大规模训练,从而实现新数据的自动生成。而这一过程中所使用的训练数据,主要由开发者从互联网的在线数据中获取。

传统的在线数据主要来源于现实物理世界,不同的生成式AI模型基于各自独立的数据集进行训练。这一过程的理论基础是统计学习理论,即通过机器学习算法对数据分布进行建模和拟合。所谓数据分布,是指数据在特征空间中呈现的概率模式。例如,对于生成文本的大型语言模型而言,自然语言语句的生成概率受到语义、语法等维度的共同影响,其分布特征体现为语言结构的统计规律。而在多模态生成模型中(如用于生成文本、图像、音频、视频或多种数字内容组合的模型),图像则在像素空间呈现出特定的分布形式。

在数字经济时代,数据已成为推动经济增长和构建数智化社会的重要投入品,日益演变为一种新型的生产要素。然而,随着生成式AI被频繁使用,大量AI生成内容开始涌入在线数据环境,且与人类生成数据相比所占比重持续提升,由此引发数据污染风险,即AI生成的数据在无意中混入原本由人类创作的数据集之中,进而被用于模型训练,对训练数据质量构成威胁。

二、人工智能生成数据的污染路径

在生成式AI扩散之前,所收集的用于训练的任何数据通常不会受AI生成数据的污染,但自2022年底生成式AI向公众广泛开放使用后,其收集用于“学习”的数据很可能含有大量AI生成内容。而AI生成内容往往存在失真、缺维、偏见等问题,且这类数据与人类生成数据越来越难以区分。

用AI生成内容训练新的生成式AI会引发重大问题,这种训练类似于一个退化过程,每一代生成模型都只是对真实数据分布的一个近似。当下一代模型基于这个近似模型的输出样本数据进行训练时,它实际上是在学习一个“近似的近似”,从而导致每一代生成模型都发生信息损失。换言之,在其他AI的输出数据基础上训练,可能会显著降低新的生成式AI的质量。

生成数据的污染路径主要包括以下两种类型:一是递归性污染。研究表明,当大模型仅基于前一代模型生成的数据进行训练时,经过多轮迭代后,其生成结果将显著丧失复杂性和多样性。虽然通过将原始数据与前一轮生成数据以相同比例合并使用,可以在一定程度上减缓这一退化趋势,但由于生成数据呈非线性增长,当前用于训练的人类生成数据数量的增长速度也超过线性增长速度。因此,长期有效地避免模型退化仍极具挑战性。目前,智能采样策略虽可延缓污染影响,却难以从根本上解决问题。二是语义失真所引发的传递性污染。当大模型本身存在逻辑矛盾、语义混乱等系统性误差时,该错误可能在多轮迭代训练中被不断放大。模型在基于混合数据进行训练时,往往会将这些带有偏差的模式误识为真实数据分布,从而生成所谓的“带有偏差的真相”。

三、人工智能生成数据污染的连锁反应

数据污染通过多种路径在技术层面传导,最终可能导致模型性能的系统性退化,甚至存在模型崩溃的风险。所谓模型崩溃,是指当新一代生成式AI模型在训练过程中主要依赖上一代模型生成的数据时,其性能显著下降,表现为输出内容缺乏连贯性、逻辑紊乱,甚至产生胡言乱语等异常行为。换言之,若生成式AI不断基于自身输出进行再训练,其生成能力将呈现退化趋势,最终可能陷入“自我循环”的质量崩塌。目前,尽管互联网AI生成内容的总体占比仍相对较低,尚未出现被广泛确认的模型崩溃实例,但生成数据的规模正以前所未有的速度增长。据ChatGPT预测,自2022年11月ChatGPT 3.5发布以来至2024年3月,互联网AI生成内容的数量增长了约8362%;据硅谷AI公司Reforge统计,2025年全球互联网内容中,AI生成内容比例已经超过50%。由此可见,若缺乏有效的预防和缓解机制,模型崩溃有可能演变为未来生成式AI技术演进过程中的关键性挑战。

在经济社会层面,生成数据污染可能加剧数据垄断。自2022年年底以来,生成式人工智能呈爆炸性发展和迅速普及的趋势。相比之下,2022年前所采集的数据因尚未广泛受到生成式AI内容的干扰,具备更高的“纯净性”,从而成为一种稀缺而珍贵的资源。这种未受污染的数据正逐渐成为新进入者难以获取的战略资产。与此同时,原始数据持有者出于维护自身技术优势和市场壁垒的考虑,通常拒绝对外出售或共享这些高质量数据。这种资源的非对称分布,可能导致技术创新的准入门槛显著提高,不仅加剧了“先发者优势”的行业格局,更引发数据竞争结构的失衡。

在政治与社会领域,生成数据污染将加剧“数字鸿沟”。随着数据污染程度的上升,信息辨识的成本大幅增加,公众在面对真假难辨的信息时获取可靠知识的难度显著提高。这不仅提升了社会的整体交易成本,也使得验证信息真伪成为一项高门槛、高成本的任务。在这种背景下,具备经济与技术资源的群体更有甄别与利用高质量数据的能力,在数据驱动型社会中占据结构性优势。尤为严重的是,在当今法律制度与政治决策高度依赖数据支持的背景下,大量不可信的生成信息污染,可能在公共舆论、政策制定乃至选举等关键环节引发广泛危机,从而对社会结构的稳定性构成潜在威胁。

四、人工智能生成数据污染的治理路径

生成数据污染的有效治理有赖于多主体参与下的协同共治机制。在我国,2020年施行的《网络信息内容生态治理规定》已初步体现出国家主导、企业参与、社会协同的治理理念,展示了应对复杂数据环境的重要制度思路。应对生成式AI引发的数据污染挑战,亟须在法律、制度与技术三个层面构建协同治理路径。

(一)法律层面:探索国际视野与中国特色的联动治理模式

数据污染治理需从国家法律层面着手,构建综合性法律治理框架。治理核心是防范与消除数据污染的负面影响。当前,多个国家和地区已出台相关法律法规,形成具有代表性的法律治理路径。例如,欧盟相继发布《数据法案》《人工智能法案》,在数据治理、平台监管以及反垄断等领域发挥了关键作用;德国修订后的《反限制竞争法》也在限制数据垄断、维护市场公平竞争方面作出了重要贡献。我国则以《中华人民共和国网络安全法》等法律为基础,搭建并完善人工智能及数据治理的法律体系。《生成式人工智能服务管理暂行办法》的发布,标志着我国在数据保护与生成式AI监管方面迈出关键一步。

下一阶段,应在现有法律体系基础上,借鉴国际先进经验,结合我国国情,探索具有国际视野与中国特色的联动治理模式。例如,在具体法律条款中,一方面,可将“清洁数据”纳入反垄断法的“必要设施”范畴,参考德国在其《反对限制竞争法》中的前瞻性优势,即无需证明企业已在特定市场占据支配地位或已产生实际的反竞争效果。一旦相应的数据被认定为“必要设施”,监管机构就可以预防性地禁止其从事一系列滥用行为,包括通过处理其收集的数据来制造市场准入壁垒,或拒绝数据的可移植性。另一方面,可借鉴生物基因库的模式,设立由国际组织或具备公信力的第三方机构管理的“公共纯净数据池”,实现关键数据资源的集中管理与共建共享,以保障生成式AI发展的基础数据质量。

(二)制度层面:构建行业自律与全球数据共享协同机制

我国有关部门陆续发布《新一代人工智能发展规划》《关于平台经济领域的反垄断指南》等重要政策文件,为AI治理提供了政策根基。在此基础之上,还应推动AI行业自律,制定数据使用规范和道德标准,从而形成良好的数据使用生态。此外,还需要构建全球性的清洁数据共享机制,通过多边合作确保未受污染的训练数据公平获取,建立利益分配体系,打破科技巨头对清洁数据的垄断,为AI可持续发展保留“数据净土”。

(三)技术层面:强化水印溯源与联邦学习应用

在技术层面,一方面,强化AI生成内容水印技术以区分污染数据,即通过技术手段在AI输出内容中嵌入隐蔽标识或元数据,帮助人类或算法快速区分生成内容与真实数据。水印标识也可自动过滤数据抓取工具中的AI内容,切断污染源头,在模型迭代时优先删除带水印数据。2025年9月1日,我国《人工智能生成合成内容标识办法》正式生效即通过此种手段强化数据保护。与此同时,强制性国家标准《网络安全技术 人工智能生成合成内容标识方法》(GB 45438—2025)也同步实施,共同保障高质量训练数据,规范人工智能合成内容标识。同时,全国网络安全标准化技术委员会针对生成合成服务提供者和内容传播服务提供者的平台编码,组织起草了配套实践指南《网络安全标准实践指南——人工智能生成合成内容标识服务提供者编码规则》,也为相关主体开展文件元数据隐式标识提供了编码指引。

另一方面,运用联邦学习(Federated Learning)技术可有效降低隐私泄露风险,并从源头遏制大规模数据污染问题。该技术的核心机制在于实现本地化模型训练,无需集中传输原始数据。这一举措将确保即便面对日益严峻的数据污染与信息圈失真等情况,未来的科研工作者与创新主体仍可获得可信赖的研究基石,保障技术创新链条的起点可靠性。

五、结 语

随着大模型的快速普及,AI生成数据呈指数级增长,且正在与人类生成数据发生大规模混合,但现阶段AI生成内容仍具有“幻觉”等质量问题,生成数据污染可能成为制约AI发展的隐性枷锁。数据污染具有不可逆的放大效应,也具有跨界传导的“蝴蝶效应”:从技术领域的模型崩溃到经济社会领域的数据垄断,再到政治领域的信息鸿沟。因此,需根据“三位一体”治理路径,在法律上立法确权,将清洁数据纳入数字基建,强制许可与收益共享机制;在制度上推动AI行业建立自律组织,构建全球共享模式;在技术上强化标识、推广联邦学习。

未来,对于生成数据污染的治理,需警惕巨型数据库成为黑客攻击的目标,通过“技术加固—制度约束—伦理共识”的策略,构筑全方位防线以遏制数据荒漠化趋势,从而为生成式AI的可持续进化筑牢数据根基。【本文系国家社科基金青年项目“总体国家安全观视野下网络侵入式侦查的法律规制研究”(项目编号:20CFX033)的研究成果】

(本文刊登于《中国信息安全》杂志2025年第9期)

声明:本文来自中国信息安全,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。