文 | 原海南省大数据管理局局长 董学耕

当前,数据要素价值化、市场化正在积极推进,相关数据安全问题也极为突出,亟待分类分级治理。其中,涉私数据的安全保护和流通利用问题尤其值得重视。这类数据不仅承载着个人、企业等主体的核心利益,更涉及人格权、商业秘密等敏感权益,其流通利用与隐私保护存在天然张力。尽管《个人信息保护法》确立了“知情-决定”权优先原则,《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》(以下简称“数据二十条”)也构建了数据权益分层保护框架,但在数据要素市场化配置过程中,涉私数据仍面临双重挑战:一方面,传统数据脱敏技术难以平衡涉私数据效用与安全,存在身份重识别风险;另一方面,数据跨境流动、大模型训练等新场景衍生出更复杂的合规要求。如何通过技术创新与制度设计,实现涉私数据“可用不可见、可控可计量”的可信流通利用,这既是数据要素市场建设的关键“瓶颈”,也是落实国家数据安全战略的重要课题。

一、涉私数据的概述及分类

涉私数据因包含身份识别要素而天然承载人格权益属性,需以人身属性为优先级锚点,通过“知情同意原则”实现数据来源者权益对处理行为的约束。

(一)涉私数据的“知情同意原则”

数据二十条指出:“建立数据资源持有权、数据加工使用权、数据产品经营权等分置的产权运行机制。”“健全数据要素权益保护制度,逐步形成具有中国特色的数据产权制度体系。”这是针对数据处理者的权益。同时,数据二十条也指出:“充分保护数据来源者合法权益,推动基于知情同意或存在法定事由的数据流通使用模式,保障数据来源者享有获取或复制转移由其促成产生数据的权益……在保护公共利益、数据安全、数据来源者合法权益的前提下,承认和保护依照法律规定或合同约定获取的数据加工使用权,尊重数据采集、加工等数据处理者的劳动和其他要素贡献,充分保障数据处理者使用数据和获得收益的权利。”即保障数据处理者的权益以优先保障数据来源者的权益为前提,数据来源者的权益高于数据处理者的权益。按照《个人信息保护法》的原则,即数据来源者对数据的“知情权、决定权”高于数据处理者的持有权、加工使用权和数据产品经营权。

一般来说,数据权益直接涉及生产主体、关联对象和价值载体这三方面。其中,关联对象即数据二十条中的“数据来源者”,欧盟为数据主体;而生产主体和价值载体则相当于“数据处理者”。所谓涉私数据,是指数据关联对象涉及私权的数据,包括个人数据、法人数据及非法人组织数据。

根据《个人信息保护法》的原则,数据来源者(即数据关联对象或数据主体,包括个人、法人及非法人组织)对数据拥有“知情权、决定权”,这里也隐含了对数据的“可携带权”。此三项权利共同构成数据人身属性的三大支柱。基于数据的四维框架——主权属性、人身属性、公共属性和价值属性,其属性的位阶应遵循如下排序:主权属性>人身属性>公共属性>价值属性。从本质上看,数据依据人身属性可以分类为涉私数据和非涉私数据,前者因包含直接或间接的身份识别要素而关涉人格权益,后者则不涉及此类权益。据此,非涉私数据可作为独立客体进行数据处理,而涉私数据因涉及人格权保护,需严格遵循“知情同意原则”并经法定程序方可处理。

(二)涉私数据的分类

《个人信息保护法》区分了敏感个人信息和非敏感个人信息,《民法典》则区分了私密信息和非私密信息。在实践中,两种区分具有一致性。当前,学界存在进一步细化涉私数据分类的学术主张,甚至通过场景化区分涉私数据的私密性和敏感性。然而,这种细分路径在实务层面面临双重困境:一方面,需求侧应用场景的动态演进导致分类标准难以固化;另一方面,供给侧数据治理需兼顾操作可行性与制度稳定性。鉴于此,应当回归法律的实践逻辑,从数据分类和敏感分级角度,涉私数据的私密性和敏感性应当视同。

涉私数据依据私密性和敏感性可以分为四类:敏感(私密)个人数据、敏感(私密)法人/组织数据、非敏感(非私密)个人数据,以及非敏感(非私密)法人/组织数据。根据数据二十条和《个人信息保护法》要求,涉私数据的处理及流通需以“知情同意”或“法定事由”为前提。其中,敏感数据需叠加隐私保护和涉私数据保护双重机制,仅可在特定使用场景下经关联对象单独授权后方可处理;非敏感数据需要受到涉私数据保护,经关联对象授权后进行处理。

二、涉私数据可控匿名化利用机制

为平衡涉私数据的隐私保护与价值利用,需构建以可信数据空间为核心的可控匿名化机制,通过在受控环境中处理逻辑真实数据并辅以映射关系表及授权还原,实现数据的合法合规应用。

(一)数据产品与涉私数据的利用形式

数据的价值在于应用,而数据产品是从数据到应用的唯一桥梁。数据产品可以分为分析类数据产品和个体化数据产品。前者是指嵌入数据产品的数据均不具有人身属性的数据产品,即只涉及非涉私数据(包括涉私数据匿名化后的数据)的数据产品;后者是指包含具有人身属性的数据嵌入的数据产品,即涉及涉私数据的数据产品,需要在应用场景中由数据关联对象授权方可使用。相应地,涉私数据的应用有两种形式:一是通过匿名化转化为非涉私数据后用于分析类数据产品。当然,将数据用于分析类用途,例如,统计分析本身也是一种匿名化的过程,此说法主要针对大样本,而小样本的情形有可能还原出原始数据,因而需要先进行匿名化再分析。二是直接用于个体化数据产品。前者需要保证可靠的匿名化处理,后者需要基于以可信数据空间为核心和边界的数据基础设施(数据平台)进行数据产品化,将涉私数据嵌入,并在应用场景中由关联对象授权后处理和利用。

(二)通过可信数据空间受控环境实现涉私数据可控匿名化处理

数据脱敏是一种在保持数据原有特征和业务属性的同时,对敏感信息进行变形处理的技术机制。该技术旨在安全地使用经过脱敏处理的真实数据集,防止敏感数据在测试、开发、数据分析等环节中因明文显示而导致的数据泄露风险。数据脱敏的核心手段包括去标识化和匿名化。《个人信息保护法》明确界定:去标识化,是指个人信息经过处理,使其在不借助额外信息的情况下无法识别特定自然人的过程。匿名化,是指个人信息经过处理无法识别特定自然人且不能复原的过程。

值得关注的是,不仅分析类数据产品需要涉私数据的匿名化,个体化数据产品在生产过程中,为了避免个体数据在关联对象授权之前为数据产品开发者泄露,也需要某种程度的数据脱敏,此即涉私数据的可控匿名化。

鉴于关联对象仅在应用场景实际调用个体化数据产品时方完成授权及权益让渡,而授权前涉私数据需严格遵循“数据不出域”原则,这就需要通过“扩大安全域”并“请进来”相关数据处理者,依托以可信数据空间为核心和边界的数据基础设施(即数据平台),借助其公共化基础组件实现私有域数据向公共域的合规流转。此时,“数据不出域”的边界便拓展至可信数据空间的公共域范畴,在该受控环境下可开展数据预处理工作,即利用域内具备“供得出、流得动”特性的样例数据和逻辑真实数据,开发形成数据产品框架或模型原型。需特别阐明的是,个体化数据产品并非静态存在,而是通过前述预处理流程生成的产品框架或模型系统。只有在个体化数据产品面向特定应用场景进入实质使用阶段,在获取关联对象即时授权的同时,涉私数据将瞬时注入预置的产品框架或模型系统,经实时计算输出服务结果,由此完成“授权-计算-服务”的一体化价值闭环。这种基于时空约束的动态授权与即时计算相结合的机制(瞬间集成),正是个体化数据产品实现安全合规应用的核心特征。

由此可见,在数据平台内数据产品开发者并不直接接触真实的涉私数据,而是基于脱敏后的逻辑真实数据或样例数据进行个体化数据产品开发。这一机制有效避免了数据产品开发者在关联对象授权前接触真实的涉私数据,切实保障了关联对象的数据权益。

(三)可控匿名化机制实现涉私数据的合法合规利用

所谓逻辑真实数据是指与原始数据业务逻辑一致的脱敏数据,可以在数据开发中具备与真实数据同等的使用效能。从真实原始数据到逻辑真实数据有一个映射关系表。这里利用了假名化技术,这是一种使用假名替换直接标识(或其他敏感标识符)的去标识化技术。假名化技术为每条数据创建唯一的标识符,以取代原来的直接标识或敏感标识符(如身份证号码)。同时,假名化后的逻辑真实数据因为和原始数据有相同的业务逻辑,其用于真实的个体化数据产品的效果是一样的。因此,基于逻辑真实数据开发的数据产品本质上即为真实的个体化数据产品。当个体化数据产品在实际运行于应用场景时,需在关联对象授权的前提下,将逻辑真实数据替换为真实原始数据,即通过脱敏处理时的映射关系表进行逆向映射,实现从逻辑真实数据到真实原始数据的还原。此时,个体化数据产品在真实应用场景中调用的是真实原始数据,能够即时完成集成并输出服务结果。

从真实原始数据到逻辑真实数据的数据脱敏就是可控匿名化。所谓可控匿名化,是指数据在可控环境中的部分匿名化:对于“请进来”的数据处理者(包括数据产品开发者、第三方数据服务者等),经假名化等脱敏技术处理后的逻辑真实数据已具备不可还原、不可回溯至原始数据的特性,此类数据处理者可以将这些数据按照非涉私数据进行处理,包括数据产品开发;但对于掌控着映射关系表的可信数据空间运营者而言,逻辑真实数据可以还原为原始数据,故不属于匿名化范畴,且仅能在真实应用场景中经关联对象授权后实施还原操作。通过这一机制,数据产品开发者对逻辑真实数据的处理行为合法合规,而可信数据空间运营者在关联对象授权前提下将逻辑真实数据还原为原始数据的操作亦符合规范,从而确保涉私数据的合法合规使用。

可控匿名化机制的关键在于“可控性”,具体体现为对映射关系表进行严格的访问控制和使用控制,即便系统管理员也无法擅自还原映射关系,仅当获得关联对象授权时方可执行还原操作。在技术层面可以采用加密方式生产假名等;在管理层面则需明确可信数据空间运营者的法律责任,并由数据管理机构对其实施监管,确保可控匿名化机制“可信可追溯”。

三、可信数据空间支撑可控匿名化机制

以政府可信根为监管根基的可信数据空间,通过构建范围可控、环境可控与监管可控的三维保障机制,支撑可控匿名化在数据流通过程中的可信执行,确保涉私数据全生命周期安全合规。

(一)基于政府可信根的可控匿名化

可控匿名化的要点在于可控。具体而言,要求假名化数据控制在特定范围内,且无法借助额外信息让假名化数据还原,只有实现这种程度的控制,假名化数据才能成为真正意义上的可控匿名化数据。因此,可控匿名化要求数据利用的范围、环境及监管均处于可控状态,而这一目标的实现,其根本在于将可控匿名化置于可信数据空间内,即依托以可信数据空间为核心与边界的数据基础设施(数据平台)。可信数据空间是基于共识规则搭建的,旨在联接多方主体,实现数据资源共享共用的数据流通利用基础设施,具备数据可信管控、资源交互以及价值创造三类核心能力,其核心要义在于实现数据在不同主体之间的可信流通。首先,可信数据空间可以实现范围可控,所有数据交互均限定在其边界范围之内;其次,可信数据空间可实现环境可控,基于密码技术、区块链、隐私计算、使用控制、数据沙箱、零信任架构等机制,保障其执行环境的可控性;最后,可信数据空间能够实现监管可控,数据提供方、使用方及运营方均需经过可信认证,且运营方必须获得来自作为中立第三方的政府的可信授权,从而保证可信数据空间对各方的价值中立与公平公正,使其成为可信背书的最终依托,同时也便于对其进行独立监管。

(二)可信数据空间“中国模式”保障数据全生命周期合规可控

在数据保护领域,欧盟向来以重视个人信息保护而备受关注。值得一提的是,欧盟虽推行匿名化和假名化,但其假名化与我国所倡导的可控匿名化存在本质差异。

欧盟的假名化不同于匿名化,而是受到《通用数据保护条例》(GDPR)的严格规制。假名化数据是个人数据的一种特殊类型,借助一些额外信息即可归属于已识别或可识别个人。换言之,假名化数据是“可逆的”,日后可以通过额外信息与原始数据主体(关联对象)联系起来。如果从欧盟的共同数据空间获得假名化数据,这些数据是可以在共同数据空间以外加以利用的,也就难免与额外信息相联系而还原出数据主体(关联对象)。究其根源,欧盟的共同数据空间作为标准化的数据交换框架,虽以促进数据重用为目标,通过假名化或匿名化手段进行数据处理,但其应用场景具有开放性特征。这种开放的运行机制,客观上难以完全杜绝假名化数据被逆向还原的可能性。

欧盟的共同数据空间缺失“数据不出域”“可用不可见”“可控可计量”“可信可追溯”等机制,更没有构建起类似我国“海南模式”的数据产品化、数据产品瞬间集成等机制,因而无法做到涉私数据全生命周期的可信,无法对涉私数据的利用实施全过程的可信管控。而我国的可信数据空间虽然借鉴了共同数据空间的部分理念,如共识规则、多方主体、数据重用及价值共创等,但在本质层面存在显著差异,具备可信管控、数据交互和价值共创的整体功能。特别是可信管控能力,切实保障了“数据不出域”“可用不可见”原则的有效落地。在“海南模式”的数据产品超市实践中,通过数据产品化与数据产品瞬间集成等机制,保证真实涉私数据只有在关联对象(数据主体)授权时才能处理,并且是通过数据产品化方式处理。即便在可信数据空间内,数据处理者(如数据产品开发者等)也无法直接接触真实涉私数据,所能获取的仅是经过假名化处理的逻辑真实数据。由于这种假名化限定在可信数据空间内,不存在可供利用的额外信息来还原假名化数据,从实际效果来看则等同于匿名化数据。因此,只有以政府可信根背书、受政府侧监管的可信数据空间运营者可以掌握从假名化数据到真实涉私数据的映射表,并且这个加密的映射表甚至连运维管理人员也无从知悉,即便有所了解也并不掌握所映射的业务信息。此外,这里也有身份和业务的解耦,进一步确保了涉私数据的安全性。而只有在关联对象授权时,假名化数据才会通过映射表还原为真实涉私数据。

这便是通过政府可信根为背书的可信数据空间支撑的可控匿名化模式。在此模式下,数据对于监管侧的政府管理者是可控的;对于生产侧的数据处理者是匿名的,可在限定范围内作为非涉私数据进行数据处理;而对于应用侧的数据使用者和关联对象,则可以在授权条件下还原为真实涉私数据。这一机制能够有效促进涉私数据的开放利用,更好地实现数据产品的个体化利用。

基于可信数据空间、数据产品化和瞬间集成机制的可信管控,数据假名化得以转化为可控匿名化。这是欧盟共同数据空间做不到,而中国可信数据空间却能够做到的。简言之,中国的可控匿名化以政府可信根背书,有数据全生命周期的可信保障。中国与欧盟在数据处理方式上的根本区别在于:欧盟采取了去中心化方式,对数据环境和范围缺乏管控,没有数据全生命周期的可信管控流,其结果是在严格的个人数据法规规制下,其只能重复利用彻底匿名化的数据,所能生产的数据产品主要是分析类数据产品,而无法生产更高价值的个体化数据产品。反观中国方式,尤其是海南数据产品超市的模式创新,以局部中心化(即政府背书与监管)方式,让数据全生命周期在可信管控之下实现了涉私数据的安全利用。在此基础上,通过“高确定性网络+联盟链+零信任”等机制实现跨域互通和数据产品的规模扩张,利用可控匿名化机制,在可信数据空间内用逻辑真实数据支撑数据产品开发,让数据产品开发者探查数据质量,开发、测试数据产品,生产出分析类和高价值的个体化数据产品。

(三)可控匿名化对大模型数据可逆风险的防御机制

在人工智能大模型广泛应用的背景下,涉私数据安全问题亟待高度重视。针对通用大模型所处的开放应用场景,即使采用匿名化数据开展训练,由于生成式人工智能的概率性与不确定性,特别是在针对性的提示词诱导下,仍面临数据可逆的潜在风险。中国的可信数据空间的可信管控包括范围可控、环境可控、监管可控等,为涉私数据在人工智能领域的安全应用奠定了坚实基础。基于可信数据空间框架,通过产品化方式实现了涉私数据的合规利用,借助逻辑真实数据支持大模型私域应用,这一模式不仅更具可信度,还构成了抵御数据可逆风险的有效防线。

通过可控匿名化机制,严格将逻辑真实数据的使用范围限定在可信数据空间内,并将人工智能大模型以私域形式部署于该空间,利用逻辑真实数据作为私域数据(私域知识库),通过微调、强化学习及检索增强生成(RAG)等技术手段,构建适用于可信数据空间的专用小模型应用体系。由于整个数据处理流程均在可信环境内完成,有效规避了逻辑真实数据因额外信息介入导致的可逆风险。尤为关键的是,在数据产品化机制下,当应用场景延伸至可信数据空间外部时,出域的并不是数据本身,而是经过处理后的数据产品输出结果,这进一步降低了逆向推导原始真实数据的风险。

(本文刊登于《中国信息安全》杂志2025年第5期)

声明:本文来自中国信息安全,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。