目前,关于隐私(保护)计算的研究正如火如荼地开展,涉及隐私(保护)计算的官方文件也如雨后春笋,层出不穷。2024年12月30日,国家数据局发布《数据领域常用名词解释(第一批)》,对40个数据领域的常用名词作出释义。值得关注的是,在最新公布的正式文件中,国家数据局一改10月21日发布的征求意见稿中的表述,将文件中的“隐私计算”调整为“隐私保护计算”。
这一调整不免令人疑惑,文件为何要将“隐私计算”加上“保护”二字?
本期,我们将探讨“隐私计算”与“隐私保护计算”两者间的区别和渊源,以期“抛砖引玉”,欢迎各位读者在评论区分享观点和意见。
隐私(保护)计算定义溯源
“隐私计算”这个术语虽然在产业界应用已经相当广泛,但在术语定义上一直有一些争议。在近五十年的发展历程中,“隐私计算”概念的来源其实大致可以分为三类。
第一类隐私计算是“Privacy Calculus”
其相关概念源自于1977年Laufer等人在社会交换理论(Social Exchange Theory)的基础上提出的“行为计算理论”。Laufer认为在特定情境条件下,个体会对行为的预期收益和隐私风险进行评估和权衡,从而决定是否披露隐私以及在何种程度披露。行动者会用以个人隐私为代表的社会商品换取其他商品,在此交换活动中,交换双方都将获得预期收益。基于此项研究基础,1999年,Culnan M J等人首次提出了隐私计算理论(Privacy Calculus Theory)的概念,其核心思想是,用户会权衡并比较披露个人信息所带来的风险和收益,只有当感知收益大于感知风险时用户才可能进行个人信息披露,反之则不会轻易披露个人信息。此后,Moloney M等考虑了不确定情况下信息隐私决策的有限理性,对隐私计算理论进行了修正,他们认为个人面对模糊性时披露个人信息的意愿和参与隐私风险处理行为的倾向都会降低,即隐私风险处理行为只有在存在可量化的不确定性时才会发现。
可以看出,此类“隐私计算”之所以叫隐私计算,是出于翻译上直观,其更多关注的是用户在权衡个人隐私与感知收益时的选择偏好,而并非是针对个人隐私的保护。通过此种隐私计算,用户在“开价”合适时甚至会选择出卖隐私。因此,此“隐私计算”与本文的后两类“隐私计算”有着本质上的区别。
第二类隐私计算是“Privacy Preserving Computation”
此类“隐私计算”来源是“Privacy Preserving Computation”或“Privacy Enhancing Computation”,完整的翻译是“隐私保护计算”或“隐私增强计算”,也即是目前工业界广泛应用的隐私保护计算。联合国大数据和数据科学专家委员发布的隐私计算年度报告用的概念也是隐私增强计算。这两个词在工业界常常被认为是相互等价,并且简称为“隐私计算”,其相关概念最早可以追溯于上世纪80年代。
1982年,姚期智院士在论文《Protocols for Secure Computations》中提出了“百万富翁问题”(图1),即两位百万富翁希望在不暴露自己财富值的前提下比较谁更为富有,开创性地引入了安全多方计算(Secure Multi-party Computation)的概念,并由此发展出了“混淆电路”(Garbled Circuit, GC)等技术方案,打开了此类“隐私计算”的大门。
之后,Goldreich等人提出了基于电路的秘密共享方案GMW,并将其应用于多方安全计算;C. Dwork提出差分隐私(Differential Privacy),通过引入噪声对数据进行扰动,使攻击者无法根据背景知识推断出敏感信息;Craig Gentry提出了首个全同态加密方案(Fully Homomorphic Encryption)。
图1来源:CSDN@糖葫芦零零七
2015年,Intel推出商用TEE(Trusted Execution Environment)方案“英特尔软件防护扩展”(Intel Software Guard Extensions, Intel SGX)(图2)。其基本思想是:在硬件中为敏感数据单独分配一块隔离的内存,所有敏感数据的计算均在这块内存中进行,并且除了经过授权的接口外,硬件中的其他部分不能访问这块隔离的内存中的信息,以此来实现对敏感数据的保护。TEE的出现将此类“隐私计算”代入到了软硬件一体化的时代。
图2来源:CSDN@洞见科技InsightOne
2016年,谷歌提出联邦学习(Federated Machine Learning)的概念(图3),其主要思想是基于分布在多个设备上的数据集构建机器学习模型,并将机器学习与隐私计算相融合,以此防止数据泄露。2019年,微众银行杨强教授团队提出纵向联邦学习、迁移联邦学习,并发布FATE开源系统,使得数据要素的流通从数据分析扩展到数据建模,极大地拓展了隐私合规下的数据使用场景。
图3来源:知乎@heu御林军
2021年,蚂蚁集团首创可信密态计算技术(Trusted-Environment-based Cryptographic Computing)(图4)。该方案致力于通过密码学、可信硬件和系统安全的隐私保护计算技术,实现计算全链路保障,从而防止数据泄漏和滥用。目前,蚂蚁密算已助力杭州建成全国首个密态计算中心,正在以低成本、全链路的密态计算技术助力公共数据价值的深层挖掘,推动规模化的产业应用。
图4来源:蚂蚁集团
就此,目前所讨论的隐私保护计算四大常用技术方案便逐步成形。
第三类隐私计算是“Privacy Computing”
此隐私计算最早由李凤华研究员于2015年提出,并在国内外首次正式发表于《通信学报》(2016年第4期)。李凤华研究员给出的隐私计算(Privacy Computing)定义是:面向隐私信息全生命周期保护的计算理论和方法,是隐私信息的所有权、管理权和使用权分离时隐私度量、隐私泄露代价、隐私保护与隐私分析复杂性的可计算模型与公理化系统。具体是指在处理视频、音频、图像、图形、文字、数值、泛在网络行为信息流等信息时,对所涉及的隐私信息进行描述、度量、评价和融合等操作,形成的一套符号化、公式化且具有量化评价标准的隐私计算理论、算法及应用技术,能够涵盖全生命周期过程的所有计算操作,支持多系统融合的隐私信息保护。此类隐私计算还涵盖了信息搜集者、发布者和使用者在信息产生、感知、发布、传播、存储、处理、使用、销毁等全生命周期过程的所有计算操作,并包含支持海量用户、高并发、高效能隐私保护的系统设计理论与架构。
与工业界所认为的“隐私(保护)计算”不同,李凤华研究员表示,同态加密、安全多方计算等密码学领域学者提出的技术并不属于此类隐私计算。这些技术只适用于局部场景的隐私保护,并没有普适性地、全生命周期地保护好隐私数据。同时,同态加密、安全多方计算等技术易误导群众,引发所谓的隐私计算技术对算力要求过高等问题。
结语
由此可见,目前关于“隐私计算”定义的起源问题尚有争议,不同学者站在不同角度产生了不同的看法,既有脱胎于社会交换理论的“Privacy Calculus”,也有目前产业界广泛应用的“Privacy Preserving Computation”,还有不主动追求算力要求的“Privacy Computing”。三种“隐私计算”的技术理念不同却自成体系。
不过根据《数据领域常用名词解释(第一批)》的表述,文件中的“隐私保护计算”应是指本文里的第二类“隐私计算”技术,也就是“Privacy Preserving Computation”。国家数据局之所以要将“隐私计算”调整为“隐私保护计算”,既是为了恢复“Privacy Preserving Computation”的原始称谓而取消简称,也是为了避免误解,有利于结合实践和发展需要凝聚数据领域共识。
可以预见,随着对数据可信流通需求的进一步提升,“隐私保护计算”将成为应对个人隐私保护挑战的关键性技术方案。
责任编辑:小贝
审核校对:随瀚文
声明:本文来自数据要素可信流通研究中心,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。