数据脱敏技术发展现状及趋势研究*

王卓1 刘国伟2 王岩2 李媛3

(1. 中国信息通信研究院云计算与大数据研究所,北京 100191;2. 北京市经济和信息化局,北京 101117;3. 北京信息安全测评中心,北京 101117)

摘要:随着大数据时代的来临、大数据技术在日常生产生活中的深入应用,大数据安全问题愈加受人关注。匿名化、去标识化等逐渐成为一项数据保护的基本要求。以数据脱敏技术这项可以实现数据匿名化的技术为研究对象,梳理了数据脱敏技术相关的基本内容,阐述了数据脱敏技术的应用与供应现状,研究了数据脱敏工具标准化的重要性以及主要方向,总结了数据脱敏技术未来的发展趋势,为数据脱敏技术后续的进一步发展和研究提供了一定的方向。

关键词:大数据;数据安全;数据脱敏;标准化

1 引言

在当前的大数据时代,各类数据分析应用技术已经广泛应用在国家治理、企业运行、个人日常生活等各个方面,数据成为时下最热门的基础资源,因此数据安全的受关注程度也在不断攀升,成为颇受重视的话题。

近年来,在国际上数据安全事件频发,尤其是数据泄露事件,根据Risk Based Security于2019年下半年发布的数据,整个2019年上半年发生数据泄露事件3800余起,相对于2018年同期数据增长了54%。数据泄露事件通常还会带来显式或隐式的经济损失,安全研究中心Ponemon Institute和IBM Security联合发布的《2019年数据泄露成本报告》中指出,超过100万条记录的泄露预计会给企业带来4200万美元的损失,当泄露记录超过5000万条时,预计带来的损失将达到3.88亿美元[1]。

安全事件的不断爆发,以及事件背后相应可能带来的潜在重大危害和巨额损失,不断驱使着国家、行业、企业等各层面更加重视数据安全,并开始从法规、标准、制度等方面切入展开相应举措。欧盟在2018年出台《通用数据保护条例》(GDPR),规定了企业如何收集、使用和处理欧盟公民的个人数据。2019年5月28日,国家互联网信息办公室发布的《数据安全管理办法(征求意见稿)》中,明确要求对于个人信息的保存和提供要经过匿名化处理,以切实降低在数据应用中个人信息可能存在的泄露风险[2]。

2 数据脱敏技术

数据脱敏技术是一种可以通过数据变形方式对于敏感数据进行处理,从而降低数据敏感程度的一种数据处理技术。适当地使用数据脱敏技术,可以有效地减少敏感数据在采集、传输、使用等环节中的暴露,降低敏感数据泄露的风险,尽可能降低数据泄露造成的危害。根据不同的数据脱敏规则和算法,可以对特定敏感数据使用若干种数据变形方式进行组合处理,在不同程度上降低数据的敏感程度,在较为严格的脱敏规则和算法下可实现匿名化处理。

数据脱敏技术本质上是对于数据的变形处理,因此数据脱敏技术的另一大特点是能够在一定程度上保持数据原本的一些特性,使脱敏后的数据依旧存在可用性。针对整个数据集使用统一的脱敏处理算法,可以保证在降低数据敏感程度的同时,数据集整体的统计特性、数据唯一性不发生改变,从而能够继续满足关联分析、机器学习、即时查询等应用场景的使用需求。

2.1 数据脱敏算法与匿名化方法

在实际应用数据脱敏技术时,常常会涉及到脱敏算法、脱敏规则、脱敏策略3 个不同的概念。

数据脱敏技术的核心是通过对敏感数据进行变形处理以降低其敏感程度。其中,在脱敏处理过程中使用的特定数据变形方式为脱敏算法。在原始脱敏算法的基础上,通过将一种或多种脱敏算法的组合应用在一种特定的敏感数据上便形成了脱敏规则。在具体的业务场景中,根据不同业务场景选择特定一系列脱敏规则可称为脱敏策略。相关示例见表1。

表1 脱敏算法、脱敏规则、脱敏策略概念示例

对于数据脱敏技术以及实现数据脱敏的应用及工具,数据脱敏算法均是其中的核心能力,常见的脱敏算法包括加密、掩码、替换、模糊等。

在上述提到的基础脱敏算法之外,为了实现更高程度的敏感信息保护能力,尤其是达到特定水平的敏感程度降低,还存在更多复杂的针对于数据集整体的脱敏策略。例如,在个人信息保护场景中的匿名化要求下,需要使用k匿名化、l多样化、t贴近性等匿名化方法。

k匿名化方法要求数据集中的每一条记录至少需要与其他k-1条记录无法进行直接区分,即数据集中每种敏感属性组合至少需要同时出现在k条记录中,无法被区分的k条记录形成一个等价类[3] 。l多样化是基于k匿名化方法在敏感属性方面的一种扩展,该方法要求数据集在匿名化处理时每个等价类中所有记录的敏感属性至少包含l个互不相同的敏感属性值[4] 。t贴近性方法要求所有等价类中敏感属性值的分布尽量接近该属性在整个数据集中的全局分布,从而可以抵抗偏斜攻击[5] 。

2.2 数据脱敏技术分类

当前数据脱敏技术主要可以分为静态数据脱敏和动态数据脱敏两类,两者面向的使用场景不同,实现时采用的技术路线和实现机制也均有所不同。

2.2.1 静态数据脱敏

静态数据脱敏的主要目标是实现对完整数据集的大批量数据进行一次性整体脱敏处理,一般会按照制定好的数据脱敏规则,使用类似ETL技术的处理方式,对于数据集进行统一的变形转换处理。在根据脱敏规则降低数据敏感程度的同时,静态脱敏能够尽可能减少对于数据集原本的内在数据关联性、统计特征等可挖掘信息的破坏,保留更多有价值的信息。静态脱敏通常在需要使用生产环境中的敏感数据进行开发、测试或者外发的场景中使用。

2.2.2 动态数据脱敏

动态数据脱敏的主要目标是对外部申请访问的敏感数据进行实时脱敏处理,并即时返回处理后的结果,一般通过类似网络代理的中间件技术,按照脱敏规则对外部的访问申请和返回结果进行即时变形转换处理。在根据脱敏规则降低数据敏感程度的同时,动态脱敏能够最大程度上降低数据需求方获取脱敏数据的延迟,通过适当的脱敏规则设计和实现,即使是实时产生的数据也能够通过请求访问返回脱敏后的数据。动态数据脱敏通常会在敏感数据需要对外部提供访问查询服务的场景中使用。

3 数据脱敏技术应用现状

数据脱敏技术的应用在近几年不断呈现上升的趋势,根据Gartner发布的《数据脱敏市场指南》,2017年使用数据脱敏或其他类似去识别技术的企业占比为15%,这一数据在2018年增加到了20%,预计在2022年将达到50%[6]。

3.1 数据脱敏技术行业应用现状

在实际应用中,数据脱敏技术通常应用在涉及到个人隐私数据存储和应用的部分行业领域,因此广泛应用于政务、金融、电信、互联网等行业领域。数据脱敏技术的应用目的主要包括两方面:一是以保护敏感数据安全、实现合法合规为主要目的;二是在达到第一目标的前提下,尽可能地保证数据可用性以及可挖掘价值。

在当前大数据时代,多数涉及到个人隐私数据存储使用的领域皆不可避免地需要面对数据安全及合规问题。具体来说,在政务领域,由于政务数据平台往往会掌握身份信息、户籍信息等大量极为敏感的个人信息数据,需要针对数据采集、传输、应用、归档等全生命周期进行数据脱敏并同步实施其他数据安全防护手段;在金融、电信等关键领域,由于电信客户的手机号码、通话记录、网络流量等信息以及金融客户的个人账户信息、交易记录等信息均属于重要敏感信息,面临严格的行业监管要求,使用数据脱敏技术是实现合规的首选;在数据应用最为广泛的互联网领域,大量地使用到了可能会涉及个人隐私的用户行为数据,从避免违规导致的额外成本角度来看,使用敏感数据时进行数据脱敏处理是重要的前提步骤。

在涉及到大数据分析应用的领域,企业需要在保证数据安全及合规的前提下,依旧能够保有数据的可用性及可增值性。具体来说,在金融、电信领域,征信、反欺诈、精准营销等应用场景高度依赖对用户行为数据等涉及隐私数据的分析挖掘。在互联网领域,用户行为数据更是成为企业指导业务增收的重要资源,用户行为分析、个性化推荐、精准营销等应用方向成为多数互联网企业的通用服务手段,相应地分析挖掘应用不可避免。由此可见,在实现数据安全及合规的同时,能够最大程度上不对数据可用性及可挖掘价值产生破坏的数据脱敏技术是当前的最佳选择,也切实地实践在各个行业中。

3.2 数据脱敏技术供应现状

目前,已有众多企业已经完成或者正在进行数据脱敏技术的研发,总体上可以将数据脱敏技术的供应商分为信息安全服务供应商、自研自用企业以及通用数据脱敏工具开发商三大类。

3.2.1 信息安全服务商

通常以提供完整安全服务体系解决方案的形式服务客户,为保证整个安全体系的完整性,往往会将数据脱敏技术视为一个重要技术环节,通过自研或集成第三方企业产品的形式囊括在提供的服务体系或解决方案中,一般服务于金融、电信等行业需要构建整体数据安全体系的企业中。

3.2.2 自研自用企业

主要包括运营商、通信技术服务商、大型互联网企业等自身拥有具有一定特点的敏感数据保护需求的企业,由于其需求具有一定个性化,同时自身具备一定的研发能力,因此自主量身定制适合自身的数据脱敏工具更为经济且有效率。

3.2.3 通用数据脱敏工具开发商

致力于进行通用数据脱敏工具研发的企业,通常以某些类别的企业需求为出发点,研发满足基本数据脱敏需求的工具产品,随后根据市场情况逐渐完善产品功能,盈利形式包括直接向需求企业出售,或同安全服务商合作,纳入其提供的数据安全解决方案。

从数据脱敏技术的供应类型来看,目前静态脱敏技术已较为成熟,多数数据脱敏技术工具能够提供较为完善的静态脱敏能力,差别主要体现在易用性和自动化等方面。而动态脱敏方面,目前仍处于初步发展的阶段。

在动态脱敏实现中,一种简单的实现方案是在请求到目标数据后再进行数据脱敏处理,这种实现方式实际上依旧使得敏感数据从数据源传输至了外部;另一种相对复杂的实现方案是对数据请求和返回的过程进行干涉,例如查询敏感数据所在数据库时对查询SQL进行解析,从中识别出敏感数据列并对查询SQL进行改造,从而直接返回脱敏处理后的查询结果。这种实现方式一方面需要对查询过程涉及到的数据源协议进行解析,在非开源的商用数据源中进行协议解析既困难又存在一定的法律风险;另一方面,由于不同数据源之间的查询协议存在相应差距,这种动态脱敏实现方式难以泛化,只能对于存在需求的数据源类型进行定制化开发,当需求的数据源种类较多时耗时耗力。由于上述原因,目前的动态脱敏技术还存在一定的提升空间,实际应用也远不及静态脱敏技术广泛。

3.3 数据脱敏工具产品标准化

数据脱敏的需求仍在不断增加,市面上的产品也层出不穷,形态各异的产品导致供需双方的对接依旧存在一些问题。当下数据脱敏工具产品一般通过自主声明的方式告知客户产品所具备的基本能力,但缺乏对于产品能力、脱敏程度、脱敏过程安全性等的证明方式,导致企业在采购时难以分辨产品能力是否满足自身功能需求、脱敏过程是否能够保证脱敏过程无外泄风险、产品形式及脱敏能力是否符合自身业务场景。解决这些问题的一个方案是推进数据脱敏工具产品相关的标准化工作,根据行业需求、产品特性制定相关技术、过程等标准,通过权威第三方进行产品评估评测,遴选出符合一定水平规范和标准的数据脱敏工具,能够有效的打消需求方的众多疑虑,因此相关标准化工作以及基于标准的评估评测工作后续十分值得关注。

在对数据脱敏工具产品进行标准化的过程中,除去数据脱敏技术的核心能力之外,还应当关注工具应提供的其他相关能力,包括敏感数据识别能力、数据源管理能力、工具运维管理能力、安全审计能力以及脱敏算法、规则、策略管理能力。在核心能力方面,可以分为静态脱敏能力和动态脱敏能力两部分来分别制定;在静态脱敏能力方面,重点关注脱敏任务相关的各项能力;在动态脱敏方面,重点关注对于敏感数据访问的防绕行能力。在基础功能的考量之外,可以额外从静态脱敏的数据吞吐量以及动态脱敏的并发数和响应延迟来评估数据脱敏工具的性能。

4 数据脱敏技术发展趋势

数据脱敏技术已成熟应用于部分领域,但伴随着脱敏需求的不断发展变化,仍存在继续优化演变的方向。后续数据脱敏技术的发展主要呈现出4个趋势。

4.1 数据脱敏性能提升

数据脱敏需求的首个重要变化便是数据量的不断增加。随着信息技术的逐渐深入应用,各企业组织可保有和使用的数据量将呈爆炸性增长,相应需要进行脱敏处理的数据量也会同步提升;另一方面,各依赖于数据分析进行即时反馈调整的数据应用,对于数据的实时性需求愈加强烈,在涉及到敏感数据的实时应用中,即时或短时间内完成大量数据的脱敏处理需求将会逐渐增多。数据量及响应时间两方面的需求变化共同指向了更高性能的数据脱敏技术这一发展方向。

4.2 非结构化数据脱敏

数据脱敏需求的第2个变化来源于大数据时代的数据多呈非结构化这一特点。相对于传统通过关系型数据库存储的结构化数据,在时下被存储和应用的数据中,图片、视频、音频、文本等非结构化数据占比不断提升。众多智能化数据应用中对于涉及个人隐私的非结构化数据的使用挖掘愈加常态化,原本主要针对于结构化数据的脱敏处理技术将远远无法满足需求,针对于各类非结构化数据的脱敏处理技术后续将成为重点发展方向。

4.3 智能化数据脱敏

数据脱敏需求的第3个变化由数据量和数据类型的增多衍生而来。当数据的维度和种类不断膨胀时,通过用户指定数据脱敏策略,手动绑定待脱敏数据及脱敏规则和算法的方式将显得效率十分低下。使用者的人工工作量需要被进一步减少,因此已有部分企业在脱敏工具产品中实现了敏感数据自动识别发现等便利化功能。后续通过应用机器学习等技术,结合各类数据分类分级规则及已实际使用的数据脱敏策略及规则,实现自动化实时敏感数据发现、自动化脱敏规则匹配等智能化数据脱敏技术,将成为受人期待的发展方向。

4.4 数据脱敏技术的合规应用

数据脱敏需求的第4个变化来源于相关政策的不断收紧。随着国内外对于个人隐私数据保护相关的法律法规不断出台,近年来频发的数据泄露事件,以及针对违规使用用户隐私数据企业的处罚时有发生,共同敦促着企业将数据合规视为当下的首要任务。后续针对于企业对于个人信息使用的法规将愈加复杂并具有针对性,企业合规的人力实施成本将不断攀升。通过将数据脱敏技术同各类相关法律规范、企业相关业务相结合,实现企业业务流程中对于敏感数据的使用处处合规,形成直接实现业务合规化的数据脱敏产品,将有效改善这一合规问题,后续十分值得探索。

5 结束语

本文对数据脱敏技术的应用背景、技术发展现状、应用及产品现状进行了梳理和阐述,在参考当前行业应用情况的前提下总结了数据脱敏技术未来的四大发展趋势。同时,从数据脱敏工具产品的角度归纳了当前进行数据脱敏技术研发供应的3 类供应方,在进一步分析中说明了数据脱敏工具产品标准化及评估评测工作的重要性,并提出了相应标准化工作的主要方向。

数据脱敏技术在未来的一段时间,始终会是一种非常主流且常用的数据安全技术。随着新的更为复杂的脱敏需求不断产生,数据脱敏技术也会随之不断演化发展,数据脱敏工具产品市场也将更加广阔。因此,相应的标准化工作将更为重要,成为在技术不断提升的同时不可忽略的配套工作。

参考文献

[1] IBM Security, Ponemon Institute. 2019年数据泄露成本报告[R], 2019.

[2] 国家互联网信息办公室. 数据安全管理办法(征求意见稿)[Z], 2019.

[3] Sweeney L. K-anonymity: A model for protecting privacy[M]. World Scientific Publishing Co. Inc, 2002.

[4] Ashwin Machanavajjhala, Johannes Gehrke, Daniel Kifer.l-Diversity: Privacy beyond k-anonymity[C]//Proceedings of the 22nd International Conference on Data Engineering, ICDE 2006, 3-8 April 2006, Atlanta, GA,USA. IEEE, 2006.

[5] Ninghui Li, Tiancheng Li, Suresh Venkatasubramanian.t-Closeness: Privacy beyond k-anonymity and I-diversity[C]//Data Engineering, 2007. ICDE 2007. IEEE 23rd International Conference on. IEEE, 2007.

[6] Gartner. Market guide for data masking[R], 2019.


Research on the development and trend of data masking technology

WANG Zhuo1, LIU Guowei2, WANG Yan2, LI Yuan3

(1. China Academy of Information and Communications Technology, Beijing 100191, China;

2. Beijing Municipal Bureau of Economy and Information Technology, Beijing 101117, China;

3. Beijing Information Security Test and Evaluation Center, Beijing 101117, China)

Abstract: With the advent of the era of big data, and the in-depth application of big data technology in daily life, big data security issues are more and more concerned. Anonymization and de-identification are becoming the basic requirements of data protection. This work takes data masking technology, which can realize data anonymization, as the research object, firstly expounded the basic contents and application of data masking technology. Then it studied the importance and main directions about the standardization work of data masking tool. Finally, it summarized the future development trend of data masking technology, which guided the further development and research of data masking technology.

Key words: big data; data security; data masking; standardization

本文刊于《信息通信技术与政策》2020年第4期

作者简介

王卓:中国信息通信研究院云计算与大数据研究所大数据研发与测试工程师,主要从事大数据技术与产品、大数据安全等相关方向的政策、产业、标准和前沿技术研究工作。

刘国伟:北京市经济和信息化局大数据标准与安全处处长,主要从事网络安全和数据安全方面政策、标准研究工作。

王 岩:北京市经济和信息化局大数据标准与安全处副处长,主要从事数据安全和区块链方面政策、标准研究工作。

李 媛:北京信息安全测评中心高级工程师,主要从事数据安全和个人信息保护方面技术、标准研究工作。

论文引用格式:

王卓,刘国伟,王岩,等. 数据脱敏技术发展现状及趋势研究[J]. 信息通信技术与政策, 2020(4):18-22.

∗ 基金项目:北京市经济和信息化局“大数据安全体系研究”课题项目资助

声明:本文来自信息通信技术与政策,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。