作者:中证信息技术服务有限责任公司 王浩宇

        中国证监监督管理委员会信息中心 刘超 蒋东兴

为充分发挥资本市场大数据在辅助监管决策、提升监管能力、创新监管方式、丰富监管手段方面的优势作用,证券期货监管系统正在开展监管科技的建设工作。监管科技的核心是大数据分析,前提是数据的共享和汇集。数据共享过程中,数据脱敏在防止敏感数据泄露、保护敏感数据方面起到重要作用,是大数据分析的一项基础性工作。

数据脱敏工作中的难点和痛点

1.数据脱敏需求不明确。数据脱敏需求部门在申请数据脱敏服务时,大多难以准确描述脱敏数据的需求,包括保留哪些字段、保留字段的哪些属性、哪些字段必须脱敏、哪些字段的统计信息必须保留或隐藏(如分布情况、均值变化、总和不变或是分类属性不变以及其他包含勾稽关系的信息)、针对具体字段使用的脱敏算法,通常简单笼统地提出不明确的需求。

2.敏感信息的不易界定。数据提供方进行敏感数据共享时,会重点考虑数据安全以及合规性,希望按照最小化原则提供数据;而数据使用方想得到更多更完整的数据,这就迫切需要细化对敏感数据的界定。例如,通常涉及公民个人信息,原则上应进行数据脱敏处理,但敏感数据不能简单理解为个人基本信息,因数据量、关联表信息、甚至通过关联其他资料等貌似非关键的信息,都有可能形成可推导出全局或个体信息的情况,造成泄露隐患。

3.数据保护与数据可用性间的平衡。数据脱敏不可避免造成数据信息损失。一方面,选择合适的脱敏规则或方法,需要性能较好的脱敏软件,以及对软件提供的各种工具的熟练掌握;另一方面,数据需求部门需要对脱敏工作充分介入、充分理解,共同寻找敏感数据的保护程度以及数据可用性之间的平衡。

证券期货监管数据脱敏方案设计

建设完善的证券期货监管数据脱敏方案需要从工作流程和管理制度两个方面共同推进。为此,我们研究了数据脱敏工程方法和管理制度的规范化和标准化。

1.工程方法。数据脱敏的重要前提是明确数据的敏感性以及数据使用场景,依据数据敏感性和应用场景选择脱敏策略和算法。数据需求双方对数据脱敏方案的审核是数据脱敏工程实施的重要保障。按照上述数据脱敏工作思路,我们将数据脱敏工程方法分为“确定待脱敏数据”“确定数据应用场景”“确定脱敏策略和算法”“脱敏实施”“脱敏评价”五个步骤。数据脱敏工程实施流程图如图1。

图1 数据脱敏工程实施流程图

数据脱敏须充分考虑业务需求、数据安全以及法律法规。待脱敏数据通过敏感数据分类分级确定。敏感数据分类分级是有效发现敏感数据的基础性工作,可对敏感数据进行标记,确保数据脱敏能够充分考虑到应用范围、脱敏后数据对原数据业务特性的继承(如保持原数据间的依赖关系)等因素。在“最小够用”的原则下,通过分析数据脱敏需求的业务场景,明确待脱敏数据。针对无需脱敏的单个字段,应充分考虑多字段组合产生的敏感信息。

数据应用场景是数据使用方的网络环境、使用人员等情况的综合描述。其中,网络包括互联网、办公专网和内部网络等,使用人员包括开发、测试、分析人员等。根据网络环境、使用人员两个维度对数据应用场景进行分解,完成分类。

脱敏策略和算法应依据待脱敏数据和数据应用场景而确定,确定时要充分考虑数据的重要性、私密性和指向性,并从保全原始数据的数据特征角度,制定相应的数据脱敏策略和算法。

脱敏实施是在确定待脱敏数据、数据应用场景、脱敏策略和算法后,执行数据脱敏操作,并给出脱敏结果的过程。为保证敏感数据不泄露,数据必须在原网络环境下进行脱敏,数据使用方和提供方分别对数据脱敏需求与方案进行审核,双方确认后可将脱敏后的数据应用到业务所需场景和网络。

脱敏评价用于满足使用方要求、保证脱敏后的数据级别和场景的匹配度。在执行完脱敏操作后,数据使用方应与提供方共同开展脱敏评价,并进行交付。特别地,脱敏实施完成后,数据使用方应与提供方就脱敏后的数据是否会造成不良影响进行验证,验证环节应检查脱敏后数据是否与双方协商达成的数据脱敏方案一致。

2.管理制度。数据脱敏不仅仅依靠工程方法完成对敏感数据进行的共享和保护,还需要在制度上对参与人员的职责和数据安全管理等进行约束和说明。在建立数据脱敏管理制度时,应明确各参与方及其职责、数据访问日志、脱敏方案报备以及脱敏任务定期检查等。其中,数据脱敏参与方包括数据使用方、数据提供方和管理协调方。数据使用方负责提出数据脱敏要求,并对脱敏后的数据进行妥善管理;数据提供方负责评估数据使用方所提出的数据脱敏要求,执行数据脱敏操作,并将脱敏数据提供给使用方;管理协调方负责数据脱敏的组织管理。

数据提供方应记录数据脱敏过程日志,并对脱敏后数据及时清理;数据使用方应建立针对脱敏数据的访问控制机制,保证无关人员不能接触脱敏后数据,并保留脱敏数据访问日志,确保对脱敏数据的访问行为可审计;管理协调方负责对数据提供方与使用方的数据脱敏以及脱敏数据的管理情况进行定期与不定期的检查。

关键问题解决

在数据脱敏任务实施过程中,有三项关键问题需要引起重视:“敏感数据分级分类”“敏感数据应用场景定义”和“数据脱敏策略和算法”。

1.敏感数据分类分级。敏感数据分类分级包括对敏感数据的分类和分级。数据分类参考数据业务属性和数据技术属性。数据业务属性通常可按主体、行为进行分类。主体通常包括但不限于个人信息和机构信息等,行为一般可分为交易行为、监管行为、信息披露行为等。作为数据资产补充,数据技术属性依据数据类型的不同,成为选择脱敏算法的因素之一。字段的数据类型包括但不限于数字、字符串、日期时间、枚举等。遵照上述数据分类原则,数据敏感性分类示例见表1。

表1 敏感数据分类示例

数据敏感性等级认定可根据数据重要性、私密性、指向性的不同进行判断。重要性是指数据对市场运行的影响程度。私密性是指数据因描述个人或机构主体的隐私而不能被他人获取、得知的程度。指向性是指数据能够关联到特定对象的范围,分为单一主体(个人或机构)、特定群体(投资者类别、上市公司行业)或全市场。重要性、私密性、指向性分别用高、中、低三个级别来表示,认定规则见表2、表3和表4。

表2 重要性级别认定

表3 秘密性级别认定

表4 指向性级别认定

数据敏感级别可分为四级(1至4级,0表示非敏感数据),根据数据的重要性、私密性、指向性综合确定数据敏感性,并充分考虑数据量(全量/抽样)、数据关联关系以及数据时效性等因素对数据敏感性的影响。

一个可供参考的数据重要性、私密性、指向性与数据敏感级别对应关系,见表5数据定级规则参考表。

表5 数据定级规则参考表

2.敏感数据应用场景定义。敏感数据应用场景定义通过分析待脱敏数据的各种应用场景,并兼顾应用场景的网络环境,应用场景可分为五类。(1)内部分析。内部分析是指在同类业务网络中,由分析人员使用脱敏数据开展数据分析工作。(2)系统仿真。系统进行仿真实验所在网络与系统运行环境属于同一网络环境,使用人员多为开发测试人员。(3)监管协作。监管协作是将脱敏数据提供给其他会管单位或外部监管协作机构,在其业务网络中使用,使用人员为监管业务人员。(4)外部分析。外部分析用于互联网环境下分析人员使用。较内部分析而言,网络环境开放、安全级别较低。(5)开放测试。开放测试用于互联网开放测试,即:使用人员不限、网络环境开放、安全级别最低。

3.数据脱敏策略和算法。在进行数据脱敏时,脱敏策略和算法的选择需充分考虑数据类型。脱敏策略包括字段的全部或部分脱敏、可逆或不可逆;常见数据脱敏算法包括置常数、随机查表替换、固定参数查表替换、码值随机偏移、码值固定参数偏移、随机算数置换、固定参数算数置换、随机生成定长字符串、随机生成不定长字符串、字符串部分屏蔽、时间部分替代等。其中,数据脱敏策略和算法与数据类型之间的适用关系见表6。

表6 数据脱敏算法与数据类型之间的适用关系

数据脱敏实践

2018年,我们在研究证券期货监管数据脱敏方案的基础上,开展了数据脱敏试点工作,在“脱敏工具选择”“数据脱敏实施”和“数据脱敏审计”等三项具体工作中有如下体会。

1.数据脱敏工具选择。数据脱敏工具需内置敏感数据匹配模式,帮助用户发现部分敏感数据。此外,工具还需内置常用的脱敏算法,并提供脱敏算法扩展接口,方便用户扩展脱敏算法。经脱敏后的数据应在格式、内涵及数据间关系上保持与原数据一致,方便业务人员理解和应用数据。同时,数据脱敏工具应具备高效性和可靠性,保证数据脱敏工作效率,并确保脱敏结果的有效性。

2.数据脱敏实施。保证数据安全以及规范数据操作是数据脱敏的前提,数据脱敏工作应严格按照上述工程方法和管理制度进行数据脱敏实施。目前,我们已在实践中完善了脱敏流程和脱敏工具,验证了工程方法和管理制度的正确性。

3.数据脱敏审计。数据脱敏检查工作按照事前、事中和事后分别进行检查,事前、事中检查按照监管科技数据脱敏工程方法和数据脱敏管理制度实施;事后检查依靠数据脱敏审计,对数据提供方与使用方的数据脱敏以及脱敏数据的管理情况进行定期与不定期的检查。

本文节选自《金融电子化》2019年03月刊

声明:本文来自金融电子化,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。