大数据安全研究综述

随着人工智能、云计算、移动互联网和物联网等技术的融合发展，传统的基于边界安全域和基于已知特征库的网络安全防护方式已经无法有效应对大数据环境下新的安全威胁。

通过对大数据环境下面临的安全问题和挑战进行分析，提出基于大数据分析和威胁情报共享为基础的大数据协同安全防护体系，将大数据安全技术框架、数据安全治理、安全测评和运维管理相结合，在数据分类分级和全生命周期安全的基础上，体系性的解决大数据不同层次的安全问题。

基于该安全防护体系，分析了数据安全的关键技术及其目前的发展现状，并展望和分析了大数据安全领域面临的挑战。全面的分析和研究了大数据安全的威胁、政策、标准、方案、关键技术和挑战，对开展大数据安全建设和工程应用有重要参考意义。

以大数据为代表的数据化、数字化是全球信息技术发展趋势之一。大数据技术的发展，引发了全球范围内技术、学术、产业以及安全的变革，已经成为全球发展的趋势，是国家和企业间的竞争焦点，直接关系到国家安全、社会稳定、经济发展和民计民生等诸多方面。

数据是网络的血液，是信息化时代得以持续发展的核心。云计算和物联网技术的快速发展，引发了数据规模的爆炸式增长和数据模式的高度复杂化。大数据技术成为继云计算技术之后，各国竞相争夺的信息化战略高地。

十八大以来，我国陆续发布《促进大数据发展行动纲要》、《大数据产业发展规划（2016-2020）》和《国家网络空间安全战略》等一系列重大文件，在夯实国家网络安全战略任务中，提出实施国家大数据战略、建立大数据安全管理制度、支持大数据信息技术创新和应用的纲领性要求。这些重要文件，为相关产业的融合发展、健康发展打开了巨大政策空间。

但是在大数据技术催生了大量创新业务应用模式并在党政军行业大规模应用的同时，也带来了许多前所未有的安全威胁，数据泄露、恶意代码、非法访问、拒绝服务攻击、账户劫持、不安全的API、基于大数据技术的新型攻击等安全问题，已成为大数据产业健康发展的最大障碍。

以数据为视角进行信息安全建设，对数据全生命周期为主线进行分类分级保护，明确“数据从哪里来（Where）、放在什么环境下（What）、允许谁（Who），什么时候（When）、对哪种信息（Which）、执行什么操作(How)”，做到全生命周期、全流转过程“可管可控”，满足“大数据参与者数据安全的要求”，是当前大数据安全建设的重要目标。

01 大数据安全问题挑战

传统的信息安全侧重于信息内容(信息资产)的管理，更多地将信息作为企业/机构的自有资产进行相对静态的管理，无法适应业务上实时动态的大规模数据流转和大量用户数据处理的特点。

大数据5V的特性和新的技术架构颠覆了传统的数据管理方式，在数据来源、数据处理使用和数据思维等方面带来革命性的变化，这给大数据安全防护带来了严峻的挑战。大数据的安全不仅是大数据平台的安全，而是以数据为核心，围绕数据全生命周期的安全。数据在全生命周期各阶段流转过程中，在数据采集汇聚、数据存储处理、数据共享使用等方面都面临新的安全挑战。

1.1 大数据采集汇聚安全

大数据环境下，随着IoT技术特别是5G技术的发展，出现了各种不同的终端接入方式和各种各样的数据应用。来自大量终端设备和应用的超大规模数据源输入，对鉴别大数据源头的真实性提出了挑战：数据来源是否可信，源数据是否被篡改都是需要防范的风险。

数据传输需要各种协议相互配合，有些协议缺乏专业的数据安全保护机制，数据源到大数据平台的数据传输可能给大数据带来安全风险。数据采集过程中存在的误差造成数据本身的失真和偏差，数据传输过程中的泄漏、破坏或拦截会带来隐私泄露、谣言传播等安全管理失控的问题。因此，大数据传输中信道安全、数据防破坏、数据防篡改和设备物理安全等几个方面都需要着重考虑。

1.2 大数据存储处理安全

大数据平台处理数据的模式与传统信息系统对数据的处理模式不同。传统数据的产生、存储、计算、传输都对应明确界限的实体（视为分段式），可以清晰地通过拓扑的方式表示。这种分段式处理信息的方式，用边界防护相对有效。

但在大数据平台上，采用新的处理范式和数据处理方式（MapReduce、列存储等），存储平台同时也是计算平台，采用分布式存储、分布式数据库、NewSQL、NoSQL、分布式并行计算、流式计算等技术，一个平台内可以同时采用多种数据处理模式，完成多种业务处理，导致边界模糊，传统的安全防护方式难以奏效。

（1）大数据平台的分布式计算涉及多台计算机和多条通信链路，一旦出现多点故障，容易导致分布式系统出现问题。此外，分布式计算涉及的组织较多，在安全攻击和非授权访问防护方面比较脆弱。

（2）分布式存储由于数据被分块存储在各个数据节点，传统的安全防护在分布式存储方式下很难奏效。

①数据的安全域划分无效；

②细粒度的访问存储访问控制不健全,用作服务器软件的NoSQL 未有足够的安全内置访问控制措施,以致客户端应用程序需要内建安全措施，因此产生授权过程身份验证和输入验证等安全问题；

③分布式节点之间的传输网络易受到攻击、劫持和破坏使得存储数据的完整性、机密性难以保证；

④数据的分布式存储，增大了各个存储节点暴露的风险，在开放的网络化社会，对于攻击者而言更容易找到侵入点，以相对低成本就可以获得“滚雪球”的收益，一旦遭受攻击，失窃的数据量和损失是十分巨大的；

⑤传统的数据存储加密技术，在性能效率上面很难满足高速、大容量数据的加密要求。总结大数据的分布式存储主要的安全挑战归结为两方面：数据丢失和数据泄露的风险。

（3）大数据平台的访问控制的安全隐患主要体现在：大数据应用中的用户多样性和业务场景多样性带来的权限控制多样性和精细化要求，超过了平台自身访问控制能够实现的安全级别，策略控制无法满足权限的动态性需求，传统的角色访问控制不能将角色、活动和权限有效地对应起来。因此，在大数据架构下的访问控制机制还需要对这些新问题进行分析和探索。

（4）针对大数据的新型安全攻击中最具代表性的是高级持续性攻击(APT) 。由于APT的潜伏性和低频活跃性,使其持续性成为一个不确定的实时过程,产生的异常行为不易被捕获。传统的基于内置攻击事件库的特征实时匹配检测技术,对检测APT攻击无效。大数据应用为入侵者实施可持续的数据分析和攻击提供了极好的隐藏环境,一旦攻击得手,失窃的信息量甚至是难以估量的。

（5）基础设施安全的核心是数据中心的设备安全问题，包括传统的安全风险和特有的安全风险，传统的安全防范手段如网络防DDOS攻击、存储加密、容灾备份、服务器的安全加固、防病毒、接入控制、自然环境安全等；特有的安全风险，主要来自大数据服务所依赖的云计算技术引起的风险，包括如虚拟化软件安全、虚拟服务器安全、容器安全，以及由于云服务引起的商业风险等。

（6）服务接口安全。由于大数据平台支撑的业务应用多种多样，对外提供的服务接口千差万别，这对攻击者通过服务接口攻击大数据平台带来机会，因此，如何保证不同的服务接口安全是大数据平台的又一巨大挑战。

（7）数据挖掘分析使用安全。大数据的应用核心是数据挖掘,从数据中挖掘出高价值信息为企业所用，是大数据价值的体现。然而使用数据挖掘技术，为企业创造价值的同时，容易产生隐私泄露的问题。如何防止数据滥用和数据挖掘导致的数据泄密和隐私泄露问题，是大数据安全一个最主要的挑战性问题。

1.3 大数据共享使用安全

（1）数据的保密问题。

频繁的数据流转和交换使得数据泄露不再是一次性的事件，众多非敏感的数据可以通过二次组合形成敏感的数据。通过大数据的聚合分析能形成更有价值的衍生数据，如何更好地在数据使用过程中对敏感数据进行加密、脱敏、管控、审查等，阻止外部攻击者采取数据窃密、数据挖掘、根据算法模型参数梯度分析对训练数据的特征进行逆向工程推导等攻击行为，避免隐私泄露，仍然是大数据环境下的巨大挑战。

（2）数据保护策略问题。

大数据环境下，汇聚不同渠道、不同用途和不同重要级别的数据，通过大数据融合技术形成不同的数据产品，使大数据成为有价值的知识，发挥巨大作用。如何对这些数据进行保护，以支撑不同用途、不同重要级别、不同使用范围的数据充分共享、安全合规的使用，确保大数据环境下高并发多用户使用场景中数据不被泄露、不被非法使用，是大数据安全的又一个关键性问题。

（3）数据的权属问题。

大数据场景下，数据的拥有者、管理者和使用者与传统的数据资产不同，传统的数据是属于组织和个人的，而大数据具有不同程度的社会性。一些敏感数据的所有权和使用权并没有被明确界定，很多基于大数据的分析都未考虑到其中涉及的隐私问题。在防止数据丢失、被盗取、被滥用和被破坏上存在一定的技术难度，传统的安全工具不再像以前那么有用。如何管控大数据环境下数据流转、权属关系、使用行为和追溯敏感数据资源流向，解决数据权属关系不清、数据越权使用等问题是一个巨大的挑战。

02 大数据安全发展现状

2.1 国际发展现状

随着大数据的安全问题越来越引起人们的重视，包括美国、欧盟和中国在内的很多国家、地区和组织都制定了大数据安全相关的法律法规和政策，以推动大数据应用和数据保护。

美国于2012年2月23日，发布《网络环境下消费者数据的隐私保护-在全球数字经济背景下保护隐私和促进创新的政策框架》，正式提出《消费者隐私权利法案》，规范大数据时代隐私保护措施。并在《白皮书》中呼吁国会尽快通过《消费者隐私权利法案》，以确定隐私保护的法治框架。

欧盟早在1995年就发布了《保护个人享有的与个人数据处理有关的权利以及个人数据自由流动的指令》（简称《数据保护指令》），为欧盟成员国保护个人数据设立了最低标准。2015年，欧盟通过《通用数据保护条例》（GDPR），该条例对欧盟居民的个人信息提出更严的保护标准和更高的保护水平。

在《2014至2017年数字议程》中，德国提出于2015年出台《信息保护基本条例》，加强大数据时代的信息安全。2015年2月25日，德国要求设置强硬的欧盟数据保护法规。

澳大利亚于2012年7月发布了《信息安全管理指导方针：整合性信息的管理》，为大数据整合中所涉及到的安全风险提供了最佳管理实践指导。11月24日，对1988年的《隐私法》进行重大修订，将信息隐私原则和国民隐私原则统一修改为澳大利亚隐私原则，并于2014年3月正式生效，规范了私人信息数据从采集、存储、安全、使用、发布到销毁的全生命周期管理。

在数据安全的标准化方面，美国走在前列，在大数据安全方面，ITU-T SG17制定了《移动互联网服务中的大数据分析安全要求和框架》《大数据即服务安全指南》《电子商务业务数据生命周期管理安全参考框架》等，NIST发布了《SP 1500-4 NIST 大数据互操作框架：第四册安全与隐私保护》等标准，ISO/IEC也发布了关于隐私保护框架、隐私保护能力评估模型、云中个人信息保护等标准，对大数据的安全框架和原则进行了标准化定义。

在数据安全的产品解决方案和技术方面，国外知名机构和安全公司纷纷推出先进的产品和解决方案。著名咨询公司Forrester提出“零信任模型”（Zero Trust Model），谷歌基于此理念设计和实践了BeyondCorp体系，企业可不借助VPN而在不受信任的网络环境中安全的开展业务；IBM InfoSphere Guardium能够管理集中和分布式数据库的安全与合规周期；老牌杀毒软件厂商赛门铁克(Symantac)将病毒防护、内容过滤、数据防泄漏、云安全访问代理（CASB）等进行整合，提供了包含数据和网络安全软件及硬件的解决方案；操作系统霸主微软聚焦代码级数据安全，推出了Open Enclave SDK开源框架，协助开发者创建以保护应用数据为目的的可信应用程序。CipherCloud联合Juniper推出了云环境下数据安全的产品解决方案，提供云端企业应用的安全访问和可视化监控。

2.2 国内发展现状

鉴于大数据的战略意义，我国高度重视大数据安全问题，近几年发布了一系列大数据安全相关的法律法规和政策。

2013年7月，工业和信息化部公布了《电信和互联网用户个人信息保护规定》，明确电信业务经营者、互联网信息服务提供者收集、使用用户个人信息的规则和信息安全保障措施要求。

2015年8月，国务院印发了《促进大数据发展行动纲要》，提出要健全大数据安全保障体系，完善法律法规制度和标准体系。

2016年3月，第十二届全国全国人民代表大会第四次会议表决通过了《中华人民共和国国民经济和社会发展第十三个五年规划纲要》提出把大数据作为基础性战略资源，明确指出要建立大数据安全管理制度，实行数据资源分类分级管理，保障安全、高效、可信。

在产业界和学术界，对大数据安全的研究已经成为热点。国际标准化组织、产业联盟、企业和研究机构等都已开展相关研究以解决大数据安全问题。2012年，云安全联盟（CSA）成立了大数据工作组，旨在寻找大数据安全和隐私问题的解决方案。2016年，全国信息安全标准化技术委员会正式成立大数据安全标准特别工作组，负责大数据和云计算相关的安全标准化研制工作。

在标准化方面，国家层面制定了《大数据服务安全能力要求》《大数据安全管理指南》《大数据安全能力成熟度模型》等数据安全标准。由于数据与业务关系紧密，各行业也纷纷出台了各自的数据安全分级分类标准，典型的如《银行数据资产安全分级标准与安全管理体系建设方法》《电信和互联网大数据安全管控分类分级实施指南》《JR/T 0158-2018证券期货业数据分类分级指引》等，对各自业务领域的敏感数据按业务线条进行分类，按敏感等级（数据泄漏后造成的影响）进行数据分级。安全防护系统可以根据相应级别的数据采用不同严格程度的安全措施和防护策略。

在大数据安全产品领域，形成了平台厂商和第三方安全厂商的两类发展模式。阿里巴巴不但是全国最大规模电子商务公司，也是最大规模公有云服务商，围绕其掌握的电子商务、智慧城市数据，致力于数据治理，反欺诈等数据安全工作；通信巨头华为依赖其布局全球的通信运维网络，建立了可共享访问的“华为安全中心平台”，可实时查看全球正在发生的攻击事件；第三方安全厂商阵营，除了有卫士通、深信服、绿盟等传统综合性网络安全企业，诸多创业公司也如雨后春笋般出现，包括明朝万达、天空卫士、中安威士等，上述企业围绕数据防泄漏（LDP）、内部威胁防护（ITP）和数据安全态势等产品的数据安全整体解决方案和产品也各有优势；与此同时，物流行业霸主顺丰深知数据安全重要性，也在自身业务领域积极开展了围绕物流全生命周期、基于区块链的数据安全实践，成效显著。

03 大数据安全保障框架

大数据与传统数据资产相比，具有较强的社会属性。如图1所示，为实现安全防护目标，需要融合安全治理、技术、标准、运维和测评来系统性地解决大数据的安全问题。从安全治理着眼，以安全技术、安全运维和安全测评为支撑，构建流程、策略、制度、测评多重保障体系。同时，需要以标准为保障，实现安全互联协同，达到多维立体的防护。

图1 大数据安全保障框架

3.1 大数据安全总体技术框架

大数据的安全技术体系是支撑大数据安全管理、安全运行的技术保障。以“密码基础设施、认证基础设施、可信服务管理、密钥管理设施、安全监测预警”五大安全基础设施服务，结合大数据、人工智能和分布式计算存储能力，解决传统安全解决方案中数据离散、单点计算能力不足、信息孤岛和无法联动的问题。大数据的总体安全技术框架如图2所示。

图2 大数据安全技术框架

3.2 大数据安全治理

大数据的安全治理体系的目标是确保大数据“合法合规”的安全流转，保障大数据安全的情况下，让其价值最大化，来支撑企业的业务目标的实现。大数据的安全治理体系建设过程中行使数据的安全管理、运行监管和效能评估的职能。主要内容包括：

（1）构架大数据安全治理的治理流程、治理组织结构、治理策略和确保数据在流转过程中的访问控制、安全保密和安全监管等安全保障机制。

（2）制定数据治理过程中的安全管理架构，包括人员组成，角色分配、管理流程和对大数据的安全管理策略等。

（3）明确大数据安全治理中元数据、数据质量、数据血缘、主数据管理和数据全生命周期安全治理方式，包括安全治理标准、治理方式、评估标准、异常和应急处置措施以及元数据、数据质量、数据标准等。

（4）对大数据环境下数据主要参与者，包括数据提供者（数据源）、大数据平台、数据管理者和数据使用者制定明确的安全治理目标，规划安全治理策略。

3.3 大数据安全测评

大数据的安全测评是保证大数据安全提供服务的支撑保障，目标是验证评估所有保护大数据的安全策略、安全产品和安全技术的有效性和性能等。确保所有使用的安全防护手段都能满足大数据中主要参与者安全防护的需求。主要内容包括：

（1）构建大数据安全测评的组织结构、人员组成、责任分工和安全测评需要达到的目标等。

（2）明确大数据场景下安全测评的标准、范围、计划、流程、策略和方式等，大数据环境下的安全分析按评估方法包括基于场景的数据流安全评估、基于利益攸关者的需求安全评估等。

（3）制定评估标准，明确各个安全防护手段需要达到的安全防护效能，包括功能、性能、可靠性、可用性、保密性、完整性等。

（4）按照《大数据安全能力成熟度模型》评估安全态势并形成相关的大数据安全评估报告等，作为大数据安全建设能够投入应用的依据。

3.4 大数据安全运维

大数据的安全运维以技术框架为支撑，主要确保大数据系统平台能安全持续稳定可靠运行，在大数据系统运行过程中行使资源调配、系统升级、服务启停、容灾备份、性能优化、应急处置、应用部署和安全管控等职能。具体的职责包括：

（1）构建大数据安全运维体系的组织形式、运维架构、安全运维策略、权限划分等。

（2）制定不同安全运维流程和运维的重点方向等，包括基础设施安全管控、病毒防护、平台调优、资源分配和系统部署、应用和数据的容灾备份等业务流程。

（3）明确安全运维的标准规范和规章制度，由于运维人员具有较大的操作权限，为防范内部人员风险，要对大数据环境的核心关键部分、对危险行为做到事前、事中和事后有记录、可跟踪和能审计。

04 大数据安全防护技术体系

4.1 以数据为中心的安全防护要素

近几年，随着人工智能、云计算、大数据技术和移动互联网等新技术的应用，网络攻防环境正在发生快速的变化。传统的基于边界安全域和已知特征库的防护方式，已经无法应对新的安全威胁。

本文提出的大数据安全防护技术体系，基于威胁情报共享和采用大数据分析技术，实现大数据安全威胁的快速响应，集安全态势感知、监测预警、快速响应和主动防御为一体，基于数据分级分类实施不同的安全防护策略，形成协同安全防护体系。围绕以数据为核心，以安全机制为手段，以涉及数据的承载主体为目标，以数据参与者为关注点，构建大数据安全协同主动防护体系。

以数据为中心进行安全防护的要素如图3所示。

图3 以数据为中心的安全防护要素组成

（1）数据是指需要防护的大数据对象，此处指大数据流转的各个阶段包括采集、传输、存储、处理、共享、使用和销毁。

（2）安全策略是指对大数据对象进行安全防护的流程、策略、配置和方法等，如根据数据的不同安全等级和防护需求，实施主动防御、访问控制、授权、隔离、过滤、加密、脱敏等。

（3）安全产品指在对大数据进行安全防护时使用的具体产品，如数据库防火墙、审计、主动防御系统、APT检测、高速密码机、数据脱敏系统、云密码资源池、数据分级分类系统等。

（4）防护主体是指需要防护的承载大数据流转过程的软硬件载体，包括服务器、网络设备、存储设备，大数据平台、应用系统等。

（5）参与者是指参与大数据流转过程中的改变大数据状态和流转过程的主体，主要包括大数据提供者、管理者、使用者和大数据平台等。

4.2 主动防御的大数据协同安全防护体系

传统的安全防护技术注重某一个阶段或者某一个点的安全防护，在大数据环境下需要构建具有主动防御能力的大数据协同安全防护体系，在总体上达到“协同联动，体系防御”的安全防御效果。

大数据协同安全防护体系必须具备威胁的自动发现、策略决策的智能分析、防御策略的全局协同、安全资源的自动控制调度以及安全执行效果的综合评估等特征。其中威胁的自动发现和防御策略的全局协同是实现具有主动防御能力大数据协同安全防护体系的基础。

大数据的安全并不仅仅是大数据平台的安全，大数据的安全应该以数据生命周期为主线，兼顾满足各个参与者的安全诉求。大数据的安全动态协同防护体系架构如图4所示。

图4 主动防御的大数据协同安全防护体系

4.3 大数据协同安全防护流程

大数据协同安全防护强调的是安全策略全局调配的协同性，安全防护手段的主动性，以威胁的自动发现和风险的智能分析为前提，采用大数据的分析技术通过安全策略的全局自动调配和防护手段的全局联动。具有主动防御能力的大数据协同安全防护流程如图5所示。

图5 大数据协同安全防护流程

05 大数据安全关键技术

5.1 数据采集

（1）数据智能分级分类标注技术

对数据进行分类分级，按照数据的不同类别和敏感级别实施不同的安全防护策略，施加不同的安全防护手段，是目前业界主流的实践。而对于数据来说，不同业务涉及的数据不同，分类就不同。

分类通常是按照实际业务场景进行数据类别划分。分级是实施安全防护的基础，是按照数据属性的高低不同和泄漏后造成的影响危害程度来进行不同数据等级的划分。数据等级划分的三要素包括影响对象、影响范围和影响程度。分类与分级相辅相成，数据分类分级是安全策略设计的前提。

数据智能分级分类标注技术主要实现对结构化、非结构化、半结构化的数据按照内容属性、安全属性、签名属性等不同视角进行标注，标记的方法包括基于元数据的标注技术、数据内容的标记技术、数据属性的标注等，为后续数据的分级分类存储、数据的检索、数据的隐私保护、数据追踪溯源和数据的权责分析提供依据。

数据分级分类标签有很多种，按照嵌入对象的格式可分为结构化数据标签、非结构化数据标签；按照标签的形式可分为嵌入文件格式的标签和数字水印。

（2）数据源安全关键技术

数据源可信验证技术，该技术主要是保证采集数据的数据源是安全可信的，确保采集对象是可靠的，没有假冒对象。包括可信认证以及生物认证技术等。

（3）内容安全检测技术

对采集的数据集进行结构化、非结构化数据内容的安全性检测，确保数据中不携带病毒或者其他非安全性质的数据内容。数据的安全检测常用的有基于规则的监测技术、基于机器学习的安全检测技术和有限状态机的安全检测技术等。

5.2 数据传输安全

该技术较为成熟，主要针对大数据数据流量大、传输速度快的特点，确保数据动态流动过程中，大流量数据的安全传输，从数据的机密性和完整性方面保证数据传输的安全。该技术主要包括高速网络传输加密技术、跨域安全交换、威胁监测技术等。

5.3 安全存储计算

（1）大数据安全存储技术

大数据安全存储技术主要是解决针对云环境下多租户、大批量异构数据的安全存储，实现安全存储主要包括冗余备份和分布式存储下的密码技术、存储隔离、访问控制等技术。

大数据环境下的密码技术主要实现分布式计算环境下的密码服务资源池技术、密钥访问控制技术、密码服务集群密钥动态配置管理技术、密码服务引擎池化技术，提供高效、并发密码服务能力和密钥管理功能，满足大数据海量数据的分布式计算、分布式存储的加解密服务需求。

存储隔离技术主要是针对数据不同的安全等级对数据进行隔离存储，包括逻辑隔离和物理隔离两种方案；分级分类存储是按照数据的重要程度和安全程度，结合隔离存储实现数据的安全存储和访问控制。

与上述叠加式安全思想不同，文献提出的可信固态硬盘设计，基于存储内安全（In-Storage Security）思想，把对数据的访问控制从主机上的系统软件下放到底层存储，内部在保持块接口的前提下实现了数据的细粒度访问。在针对一些保密要求不高的安全场景下，相比于采用加密手段的存储安全解决方案，效率更高，策略更灵活。

（2）备份恢复技术

备份恢复技术主要是实现对大数据环境下的特殊数据，如元数据、密集度很高的数据或者高频次访问的数据进行，通过非安全手段实现的安全防护技术，通过数据同步、数据复制、数据镜像、冗余备份和灾难恢复等方式实现的安全保护。

5.4 数据安全共享

（1）区块链

区块链是包含了分布式数据存储、点对点传输、共识机制、加密算法等技术的创新应用模式，具有去中心、去信任、集体维护和可靠数据库等特点。

区块链技术使用多个计算节点共同参与和记录，相互验证信息有效性，可有效确保数据不被篡改，即对数据信息进行防伪，又提供了数据流转的可追溯路径；分布式节点的共识机制使得即使单一节点遭受攻击，也不会影响区块链系统的整体运行，这种分布式存储及加密机制可有效降低数据集中管理的风险，在一定程度上提高数据的安全性，并最大限度保护隐私。

（2）跨网跨域数据交换

数据在跨网跨域之间进行交换，需要对数据交换内容、交换行为、交换过程做到可管、可视、可控。跨网跨域交换技术利用信息加密、可信计算、身份认证、签名和摘要、内容识别等技术为数据提供跨地域、跨领域、跨部门的多源异构海量数据安全共享交换能力，确保数据在共享交换过程中的安全。

（3）监控审计

为了对数据安全共享中的异常事件、违规行为和业务运行情况等进行全面的了解和事后安全查漏补缺等处理，监控审计技术主要通过分析的各种安全事件日志，通过关联分析、数字取证、事件追踪溯源、异常行为的监控、数据血缘分析等，同时通过实时监控确保数据共享的安全。

（4）共享审查

共享审查技术，是数据在共享发布后，为了确保数据有偿共享、无偿共享、分时共享、分区共享、定向共享、主动分发等不同的数据共享机制下，数据的安全共享和数据安全保护策略，包括合规性、安全性、敏感消息发现等审查策略，支撑未来不同数据共享模式下的数据安全。

5.5 密文计算

密文计算技术针对大数据环境中密文数据应用困难的问题，提高以密文状态存储的敏感数据的计算效率和安全性。主要研究内容包括：同态加密技术、安全多方计算技术、可验证计算技术、密文检索等技术。

（1）同态加密

同态加密分为有限同态加密和全同态加密两大类。全同态加密（FHE）技术允许对密文数据进行任意次数多项式函数运算。基于格上运算困难问题和基于军阵近似特征向量的GSW同态加密方案是目前主要的两类全同态加密方案。

前者具有抗量子计算攻击的潜质，是一种带噪声的加密方案，通过自举进行噪声控制，可以有效控制噪声增长，让同态运算的次数变多，性能提高。后者将密文构造成一个矩阵进行运算，避免了密文维数膨胀，只需公钥就可以进行同态运算。

全同态加密可以用于云环境下的数据密文计算、安全多方计算、基于同态加密的隐私保护机器学习模型训练、联邦学习等场景。同态加密只保证数据的机密性，而不保证完整性。全同态加密可与可验证计算结合，提供机密性和完整性的安全保证。目前，全同态加密的效率仍然是实用化的瓶颈，亟待进一步突破。

（2）安全多方计算

MPC（安全多方计算）在1986年由姚期智院士提出以来，经过三十多年的发展，目前已朝多个分支发展：零知识证明、可验证计算、门限密码学等。目前，该领域的研究，计算效率已大幅提高，主要用于解决针对具体应用的高效安全多方计算协议、特殊安全模型设计等。

目前多数的安全多方计算基于电路模型设计，包括混淆电路（garbled circuit）、秘密共享（secret sharing）、RAM模型等。计算效率和安全性依然是多方安全计算的瓶颈性问题，针对多方安全计算的高扩展性协议、与区块链技术结合的隐私智能合约、安全多方计算的形式化证明等是当前的研究热点。

（3）联邦学习

联邦学习（Federated Learning）最早于2016年由谷歌提出，原本用于解决安卓终端在本地更新模型的问题，保障数据交换时候的终端数据、个人数据隐私，在多参与方或多计算节点之间开展高效的机器学习。根据数据集的不同，联邦学习分为横向联邦学习、纵向联邦学习和联邦迁移学习。目前联邦学习正发展成为下一代人工智能协同算法和协作网络的基础。

在联邦学习中，需要共享数据的用户通过加密样本对齐、加密模型训练、效果激励形成闭环的学习机制。在工程实现中，可以通过同态加密技术，将本地模型参数和特征参数进行加密后共享到可信的第三方，在不暴露自身数据的情况下，通过可信的第三方中心进行损失计算和梯度汇总，并对汇总结果计算总梯度值，将结果解密分发给各参与方，各参与方再根据第三方中心反馈的结果，完成本地模型参数更新，完成模型特征共享和联合训练。

联邦学习在人工智能和大数据应用场景下，可以实现数据隔离、信息和模型参数的加密计算和交换，并能够保证计算模型质量无损，可以实现参与各方保持独立性情况下，满足用户隐私保护和数据安全的需求，是目前研究的热点之一。存在的难点是，如何应对数据中毒、模型更新中毒、模型规避攻击、梯度参数反向数据推理等对抗攻击和隐私泄露。

（4）可验证计算

在非信任的开放云环境中，攻击者有可能通过恶意软件或供应链攻击破坏计算机并试图破坏数据的完整性。可验证计算（Verifiable Computing）允许数据所有者检查数据和计算的完整性。

该方案与全同态加密结合使用，可以提供机密性和完整性的综合解决方案。在可验证计算方案中，数据所有者将其数据以及所需计算的规范提供给我们称为证明方的某个（通常功能更强大的）实体。然后证明者输出指定计算的结果以及 “证明”，证明该输出是正确的。文献将可验证计算归为MPC的分支。

在文献中，对比了同态加密、安全多方计算和可验证计算在不同云安全场景下的适应性和乘法计算性能：VC性能最优，全同态加密性能最差。可验证计算可以较好的解决非信任云环境下的数据完整性保护问题。

（5）密文检索

密文检索技术提出密文检索服务架构，研究优化存储架构和检索算法等提升检索效率的方法，研究支持多关键词查询、模糊查询、语义查询等多场景下的密文数据多功能检索服务的实现方法。密文检索技术是在保证数据机密性的情况下，保证数据检索的高效性和精确性的关键技术。大数据环境下的密文检索技术研究有重要的应用价值。

5.6 数据使用安全

数据使用安全技术主要是实现数据在对外提供服务的过程中，防止存在非法数据内容信息，如谣言新闻、政治敏感信息、诬陷言论、色情暴力、淫秽信息的肆意传播。实现数据使用安全的关键技术有数据内容监测防护、数据隐私保护和身份认证等。数据内容监测防护是实现监测公开的数据不存在非法信息，隐私数据保护是对敏感的数据进行隐藏、过滤或者屏蔽等防止隐私敏感数据泄露，身份认证是实现对数据的使用范围进行控制。

（1）细粒度访问控制技术

大数据平台为用户提供数据访问服务，在数据访问过程中存在数据被非授权使用的安全风险，从而导致数据泄露、推导或恶意传播。因此大数据需要提供访问控制技术。

传统的访问控制，如基于权限规则控制技术、自主访问控制技术和基于安全级的访问控制技术等，在大数据环境中，各种层出不穷的创新业务模式下控制效果相对有限，在大数据环境下基于业务场景和数据流的安全需求，实现基于任务的访问控制和基于属性访问控制。实现对不同场景访问控制授权策略来灵活设定用户对共享数据的使用权限，从而实现数据细粒度的安全使用和共享。

（2）数据脱敏技术

数据脱敏技术针对海量、多源、异构数据在汇聚过程中面临的敏感及隐私数据泄露问题，实现大数据环境下隐私数据不被泄露，同时通过脱敏后的数据不影响数据的可用性。

研究数据共享与管理、数据交换与应用、跨领域数据流通的特定场景下敏感及隐私数据安全受控交换技术，促进数据资源安全汇聚、共享和交换，确保大数据敏感信息不泄露。通过脱敏规则对某些敏感信息进行数据变形，从而实现大数据环境下隐私数据不被泄露，同时保证脱敏后的数据不影响可用性。

数据脱敏技术主要包括脱敏目标确定、脱敏策略制定以及脱敏实现。脱敏目标确定较为关键的部分是数据敏感程度的分级和确认，是脱敏策略制定的依据。在制定脱敏策略时，选择脱敏算法是重点和难点，可用性和隐私保护的平衡是关键，既要考虑系统开销，满足业务系统的需求，又要兼顾最小可用原则，最大限度的保护用户隐私。

目前的脱敏技术主要分为如下三种：

第一种基于数据加密的技术：采用一定的加密算法覆盖、替换信息中的敏感部分以保护实际信息的方法。例如，采用密码学的算法（如散列、加密等）对原始数据进行变换。该方法属于低层次脱敏。

第二种基于数据失真的技术：使敏感数据只保留部分属性，而不影响业务功能的方法，例如，采用随机干扰、乱序、匿名化模型（K-匿名化、I-多样化）等技术处理原始信息内容，但要求一些统计方面的性质仍旧保持不变。该方法使用的是不可逆算法，适用于群体信息统计或（和）需要保持业务属性的场景。

第三种可逆的置换算法，兼具可逆和保证业务属性的特征，可以通过位置变换、表映射、算法映射等方式实现。

在具体的脱敏实现时，按照作用位置、实现原理不同，数据脱敏可以划分为静态数据脱敏和动态数据脱敏，两者的区别在于，是否在使用敏感数据时才进行脱敏。

5.7 数据安全销毁

（1）残留数据粉碎技术

残留数据粉碎技术是为了确保删除的数据不存在非法残留信息和从删除数据中进行恢复，而造成数据信息的泄露。残留数据粉碎技术主要包括实现数据的分布式环境下的元数据删除技术、缓存数据的删除技术、回收站数据的删除技术和磁盘残留信息的删除与写入技术等。

（2）销毁流程完整性验证技术

数据销毁流程完整性验证技术，就是要确保数据的删除不存在非法的数据留存或者残留信息，不再由于窃取或者非正常操作造成泄露。数据销毁的完整性验证技术可以使用流程闭环、分组限删除元数据和业务数据、多次读写等方式实现数据的销毁流程闭环，确保数据不存在留存副本。

5.8 数据安全管理

（1）安全态势感知与监测预警技术

安全态势感知技术是实现对整个平台的基础设施，平台系统和数据流转过程的安全势态进行探测、分析和可视化呈现，包括不同时间段的态势，不同维度的态势。通过安全威胁情报知识和各类安全态势信息的大数据分析，让管理人员对大数据环境的安全现状实时掌握，支撑对整个大数据系统精细化运维和管理。

监测预警技术为大数据环境下从数据源、大数据平台和大数据流转提供全方位、全视角的统一威胁发现与预警能力，通过主动发现危险信号为整个平台协同安全防护提供信息。包括高级威胁监测识别、危险入侵预警、威胁信号主动推动等。

（2）安全元数据管理和数据监管技术

安全元数据管理技术是在大数据平台的数据资产元数据的基础之上增加安全属性，包括增加数据的标签、安全级别等属性，来实现对数据资产的血缘分析与追踪溯源等安全操作。

数据监管技术是确保保证数据被合法使用、正确流转和共享交换。包括流转过程中的数据权属关系、使用行为、数据流向、风险系数等，现数据资源全生命周期流转过程的全过程可管、可控。

（3）安全策略管理

安全策略管理模块实现对数据安全要求的策略基线的维护和管理，同时根据监测预警模块反馈的威胁信息，生成全局动态协同数据安全防护决策策略。数据安全防护决策策略具有持续动态变化的特性，可以把形成的数据安全防护策略包传递给安全组件管理模块，由该模块实现从策略到配置的转换，将策略落实到大数据网络平台中，从而实现真正的协同防护联动。

（4）安全审计技术

为了对大数据平台中的异常事件、违规行为和业务运行情况等进行全面的了解和事后安全查漏补缺等处理，大数据安全审计技术通过各种安全审计策略对大数据基础设施、系统平台和应用服务的各种安全信息进行关联分析、数字取证、事件追踪溯源、数据追查取证和血缘分析等。

06 研究展望与挑战

6.1 针对党政军等领域高安全敏感数据，数据安全合规性是第一需求，需要在相关法律、标准规范约束下，形成体系化的解决方案和产品

目前大数据和云平台厂商聚焦于IAAS层安全和数据平台（DAAS）安全，IT设备厂商聚焦于IAAS层安全，而第三方安全厂商聚焦于数据安全（包括云应用安全）。能够提供云和大数据整体安全解决方案和相关产品的安全厂商缺乏，体系性的安全防护解决方案和产品欠缺。针对党政军等高敏感领域的私有云环境，鲜有厂商能够提供整体安全解决方案和产品。

另外，从云和大数据安全的标准化方面来看，国际、国内、行业相关的云和大数据安全标准还不健全，核心标准还在制定中，需要加快标准化进程，尽快制定针对行业的相关标准，形成完善的数据安全标准体系。

6.2 数据是流动的价值，需要在大数据安全中树立数据全生命周期管控理念，执行多维度防护措施

在军队和党政大数据和云应用环境中，主要的角色有云服务提供者、云服务使用者和云服务监管者。在数据权属方面，与公有云类似，数据的所有权属于云服务使用者（如军队或政府各业务部门），云服务提供者（部队或政府各信息服务部门）和监管者（部队或政府各信息通信指挥管理机构）一般不具有对用户（云服务使用者）数据的拥有权和使用权。

需要有效利用密码技术在数据的存储、传输、交换共享、使用等环节进行多维度的防护，提供分层、分域、分级别的多维度数据安全防控手段。亟待提供的大数据安全防护需求包括：

数据存储安全需求，防御多租户环境下的数据存储安全隐患，通过加密手段满足云存储加密、对象存储系统加密、块存储加密、镜像加密、网盘加密等需求；数据计算使用安全需求，防御多租户环境下的计算安全隐患，通过综合运用密码和权限管理技术满足密文计算、云主机预启动授权需求、应用系统敏感数据加密需求、桌面云终端用户认证需求和云数据库加密需求；数据传输安全需求，防御虚拟网络环境下的数据传输安全隐患，通过运用密码技术满足网络安全传输需求、租户之间的安全互联需求、租户安全接入需求和租户本地网络与VPC安全互联需求等；数据可信共享安全需求，避免云计算环境下的信任危机，通过运用密码技术实现为云中的身份认证、云应用系统权限管理、云环境下应用系统的信任服务及跨域认证需求。

6.3 在数据安全方面，要突出一体化安全设计，与云平台厂商深度合作

随着云计算基础设施的逐步建立和完善，数据资源迁入云中成为常态和必然趋势。此时数据安全需求更多体现为大数据安全需求。实际情况是大数据平台厂商对大数据平台本身的安全防护投入较少，如主流的大数据开源框架Hadoop，仅主要实现了认证（依赖Kerberos）和权限管控（Sentry）。

国内外较有影响力的大数据平台提供商也因为依赖Hadoop技术体制，在数据安全方面几乎没有新的增量。因此，大数据环境与云计算环境紧密绑定成为业界解决大数据安全的现实做法，通过云平台本身来提升大数据平台的安全性。这种功能协作易于实现，但同时也带来了更多的安全隐患。在云基础设施安全保护方面，在公有或混合云中，用户的数据驻留在第三方实际控制并管理的服务器上，服务器启动过程易受攻击。

因此，需要采用运行时保护技术，对服务器硬件、固件提供验证；在宿主操作系统安全保护方面，虚拟机逃逸是一种可以利用虚拟机软件或者虚拟机中运行软件的漏洞进行攻击，并且攻击者还通常会利用宿主操作系统本身的漏洞，通过网络方式入侵宿主操作系统，从而轻易穿透云安全防护体系，攻击用户虚拟机或者云上的数据。

因此，需要加固宿主操作系统，修补系统漏洞，控制本地访问，提升网络访问的认证强度；在虚拟化层安全防护方面，存在镜像、模板和快照文件缺乏保护措施、虚拟化环境超级管理员权限大不可信、虚拟机间可能相互攻击和控制、虚拟客户机内部监控手段缺失、老旧硬件设备兼容性软件代码安全漏洞等现象，需要采取一体化设计的思路，通过虚拟机防火墙、数据中心网络安全路由交换以及实时、中立的强监管措施进行防范。

6.4 在云端数据和应用安全防护方面，要针对云端应用特点提供不同粒度防护

Web是用户访问大数据中心常用的技术体制，云端Web应用运行在开放的云环境中，面临多种安全威胁，需要对常见的Web漏洞（如SQL注入、跨站脚本、恶意指令等）、恶意扫描工具、异常访问等进行安全防护，基于可灵活配置的动态策略，执行对应用的全面保护。

大数据应用在接受用户访问时，既要快捷高效，也要保证按需受控，对不同角色用户赋予的权限应尽可能细粒度控制，满足大数据资源、云资源和云应用安全接入和访问需求。具体可根据不同的策略对用户接入进行限制与管理，比如通过用户登录IP地址、用户接入时间点、用户接入次数等进行接入限制；提供增强认证服务，如加入CA认证、双因子认证等；云上应用提供更细粒度访问权限和操作权限，避免非法访问行为。

用户使用大数据的过程中，大数据平台管理员（内部人员）可能恶意或过失危害大数据平台用户的信息安全，导致用户数据丢失、泄露，严重时甚至危及国家安全。所以对大数据平台管理员进行行为审计功能，能够在危害发生前，起到震慑不法分子作用，危害发生后可用于对事件的追溯和证据的提取，同时也帮助大数据的用户随时了解管理员的行为，消除大数据用户的安全顾虑。另一方面要对大数据应用的用户行为进行审计，能通过分析审计数据，排查恶意用户的行为。

6.5 智能、便捷、高效、透明成为数据安全防护的必然需求

随着网络环境越来越复杂、攻击手段越来越隐蔽，数据安全运维的难度也越来越大。在云和大数据时代，安全分析人员要处理的数据规模与其处理能力严重不匹配，攻击报警得不到及时响应，应急处理效率低下，已有安防手段协同困难，对安全人员技术要求高。这造成用户虽部署了安全设备仍然被入侵，部分用户对增加安全防护手段后，系统性能下降、使用不便有顾虑。通过提高分析人员数量来应对大数据的思路显然不可行。

可行的方法一是防护模式方面，基于SECAAS的思想，利用安全资源池、密码资源池、SDS（软件定义安全）、SDP（软件定义边界）和CASB（云安全代理）等实现方式，实现安全保密能力的云服务化提供，并形成体系化协同防护的能力；二是利用人工智能技术提升对安全大数据的处理能力，提供辅助决策能力，提升对安全威胁监测分析的能力和对安全事件的响应速度。

作为数据安全的极为重要的关键技术，基于格困难问题的同态加密具有抗量子攻击的特性。目前已经从第一代的基于理想格和基于最大近似公因子问题的加密方案、第二代的基于格上LWE（Learning with Error）同态加密，发展到了目前的第三代：基于矩阵近似特征向量的GSW同态加密方案。同态加密自举的效率问题、安全性设计（如抗侧信道攻击等）、电路隐私等目前仍然是该技术的难点，阻碍其投入实际广泛应用。

另一方面，数据分级分类在具体工程实践中，面临巨大的技术挑战。人工标注和分类分级效率满足不了大数据环境的使用需求，智能化自动化的数据分级分类将是需要重点突破的技术。

由于各业务领域对数据的分类和分级标准不一，要做到智能化，需要根据不同业务领域设计相应的智能分级分类算法。对于不断产生的新类别的数据和计算过程中产生的中间数据的动态分级分类，则需要更为智能化的算法来进行标注。

07 结语

大数据环境下数据的安全成为防护的核心，新的安全威胁如数据泄漏、数据隐私保护、数据机密性和完整性保护、恶意内部人员、高级持续性威胁（APT）、数据丢失、数据滥用和恶意使用、数据共享等都面临着新的技术挑战。

本文结合工程实践，提出了大数据协同安全防护体系，并对其原理、架构和关键技术进行描述，可对实际工程应用提供借鉴。未来，我们将继续对数据智能分级分类标注、密文计算、多方安全计算等核心关键技术进行进一步的研究，并实现工程化实际应用。

作者简介

张锋军（1975—），男，学士，研究员级高级工程师，主要研究方向为网络空间安全、云计算和大数据安全、信息系统智能管控技术；

杨永刚（1981—），男，硕士，高级工程师，主要研究方向为大数据、云计算和信息安全技术；

李庆华（1977—），男，学士，高级工程师，主要研究方向为软件工程、云计算与大数据安全技术；

许杰（1978—），男，博士，高级工程师，主要研究方向为云计算与大数据安全、信息安全；

牛作元（1983—），男，硕士，高级工程师，主要研究方向为云计算与大数据安全；

石凯（1992—），男，硕士，工程师，主要研究方向为云计算与大数据安全。

引用本文

张锋军,杨永刚,李庆华等.大数据安全研究综述[J].通信技术,2020,53(05):1063-1076.

ZHANG Feng-jun, YANG Yong-gang, LI Qing-hua，et al.A Survey of Big Data Security[J].Communications Technology,2020,53(05):1063-1076.

选自《通信技术》2020年第五期（为便于排版，已省去原文参考文献）

声明：本文来自信息安全与通信保密杂志社，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

大数据安全研究综述

面向数据要素流通的商用密码安全保障体系研究

国家数据局印发《关于推进行业高质量数据集建设行动的实施方案》

开源情报中数据过载问题的破解之道