信息系统中最核心的资产是数据,数据资产需要具备机密性、完整性和可用性,以保证数据不会被非法外泄,不会被非法篡改,同时不影响数据使用者的使用方式和习惯。同时随着互联网、大数据应用的爆发,人们越来越多地享受到数据带来的红利和价值,数据的属性也同时开始变化,成为可以产生价值的资源。数据的高价值资源属性使数据泄漏带来的损失升级,同时也带来了恶性的社会影响,数据丢失和个人信息泄漏事件频发,地下数据交易(黑灰产)造成内部恶意数据泄漏事件频出,社会热点事件层出不穷,甚至危害国家安全。

企业在数据泄漏防护方面,往往认为内网相对安全,而将重点都落在了对黑客和外部攻击的威胁防护上,殊不知内部威胁已经成为数据泄漏的主要元凶。据《财经》杂志报道显示,有80%的数据泄漏是企业内鬼所为,黑客和其他方式仅占20%。如何有效地防范内部人员威胁,降低机密数据、知识产权、个人信息的泄漏风险,已经成为政府、企业和大众共同关注的问题。

安全防护的本质是数据,核心数据资产的安全一直是安全产业关注的重点。关注数据安全领域中的数据防泄漏技术模型,对当前主要的数据防泄漏技术路线进行了对比分析,对其面对的困难和挑战进行了阐述,并对国内外数据防泄漏技术模型的两个最主要发展方向进行了介绍和分析。

现有技术路线分析

当前可以实现数据防泄漏的技术路线主要有三种:

(1)数据加密技术

数据加密是过去十年国内数据泄漏防护的基本技术之一,包含磁盘加密、文件加密、透明文档加解密等技术路线,目前以透明文档加解密最为常见。透明文档加解密技术通过过滤驱动对受保护的敏感数据内容进行相应参数的设置,从而对特定进程产生的特定文件进行选择性保护,写入时加密存储,读取文件时自动解密,整个过程不影响其他受保护的内容。

加密技术从数据泄漏的源头对数据进行保护,在数据离开企业内部之后也能防止数据泄漏。但加密技术的秘钥管理十分复杂,一旦秘钥丢失或加密后的数据损坏将造成原始数据无法恢复的后果。对于透明文档加解密来说,如果数据不是以文档形式出现,将无法进行管控。

(2)权限管控技术

数字权限管理(Digital Right Management,DRM)是通过设置特定的安全策略,在敏感数据文件生成、存储、传输的瞬态实现自动化保护,以及通过条件访问控制策略防止敏感数据非法复制、泄漏和扩散等操作。

DRM技术通常不对数据进行加解密操作,只是通过细粒度的操作控制和身份控制策略来实现数据的权限控制。权限管控策略与业务结合较紧密,对用户现有业务流程有影响。

(3)基于内容深度识别的通道防护技术

基于内容的数据防泄漏(Data Loss Prevention,DLP)概念最早源自国外,是一种以不影响用户正常业务为目的,对企业内部敏感数据外发进行综合防护的技术手段。DLP以深层内容识别为核心,基于敏感数据内容策略定义,监控数据的外传通道,对敏感数据外传进行审计或控制。DLP不改变正常的业务流程,具备丰富的审计能力,便于对数据泄漏事件进行事后定位和及时溯源。

前文所述的三种技术路线各有优劣势,对比分析结果如表1所示(点击放大)。

面临的困难与挑战

由于国内外企业管理和技术水平趋于成熟,用户的真实需求和应用场景开始驱动数据防泄漏产品在脱离合规的基础上向更完善更有效的解决方案发展。新的监控要求和实际的用户场景都对数据防泄漏提出了更高、更实际的需求,也使现有数据泄漏防护技术面临着新的困难与挑战。

(1)合规监管

数据安全已经不仅仅是企业自身所面临的风险,个人信息泄漏事件同样纳入到法律层面予以保护。近几年,《网络安全法》、《个人信息安全规范》、《欧盟通用数据保护规范(GDPR)》陆续出台,从法律法规层面对数据防泄漏产品提出了更多的合规监管要求,也为数据防泄漏技术发展提供了参考和依据。

(2)策略定义困难

数据防泄漏产品严格依赖策略定义来执行工作流程,DLP策略的制定需要有数据拥有者(业务人员)参与,而往往实施DLP产品的技术部门对敏感数据接触较少,不清楚哪些是敏感信息,对其泄漏产生的后果也无法评估,因此不容易定义出有效的策略。

(3)误报率高

由于缺少业务部门对数据风险类型和等级的输入,策略定义宽松会造成大量的误报告警事件,尤其是在关键词策略定义过于简单或正则表达式策略的命中次数限定过少时。

(4)预警滞后

DLP产品要保护的对象是在企业内部以非结构化形式存储或流动的数据,其使用场景是防止内部人员有意或无意识地造成数据泄漏,希望达到的效果是发现泄漏能够快速响应和追责,更好的效果是能够实时阻止甚至提前防止此类事件的发生。传统的DLP产品解决了快速响应和实时阻止的问题,却没有能够很好地达到准确溯源和提前预防的效果。

发展方向分析

为解决DLP面临的实际困难和问题,并更好地应对国家、行业的监管要求,数据防泄漏产品开始跳出固有框架,寻找新的技术路线。通过对国内外主流DLP和数据安全厂商的调研,本文总结了目前数据防泄漏技术模型的两个最主要的发展方向。

数据安全治理框架

Gartner在2017年提出“持续自适应安全风险和信任评估”(Continuous Adaptive Risk and Trust Assessment,CARTA)的安全理念,是一种全新的战略架构。在数据安全领域实施该架构时,将该架构分为发现、监测、分析和防护四个象限,对用户、设备、应用、行为和数据进行持续可视化和评估。该架构很容易和DLP的实施过程对应起来,可以发现持续的可视性和评估对于此架构应用于数据保护至关重要。

对于DLP产品来说,一般从CARTA架构的Monitor象限开始,先使用审计方式,采用比较宽松的策略,且只检测一小部分非结构化数据,然后陆续进行Analyze和Protect象限。但由于一开始跳过了Discover象限,DLP产品往往很难进入到Protect象限,或更好地发挥作用,需要对数据(内容、途通道)有更直观、系统的了解。由此引出“数据安全治理(Data Security Governance)”的概念,如图1所示。

从架构图中可以看出,数据安全治理框架是自上而下的。在部署具体安全产品之前,需要企业对内部的数据资产进行一个系统的梳理,解决如下问题:

①数据在哪里

②敏感数据是什么,敏感程度如何

③谁拥有敏感数据、谁使用敏感数据

④敏感数据将被发送给谁

⑤数据通过什么方式流转、共享、传输

数据发现与分类

(1)数据发现

要确定数据安全防护的目标,首先要了解要保护的数据有哪些,分布在什么位置。Gartner在2017年提出暗数据(dark data)的概念,指出企业内部存在大量位置未知、未合理利用的非结构化数据,使企业存在潜在的数据安全风险。数据发现技术可以很好地解决这个问题,能够对各个数据存储仓库中的数据进行自动遍历,发现敏感数据的存储位置,检查敏感数据的用户者和使用者是否符合安全制度要求,并可以监控敏感数据的用户权限和流转过程。

(2)数据分类

为了便于制定数据安全保护策略,在发现了全部敏感数据分布位置之后,需要对数据资产进行分级分类,并根据分类结果,筛选出重点要保护的数据资产,进而进行数据敏感性标识。

数据分类主要分为两类:基于内容的分类和基于用户的分类。

(a) 基于内容的分类

一般利用DLP的内容匹配策略和算法,依据行业标准、企业内部规范等将数据划分为公开数据、用户信息、知识产权、商业机密、内部核心数据等。

(b) 基于用户的分类

在没有明确合规性依据指导时,可以为用户提供分类工具,让用户根据实际情况对数据做单独分类,如分为公开数据和仅限内部使用数据,或分为源代码、技术文档、财务数据等。

分类结果需要标记到对应的数据中,基于分类标记可以实现对数据生命周期的流转追踪和数据资产的可视化展示,根据不同的数据标记,可以为不同安全级别的数据制定有针对性的安全保护策略,如对数据进行权限分配或修改,或执行对应的防护动作(加密、脱敏、移动、隔离、删除),从而提炼出可实施的策略方案。如图2所示。

数据生命周期安全防护

解决了数据发现与分类标记之后,配合不同部署方式和技术路线,DLP可以覆盖整个数据生命周期的全部环节。国外已经出现一批做数据分类和数据标记的厂商,这些厂商只提供独立的数据发现和分类标记功能,可以通过模块或API形式与DLP产品进行结合。一些DLP企业也已经在自己的产品中引入了数据发现与分类技术,形成完整的数据安全治理技术模型,从而对数据生命周期安全进行整体防护。如图3所示。

以人为中心的内部威胁防护

内部员工已成为保护企业重要数据的薄弱环节,尤其是对内部员工的社交攻击往往无法被安全网关检测到。Gartner认为要改变安全现状,需要以人为中心的安全策略,将企业的安全防护重心倾向于强化人的责任和信任,弱化控制型、阻止型防护手段。

内部威胁防护是一种新的安全防护模型,它以“人”为中心,以数据为目标,通过数据内容分类和用户行为分析,很好地解决了传统DLP技术误报率高,预警滞后的问题。

用户行为建模

近两年来,传统DLP开始于用户实体行为分析(UEBA)技术相结合,在敏感数据内容监控的基础上,对内部用户的操作行为进行基线建模,并根据异常行为分析和风险变化动态调整数据安全策略。

以数据为中心的用户行为分析模型实现流程如下:

step1 利用DLP技术对敏感数据进行追踪。

step2 为用户建立行为基线,采集用户行为信息,并依据策略对用户行为进行加权打分,给出行为基线。

用户行为信息采集目前主要分为终端侧采集和网络侧采集:

①终端侧:在终端上部署agent,进行行为监控和信息收集,以用户为中心建模,记录用户的数据下载、修改文件后缀、U盘拷贝敏感内容、大量外发或打印文件等行为信息。

②网络侧:多以旁路镜像方式部署网络设备解析网络流量,以IP为中心建模,记录点滴式泄漏、修改文件后缀、加密外发、嵌套文件、多层压缩、密送、大量外发未知类型文件、外发超大文件等行为信息。

step3 异常行为检测:分析引擎对用户行为仅限上下文关联分析,对用户风险等级进行打分。

step4 威胁预警:结合数据风险等级,利用机器学习等算法对威胁等级进行综合计算。

数据检测与响应DDR

传统的企业DLP技术在结合了用户行为建模与分析后,由于缺少对内部威胁行为的快速响应,仍不足以防止内部威胁,数据检测与响应(Data Detection and Response,DDR)技术应运而生。

DDR只关注与数据相关的检测与响应,通过网络和终端两个层面对数据内容和数据操作行为的信息收集和建模,对异常用户行为进行自动感知并按照策略执行对应的防护动作,可以提前阻止数据泄漏行为的发生。同样的操作,由于人员风险等级不同,执行的管控策略也可能不同,并在终端执行自动响应动作。DDR的整体流程如图4所示。

DDR技术将传统DLP的防护范围向内推进,起到了提前预警的作用,同时降低误报率,便于溯源取证。与传统DLP模型相比,DDR模型综合了数据风险和行为分析,并具有很好的终端感知与联动能力,可以有效防止特权账户滥用、被盗账户等带来的数据泄漏风险,防护效果更佳。

以上分析的数据防泄漏技术只是数据安全中一个细分领域,从技术发展角度讨论如何更有效地解决内部人员有意或无意识的数据泄漏问题。在国内,基于深度内容识别的数据防泄漏技术已经日渐成熟,并发展出一些适应国内市场的特色方向(如DLP与加密的整合,防窃照技术等),但仍需要加强在终端侧的安全防护投入。

内容节选自《信息技术与网络安全》2019年第八期论文,作者万淼

声明:本文来自信息技术与网络安全,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。