君哥点评:

随着企业越来越重视,服务器和应用漏洞挖掘难度越来越大,知乎上就有篇帖子《现在网站越来越难渗透了,渗透测试这个方向还有前途吗?》介绍这种情况。那么接下来,在终端上的安全对抗,将会是个趋势。

另外,随着网络层越来越多流量加密导致NTA监测失效,EDR、终端数据安全防护技术发展,主机端上有安全agent也是个大趋势。终端侧的趋势是更新换代,服务器侧是从无到有,开始部署HIDS/HIPS,增强主机层防护检测能力。

基于此,我们在终端侧开展终端安全运营,在服务器侧开展服务器安全运营,强化公司内部安全的主机层防护检测能力。

张游知是我们网络安全部终端安全运营负责人,负责公司一万多台终端的安全运营从0到1,将安装率,正常率,合规率提升到极致。他在一次会议上,分享了这段“痛苦”的过程。过程痛苦的,结果都还比较好。

本文关键字:安装率、正常率、SOP、有效性检测、增量问题、用户习惯、EDR、加白检测。


既然我们今天要谈终端安全运营的实践,就不要过多的堆叠和阐述一些概念性的东西,而是沉下去,毕竟实践出真知,实践是检验真理的唯一标准。在这里我们主要围绕三个方面来谈:

  1. 公司终端安全运营的发展过程和现状,在过去一年多的时间里,我们发现了哪些终端安全的风险和隐患,遇到了哪些问题和阻碍,摸索落地了哪些运营思路和流程,效果如何,目前的运营状态如何;

  2. 我们在终端安全运营中,发现了哪些共性的问题,也就是大家关心的所谓痛点,对于这些问题,有一部分我们拥有了比较成熟的运营思路和流程加以应对,有一部分我们也没有找到最佳实践,还在反复的摸索和尝试中;

  3. 聊一聊今年一月份,我们内部进行的一次攻防演练,在这次攻防演练中,终端安全扮演了哪些角色,发挥了哪些作用,我们又发现了哪些终端安全的问题。

一、公司终端安全运营的昨天和今天

公司终端安全整体运营思路是以下三点:

对安全运营的要求主要围绕两个方面,高可见性和高可运营性:

高可见性更多的是对数据的要求,包括数据的广度、深度、精度等等,现阶段更多的体现在量化指标。

高可运营性则更多的是对流程的要求,包括管理上的标准化流程,技术上的稳定化乃至自动化,现阶段更多的体现在标准化运营流程,也就是SOP。

我们现阶段的整体思路就是围绕指标和SOP,通过一些标准化的运营手段和运营流程,来提升终端安全指标,以此来解决终端安全的问题,提升终端安全水平,而在未来,主要将从两个方向来发展,一个是指标扩大加深,尝试加入病毒、补丁、软件、EDR、DLP等等内容,另一方面则是由SOP逐步转向自动化运营,也就是SOP的终极形态。

既然谈到了指标,我们先看一下一年来公司终端安全指标的变化情况:

我们经过反复的调整,确定了图里的四项基础指标:安装率、实名率、正常率、合规率。这四项基础指标可以比较清晰的展示内网所有终端的基础防护水平。

而当我们回顾这一年多,四项终端安全基础指标的变化情况的时候,发现了一个乍看起来有一些意外的情况:指标并非想象中的持续增长,而是出现了幅度很大的上下波动。当我看到这张走势图的时候,脑海中第一反应就是:

这不就是传说中的“达克效应”么。

张游知

达克效应讲的是人对事物的认知过程的几个阶段:愚昧山峰、绝望之谷、开悟之坡、持续平稳高原,也就是不知道自己不知道,到知道自己不知道,再到知道自己知道的过程,这恰恰符合我们在安全运营工作中的几个阶段,无法发现问题,发现问题无法解决,到尝试解决问题,落地标准化的应对流程。

1.愚昧山峰

第一个阶段,也是达克效应中最有意思的一个点,所谓愚昧山峰,也就是无法发现问题的阶段,当我们开始觉察到问题存在的时候,也就开始从愚昧山峰转到下一个阶段了。

在此之前,我们也有相关的要求和管控手段,要求所有终端安装我们的终端安全软件。我们也一直认为,在有相关的要求和准入管控手段的前提下,所有终端应该都安装了终端安全软件,处于受保护的状态下。直到一天,在流量侧发现一个ip异常行为,判断为这台终端感染了永恒之蓝。我们对于感染永恒之蓝是有对应的SOP的,但是当我们自信满满的确认这台终端的时候,我们发现,在控制台无法找到这台终端的信息,更无法定位到使用人,最后只能通过各种登录日志找到,耗时近两小时,远远超过了我们之前规定的处置时间。而在安全运营当中,我们一直秉承一个观点,一个异常的背后,一定有十个甚至一百个异常,就像冰山一样,你看到的永远是浮在海面上的冰山一角。那么,当我们遇到了这样一个情况的时候,脑海中的第一个问题就是:

  1. 为什么有准入的管控,依然有无法定位到的终端,是否说明我们的管控手段失效了?

  2. 那么由此而来的问题是,失效的时间是什么时候?失效的范围有多大?失效的原因又是什么?

当我们一旦开始思索的时候,一些之前没有发现的问题,一些之前发现了但是被忽视了的问题,都开始一个一个的冒出来了:IT没有资产台账,BYOD设备多,VPN接入多,业务类型多,和运维IT没有协作,没有资产运营,管控手段没有真正落地,等等。

当我们面对这一堆问题的时候,当我们发现我们已经处在了愚昧山峰的时候,我们尝试做的第一件事,就是将这些问题直观化,将种种实际情况进行量化,用数据来展示,我们的真实情况如何,有哪些问题,问题有多严重。我们的终端安全指标的概念,也正是这样诞生的。

2.绝望之谷

当我们设定了终端安全指标之后,我们开始尝试让指标更准确的反应真实情况,然后再将指标提升上来。但是这个阶段,可以说是一整年中,最痛苦的一个阶段,称之为绝望之谷毫不过分。

在这个阶段,问题在横向和纵向都无限扩大,就好像是把一个口子越撕越大,越撕越深的过程。从横向来说,问题的范围在扩大,越来越多的方面被牵扯进来,从纵向来说,问题的深度在增加,很多问题从浮于表面,变得更加深入,甚至触及到一些非常敏感的点。

我们遇到的第一个问题,其实也是在一年的指标走势图中,指标急剧下跌的主要原因。指标急剧下跌的原因很简单,因为我们的分母越算越大。

在对指标的反复检查,对资产进行反复梳理盘点之后,我们发现的终端资产和其他资产,比如网段资产,都越来越多。同时我们发现的没有被管控覆盖的黑点也越来越多。其实这些没有被管控覆盖的点,我们一直都在发现,举个例子,之前,我们对一个客户进行终端安全运营的展示,是在公司的一个对外展示的会议室进行的。我们准备给大家展示一下管控策略,展示一下没有安装终端安全管控软件,被拦截无法进入内网的情况。

结果万万没想到,这次展示变成了大型打脸现场。

张游知

我们的电脑在没安装终端安全软件的情况下,插上网线直接就连入了内网,场面一度十分尴尬。我们后来进行检查的时候,才发现,这个会议室单独划分了一个特殊的ip网段,而这个网段,我们恰恰认为不会有办公终端,所以没有开启准入管控。

我们遇到的第二个让人绝望的情况是,着手提升这些终端安全指标的时候,下发了很多通知邮件,请公司全员来配合我们,进行一些终端加固工作。

很遗憾,我们期待的一呼百应,热火朝天的场面并没有发生,所有的通知邮件都石沉大海,没有任何回应。

我们尝试了一些管理手段来推动,比如说,我们要求所有的部门,都指定了一名安全专员,我们希望能把要进行的工作项,通过安全专员在各自的部门进行推动。这些安全专员,一开始确实充满热情,非常配合我们的工作,但是不到两周之后,我们就发现,这些安全专员开始不再配合我们了。其中的原因有很多,比如说,我们的规定不够明确,再比如说,也是最重要的一个原因,我们能提供的技术手段太少,只能提供一个待完成的名单数据,完全期望依靠安全专员在部门内部的推动这样一个单纯的管理手段来完成。这次失败,也让我明确了一个观点:

单纯的管理手段,是没有任何价值的。

张游知

可以说屋漏偏逢连夜雨,当我们疲于应对各种层出不穷的问题的时候,公司开始逐渐迎来了入职高峰期。在入职高峰期,公司可能每周要入职80到100人,这些新入职的同事,有一些使用的是自己的BYOD设备,完全没有进行任何终端安全软件相关的工作,有一些领取的公司配发的电脑,往往也没有实名,终端安全软件停留在上古时期的版本,安全基线也不合规。那么一个非常尴尬的情况是,每周二的入职日,变成了终端安全项目组的噩梦,可能前一周,好不容易我们解决了100台有问题的终端,入职日一来,前一周基本就白干了。

另一个非常棘手的问题是,随着我们把终端安全运营的工作大规模的铺开,我们遇到了大规模的来自全公司员工的质疑和反弹。还是拿推动终端实名认证的例子来说,在某段时间里,我都不敢看我的蓝信消息,一打开就是各种群里在无情炮轰。有两个比较一致的喷点:

一是对数据准确性的质疑。我们的部分数据,确实有瑕疵,比如数据来源覆盖度不够,比如数据没有及时的更新,另一部分,用户觉得我们的数据不符合他的心理预期,所以质疑数据不准确,也就是一个经典的问题,你这数据是哪儿来的,是不是有问题啊。

二是规定不清晰,无意义的工作太多,或者说,用户认为的无意义的工作太多。比如,我们认为的实名认证是终端维度的,如果一个人有多台终端,那么每一台都需要实名认证,但是事实上,我们经过了很长时间之后,才发现在不少用户的理解中,实名认证是指人的维度,只要在任意一台终端上进行了实名认证就可以了。最后一个经典的喷点是,用户出现疑问,或者出现技术性的问题的时候,没有一个顺畅的反馈渠道,只能发泄自己的不满。

我们面临的最后一个问题,也是最严重的一个问题是,工作项缺少持续的跟进。经常当我们想起一周前、两周前制定的一个工作项的时候,发现已经和预期的效果完全跑偏了,甚至这个工作项已经没有人在跟进了。这个问题就是典型的,不符合高可运营性的要求。

既然已经掉进了绝望之谷,那么我们就要想办法爬出来。我们尝试从几个大的方面来想办法,比如打磨优化产品,扩展挖掘产品的功能,提升技术手段的有效性和稳定性,我们将一些问题和场景进行了划分和拆解,例如在入职的问题上,我们派出一名一线同学,深度潜伏,一个人入职了四五次,把入职的每一个环节都拆解开来,再把终端安全相关的工作项嵌进去,再比如说,我们同时尝试自上而下和自下而上的管理手段,既从最上层领导层层施压,也进行了大量的单点联系的工作。

3.开悟之坡

经过反复摸爬滚打,不停撞南墙之后,我们开始摸索出了一些有效的思路和流程,各项指标也进入到了持续提升的一个阶段,或者说,我们开悟了。

在这个阶段的前后,我们做了哪些行之有效的工作呢。我们做的第一个事情,就是制度先行,把各项相关制度规定补全,保证我们在运营过程中“有法可依”。例如发布了官方的《公司员工电脑使用管理办法》、《公司员工入离职管理办法》等。

其次,在保证准入有效性的方面,我们对公司所有的办公网段进行了梳理,对所有的VPN服务器也进行了排查,把所有内网入口都覆盖,避免出现窗户层层防护,结果却忘了关门的情况。

同时,我们的指标运营很大程度上依靠终端实名信息,因此花了很大力气来挖掘、定位无主终端,通过对终端安全软件数据、VPN认证日志、802.1x认证日志、交换机认证日志、甚至某些系统的访问日志、终端EDR日志、终端文件名等等数据的联动,前后定位了1500台无主终端。

工欲善其事,必先利其器,我们也给终端安全产品线提了很多的问题和需求,包括184个问题,102个需求,这两个数字可以说明我们在优化提升产品方面的努力。

但是,现在再回过头来,看这些需求,特别是一些定制化的需求的时候,我们越来越觉得:

定制化需求很多时候并不是最优解,甚至可以称之为一把双刃剑。

张游知

可能大家都觉得,一个完全按照自己的心意的,高度定制化的产品是很爽的,我曾经也是这么认为的,然而,当我们更理性的思考定制化需求时,发现定制化还是有很多问题的。比如定制化的成本问题,高出的成本包括开发验证定制化需求的时间成本,包括在之后的版本更新中随时伴随的维护成本。

另外,很多定制化的需求,其实都是临时性的需求,可能下一个版本就被其他更高,适用范围更广的功能取代了,可能这个临时需求解决的问题,本身就是在特殊时期存在的个别问题,那么我们当时花了很大力气推动实现的定制化功能,就显得非常鸡肋了。所以,现在我们对于定制化的态度,比以前要谨慎的多,定制化需求和功能,并不能代替运营手段,很多时候,运营手段往往性价比更高、针对性更强。

最后,我们把这些经过实践证明的运营思路和流程,固化下来,形成SOP,建立运营标准。这一步也是真正意义上从量变到质变的一步。我们前后制定了82篇SOP,这82篇SOP,我认为是整个运营质量最有效的保障。

4.持续平稳高原

终于,我们把时间轴拉到了现在,那么,当我们解决了出现的种种问题,从一个个坑里爬出来之后,我们的终端安全运营进入了一个怎么的状态呢,我认为,现在,在这个所谓的持续平稳高原,我们有三个做的很好的点。

第一个点是,我们保证每天对所有指标对进行复查,对0.1%的指标变化,都要确认到背后的原因和场景。能够达到这种精度的操作,对于指标数据的可见性是有很高的要求的,在这方面,我们维护了一张指标提升总表,里面包含了全公司所有终端的各项指标,我们对每一台终端进行过的运营都有记录。这张表的价值是非常大的,提供了很强的数据支持。

第二个点,就是我们在持续对SOP进行精修。我们依靠SOP进行工作,但是绝不迷信SOP,一旦SOP和实际场景出现偏离,我们就会进行修正,保证SOP高度适用于公司内部场景,平均每篇SOP,都进行了10次左右的调整和修改。公司终端安全运营团队的正常配置是4位一线同学,但是,因为内部项目是一块试验田,也是一个培养基地,所以我们的人员变动的剧烈程度,远远超出了正常情况,在一年的时间内,项目一共有37名同事进进出出,那么,在这种情况下,我们的项目还能够平稳运转,各项指标还能稳步提升。

这就是SOP的力量,标准化流程的力量。

张游知

最后一个点,就是日报和周报。在传统意义上,日报和周报可能是给不干活的人看的,让他们对项目进度有一个掌握。但是,在我看来,日报和周报,有一个重要的价值,是给从事日常性工作的人,一个跳出来看整个项目的机会,或者说,给大家开了一个上帝视角,让大家从更高更整体的角度,来掌握进度,发现问题和风险点,事实上,我们的很多问题和点子,都是在整理数据写日报的过程中发现的。

二、当我们聊终端安全运营时,我们关心什么?

1. 运营范围划分

所谓范围划分,其实是围绕着一个问题来进行的,即哪些终端,是我们关心的终端,是我们要管理的终端。我们往往要做的第一个事,就是算分母,所有的终端安全指标,理论上都是使用同一个分母,这个分母,也就是我们关心和需要管理的终端范围。在终端安全项目开始时,

我们前后对分母的算法进行了17次改版,目的只有一个,把分母算全并且算准。

张游知

在这17版算法中,我们尝试了各种不同的维度和数据来源,比如人的维度,但是无法解决一人多台终端的情况,比如IT资产台账的维度,但是无法处理BYOD设备,再比如我们尝试了终端用户主动上报的方式,由员工自行上报自己使用的终端设备,但是显然,这种管理办法是无法落地的,更没有办法保证信息的及时更新同步。最终,我们采用了完全不依赖人的配合,完全用客观数据的方式,考虑我们内网有且只有802.1x和VPN两个入口,基于这两个入口的认证日志,去除掉例外,来生成分母。另外,我们也引入了时间窗口的概念,将所有数据都选取近30天内,来避免BYOD造成的无限增量问题。

例外有很多种来源,比如特殊的业务要求,比如临时性的需求,我们对于例外的处理,其实是一个非常典型的,从繁到简,从简再到繁,这样一个螺旋上升的过程。

第一次的从繁到简,是我们把种种复杂的情况和场景,为了便于计算和管理,简单粗暴的划分为例外人和例外终端两种,分别通过域账号和MAC地址加以区分。

第二次的从简到繁,是我们加入了白名单复查机制,比如有一些项目的特殊业务需求,无法安装终端安全软件,那么现在项目是否结束了?再比如一些临时的可用性问题,暂时加白处理,那么现在问题是否解决了,是否可以装回来了?而当我们没有这个机制的时候,白名单一定是无限扩大的。

第三次的从繁再到简,是我们尝试把例外的申请、审核、管理,都尝试建立标准的流程,加入一些自动化的申请手段。未来我们即将要进行第四次的从简到繁,对于添加了例外,不安装终端安全软件的终端,我们同样要使用一些替代性的管控手段。这就是整个例外机制的螺旋上升。

范围划分中的另一个点,是区分高价值终端,这也是精细化运营的一部分。对于高价值终端,我们不是局限于指标上的要求标准不同,同时也指定了一些专门针对高价值终端、高价值用户的VIP规则。比如说,当VIP用户的账号,在一个新的设备登录时,产生告警,比如说,当VIP用户的账号,在境外拨入VPN时,产生对应的告警。我们甚至还采用过一些高度定制化规则,例如,在2月份,我们更新了一个新的大版本,我们希望某几台重点终端能在连入内网之后,第一时间更新到新版本,我们从这些重点终端有日志返回的一瞬间,就开始监测他的整个升级动作。从某些角度来说,这些高价值终端,也像是一个试验场,这些定制化的规则,都可能转为自动化的检测手段,扩展至全部终端范围。

2.管控手段的有效性

其实管控的有效性,是最容易被忽视的问题,几乎每一个新加入终端安全项目的同学,都会问我一个问题,为什么我们开启了准入管控,安装覆盖率却不是百分百?不知道大家有没有思考过这个问题,开启了准入管控,安装覆盖率就是百分之百了么,如果不是,为什么不是?

其实原因真的很多,我随便列举几个:

准入的覆盖是否全面:是不是所有的ip网段都覆盖到了,有没有之前谈到的,会议室特殊ip这种灯下黑的存在,是不是所有的VPN服务器都覆盖到了?

准入有没有被绕过:有一些可能是有意的绕过,比如VPN准入往往检测的是进程名,那么伪造进程名就可以轻易绕过,另一些可能是无意的绕过,比如使用了老版本没有准入功能的VPN客户端、安装了其他控制台的终端安全软件客户端等等。

数据是否准确:一些数据的失真,也造成了安装率的偏离。比如说,我们使用的VPN日志中,一次完整的连入内网的认证动作,包含了4条日志,我们一开始使用“分配服务列表”这条日志,作为连入内网的标志。但是我们后来复盘的时候发现,其实尝试连入VPN,但没有安装终端安全软件被准入拦截时,同样会生成这条日志,所以造成了分母的虚高,也就是安装覆盖率的偏低。

由此而来的,就是我们一再强调的,失效点检测的概念。君哥经常给我们强调:

有了失效检测的意识和行动,才能算入了安全运营大门。

聂君

当我们的管控手段出现问题,比如有黑点,比如有人绕过时,我们多久能够有所感知?如果是单纯的被动感知,可能我们意识到有失效点的时候,往往已经发生了比较严重的安全问题。我们必须保持有主动性的,有针对性的检测手段,比如最简单的,我们通过一些未安装终端安全软件的终端,定期或不定期的发出连入内网的请求,一旦能够连入,就立即生成告警。

3.用户体验问题

管控手段带来的另一问题,就是用户体验问题,这也是几乎所有公司都关心的一个问题。我们必须先明确一点,用户体验不是一个绝对的概念,换句话说,不存在绝对意义上的提高用户体验。任何管控手段,都势必会影响用户体验,但是我们依然可以尝试做一些事情,比如:

我们可以尝试用一些纯技术手段,来降低用户的参与度,甚至完全不需要用户的参与,在用户无感知的情况下完成,来回避用户体验,一个例子是实名认证,一直以来我们要求用户自助进行实名认证的努力都不太成功,我们索性把这个动作完全通过技术手段解决,通过VPN客户端,自动将用户登录的域账号发送给终端安全软件客户端的接口,由客户端将信息补全,自动完成实名认证。

用户体验是一个对比的概念,往往来自于用户心中自己划定的一条线,那么我们尝试把这条线放低,就相当于提高了用户体验。

张游知

我们一再灌输的一个观念是,没有两全的选项。对于用户抱怨的性能问题,我们坚持用数据说话,给用户提供一些页面,来上报自己的性能问题,提供一些比如CPU、内存、网络的数据和截图,事实上,可能有10个人抱怨说性能问题无法忍受,真正愿意上报问题的往往只有一两个人,如果提供了反馈渠道都拒绝反馈,那这种所谓的性能问题我认为是可以忽略的。

最后,我们也努力保证问题反馈渠道的畅通,各种问题反馈群和反馈邮箱,在工作时段都保证5分钟内有人回应,保证真正影响可用性的问题,能够第一时间有人协助排查解决。我并不认为态度一定能弥补用户体验,但是合理的缓解方式一定可以。

4.增量的应对

任何的终端安全运营工作项,都是围绕着解决存量,应对增量两个方面进行的,其中增量问题,特别是持续性增量问题,尤为棘手。

对于大多数公司来说,主要的增量都来自于新员工入职,我们认为新员工入职既是挑战也是机会,一方面,新员工入职,意味着一批新的终端涌入,可能未安装,可能不实名,可能不合规,另一方面,新员工入职也是一个所谓的黄金窗口,毕竟新入职的这一周,可能是一个员工最听话的一周,这个阶段进行的很多灌输和宣传,往往是事半功倍的。因此,我们经过和人力,和IT,和运维部门的协作,将终端安全嵌入进了入职的几乎每一个环节:

在入职日的上午,新员工会接受一个短暂的入职培训,在这个培训上,会让新员工了解到,我们有终端安全软件存在。

之后,新员工要到IT服务台领取办公设备,在这背后,首先有我们和IT和运维的协作机制,保证所有公司配发电脑使用的装机镜像里都安装了终端安全软件,并且版本保持最新。另外,新员工领取电脑的同时,还会领到一张纸质版的终端安全须知,里面详细列出了需要的终端安全软件相关操作。

员工回到部门,打开电脑连入内网时,我们实现了入网立即升级、入网立即安检的功能。而当新员工开始办公的时候,第一件事是确认自己的邮箱账号已经开通,这时候,员工就会看到,我们在邮箱内贴心的预置好的一封邮件,里面不仅包含了所有终端安全软件相关内容,还有各种问题反馈渠道。

另外,员工入职一周后,会进行两天的新员工入职培训,在培训中,会有半天的时间专门讲解安全相关的内容,会进行一次回访,询问大家是否落实了入职须知里的事项。

另外一个有持续增量的场景,是终端上的高危软件。我们在今年,开始对终端上的高危软件进行运营,制定了高危软件终端比率这样的指标,将有公开的已知高危漏洞的软件和软件版本划分为高危软件。显然,这又是一个有持续增量的概念,因此我们维护了一张高危软件列表,并且进行了一系列自动化的尝试,通过邮件脚本、蓝信机器人自动对存在高危软件的终端的使用人进行通知,要求升级。

5.版本升级问题

既然我们提到了升级两个字,那我们就来谈一下,终端安全软件的版本升级,可能是终端安全工作人员最为恐惧的一件事。不敢升级可能是共性最强的一个问题,我们用金融行业的标准来对标,建立了一套标准化的升级流程,从新版本的验证,到回滚方案,到全网通知,再到灰度升级。我们用数据来说话,在一年时间内,公司终端安全软件控制台进行了21次大小版本升级,进行了63次需要重启服务的散文件替换。这证明了在产品本身文档,升级流程严格标准化的前提下,升级并没有那么可怕。

6.沟通协作机制

说到协作,不得不说,在任何公司,安全人员和运维人员都是相爱相杀的冤家。在和运维,或其他部门,建立沟通协作机制这件事上,我们更多的采取事件推动。比如说,去年11月的时候,因为双方的沟通不畅,发生了一次比较严重的事故。起因其实很简单,终端安全软件的安全检查中,对于密码强度的检查之一,就是密码过期时间必须小于6个月,但是运维在不知情的情况下,因为业务需求临时关闭了域控组策略里的密码过期时间,导致所有加域终端安检不通过,进而被断网隔离。通过对这次事故的复盘,我们和运维建立了针对域控组策略的同步沟通机制,从某种意义上,将事故转化成了契机,这就是典型的事件驱动。

7.改变用户习惯

最后一个我想聊的共性问题,就是重塑用户习惯。

不得不说,大家都是成年人,重塑大家的用户习惯,真的很难。

张游知

我们依然尝试事件推动的思路,比如眼下当红的远程办公,在此之前,我们的远程办公,一直使用的是BYOD+VPN的方式,存在一些安全隐患。一些BYOD设备连入内网前,就已经带有高危漏洞甚至带有病毒。另外一些敏感数据在BYOD设备中落盘,进而造成数据泄露和丢失。借这一次远程办公的机会,我们逐步把所有远程对敏感系统的访问,都转到云桌面来进行,逐步禁止VPN对敏感系统的访问。

另外,我们一直坚持一个观点:

有存在感总是好的,好声音坏声音,都好过没声音。

张游知

这里大家不妨思考一个问题,在企业内部,有多少人会谈论到终端安全软件,有多少人会谈论终端安全管控措施。经过一年多坚持不懈的刷存在感,我们发现,谈论我们的人明显变多了。最典型的一个例子就是,现在各种IT问题反馈群里,有人说,自己的电脑连不上网了,访问不到某某系统了,肯定会有热心群众跳出来,问一句,你是不是没安装终端安全软件啊,是不是终端安全软件安检不通过啊。甚至有时候,这种回答可能带着一些甩锅的气息。但是,我们依然认为,现有存在感,然后才能有其他的想要的效果。

三、记一次攻防演练

在今年的一月中旬,我们内部进行了一次攻防演练,我们发现了很多有意思、有价值的点,可能不完全限于狭义的终端安全,在这里也拿出来和大家分享。

1.攻防演练前

在这次攻防演练前,我们进行了很多准备工作,首先,就是终端安全软件的覆盖度,能保证通过一个ip、一个MAC地址、一个mid、或是一个主机名,第一时间定位到人,获取所有的相关信息和终端日志。这一项准备工作,是在长达一年的时间里,我们通过日积月累完成的。

去年3月份的时候,我们内部同样也搞过一次类似的攻防演练,在那一次攻防演练中,在找人这个方面我们还是有些捉襟见肘的,包括终端EDR日志,也只是临时收取了一部分重点人员。两次的对比是非常明显的,在事件的应急中,找人已经是一个耗费时间几乎可以忽略的环节了,在攻防演练这种安全事件大规模并发的情况下,为我们节省了很多宝贵的时间。

另一项同样日积月累,而不是临时抱佛脚的准备工作,是安全意识培训,特别是针对钓鱼邮件的安全意识培训。同样是在上一次攻防演练中,攻击队尝试了钓鱼邮件的手法,并且轻松得手。这一次,攻击队同样尝试使用钓鱼邮件,进行样本的投递,并且这封钓鱼邮件伪造的非常逼真,完全模仿了我们内部的通知邮件,要求大家进行VPN客户端的升级,而邮件的附件,则使用了一个完全正常的VPN安装包,和恶意样本打包的压缩文件。一方面,这一次我们第一时间就检测到了这封邮件,进行了应急处置,另一方面,也是更为难能可贵的是,这封钓鱼邮件很快就被反馈到了网络安全部。并且,在这次攻防演练之中,人力等部门将几乎所有可疑邮件,都进行了上报反馈。

那么除了这些日积月累的工作之外,这次攻防演练前,我们进行的一项重点的准备工作,也是之前经常被忽视的准备工作,就是安全软件本身的安全,这也是我们经常忽视的一个问题,终端安全软件本身强大的功能,包括远程桌面、文件分发、任务下发,一旦被攻击者利用,将会造成毁灭性的后果。

在这一次攻防演练前,我们用了近一个月的时间,对控制台进行了一次几乎是前所未有的安全加固。我们把控制台彻底的拆分部署,把终端接入使用的应用服务器、管理后台使用的管理服务器、数据库服务器,都进行了完全的拆分,彼此之间做了严格的访问限制,整套控制台,只允许终端访问应用服务器的几个必须端口。并且,为了避免文件分发这样的隐患,我们以牺牲部分可用性的代价,彻底封死了管理服务器的端口,保证终端无法从管理服务器拿到任何文件。同时,整个过程中,我们对于控制台相关的网络访问流量,后台审计日志,都进行了严密的监控。

2.攻防演练中

那么在这一次攻防演练中,除了钓鱼邮件,因为时间比较紧张,攻击队采用的主要是物理渗透的方式。我们先简单还原一下攻击队的行动路径:

攻防演练的第一天凌晨,攻击队就夜袭办公区,通过地下车库摸进了办公区内部,找到了一些留在工位上,没有关机的电脑,通过插U盘传样本文件的方式,控制了一批终端。

那么在我们的视角,是如何发现这批终端被控,进而发现攻击队的行为的呢。

首先,我们通过流量侧和终端侧的检测,捕捉到了ip的异常行为,并且迅速定位到终端和使用人,这背后就是终端安全软件安装覆盖率和实名率的保证。之后,通过上机排查取到的样本,发现了样本曾使用U盘传递,因此怀疑物理渗透,通过调取监控录像确认了攻击行为。最后,通过对存有相同样本md5、使用过相同SN号的U盘的终端进行搜索,清除掉其他被控终端,这背后则是EDR在发挥价值。

3.攻防演练后

我们一再强调,攻防演练的目的在于发现问题,发现风险点,所以攻防演练后的复盘是极具价值的。对这次攻防演练的复盘,我们发现了三个比较明显的终端安全问题,这三个问题也是一直以来被忽视的问题:

第一个问题是下班不关机的问题,其实公司内部一直有下班要关机,24小时要重启办公电脑的要求,但是缺乏技术手段的有效管控,这也印证了单纯的管理手段的无法落地。未来将通过技术手段对办公电脑的关机重启进行管控,将制度落地。

第二个问题则是缺少对U盘和移动存储设备的管控,我们将围绕三个方面进行改进:要求只有注册过的U盘才能在办公电脑上使用,禁止U盘的自动播放功能,以及对U盘异常行为的检测,比如新插入U盘的检测、同一U盘在多台终端使用等等。而这三个方面,除了技术手段的稳定实现外,都需要考虑用户习惯的改变。

最后一个问题,则是对于加白终端的管控,也就是之前谈到的,对于例外的又一次从简到繁。在这次攻防演练中,出现了加白终端被控,因为没有安装终端安全软件,所以我们毫无感知的情况。因此,我们重新梳理了加白流程,将安装代替终端安全软件的终端日志收集客户端这一项,加入成为加白的必要条件。

今天的交流分享到此结束,谢谢大家。

除了终端安全运营,我们还在安全资产管理运营、服务器运营、漏洞运营、数据安全运营方面持续实践,再找机会和大家汇报、分享、交流。

聂君

声明:本文来自君哥的体历,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。