概述

2019年7月,SANS发布了第三次SOC调查报告,题为《SOC的通用和最佳实践》。SANS主要针对欧美国家的大中型SOC客户(含MSSP)进行了调研,结果显示:

1)通往卓越SOC之路的最大障碍是专业人员的缺失(58%)和缺乏有效的编排与自动化(50%)。

2)依照NIST CSF框架,最满意的技术是保护阶段的访问控制/VPN(87%),而最不满意的技术是检测阶段的AI/ML(53%);

3)AI/ML和自动化可以助力专业人员,但无法取代他们。

SANS建议优先从以下几个方面考虑持续改进SOC:

1) 更专注于SOC能够提供什么应用场景和服务,而不是一味地购买新技术;

2) 建立一套有效的人员培养、成长和保留策略,提供良好的职业发展路径。对于本就不多的人手而言,人员稳定性更为关键;

3) 多考虑使用MSSP的服务;

4) 加强SOC与NOC的协同合作。

今年SANS对SOC的定义没有发生变化,依然表述为:SOC是人、流程和技术的结合,它通过主动的设计和配置、持续地系统状态监测、检测意外动作和非预期状态去保护组织的信息系统,力图尽可能地降低不良影响造成的伤害。(A combination of people, processes and technology protecting theinformation systems of an organization through: proactive design andconfiguration, ongoing monitoring of system state, detection of unintendedactions or undesirable state, and minimizing damage from unwanted effects.)

SOC人员

超过三分之一的受访者所在的企业和组织中只有2~5名专职的SOC人员。这一结果跟2018年的调查基本一样,没有什么变化。

SOC主要干什么

如上图所示,跟2018年比变化也很小,DLP的位置略微有所提升。主要的活动包括:应急响应、安全监控与检测、DLP、安全管理、修复,等等。

此外,SANS十分看重SOC服务和能力的交付方式,即每种能力通过自建、委建(MSSP)和共建三种方式交付的占比情况。从调研结果来看,所有活动都是自建占主导位置,其次是共建,委建占比还是比较低,并主要集中在渗透测试、红蓝紫对抗方面。

SOC的部署架构

如下图所示,SOC的部署模式依然还是以单一集中式部署为主,分布式部署和云部署的情况在逐步增加。

SOC的度量指标

对SOC的效果进行度量已经是一项十分迫切的工作了。SANS列举了一些指标,包括:处理的安全事件数量、从检测到遏制和根除的时间(类似我们经常说的MTTD、MTTResponse、MTTRecovery等)、关闭的安全事件数量、受SOC保护的系统的风险值、由已知或未知漏洞导致的安全事件数量/比例、找出所有受影响的资产和用户所花费的时间、每个安全事件造成的故障时长、溯源到的威胁行为体数量、全面IOC检测的彻底性(覆盖度)和准确性、问题根除的彻底性(复发率)、安全事件避免的可能性、安全事件花费的金钱成本、造成的损失与挽回的损失之比。

对于如何构建有效的度量网络安全的指标是当下的一个热点。Dark Reading在近日采访了多位网络安全厂商的技术专家,让他们给出了自己心目中可能带来误导的20个指标。这20个所谓糟糕的指标描述在安全牛上有中文译文。可以说,如果脱离具体的应用场景和上下文,缺少辅助指标,缺乏度量的连续性和一致性,任何单一的指标在表达上都存在缺陷。我们需要一套有针对性的、互相关联的指标集合,并且能够进行持续的度量。

SANS在报告中也承认,要建立一套真正反映SOC运行效果的指标是很难的事情,要想算出造成了多大损失,挽回了多少损失也是很难的事情,至少数据来源就是模糊了。但有估算总比没有估算好,有指标(当然不能是烂指标)总比没有指标好。

下图进一步揭示了在进行指标度量时的自动化水平:

可以看出,完全自动化获得度量值的比例只有10.7%,其它的则要么完全手工计算,要么或多或少依靠手工计算。

SOC用到了哪些技术和工具

2018的调研是直接开列了40种技术和工具,今年则首先依照NIST的CSF(网络安全框架)将各种技术映射到了6个阶段(IPDDR——识别/保护/检测/响应/恢复),然后分别针对每个阶段具体分析。

1) 识别:

识别阶段就是我们现在所称的“看见”的过程,包括看见系统、人员、资产和数据,看见它们的静态属性和动态属性,看见他们的运行状态,并评估出他们的风险。SANS列出了三种识别阶段最关键的技术:SIEM、风险分析与评估、资产发现与管理。

2) 保护:

保护阶段就是对关键资产进行防护,确保其持续地提供服务。SANS的调查显示,在保护阶段,满意度最高的技术是边界防护类技术。SANS列举的保护技术/工具包括:web代理、WAF、SSL流量解密、NGFW、NAC、恶意代码检测、内容过滤、DLP、应用白名单和VPN。

3) 检测:

检测阶段涉及的技术和工具最为丰富。一方面因为检测之难,技术路线之多,另一方面也是检测之重要。这个阶段满意度最高的是基于网络的检测技术。满意度最低的技术则来自于AI和ML。SANS认为AI和ML对于增强分析师的能力确实大有裨益,但当前人们对AI和ML正处于炒作的高峰期,能力被过渡渲染,以至于落差太大了。SANS针对这个阶段列举的技术包括:UEBA、威胁情报、SOAR、包分析、NTA、IPS、流分析、全包捕获、取证、AI/ML、SIEM、DNS日志监控、EDR、持续监控与评估、应用日志审计,等。

4) 响应:

响应阶段就是针对检测阶段发现的安全事件进行响应处置的过程。SANS在此阶段列举了3种技术:欺骗、抗D和EDR。SANS认为EDR在中型市场的渗透率稳步提升。

5) 恢复:

恢复是指保持网络弹性,或者将受到安全事件影响的能力和服务进行恢复的过程。SANS列举了三种恢复技术:弱点修复、基于虚拟化技术的系统更新、勒索修复。

SOC面临的主要挑战

今年的调研结果与去年的调查基本一致,如下图所示:

SANS将上述问题总结为四个方面:

1)“生活中不可避免的现实”。这个比喻很形象,你永远也找不到足够的资源,也没有必要去找齐,而管理层的支持是一个永恒的话题。

2)治理问题。SOC是一个复杂的系统,不仅在于其技术,更在于其众多的干系人。做好SOC很多时候都受限于那些脑袋们的屁股在哪里,解决之道就在于同理心,多赢思维。

3)缺乏整合以及SOC流程的成熟度问题。

4)技术问题。

其它

应急响应(IR)

IR是安全运营中必不可少的重要环节。94%的受访者表示IR能力依靠自建,并且这些自建的受访者中有77%都是将IR团队作为SOC团队的一部分。可以说,IR和SOC合体是当下主流。

对于IR团队和SOC团队的关系,Gartner也曾专门进行过讨论,分为三种情况:IR作为SOC的一部分、IR放到CIRT中并与SOC保持独立、IR的工作分散到SOC和CIRT中。三种情况的利弊分析如下:

知识管理

SANS认为知识管理十分重要。将安全事件的处置过程和结果记录下来,将安全运营的经验记录下来,不仅可以提高自己未来处置安全事件的效率,更是一个团队的积累和传承。当我们抱怨人手不足的时候,当我们抱怨人员团队流动性高的时候,当我们抱怨反复处理以前遇到过的问题的时候,请重视知识管理。

SANS的访谈显示,小型SOC用户一般会用SharePoint做知识管理;而大型SOC用户则较多使用JIRA作为工单系统,用Confluence作为协同系统,用ServiceNow或BMC Remedy做工单,但基本都没有用上正式的剧本。

数据关联分析

SANS的调研表明,事件、IOC、情报等情境数据之间关联分析主要由SIEM来担当,其次是TIP、LM和SOAR。

声明:本文来自专注安管平台,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。