2019年8月份,美国国土安全部(DHS)发布了一份RFI(信息邀请书),为下一步DHS自有SOC的安全运营服务外包采购项目征求意见。透过这份RFI,我们可以粗略了解DHS的SOC概况,尤其是通过SOW(工作说明书)的内容,能够让我们一窥DHS SOC的日常安全运营的内容与技术要求。

以下内容综合了笔者获取的其它信息。

DHS对SOC的定义

DHS将SOC定义为一组相关设施,用以对其企业信息系统(包括网站、应用、数据库、数据中心、服务器、网络、桌面及其它端点)进行监控、评估和防护。SOC负责确保能够正确地对潜在网络安全事件进行识别、分析、防御、调查和报告。检测响应时间是其中的关键。

DHS defines SOCs as being facilities where enterprise information systems (web sites, applications, databases, data centers and servers, networks, desktops and other endpoints) are monitored, assessed, and defended. SOCs are responsible for ensuring that potential cyber security incidents are correctly identified, analyzed, defended, investigated, and reported. Detection response time is critical to this effort.

DHS SOC当前部署情况

目前,DHS部署和运行着17套非密的SOC,包括1个企业级SOC(ESOC)和16个部门级SOC(Component SOC),相互之间进行二级级联。

如上图所示,DHS的SOC由DHS CISO负责,并向上汇报给CIO。位于顶端的是ESOC(DHS SOC),负责监控、检测、分析、缓解和响应整个DHS范围内的网络威胁和敌对活动。ESOC负责监控和响应在DHS管理的可信互联网连接(TIC)和策略执行点(PEP)处检测到的安全事件和事件,并负责指导和协调每个部门级SOC的检测和响应活动。这里的指导和协调具体而言是通过共享的DHS SOC事件跟踪系统以及其他协调和通信方式实现的。ESOC还负责代表整个DHS,与US-CERT及其它外部实体之间协调和汇报安全事件报告。

在ESOC之下的是部门级SOC。DHS的各个部门通过DHS管理的TIC网关连接外部互联网,并通过部门级的PEP安全栈接入DHS的广域网(称作OneNet)。每个部门都运营着自己的部门级SOC,负责对本部门所在网络和系统的安全监控与响应。,

从地理上来看,DHS SOC也分布在多个不同的地理位置。核心的地点是华盛顿特区的圣伊丽莎白园区,位于华盛顿特区旁边的一个SOC备份中心(COOP)以及位于国家首都区域(NCR)的多个地点。此外,在亚利桑那的钱德勒、密西西比的斯坦尼斯、弗吉尼亚的克拉克斯维尔和佐治亚的克伦科都有分布。

由于DHS自身缺乏足够的专业人员来运营SOC,因此DHS通常都会将SOC运营工作外包给多个合同服务承包商。

DHS SOC主要的运营内容与要求

这里的要求名义上是提给潜在的服务外包提供商的,但实际上也展示了DHS SOC运营应该具有的工作。内容和要求整体分为6个部分,并被称作是核心运营框架(Core Operational Framework):

  • 管理与控制:负责整个项目群(Program)管理的全过程;

  • SOC运维服务:实施SOC日常运营活动,包括威胁监控与分析、应急响应、漏洞管理等;这是我们通常最关注的部分,但仅仅是必要的部分,并不充分;

  • SOC服务交付管理:为运营服务交付活动提供整体关系管理,并确保服务能实现端到端的交付,确保达到预期的服务水平,并度量服务交付质量,积极整改,持续改进交付能力;

  • SOC架构、工程、运行和维护:维护和升级SOC技术设施的架构,包括软硬件架构,对所有的SOC变更进行控制和管理,确保对服务连续性影响最小。对生产环境和测试环境的变更与发布管理进行监管。这里的运行和维护是指对SOC平台及其基础设施自身的运维,确保平台自身的可用性与服务能力,涵盖应用与技术服务,以及系统软件、中间件、基础设施、网络和数据中心,等;

  • 网络安全沟通与协调:作为对DHS中所有与事态、事件和相关协同工作的沟通与协调中心。

  • 采购支持:管理所有SOC相关的采购活动,维护相关产品和工具的授权许可和硬件资产。

下结合笔者自身的感受加以分别说明。

1、管理与控制

这里的管理与控制包括针对项目群(program)的管控和针对运营工作的管控。

一个项目群是由一系列项目(Project)构成的。SOC运营过程中,会不断的新起各种各种的项目,并不断投产。项目管理绝对是SOC运营过程中必不可少的一个环节。大量的经验表明,缺乏好的项目管理,SOC运营就是空谈!

而SOC运营管控则包括日常运营的管理,譬如安排值班计划、沟通计划、人员管理,等。

2、SOC运维服务

这是SOC运营的核心。DHS SOC的SOW列举了11项服务内容。

1)监控与分析支撑服务

主要是基于SOC系统中收集到的各种系统和网络日志、事件、信息和数据,进行监控、调查,异常识别。监控与支撑服务包括:

  • 监测系统状态

  • 升级和汇报潜在的安全事件

  • 根据需要实施风险评估分析并记录

  • 分析信息系统安全(ISS)报告

  • 应用各种杀毒、入侵检测、弱点评估工具的技术和流程

  • 编写和实现自定义检测内容

  • 对SIEM、IDS/IPS的事件进行优化,降低误报

  • 编写和实现自定义的SIEM规则(策略/内容)

  • 分析与评审监控程序的度量指标

  • 评估和分析相关的软硬件

  • 借助开发和改善分析方法来改进流程

  • 管理数据

  • 协调和汇报信息系统安全(ISS)相关的安全事件

  • 装配、测试、安装和维护各种入侵检测探针及其相关的应用软件

2)数字媒体分析(DMA)支撑

该支撑服务包括对各种数据媒体设备和介质的取证分析,以识别、逆向和反混淆安全事件相关的内容(譬如恶意代码),撰写技术分析报告,并记录分析所采用的技术,分析的结论以及对策。

3)网络情报支撑

要有具备对抗能力的网络技术专家,能够对敌对组织的网络利用和网络攻击意图进行评估。DHS SOC采集的多源威胁情报,网络情报分析师必须运用这些情报来实施分析并与内外部情报组织(譬如US-CERT)进行协作。主要的支撑工作包括:

  • 对来自安全公司、政府组织、私营公司和外国政府等各种来源的不同密级的情报数据进行编辑和处理,转换成可行动情报。

  • 对从情报界、法律部门和其它外部来源采集到的各种网络新闻feed,签名更新、事件报告、威胁简报和漏洞预警进行评审,研判其在DHS环境下的可利用程度。

  • 处理和集成涉密的网络威胁情报信息。

  • 识别DHS软硬件系统中存在的潜藏威胁,并识别出他们使用的工具和方法。

  • 对DHS的风险进行研判,并开发出对策或缓解方法。

  • 基于对对手的能力、意图、战技过程的了解编制并分发威胁情报。

  • 对DHS中的各种网络威胁、弱点和资产管理信息进行融合。

  • 向DHS ESOC报告网络威胁、弱点和资产管理数据。

  • 为其它SOC分析师和战略决策者提供态势感知信息。

  • 沟通针对特定威胁活动的检测方法,并制定计算机网络防御(CND)的行动计划以消解或阻止威胁。

  • 协作开发企业级的自动化编排剧本

4)弱点评估支撑

提供现场和远程弱点评估的能力。包括:

  • 对DHS的网站、飞地和系统进行全量知识的(full-knowledge)、开放的弱点评估。

  • 与系统的所有者和管理者协作,通过安全扫描、配置核查、系统设计文档评审和访谈等方式,对系统的安全架构和弱点进行全面检查。

  • 运用网络和弱点扫面工具,以及侵入式的技术来探测系统配置和状态。

  • 生成弱点评估报告,并给出修复建议,并与其它干系人一起协作,通知责任人,督促整改。

5)渗透测试支撑

  • 对DHS的特定区域进行无知识的(no-knowledge)、或者有限知识的(limited-knowledge)评估,也即红队服务。

  • 实施真实或者模拟的攻击,以评估目标的弹性和对攻击的响应能力。

  • 蓝队服务。

  • 实施仅有CIO/CISO授权和知晓的,目标系统责任人事先不知道的渗透测试。

  • 生成渗透测试报告,并给出修复建议,并与其它干系人一起协作,通知责任人,督促整改。

6)安全事件评估与响应支撑

安全事件处置的文档要遵循DHS的既有规范。

针对部门级SOC,主要支撑内容包括:

  • 指导部门级SOC的事件处置与响应活动。

  • 在部门级SOC可控的前提下下发处置策略,遏制网络事件。

  • 全程记录。

针对ESOC,主要支撑内容包括:

  • 对所有安全事件的处置进行监管和指导。

  • 评审所有报上来的安全事件,并进行研判、核实,并对事件处置后的结果进行复核。

  • 生成安全事件评估与响应报告,包括推荐处置建议,并跟进处置过程。

  • 提供按需的、机动的安全事件响应服务。

  • 维护一套政府提供的便携式弱点评估、数字媒体分析和恶意代码分析工具箱,可进行特定任务下的部署,用于重大安保工作和领导层认定的高优先级响应工作。

7)内部威胁猎捕支撑

提供高级分析和对手猎捕服务,主动发掘对手潜入DHS网络的证据。重点针对恶意、过失或者受感染的内部人员进行深入的分析。对大量威胁数据进行过滤和优先级排序,提取精准的情报和信息,用以检测、阻断和响应针对这些内部人员的威胁。

8)入侵防御链支撑

入侵防御链(Intursion Defense Chain,简称IDC)是DHS采用的,从洛克希德马丁的入侵杀伤链(Kill Chain)演化而来的一种入侵检测方法,可以针对杀伤链的每个阶段进行深入分析,用于实现识别高级威胁(譬如APT)。DHS SOC运营要求分析师掌握这种方法。

9)内容管理和知识管理

  • 识别并收集网络安全痕迹(artifacts)和通用网络安全知识。

  • 评估并合成上述知识。

  • 将上述合成后的知识进行存储,并使得其易于SOC使用。

  • 持续更新。

10)数据关联分析

能够将日志与各种情境数据进行关联。能够构建、实现和优化关联分析规则、逻辑和内容。

11)资产管理

包括了对SOC管辖的资产和SOC自身依托的资产的管理。包括资产捕获、资产信息维护、不同资产库的同步,提供基于资产的战略决策支撑。

3、SOC服务交付管理

这里重点是SOC绩效和投资回报指标度量,包括指标体系的设计和落地,指标的计算、汇总、报告,指标的优化,等等。要能够度量SOC的有效性、SOC的投资回报情况、SOC人员的绩效。能够对重大的安全事件的损失和修复成本进行度量。要能够进行双周汇报。

此外,SOC服务交付管理的内容还包括创建和维护SOC中所有涉及到的过程性文档,维护所有的SOP(标准操作过程),对SOC人员进行SOP培训,建立SOC质量管理程序以跟踪SOC绩效并评估随时间变化的绩效水平变化。

4、SOC架构、工程、运行和维护

1)SOC工具工程化

对SOC可能用到的各种软硬件和支撑SOC的网络及计算技术进行调研、评估、原型搭建、测试、集成、开发、部署、重组、运维。确保上述工具的运行都可编排。

主要的软件工具包括:弱点扫描与评估工具、渗透测试工具、恶意代码分析和数字媒体分析工具、事件工单/事件管理和案件跟踪、主机和网络IDS/IPS、态势感知和企业通用操作图(COP)的查询与分析、网络流量收集与保存、SIEM、CTI平台、威胁指标平台(威胁情报共享、报告、分析和可视化)、协作平台/环境、共享知识管理系统/库、内容管理系统/库、资产管理系统。

主要的SOC支撑基础设施包括:分析师工作站、SOC路由器、SOC交换机、防火墙、存储设备、备份系统、日志系统、CTI平台(非密/涉密)、恶意代码实验室。

2)SOC架构和战略

  • SOC技术架构的设计、分析与开发。

  • 在SOC基础设施中合理放置安全工具的建议。

  • 创建、更新、维护和记录SOC安全架构,以及安全工具、设备和基础设施组件的构成地图。

  • 根据工作负载和存储需要进行容量预测。

  • 评估新型网络安全应用和设备,为SOC架构升级提供建议。

  • 绘制描述所有解决方案要素的“端到端”(从设计到投产)的配置流程图。

3)开发与集成

  • 制定网络安全支撑应用的需求,包括仪表板呈现、过程自动化、接口应用等。这里的网络安全支撑应用就是指在现有SOC平台/工具之上的二次开发。

  • 支撑应用的原型设计和影响性评估。

  • 支撑应用开发和测试,确保对接成功,数据正确。

  • 将支撑应用部署和集成到现有SOC基础设施中。

  • 确保新的应用与安全基础设施中的其它应用,以及安全基础设施之外的应用之间能够编排化。

  • 建议、测试、实现、集成、运行、维护和改进DHS SOC的工单系统和事件跟踪系统。

  • 创建、更新、维护所有SOC系统的文档。

4)工具维护

  • 网络安全基础设施中的所有软硬件工具的维护。

  • 应用软件补丁,安装软件升级包。

  • 管理网络安全基础设施中所有软硬件的配置状态。

  • 对安全设备的签名(如IDS规则)进行维护,生成性能报告。

  • 对SIEM进行维护,确保其持续采集IDS/IPS、agent数据、防火墙、代理服务器、DLP、反病毒、弱点扫描器和其他相关设备的数据。

  • 资产数据同步。

  • 维护工具的安装与管理。

  • 为这些安全工具建立和维护标准的《工具维护设计文档》和《测试计划》,增进DHS用户社区的生产力。

  • 绘制描述所有维护解决方案要素的“端到端”(从设计到投产)的配置流程图。

  • 调研市场新兴的工具,并评估其应用于网络安全基础设施的作用和可行性。

5)SOC变更与发布管理

对所有的SOC变更进行控制和管理,确保对服务连续性影响最小。对生产环境和测试环境的变更与发布管理进行监管。处理和评审所有的变更请求,并将建议提交给CCB。

6)SOC平台/基础设施运维

确保SOC平台自身的可用性和可运维性。确保平台自身的可用性与服务能力,涵盖应用与技术服务,以及系统软件、中间件、基础设施、网络和数据中心,等。

7)运维连续性支撑

主要是对备份SOC的运行维护,并确保一旦SOC切换过来后核心服务持续可用。

5、网络安全沟通与协调

DHS的上下级所有SOC之间,以及SOC和内外部组织之间必须相互协同配合,密切协作。DHS ESOC是沟通协调的总控中心,它会向下级的部门级SOC下发通过安全事件分析或者情报分析产生的安全事件通知(Security Event Notifications,简称SEN)。下级SOC则会上报安全事件(情报),以便让ESOC共享到其它下级SOC。ESOC会协助下级SOC进行安全事件调查与响应。

同时,ESOC与US-CERT之间保持双向信息交换,会向US-CERT提交报告、可疑或者确认的安全事件。ESOC及其下级SOC也都与情报界和司法部门保持信息传输通道。

ESOC还与下级SOC之间交换传递知识库,积累和分享安全经验。

ESOC负责协调所有SOC的内部演练计划与安排事项,以及外部演练的的沟通。

沟通与协调工作还包括实现态势感知信息的共享。

6、采购支持

1)采购管理支持

包括对要采购的软硬件产品的市场调研,采购需求构建,评标(评估需求符合性),等。

2)持续市场研究

包括对新兴安全工具和应用的调研,对有助于增强当前SOC安全基础设施的市场现有产品的调研,对SOC管理工程化提出建议。

一些启示

通过这份DHS SOC运营的工作说明书(SOW)草案,我们可以一窥DHS SOC的运营内容和要求,也给我们更通泛意义上的大型SOC运营提供了借鉴。

可以看到,SOC运营服务中,SOC运维是核心(内容阐述也最多),但不是全部,我们还必须考虑到SOC的管理性工作SOC自身及其支撑设施的安全运维工作,要特别重视SOC服务的交付,SOC运营过程中的各种沟通和协调工作,甚至还要考虑参与招标采购的工作

进一步考察这些工作的细节,我们容易忽略的方面包括:

  • 大规模SOC部署情况下的级联和信息传递问题;

  • 借助SOC的知识共享能力和知识管理能力建设;

  • 实战演练工作,红蓝对抗工作;

  • 特定情况下SOC备份(灾备、高可用)的问题;

  • 支撑SOC运行的基础设施运维,SOC自身可用性和弹性;

  • SOC运行容量规划问题;

  • 各种SOC所需的各种工具选型与部署,以及与SOC平台的整合、集成与编排,还有必要的二次开发工作;

  • 特别重要的服务交付管理。

这里笔者特别强调一下服务交付管理的重要性。SOC运营可以认为是ITIL的一部分,并遵从ITIL的那一套理念。如何保证SOC运营效果的问题其实就是如何一致地实现端到端的SOC运营服务交付的问题。你设计了SOC运营的这些服务,以及这些服务所能达到的预期效果,那么,如何保证这些设计在经过采购、部署、开发、投产后,SOC运营起来后真的能够达到当时设计时的承诺?这就需要在SOC的全周期实施有效的服务交付管理那套方法论。简单来说,需要对SOC的运营效果进行多角度的度量。正如DHS自己所说的:有效的网络安全需要强大的度量机制(Effective cybersecurity requires a robust measurement regime)。服务交付涉及到多个环节,仅就SOC平台而言,可以做不少事情,包括数据治理、安全度量指标体系等。

总之,SOC建设是一个复杂的系统工程,可以看成是安全防御体系的关键性工程,抓总的工程。这样的工程建设是一个长期演进、渐近明晰、能力螺旋提升的过程,让我们一步一步来,不积跬步无以至千里。

声明:本文来自专注安管平台,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。