基于大数据与机器学习的银行运维智能风控体系研究与实践

文/ 中信银行数据中心刘明李妍高阳

银行数据中心管理着庞杂的IT资产，每天都有大量繁杂的运维活动作用在IT资产上，以维持信息系统的持续稳定运行并提供服务。在传统运维风控模式下，事中风控主要依靠人力对各流程的控制点进行人为控制，对过程行为的事中“技控”不足，难以确保不出操作风险。在事后环节主要依靠人工检查的方式，面对大量数据时，存在时效性差、覆盖率低、效率不佳等问题。面临日益复杂的内外部环境和“严监管、重处罚”的监管局面，依靠人工的传统运维风控手段已越来越难以为继。

银行运维智能风控体系

在此背景下，如何在事中有效控制操作风险，确保信息系统安全稳定运行，以及在事后及时、无遗漏地发现不合规甚至违法行为，避免“堡垒被内部攻破”，造成数据泄露、数据篡改、系统异常等不良影响甚至案件，解决分行运维风控痛点，同时满足监管要求，是运维管理面临的难题。为此，中信银行立足于科技创新赋能，利用大数据、人工智能、流程及操作自动化等各种技术手段，探索建立全行运维智能风控体系。

1.以技术手段实现事中“硬控制”。有机整合堡垒机、服务流程平台、门禁系统、自动化平台等运维支撑系统，实现管理流程的自动化和风险管控的嵌入化。实现了敏感数据访问实时屏蔽、非授权高危命令自动封禁、高权用户“一事一授权”及“自动精准授权”、变更实施及故障处理操作“线上双敲”、安全区门禁授权与变更审批自动联动等“硬控制”手段。实现管理要求在行为级的工具“固化”，事中风控从“人控”向“机控”转变。

2.利用大数据及人工智能技术实现覆盖全行的运维自动化合规检查。建设全行运维自动化合规检查平台，基于对数据中心风险的梳理和多年内外审积累，并参考ISO27001等标准，制定了覆盖操作行为、用户管理、数据安全、物理安全、网络安全等运维主要风险领域的违规行为模型，利用大数据及人工智能技术对全行运维海量数据进行分析，实现对全行运维违规和异常行为的自动识别。打造“随时查”（实时、T+N）、“马上改”（自动阻断或纠正、派单整改）、“全覆盖”（风险全覆盖、总分行全覆盖、数据全覆盖）的运维合规内控新形态。

大数据及人工智能技术在运维智能风控体系中的应用

在运维智能风控体系中，全行运维自动化合规检查平台基于主流大数据开源技术构建，并应用了机器学习算法进行个性化的行为模式建模和异常识别，各组件采用分布式环境部署，实现高可用、高并发。

平台纳入全行全量运维日志类、流程类、权限类、活动类、配置类等各类数据。一方面通过“数据+规则”的模式，通过大数据技术实现从实时至T+N的通用自动化检查模型；另一方面通过机器学习算法建模，实现个性化的自动化检查模型。此外，通过对接监控系统与企业微信，实现对高风险违规行为的实时报警。通过对接流程平台、堡垒机、自动化平台等运维支撑平台，实现检查问题与整改流程联动，以及非授权高权用户登录自动阻断、网络设备安全基线自动修复等“自免疫”功能。系统总体框架见图1。

图1 系统总体框架图

1.利用大数据技术实现通用自动检查模型库。平台采用ElasticSearch、Kibana、Logstash、Flume等主流大数据开源技术，实现数据采集、解析、存储、分析、展示，支持实时在线计算和离线批量计算两种模式，在此基础上实现各类实时/T+N的通用自动化检查模型。平台在总行部署，实现全行覆盖。

在实现方面，首先通过风险分析、内外审规范、历史内外审问题梳理、相关标准对照等方式，识别违规行为场景，之后对行为场景进行数据特征解析与数据源定位，制定具体数据分析规则，形成通用数据分析模型。对于不同的数据分析模型，根据对应违规行为的风险等级，在平台中进行实时/非实时的分级处理：对于高风险违规行为，利用ElasticSearch的近实时特性进行实时分析，并联动告警、阻断、纠正等实时处置措施；对于低风险违规行为，通过JSON方式结构化数据，按照分析规则实现T+N分析，并联动整改流程。在模型投入使用后，结合使用情况不断迭代，以达到最优效果。在此过程中，违规场景识别及模型制定为难点和关键环节。

依靠平台的海量数据分析能力，实现了传统人工检查模式下难以企及的效果，尤其对于大基数检查对象，由之前的人工抽查变为100%全查，检查周期由最长每年查一次，变为实时查或天天查。如：对防火墙技术规范落地执行情况的检查，由之前的3人2月仅查10%，变为每天进行100%全覆盖检查。

2.利用机器学习算法实现个性化自动检查模型。通用模型“数据+规则”的模式，适用于规则明确且普遍适用、数据要素较少的场景，取得了明显效果，但无法实现面向个体的“千人千面”的个性化规律提取及行为分析。为此，在全行运维自动化合规检查平台中引入了机器学习DBscan聚类算法，通过对堡垒机历史操作日志数据进行学习，进行原始数据间关联处理，提取模型的特征维度，建立基于具体用户或某类用户的普遍性行为规律，最终形成用户画像。结合用户偏爱使用的高频命令、常见登录堡垒机时段及所访问的服务器等信息，使用聚类模型对具体个体行为进行分析，发现与其行为习惯不一致的可疑动作，实现了通用模型不可能达到的个性化违规行为识别（见图2）。

图2 基于机器学习的个性化自动检查架构

取得的效果

全行运维智能风控体系的投入使用，对提升我行运维风控水平起到了显著作用：

一是大幅降低全行运维操作风险。目前已实现非授权高危命令自动封禁、高权用户“一事一授权”及“自动精准授权”、变更实施及故障处理操作的“线上双敲”等事中“硬控制”手段8项，并在总行及分行全面推广。全面降低全行由于操作风险引发的各类生产事件数量，为实现操作风险0事件、0案件提供有力保障。

二是大幅降低了全行运维合规风险。实现对总行数据中心和所有分行的运维合规检查，违规模型覆盖运维所有重要风险领域，实现“随时查”“马上改”“全覆盖”。截止2021年初，已投入使用162个检查模型，涵盖网络安全、用户管理、数据安全、物理安全、终端管理等12个关键风险领域，其中实时模型16个，自动阻断/纠正模型7个。包括：非授权高权用户登录、非授权敏感数据查询、非授权操作、防火墙策略开通过宽、开通高危端口等。累计发现全行运维各类不合规风险或问题261个，其中大部分为传统运维风控“想得到但做不到、想不到也做不到”的难题。

三是大幅降低全行运维风控成本。在创新手段的加持下，只需总行设置5~8名人员即可实现模型制定与优化、全行检查实施、检查结果沟通与确认以及整改跟踪与复检的全流程工作。有效解决人工检查效率低、覆盖面不全、检查效果依赖个人经验和能力，以及分行合规能力与资源不足等问题。在实现同等检查效果下，较传统风控模式节省人力超过300人年。

未来展望

目前全行运维风控体系主要针对线上行为及其后果，且以事后为主。后续将结合中信银行数据中心数字化转型的进程，向覆盖“线上+线下”“事前+事中+事后”的全息式、免疫式智慧运维风控体系演进。主要包括：建设对人脸及线下行为的自动识别能力，实现对线下违规行为的自动化识别；全面拓展事中“硬控制”场景，实现管理要求的全面“机控”；完善基于风险严重程度的实时+事后自动化违规行为识别，以及违规行为发现后的多层次处置机制；利用人工智能探索进行个人合规画像、合规旅程，以及基于之上的违规行为预判。

声明：本文来自金融电子化，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

基于大数据与机器学习的银行运维智能风控体系研究与实践

国家金监总局发布《关于银行业保险业人工智能安全开发应用的指导意见》

5月新增12家银行因网络安全/数据安全被罚，罕见出现3个“双罚”

穿透监管与行为红线：《金融信息服务数据分类分级指南》重要数据双轨判定的原则与趋势