文丨中国农业银行数据中心 唐硕 安一 刁家杰 单晓岚

顺应运维自动化发展趋势,农业银行面向金融系统监控告警异常场景,创新搭建运维操作中心、场景定制中心、场景执行控制台等工具,实现对目标场景的可视化集中调度控制与全流程自动化执行,并以实际生产中应用系统所发生的异常为例,实践验证了方案可行性,取得了良好的应用成效。

数字化转型背景下,金融科技快速发展,商业银行的业务连续性水平不断提升。然而,伴随分布式微服务架构的逐步普及,服务器资源总量呈倍数增长,系统运维难度亦持续升级。尤其是基于人工经验的传统运维模式不仅存在故障处置耗时长、效率低等痛点问题,而且对运维人员的知识储备也有着较高的要求。为改善上述情况,农业银行面向金融系统监控告警异常场景,创新提出“基于异常场景控制台打造可视化集中调度功能”的一种自动化处理方法,实现对目标场景的全流程自动化处置。

一、金融系统异常处置原型设计

针对传统运维模式中的难点问题,农业银行基于监控告警异常处置标准化流程,搭建工具化、平台化的异常处置工作台,实现对异常监控告警事件的全流程自动化处置。具体而言,金融系统异常处置原型主要由金融系统、监控平台、运维操作中心、场景定制中心、场景核对中心、场景执行控制台及管理员审批界面等共同组成,其工作流程如图1所示。

图1 金融系统异常处置原型工作流程

1.金融系统

异常处置原型面向的金融系统泛指支撑金融机构日常运营管理的各类应用系统,以及包括IT基础设施、网络设备、工具软件等在内的软硬件集合。

2.监控平台

监控平台负责对业务应用系统的运行情况开展实时监控,并可通过主动健康检查或被动接收监控信息的方式,对所有生产系统的资源运行情况进行持续监测,以及对应用性能数据、全链路数据、日志数据、交易流量、告警信息等进行收集和处理;在此基础上,还可将处理形成的能反映系统运行异常以及能揭示运行风险的各类信息,以告警事件的形式通知各条线运维人员。

3.运维操作中心

运维操作中心重点对接各类基础应用管理平台及组件,如外呼话务系统、系统运维管理平台、RPA平台、批量调度平台、运维管理平台、应用管理平台等,通过对其进行统一的分级分类管理,基于Agent代理和接口,为场景定制中心提供运维操作服务。同时,运维操作中心还可通过场景定制中心自行对接口或代理进行个性化开发,即基于自定义脚本、报文及SQL语句,为用户提供个性化需求配置,以满足多种多样的运维操作需求。

4.场景定制中心

基于场景定制中心,运维开发人员将可根据应急手册或异常处置预案,调用编排运维操作中心提供的各类运维操作服务,预先制定与之对应的异常处置场景。在功能方面,基于图形化操作界面及可视化场景编排器,场景定制中心支持对运维操作中心提供的各类运维操作服务实施编排,并采用多样化的配置策略,生成针对某类异常操作的常用处置策略;此外,借助灵活的条件控制机制,还可对场景是否开启、场景执行是否需要审批、场景的生效时间(24小时、单次、固定时间、工作日/非工作日、证券日/非证券日)、场景执行方式(自动执行、手工执行)等进行管理,并使用内置工作流程控制器,对定制场景的分支节点执行逻辑进行可视化流程控制。

5.场景核对中心

场景核对中心通过提取告警事件要素及候选应急预案要素,可基于提前制定的匹配规则,对两者之间的对应关系进行查询核验,进而确定与告警事件相匹配的异常场景。目前,监控平台所产生的告警事件与候选异常场景的匹配规则主要有两种方式:一种是根据历史告警清洗去除数字后形成的告警模型匹配规则,其配置项主要涉及基本信息(系统名称)、告警自愈是否开启、告警模型匹配方式、告警来源、匹配操作场景、告警模型(可多选)等内容;另一种是根据告警明细匹配规则,包括告警等级、告警对象、告警类别、告警资源、告警指标和告警内容等。实际操作中,相关告警信息在监控平台均有配置记录,用户可依据这些配置信息定位具体告警,实现精准匹配。

6.场景执行控制台

场景执行控制台通过为运维人员提供图形化的展示界面,支持对异常场景进行集中监控和管理;同时,在场景执行期间,还支持全流程人工干预,即可以使用强制开始、强制退出、强制结束等方式,对场景的执行全过程进行控制。

7.管理员审批界面

当监控中心收到某系统产生的告警信息后,若该系统已配置相关异常处置场景,则按照告警模型内容自动触发告警异常自动化处置流程,在此过程中,与之匹配的异常场景在执行时会进行风险控制,但如果异常处置涉及高风险操作,则需要管理员对即将执行的操作内容进行审批授权。

二、典型场景试点及验证实践

为验证金融系统异常处置原型的应用效果,农业银行以1104外汇牌价上传系统结售汇牌价异常为例,对本文所述监控告警异常处理自动化方法的工作过程展开了试点实践。1104外汇牌价上传系统异常处置逻辑如图2所示。在实际操作中,农业银行重点基于六个步骤开展了异常处置工作,其处置流程如图3所示。

图2 1104外汇牌价上传系统异常处置逻辑

图3 农业银行1104外汇牌价上传系统异常处置流程

第一步,接入运维操作中心。通过将1104外汇牌价上传系统结售汇牌价异常处置方案中所涉及的相关操作接入运维操作中心,基于应用管理平台、RPA平台、批量调度平台等基础组件,将结售汇牌价获取、结售汇牌价生效、强制执行、强制成功、电话通知、邮件通知等运维服务提供给场景定制中心,用于定制化编排异常处置场景。

第二步,编排异常处置场景。通过在场景定制中心配置“1104外汇牌价上传系统结售汇牌价异常”的处置场景,根据异常处置流程,调用运维操作中心所提供的运维操作服务,通过场景定制中心对异常处置场景进行可视化编排。

第三步,制定配置匹配规则。在场景核对中心选择“根据告警明细匹配规则”的方式,为与“1104外汇牌价上传系统结售汇牌价异常”相对应的异常处置场景匹配规则,实现异常处置场景的精准匹配。

第四步,监控平台监测异常。监控平台实时监测1104外汇牌价上传系统的服务状态,当结售汇牌价异常时,监控平台立即产生告警信息,并以告警事件的方式流转到场景核对中心。

第五步,场景核对中心匹配场景。通过提取“匹配规则配置项”的规则要素,以及监控平台中异常“告警信息”的事件要素,参照“根据告警明细匹配规则”,将“1104外汇牌价上传系统PD27监控告警”与对应的异常处置场景进行配对。

第六步,异常处置场景执行。通过场景执行控制台,对“1104外汇牌价上传系统PD27异常处置场景”自动执行可视化调度控制。

实践表明,在发现1104外汇牌价上传系统节点PD27的异常后,系统成功完成了对异常告警的自动化处理,基于标准化、平台化的集成系统,不仅显著提升了发现异常后的异常处置能力及处置效率,减少了因人工干预可能导致的操作风险,也大幅降低了对运维人员工作经验、知识储备的要求。

三、总结与展望

综上所述,通过研究自动化处理金融系统异常的一般性方法,农业银行实现了告警异常处置全流程自动化、标准化,大幅提高了处置效率,降低了沟通成本,提升了应用系统运行维护质量。未来,随着分布式云服务的持续发展,各种微服务间的关联关系也将愈发复杂。尽管文本所述方法可对单一故障点完成有效处置,但是当众多系统产生关联故障时,却很难准确定位根因故障点。后续,农业银行将尝试结合基于机器学习的智能运维方法,对全局根因系统的根本异常进行定位,通过匹配异常处置场景库,对故障进行快速处置,实现故障诊断智能化与异常处置自动化,以高质量运维更好地赋能安全生产。

本文刊于《中国金融电脑》2024年第1期

声明:本文来自中国金融电脑+,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。