作者:中国人民银行清算总中心 贺铁林

根据国际清算银行(BIS)的定义,金融基础设施(FMI)是一套构建于不同类型参与机构之间的多边系统,为参与者提供金融交易的集中清算、结算和登记,以提高效率并降低成本和风险。例如,笔者长期从事建设并运行的人民银行大额、小额及网上支付跨行清算系统,每日处理清算资金约19万亿元,无疑应被视为FMI。

如果管理不当,FMI可能对金融体系构成重大风险,并成为风险传染的潜在根源。为此,国际清算银行支付和结算系统委员会(CPSS)和国际证监会组织技术委员会(IOSCO)制订了二十四条金融基础设施原则(PFMI),其中第十七条“运行风险”表述如下:FMI应该识别运行风险的内部源头和外部源头,并通过使用适当的系统、制度、程序和控制措施来减轻它们的影响。设计的系统应该具有高度的安全性和运行可靠性,并具有充足的可扩展能力。

风险识别

1.外部风险。一是网络攻击风险。指外部专业技术人员出于利益诉求,采用植入木马、密码破解、盗取证书等方式,攻击金融基础设施网络。二是设施设备失效或容量不足风险。指系统运行依赖的设施设备突然失效或容量不足导致的风险。三是核心技术依赖风险。指系统运行依赖的核心软硬件设备依赖单一外部厂家带来的风险。四是重大生态环境、卫生事件风险。

2.内部风险。一是操作风险。指FMI运行维护人员在系统维护期间操作不慎引发信息安全事件的风险。二是设计风险。指因为系统架构设计或软件设计缺陷导致的系统运行风险,较为典型的就是硬件或软件级的“单点故障”风险。三是道德风险。指基础设施运行维护人员在情绪失控等情形下对设备设施采取的一些恶意破坏行为。四是内部攻击风险。指基础设施运行维护或软件研发人员,为了谋取不当利益,修改数据库、植入“后门”代码、伪造交易指令等攻击行为。

系统架构设计

按照PFMI第十七条原则的要求,在进行FMI系统设计时,应在对风险进行充分识别的基础上,确保高度的安全性和运行可靠性,并具有充足的可扩展能力。按照上述要求,笔者认为进行FMI系统架构设计时应重点保证以下五方面的能力。

1.应急能力。应急能力是指系统在面临突发事件时进行应急处置,恢复业务运行的能力。应急能力建设旨在应对设备设施失效风险,重大生态环境、卫生事件风险,以及人员操作风险、道德风险等。

发生应急事件,如需人工干预,一般需要一定的决策程序及处置流程,处置过程会比较长,处置期间可能还会对业务产生影响,也易引入操作风险。通常情况下,在进行FMI系统架构设计时,应优先考虑故障发生后,可在无需人工干预的情况下,由系统自动发现并处置故障,以确保业务连续运行。要实现故障的自动化处置,一般需要设计一套实时监控系统,并在监控系统中预置各类故障的应急处置预案。待故障发生时,监控系统发现符合特征的故障,直接调用有关处置作业,实现对故障的自动化处置。

2.弹性能力。弹性能力指系统面对业务高峰或者低谷时自动分配、回收资源的能力。弹性能力建设主要针对可能存在的设备设施容量不足风险。

FMI是一个有诸多金融机构作为参与者的多边系统。因为其参与者的广泛性,其业务量通常会随着参与者的业务发展情况而具有较大的波动性。例如,国内的“双十一”、“春节”等重要活动或节日时点,通常会带来支付业务量的短期大幅度增长。因此,进行FMI系统架构设计时,需确保其具备较好的弹性能力,即在业务高峰时可为其分配足够的资源,而在业务低谷时期,可对资源进行有效回收。

3.验证能力。验证能力指的是新设备、新应用投产前,对其功能和非功能指标进行验证,确认其投产后不会对生产系统安全稳定运行造成影响的能力。验证能力建设主要针对架构及应用软件设计风险。

因为业务需求的变化,或者设备自身更新换代的需求,对FMI系统设备和应用进行升级、改造是不可避免的。在系统架构设计时,需考虑可以采用基准实验环境、生产环境压测或者应用自身的灰度/蓝绿发布机制等手段,确保在投产前,可对待投产设备和应用进行较为全面的验证。硬件架构及软件设计相关的问题和缺陷能尽量在投产前暴露,而不是投产后,是衡量验证能力的一个重要指标。

4.替代能力。替代能力是指系统核心设备、软件不依赖单一厂商,可从多个厂商获取替代设备、软件以及服务的能力。替代能力建设主要针对核心技术依赖风险。

近年来,随着我国信息技术产业的崛起,特别是互联网行业的发展,响应国家核心技术自主可控要求,在传统金融行业实施分布式架构转型,逐步推广使用国产设备及开源软件,降低对国外单一厂商的依赖,逐渐成为业界共识。

具体实践过程中,由于FMI系统运营机构的首要任务是确保系统安全可靠运行,因此在推进架构转型过程中,切忌“单兵冒进”。而需要综合考虑各方面条件是否成熟,包括架构是否符合技术发展趋势、软硬件设备在业界是否有大规模应用、配套的运行维护工具是否齐全、开发运维人员对技术的掌握程度等。

5.防护能力。防护能力是指系统应对密码破解、伪造交易、数据窃取、恶意攻击等网络安全事件的能力。防护能力建设主要针对内、外部网络攻击风险。

FMI系统或涉及支付交易,或涉及证券登记,是与资金高度相关的系统,因此也是金融犯罪团伙高度关注的系统。FMI系统在设计上应按照有关等级保护要求,实施全方位、立体的安全防御策略。

具体实践层面,可以通过采用国产密码算法、动态密钥交换等技术在传输层、存储层进行敏感数据加密,部署防火墙、入侵检测等设备防范外部网络攻击,采用网络安全风险态势感知系统识别外部威胁环境的变化,掌控风险威胁发展趋势,积极主动防御,提升系统安全能力。

运行管理

FMI系统运行管理的首要目标是确保系统持续安全稳定运行,可以通过实施ITIL(Information Technology Infra-structure Library,信息技术基础架构库)对有关管理流程进行规范。具体而言主要应做好以下三方面工作:

1.变更管理。系统运行过程中,因为软件版本的升级、缺陷漏洞的修复或者实施一些主动性维护工作,都免不了要对系统实施变更。为了降低变更风险,对于FMI运营机构来说,需要建立适当的变更管理制度,根据变更影响范围对变更进行分级,并明确不同级别变更的提出时间及审核要求。同时,应建立常态化的变更窗口制度,重要变更尽量安排在变更窗口,并提前进行不同变更的交叉影响审核,确保窗口期间的变更安排合理、有序。

2.业务连续性管理。业务连续性管理包括识别业务连续性风险,制订并执行应急演练、业务恢复计划,培训应急响应队伍等工作。规划并执行应急演练是业务连续性管理中一项非常重要的工作。因为系统设计中的任何冗余机制,未经验证就不一定有效。笔者在实践中发现,有时虽然从设计层面针对某类故障,在不同层次都进行了冗余设计,但真出问题时,却发现由于程序缺陷导致所有冗余设计都没有起作用,进而酿成信息安全事件。演练的作用,就在于验证故障发生时有关冗余机制是否能真正发挥作用。

3.工具建设。为了做好变更管理,需要有一套流程管理工具,以支持变更在不同部门、不同层级的审核;需要有一套软件发布及自动化部署工具,以支持在大规模服务器集群中统一、高效的执行变更;需要有一套配置发现和核对工具,以确保各个服务器的版本配置符合预期。

为了做好业务连续性管理,需要有一套能掌握系统当前运行状况并及时发现各类应急事件的集中监控系统;需要有一套能进行自动化应急处置的工具,对于符合特征的故障可以自动调用相应的应急处置作业,实现故障的自动化处理。

FMI的持续稳健运行对于维护一国经济金融秩序至关重要。本文结合实践,按照PFMI第十七条的要求,从风险识别、架构设计及运行管理三个层面提出了一些确保FMI持续稳健运行的措施。当然,所有这些措施的达成,都离不开专业技术人才的支持。因此,对于FMI建设及运营机构来说,按照市场化机制,建设一支高素质、相对稳定且可持续发展的科技队伍是重中之重。

本文节选自《金融电子化》2019年04月刊

声明:本文来自金融电子化,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。