周永红

文  |  中国工商银行软件开发中心总经理助理 周永红

十年前,银行的业务开展较为单一,用户主要在银行柜面办理业务,业务更新速度较慢。随着银行业务的互联网化,各家银行都借助互联网技术和手段,建立手机银行、移动客户端及公众号等,并不断推出新的业务及新的方式增加用户量及用户黏性。伴随着银行业务接入渠道的多样化、业务数量的爆发性增加,以及业务内容的不断更新,对支撑业务运行的IT系统提出了巨大的挑战及要求。传统的IT建设及管理方式已不能再满足现有及未来银行业务的发展需求,迫切要求金融行业借助云计算、大数据和人工智能等新技术,推动IT资源快速响应业务系统的变化,提升商业银行的数字化水平,降低运维和运营成本,满足“未来银行”的建设。

工商银行于1999年完成了全球数据大集中,2008年开始全面部署服务器虚拟化,并紧随业务发展趋势于2014年全力启动云计算等新技术的研究工作。经过近三年的建设,工商银行已打造并正式发布“工银星云”技术平台,为工商银行IT系统提供标准化、自动化的IT基础设施和公共技术服务,从而积极应对金融与科技融合创新发展的新趋势,更好地服务全行经营转型,助力“智慧银行”战略实施。

一、打造“工银星云”,推进云化历程

工商银行云平台采用“开源结合自研”的技术演进路线,通过引进、消化、吸收、再创新,充分结合工商银行应用规模特征以及运维需求,打造了自主可控的企业级云平台“工银星云”,即工商银行金融云两大基础平台:基础设施云IaaS和应用平台云PaaS。工商银行基础设施云IaaS基于开放OpenStack、SDN之上自主研发云管平台,实现了计算、存储、网络资源的供应,与应用平台云、流程管理等系统的联动以及资源的可视化管理。工商银行应用平台云PaaS采用轻量级容器技术,以及主流容器集群调度技术Kubernetes,在调度、负载均衡、弹性伸缩、集群管理、日志和监控等方面实现了完整的企业级平台能力,支持万级集群规模、秒级弹性伸缩、灵活的服务化、自动化与智能化的云运维、安全的隔离机制与高可用保障、全流程DevOps等能力。

目前“工银星云”基础实施云运行规模超一万套虚拟机节点,应用平台云容器规模近5000个,云上日均服务调用量超6亿笔,覆盖个人网银、企业网银、手机银行、快捷支付、纪念币等100余个关键应用,有效承载了生产交易负载。

二、基于“工银星云”,构建未来银行基石

“容器技术”与“微服务”的结合,逐渐成为业界云原生的主流。工商银行在云化、容器化的同时,也深入推动应用传统架构向分布式、服务化演进,促进了工商银行应用IT架构的转型。伴随着容器化、服务化历程之后,云上应用的部署规模和交易数据量呈现爆炸式增长,业务内容也呈现多渠道化、多样化,传统的运营和运维模式越来越无法满足需求,迫切需要建立智能化、安全、高效的云上运维与运营。

1.建设企业级日志中心,打造云上日志“数据金矿”

“工银星云”基于业界日志生态elasticsearch、filebeat、fluentd、logstash、Hadoop等开源技术,结合工商银行特色进行二次开发,建立了企业级的分布式日志中心(如图1所示)。日志中心提供多元化、高性能的日志采集能力,将操作系统日志、应用日志、中间件日志、集群运行日志等纳入视野,实现全方位、统一、集中的日志管理;通过长期的慢日志存储和历史数据下载,形成数据储备,为日志分析夯实基础;并实现高可用、高可靠的日志检索引擎,提供基于关键词、日期、应用、节点类型等多维度的日志在线检索和实时分析能力,实现问题快速定位与处理。

图1 工商银行企业级分布式日志中心

截至目前,工商银行分布式日志中心已支撑近90个应用的云上日志归集,峰值可支撑10万以上TPS日志写入,可谓工商银行智能运维与运营体系的“数据金矿”。

2.建设全息监控平台,提供“监控天眼”

随着业界云计算监控领域的技术演进,工商银行的云监控体系也从最初的“静态、粗放、单一”走向“动态、精细、灵活”,强有力地保障了云化环境下的生产安全。基于业界主流的Promethueus、zipkin、Cassandra等APM技术,整合日志中心、监控中心等数据,形成了全方位、立体化的全息监控平台(如图2所示)。全息监控平台提供全面的监控指标采集能力,目前已支持数百种指标准实时推送,涵盖平台侧操作系统资源监控、中间件监控、标准应用指标监控、自定义应用指标监控等领域;通过对监控数据的聚合分析,提供应用的运行健康及负载量的实时监控能力,实现跨平台、跨应用的应用调用链跟踪和分析,提供应用故障画像和实时报警,有效提升故障发现和解决效率。

图2 工商银行全息监控平台

3.打造云运维体系,提供自动化、精细化的运维能力

随着“企业级日志中心”和“全息监控平台”两大基石在生产环境的打磨演进,结合多年在运维领域的探索实践,工商银行于2017年下半年建立了面向大规模集群的云运维体系(如图3所示),提升云上应用自动化、精细化的运维水平。基于容器监控数据、日志采集等大数据,建立通用、可定制、可扩展的业务分析模型平台,实现云上运维可视化,并对接到工银e办公。工商银行云运维体系提供秒级指标计算及报警,实现云上应用的精细管理;建立分布式节点自动巡检机制,提供云上应用运行趋势分析、故障秒级预警及实时诊断;建立云上资源治理体系,提供资源使用和弹性伸缩的建言;实现快速、自动化的云上运维能力,提升云上运维水平。

图3 工商银行云运维体系

目前工商银行云运维体系已覆盖全部云上应用,尤其在“双十一”电商抢购、纪念币预约等活动中,对快捷支付、纪念币等关键应用提供交易状态和资源状态的实时监控、故障的快速发现,实时、有力地保障了生产运行的稳定。

4.借助大数据、人工智能,探索智能化运营与运维

基于分布式日志中心的“数据金矿”、全息监控平台的“监控天眼”以及自动化“云运维体系”,“工银星云”已实现基础数据的归集、存储、监控、分析及预警,下一代云平台的建设重点是借助大数据和人工智能技术,推动智能化业务运营与智能化运维AIOps,提升交易安全管控能力、服务监控能力、故障智能检测及处理能力(如图4所示)。

图4 工商银行智能化云平台建设规划

目前工商银行已规划从交易安全管控、服务监控、异常检测、故障智能分析和运行优化五大方向,推动智能化业务运营和智能化运维建设。在交易安全管控方面,基于交易统计数据,搭建风险控制模型,对异常交易进行风险提示,提升交易安全性;在服务监控方面,实现服务水平监控与报警智能化,通过对监控与报警指标进行因果关联分析,压缩报警事件,提高监控效率;在异常检测方面,基于云上节点工作负载动态画像智能定位问题原因,锁定性能问题节点;在故障智能分析方面,基于智能日志完成监控诊断,探寻故障根因;在运行优化方面,针对云上节点的资源使用情况,智能分析容量瓶颈,提出优化建议。

目前工商银行已有相关实践并已落地“交易安全管控”“智能故障定位”两大场景。“交易安全管控”基于API交易统计数据,搭建基于产品维度的交易监控模型、基于周期对比的监控模型、以及基于瞬时异常模型,对API服务调用情况进行监控,揭示业务异常风险,提升交易安全性。“智能故障定位”基于应用日志内容,从宏观业务交易耗时监控趋势下钻到交易记录,进一步下钻到单笔交易各步骤耗时明细及业务链请求过程,通过机器学习智能分析快速定位故障。

三、依托“工银星云”,驱动智慧银行转型

通过“工银星云”,工商银行的基础设施资源利用效率提升了2~3倍,资源供应效率供应时间由2~3周缩短至分钟级;通过基础设施云IaaS与应用平台云PaaS的联动,业务高峰扩容可达秒级,管理流程提升,超过60%的流程实现全自动化。尤其在以互联网金融为代表的业务突发高峰场景下,“工银星云”已在个人电子银行、第三方快捷支付、纪念币预约发行、个人II/III类结算账户和主机业务下移场景有了较大范围的使用和成功实践的经验。特别是今年“双十一”大促,采用主机账户下移的快捷支付应用,借助云化和服务化实现了分钟级的集群扩容和缩容以及57%集群资源共享,大促期间支付峰值达21661笔/秒,平均交易耗时78ms,峰值期间CPU使用率50%以下,给工商银行客户带来了快速、安全、稳定的支付体验。

业务数据量的爆发式增加以及业务内容的多样化和不断更新,迫切需要金融行业借助新技术向未来银行转型。依托“工银星云”,工商银行已实现IT资源向快速响应、弹性伸缩、高可用、低成本的云计算环境转型,为客户及交易规模高速发展提供有力支撑,后续将继续深入提升智能化、安全、高效的运营与运维,助力工商银行走向“智慧、开放、共享、高效、融合”的智慧银行信息系统。

声明:本文来自中国金融电脑,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。