文 / 中国农业银行数据中心  马超 朱桂博

随着金融科技发展和数字化转型深化,线上业务、移动银行等业务飞速发展,带动数据中心网络规模和流量飞速增长,网络运维和网络安全保障的复杂度与难度也日益提高。同时,金融业务连续性要求7×24小时不中断,金融账务、交易等可回溯性要求高,也要求数据中心运维更加智能和高效。为此中国农业银行(简称“农行”)在ABC ONE+网络新三年规划的指导下,全面开启业务网络一体化智能运维的研究探索,并率先通过流量回溯与分析系统的创新和优化,突破性实现网络端到端流量采集、业务路径还原和实时智能分析,为金融科技发展和数字化转型保驾护航。

金融数字化转型背景下的运维趋势与挑战

互联网、云计算和大数据的发展促使数据中心的基础架构和管理对象正在发生巨大变化。一方面基础架构改变,云化和服务器资源池化驱动网络虚拟化发展,多云多地多数据中心成为诸多大行和股份制银行的选择。数据中心流量飞速增长,并从传统“南北向流量为主”向“东西向流量为主”转变,数据中心运维的规模和复杂度日益提升。另一方面管理对象改变,数据中心从传统的集中式大小机逐步转向分布式架构,运维和管理的对象也从“传统的主机、设备等物理硬件”转向“应用、服务等软件资源和数据”,数据中心运维的管理范围和要求逐步提高。

在这种背景下,IT运维工具层出不穷,百花齐放。从传统手动运维的“农耕时代”,到自动化运维的“工业时代“,再到智能运维的“智能时代”,运维技术在近几年实现了跨越式发展。然而,在金融行业实际的管理和运维中,因为缺乏运维系统的统一规划,在面对时好时坏的业务体验质量、复杂的应用迁移和上线策略、海量的日志告警,数据中心运维逐步暴露出一些问题,具体如下。

1.业务与网络映射关系看不清。传统网络流量采集大多以物理设备旁路流量镜像方式实现,无法向下打开虚拟网络边界,造成网络监控盲点;而网络运维工具更关心网络自身的状态,无法向上看到业务的整体性能,即便网络感知到故障也无法判断业务影响范围。因此,在实现业务互访关系映射,以及实现Overlay网络与Underlay网络映射之后,如何实现业务状态与网络状态的映射成为下一步业务与网络可视化的难点。

2.业务故障定界定位判定慢。一个数据中心可能会出现十多个不同的业务和网络管理系统,彼此之间犹如楚河汉界各自管理,并存在流量重复采集和信息不能有效联动的问题。只有在收到故障告警需要联合定位时,才进行人工协同判定问题出现的位置和原因,这往往耗费数天,故障定界定位周期长、效率低。

3.现网质差类问题难复现。随着数据中心分布式架构变化,现网因分布式“多打一”造成的微突发、丢包等质差问题层出不穷。此类问题在业务层面仅能感知到卡顿或者性能下降,在网络层面因为缺少系统性的数据分析和评估,难以主动察觉和复现,事后排障也没任何依据,只能手工检查表项/告警等信息,耗时长且对技术要求高。因此,网络部门只能配合业务部门反复进行定位和分析,对网络隐患系统性排查和提前识别提出了更高的要求。

因此,如何打破不同管理系统的责任边界和管理范围的桎梏,又不影响现网已有运维系统,是目前金融行业面临的普遍的困难和挑战。基于此,农行坚定地开启了业务网络一体化智能运维的新探索,并明确将全网端到端智能运维作为数据中心运维发展的路标和方向。

跨越式演进

农行首次打破业务与网络运维边界

2022年,为了打破业务与网络的边界,农行启动业务网络一体化智能运维探索。一方面主动梳理并摸排全行的运维痛点和问题,另一方面积极和华为、科来等厂家交流,探索业界最新的技术和运维方向,吸取各家所长。最终,农行流量回溯分析系统由业务性能管理系统和网络智能运维系统两部分构成,并在该逻辑架构基础上进行了如下创新实践。

1.探索一:网络运维能力服务化,状态主动上送。为了快速向业务性能管理系统提供网络数据,网络通过100+全量API实现服务化,并全面开放网络数据服务,通过拖拽式整合即可快速发布场景化API与上层业务性能管理系统对接,打破了传统硬编码开发的模式,大大缩短了系统间集成周期。

2.探索二:流量镜像叠加,端到端路径还原。如图所示。为了对业务进行全面的质量保障,实现全面流量镜像,农行在DC出口、Fabric出口、VAS设备互联口等关键节点进行边界出口全流镜像,并由业务性能管理系统进行会话与网络性能分析;在Fabric内部基于TCP特征报文进行ERSPAN流镜像,并上送给网络智能运维系统还原Fabric内转发路径。最后通过两种流量镜像叠加,实现了端到端镜像和路径还原,并支持镜像流量的去重、解密和脱敏等,减轻分析段压力。

3.探索三:AI智能分析与推理,网络风险智能评估。为了实现全量风险评估,网络通过采集设备的ERSPAN流、Telemetry性能Metrics进行大数据分析,并结合AI算法主动感知网络可能存在的故障,智能分析识别是否存在网络或者应用的群体性故障,逐步实现故障主动感知、分钟级故障定位定界的主动智能运维目标。

图  流量镜像位置与边界示意图

分钟级根因分析

迈出端到端智能运维第一步

通过如上探索,农行流量回溯分析系统实现了“业务质量分析→网络会话分析→网络路径分析→故障根因定位”的端到端立体化运维,能够提供覆盖Underlay与Overlay的业务和网络性能分析能力;打通业务、会话、网络问题分析路径,快速发现并定位质差问题;同时满足问题定界、全网路径分析、质差主动感知等具体分析场景,最终达到了如下效果。

1.应用精细化性能管理,实时感知异常。农行流量回溯与分析系统支持对220+金融业务性能指标,包括交易量、交易成功率、交易时延等业务层指标的实时分析,可主动感知交易质量下降,一键追踪全路径交易并识别异常服务节点。

2.业务—会话—网络E2E分析,分钟级责任定界。实时感知业务异常后,农行流量回溯与分析系统支持将业务交易的全服务路径与业务流的网络转发路况进行一键关联,发现异常后可以跳转到网络智能运维系统进行联合分析,打通业务—会话—网络E2E分析路径,快速进行责任定界。

3.智能故障根因分析,全网隐患主动排查。网络智能运维系统采用规则引擎、智能化引擎、知识图谱等技术进行大数据挖掘分析,对全网基础资源统一建模,将网络对象、事件、传播关系进行联合分析,推理网络故障根因,实现对故障的分钟级根因分析。同时通过AI算法将多个网络指标进行关联,提前识别网络中可靠性、容量、性能、稳定性等隐患,统一评估全网潜在风险,由被动救火向主动运维转变,降低故障发生概率。

农行流量回溯分析系统的创新实现了端到端智能运维的新突破,让业务与网络不再割裂,实现了业务和网络运维数据的融合。未来,农行端到端智能运维将进一步从物理网络、虚拟网络向全栈云网络演进,并进一步打通数据中心内、数据中心间,以及分支互联的运维通道,实现全局全网一体化运维,提升整网运维管理效率和业务连续性水平,推动农行数字化转型迈向新篇章。

声明:本文来自金融电子化,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。