本文节选自《金融电子化》2018年5月刊

作者:中国人寿保险股份有限公司

上海数据中心  史莉雯 杨洋 高波 张宏豪

当前问题:数据中心云化之后,先进运维工具的开发和使用让运维管理足以匹配云数据中心的发展速度。然而,由于企业存在部门边界,每个部门都站在自己的角度去选择或开发工具,势必带来工具繁多、重复建设、信息孤岛、浪费资源等很多问题。

应对措施:为解决当前问题,中国人寿保险股份有限公司上海数据中心(简称国寿数据中心)着手开展云数据中心运维管理平台的规划。该平台涵盖目前云数据中心所需的运维工具合集,相当于运维工作的核心系统,为整个运维管理工作呈现一幅全局而统一的规划图。

云管平台整体规划

围绕“智慧保险、科技国寿”的总体目标,结合“标准化”、“自动化”、“智能化”的运维管理思路,国寿数据中心规划了“1+1+N”云数据中心运维管理平台(简称云管平台)。云管平台建立在云基础设施之上,包含1个统一的云门户、1个统一的CMDB云配置管理库、N个云数据中心运维子平台。平台各组件互有关联、相互协作,值得注意的是运维子平台的数量N,根据目前云数据中心建设情况定义为8,未来将随着云数据中心的建设情况以及技术的不断突破创新而随之变化。

云管平台组件介绍

1.云门户

云门户是运维、监控、调度、服务流程等的统一入口,是面向内外部使用人员的统一窗口。云门户通过分权分级管理的模式,根据使用者身份、工作职责和关注事项将每位使用者的工作内容在门户中以个性化的方式呈现出来,同时能与外部信息灵活地整合,为服务、运维、管理等工作提供便利。

2.CMDB云配置管理库

CMDB云配置管理库是云数据中心运维管理的数据基础。从业务角度看,云配置管理库存储与所有云基础设施相关的各种配置信息,并与所有服务支持和服务交付等流程紧密相连,支持流程和各类运维平台的运转。从技术角度看,云配置管理库是一个共享的数据管理服务平台,为各类周边系统和用户提供数据增删改、权限配置、数据可视化、后台批作业、通知提醒等共享服务,进而作为各运维子平台的信息汇总及信息交互的平台。因此,云配置管理库在整个IT运维环境中处于基础核心地位,应作为云数据中心权威的配置数据来源且是唯一的来源。

3.运维子平台

运维子平台包含生产调度平台、IT流程平台、安全管控平台、集成交付平台、监控与预警平台、自动化运维平台、运维分析平台和智能与探索,是“监、管、控”思路的主要体现。

(1)管理模块

生产调度平台、IT流程平台和安全管控平台组成了管理模块,分别指导运维工作“何时执行”“怎么执行”“安全执行”,可认为是云管平台的大脑。其中,生产调度平台是运维工作的总指挥官,负责指挥调度运维工作的执行;IT流程平台是运维执行流程指南,规范和控制着运维工作本身;安全管控平台是运维工作的安全操作指南,规定了所有运维工作必须在安全管控下进行。

生产调度平台对生产事件进行统一调度,包括统一变更、紧急事件、版本管理、7×24监控等,统一调度有利于提升生产问题的发现与解决能力,对内可提升生产效率,对外可提升客户体验。 

IT运维管理主要以流程为导向。流程是为了提供各类符合要求的IT服务,而对实现IT服务目标的一系列活动进行系统的计划、组织、协调与控制的过程,这些活动的先后顺序、内容、责任都需要有明确的定义。IT运维的每项工作都离不开流程的设计,尤其是智能化运维更需要以成熟的流程为基础。 

安全管理是企业安全、稳定运行的基础,涉及到运维管理的方方面面,对于云数据中心,首先要考虑全方位的安全防护体系,同时对于各个组成部分需有各自的安全防护措施,尽量防止“蝴蝶效应”式的安全问题。

(2)监控模块

监控与预警平台是监控模块,用于“监视执行”,可认为是云管平台的眼睛,是保证运维对象始终处于正常运行状态的手段。监控平台需要支持对机房设施、物理基础设施、数据中心骨干网络、资源使用情况、应用系统等实现全面的监控,让运维管理者对系统的性能、故障、可用性、流量及配置等情况都做到“及时掌控”。

(3)控制模块

集成交付平台、自动化运维平台组成了控制模块,主要任务是“执行”,可认为是云管平台的双手,是运维操作处理和控制中心。

系统正式上线时,需要执行多步操作,通过流水线部署方式将高度自动化测试、部署以及全面配置管理结合在一起,基于高水平自动化持续集成的基础实现快速发布、使整个交付过程标准且可靠,是智能化运维的高阶目标。

自动化运维平台是运维操作的合集,云数据中心的规模决定了运维管理很大程度上都要依赖于自动化技术,将资源管理、容量管理、作业执行等大量规律性、周期性、重复性的操作通过自动化作业形式完成,这是技术发展的必然趋势。

(4)自学习模块

运维分析平台用于进行“执行分析”,可认为是云管平台的一种“自学习能力”。运维分析不仅是对执行效果的度量,还包含了事前预判,即利用数据挖掘技术在运维数据中挖掘出有价值的信息,实现对运维、业务、采购等方面提前预判并做出相应的决策,如了解业务增长与设备性能之间的关系、需要扩容的数量等,从而提前预判,做到事前防范。

(5)待开发功能

智能与探索用于预测云数据中心未来运维发展态势及前沿技术等,包括各平台的先进技术和管理理念,可认为是云管平台的“待开发潜能”。这部分内容新颖而广泛,有待逐步开发。当研究成熟后,根据成果分类可应用于各功能平台,令云管平台的整体持续保持先进化发展,以跟上云数据中心不断发展的步伐。

云管平台建设现状

根据云管平台的规划,国寿数据中心逐步推进各平台功能的建设。

云门户:自研云门户原型,并已逐步向外提供服务功能。

CMDB云配置管理库:搭建了整个配置管理共享集成的生态库,全面纳管中心的生产设备和逻辑主机配置等信息,并与多个运维系统平台集成,形成灵活高效的整合能力。

IT流程平台:自研面向互联网扁平化、促进开发运维融合的新一代IT流程平台,以流程为核心,结合DevOps的理念,兼顾服务模式的稳定性和敏捷性,实现统一的同质化服务。

安全管控平台:开展安全体系建设,通过新加坡金融管理局TVRA评估及ISO27001认证贯标,初步建成一个可持续改进的安全管理体系。

监控与预警平台:在基础设施、业务交易、安全风险、基础环境等方面开展监控建设。自主监控平台针对基础设施,通过对系统运行状态数据的自动采集、智能处理、分级展现,及时掌控系统异常情况;“全球鹰”应用监控和“响尾蛇”预警系统针对业务交易,定位系统的“慢”,并通过数据挖掘技术感知应用系统未来可能的风险,便于提前介入处理;“大黄蜂”智能安全监控平台针对安全风险,通过日志解析,实现安全风险的主动发现、智能定位和自动化处理;基础动力环境设备方面也均配备了监控采集装置,并在建基础动力环境设备运行状态的集中监控,以便实现基础环境设备统一管理。

集成交付平台:自研自动化部署与发布平台,推动DevOps一体化运维落地,目前平台已接入大部分主要系统,部署时长缩短约85%,部署成功率达95%以上,大大提升了应用交付的整体效率。

自动化运维平台:自研智能自动化运维平台,以应对海量资源管理的压力,实现主要运维工作自动化,以较少的人力管理中心数万台服务器,大大提升了运维效率,实现了运维能力的指数级提升。

声明:本文来自金融电子化,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。