IT运维的价值究竟在哪里?

随着企业在市场中的竞争越来越激烈,业务对IT系统的依赖性越来越强,IT系统成为企业提升业务效率、降低业务成本、实现业务创新等核心竞争力的重要保障。IT运维的质量对业务的影响也越来越明显,保障业务的高可用成为IT运维的终极目标。

业务运维正在成为IT运维的价值增长点

现在的业务流程越来越复杂,IT系统架构越来越繁琐,应用系统上线周期越来越短,系统变更越来越频繁,交接很仓促,系统在没有充分测试的情况下上线,相关文档更新不及时等,这些都给IT运维管理带来巨大的压力和挑战,下述情形经常会发生:应用系统改造牵一发而动全身,但很少有人完全了解系统整体架构、数据流等;端到端业务流程穿越多个应用系统,而单个应用系统可用并不能代表整个业务的可用;运维人员对架构和业务流程不了解,且缺乏相应工具的支持,发生故障时故障定位能力不足,延误了业务恢复时间…… 

为了应对上述情况,IT运维领域近年来不断涌现出与支撑业务运营相关的多种职能和工具,如业务流程管理(Business Process Management, BPM)、业务服务管理(Business Services Management, BSM)、应用性能管理(Application Performance Management, APM)等。如果我们用业务运维这一相对宽泛的词来概括IT运维中与业务运营支撑密切相关工作的话,那么,业务运维目前正在成为体现和评价IT运维价值的核心内容。

业务运维的关键点

这一大趋势要求企业的IT运维人员转变传统的面向技术和基础架构的运维模式,从业务的视角,既关注设备和系统的运行质量,也要关注这些设备和系统对业务的实际支撑质量。为进一步提高自身运维质量和体现运维价值提供参考,以下四方面概述了业务运维的主要内容及其重要趋势:

1建立业务运维分层模型。从业务的角度,把业务服务映射到支撑该服务的底层组件上(包括承载该业务的应用系统、及支撑应用系统的中间件、数据库、网络、服务器、存储等软、硬件平台)。通过对设备、平台、应用/服务、业务流程环节进行梳理,从业务模块、业务环节、业务数据,到相应的应用、设备、数据库、中间件等支撑系统和应用,建立起逻辑架构关系,形成分层视图模型,为业务运维打下基础,以及建立起业务运维的知识库。体现出业务流程与底层IT基础设施之间的映射关系,使IT运维人员随时了解业务流程、及其与平台系统架构之间的关系。主要包括:业务流程梳理、分层业务建模、业务部署建模、业务关联影响建模、基础设施建模、业务单点风险分析及业务/平台视图展示等。

2建立业务运维监控指标体系。在业务运维分层视图的基础上,对业务、业务流程、业务环节、基础架构等建立起动态监控指标体系,如依据节假日、时段动态基线,形成相应的KPIKQI,为后期自动化运维建立指标基础。包括:业务/系统指标体系定义、业务/系统指标采集。

3应用性能监控集成。把在运维系统中已经上线的多个监控运维工具集成起来,实现1+1>2的运维合力效果。从业务运维与监控角度,把孤立工具集成到统一的可视化运维平台。 

4可视化立体业务运维。通过把业务流程与IT基础设施之间的映射进行实时的可视化展示,帮助客户建立可视化运维平台,实现实时的、可视化的、面向业务的监控,帮助IT运维人员从业务视角开展系统运维工作,第一时间发现业务运维问题,直观和快速定位问题,有效协同业务和技术人员共同解决问题,提升业务可用性和系统可用性的综合管理能力。主要包括:可视化平台、个性化视图建模、运维数据的分析和价值挖掘等。

业务运维的实现

下面我们用一个真实案例来说明业务运维的具体实现。某大型通讯服务运营商,希望提升服务的整体质量,满足集团的考核要求,对其传统的IT运维模式进行创新和优化,将IT运维人员的视角从紧盯IT平台、设备等基础架构转移到对业务的可用性保障上来。方案主要包括:

业务流程梳理:结合考虑的五项指标,全面梳理了五项指标相关业务流程,帮助客户建立了业务流程和IT系统之间的双向对应关系,并识别关键风险点,以便于在运维过程中作为监控的重点和问题查找的重要分析点;

指标体系分解、建立和关键指标的设定和采集:根据五项指标,逐步分解把五项指标分解到IT基础设施,建立KQIKPI关键指标体系及指标阀值的设计采集;

可视化平台落地实施:以可视化方式展示业务、应用基础架构关联关系,实现故障的快速定位;实时展示各业务运行状态,及时发现业务风险; 

业务应急应用:全面梳理关键业务环节应急场景,通过业务可视化平台完善业务应急体系。

在此案例中,通过梳理五项指标与现有IT基础设施的映射关系,建立分层模型、明确相关IT监控的指标体系,并通过可视化平台,使IT运维人员和管理者直观的了解到业务的运营质量,对由于IT问题可能给业务带来的影响提供了预警机制。

在业务操作端出现异常时,后端IT人员也能够及时定位到可能造成影响的支撑平台及组件,从而有效提高业务运维质量,并进而提高服务质量和客户感知指标。

摘自 HP Technology at Work