中图分类号:TP315 文献标识码:A 文章编号:1009-3044(2012)35-8364-03
随着信息化应用的不断深入推进, 信息系统已成为支撑各单位运作不可缺少的一部分,由于业务工作越来越依赖信息系统,信息系统发生故障所带来的负面影响也越来越大, 传统粗放式的IT运维管理已不能满足全面管理信息系统的要求。因此,以系统化和规范化手段实现运维管理从被动式服务转变为主动预防服务,以流程贯穿整个运维管理过程,切实保障系统可靠、稳定、高效地运行是目前单位信息化建设急需解决的问题。
微软运作框架(Microsoft Operation Framework,简称MOF)是微软公司以ITIL为基础,联合业界专家、合作伙伴等开发的IT运营管理方法。MOF主要是为更好地运营微软公司的产品和服务而开发的,但它对于非微软公司的IT产品和服务的运营管理同样有积极的指导作用。
笔者所在单位针对现有的基于微软产品及解决方案的基础平台IT环境,基于MOF的微软最佳实践及方法论、结合业界标准规范,在对基础平台建设与运维现状评估基础上设计了基于MOF的运维管理体系,并作了初步的实践和探讨。
1 MOF概述
1.1 基本介绍
MOF是Microsoft Operations Framework 的简称,是一个流程最佳实践集合,用户可以根据它来设计有效操作 IT 基础结构所需的步骤、控件和角色。MOF 基于信息技术基础架构库 (ITIL),它增强了 Microsoft 平台的针对性,最新版本是v4.0于2008年4月发行。
MOF 提供有关如何规划、部署和维护 IT 操作过程以支持关键任务性服务解决方案的指南。并提出了一套完整的模型,包括过程模型、团队模型、风险模型等。MOF作为通用模型,在将其用于具体行业时还必须修改许多建议。
1.2 过程模型
MOF提出的过程模型所讨论的IT服务周期包含三个阶段和一个基础层,具体是:
Plan规划阶段:遵循业务战略,规划及优化 IT 服务;
Delivery提交阶段:设计及部署 IT 服务;
Operate操作阶段:持续提供服务运维及支持;
Manage管理基础层:进行运维管理、规章、制度的制定及推行,最佳实践设定,确保 IT 投入在可控的风险范围内实现期望的商业价值。管理基础层Manage Layer 的目标是建立一个整合的IT服务管理的软环境,以协调Plan、Delivery及Operate三大阶段中的相应服务管理职能(Service Manage Function,简称SMF)高效运作。
1.3 MOF与ITIL的关系
ITIL是信息技术基础架构库(即Information Technology Infrastructure Library)的简称,由英国政府商务办公厅(OGC)编纂的业界公认的信息系统运维的最佳实践指导方针。涉及业务管理、服务管理、IT基础构架管理、应用管理、安全管理、IT服务管理规划与实施等IT运作管理的各个方面。Accenture、Avanade、Fox IT、惠普、朗讯科技/NetworkCare专业服务、微软顾问咨询服务(MCS)和微软操作运转与技术支持集团(OTG,原名信息技术集团[ITG])等知名公司多年积累的宝贵IT操作运行经验均被ITIL所收录。
MOF 是基于下列各项的结构化的灵活模型:
-Microsoft 咨询和支持团队及其与企业客户和伙伴合作的经验以及 Microsoft 内部 IT 操作组;
-IT 基础架构库 (ITIL),它描述了提供关键任务性服务解决方案所需的过程和最佳实践;
-来自国际标准化组织 (ISO) 的 ISO/IEC 15504,它提供了用以评估软件过程成熟度的规范化方法。
MOF又有别于ITIL,在ITIL的基础上,增加了多个服务管理职能,具体提供了有关部署各种 Microsoft 产品(如 Microsoft Windows Server、Microsoft Application Server、Microsoft System Center等)的操作指南和最佳实践。
2 基于MOF 的运维管理体系框架设计与实践
2.1运维管理体系基本框架
设计的基于MOF的运维管理体系主要是以MOF的“过程、团队、风险”三大模型作为理论依据;通过清晰梳理日常IT 运维服务管理过程中遇到的各类问题,以”人员、流程和技术” 为三大核心因素,力求使IT 运维过程变得有序连贯,建立包括组织、制度、流程、技术支撑、绩效考核的IT 运维体系,以全面提高运维服务的质量和水平,保障系统高效、稳定、安全运行和对用户应用的优质服务。
结合MOF服务管理功能SMF的要求,制定、完善相应的管理规章制度,规范操作流程;根据MOF团队模型,对系统运维团队角色做出更为明确的职责分工和定义所需技能要求;基于风险管理模型强化应急预案系统建设,一方面完善信息安全监督机制,另方面强化安全产品的及时升级及监控、维护,确保安全防范切实、有效,逐步建立、完善关键业务应急灾备信息系统,用以在紧急情况下保障关键业务信息系统的正常运行。
2.2 运维管理支撑平台架构
根据提出的运维管理体系框架来设计并搭建了本单位的运维管理支撑平台,提供保障信息系统运行维护管理流程改进、整体高效运转的技术手段,围绕核心服务管理功能SMF模块,选用模块化设计。
运维管理支撑平台以MOSS(Microsoft Office Sharepoint Server)门户、System Center 中的系统监控和服务管理等模块产品为基础,结合统一用户管理、多渠道通讯平台、工作流和报表服务等公共应用平台,根据运维体系阶段性业务需求,逐步定制开发相应的业务功能模块,最终以统一的运维门户与运维团队、最终用户进行交互。
2.3 运维管理支撑平台基础服务组件
运维支撑平台的基础服务组件基于微软成熟产品并结合基础平台进行构建。
MOSS门户提供灵活的表单定制功能和强大的内容管理功能。配置管理数据库基于门户进行定制,不但可以实现配置数据的存储而且可以实现配置信息之间的关联。部分服务管理功能中的表单和过程可以通过门户的列表和工作流定制完成。相关基础服务组件如SCOM监控系统中产生的报表及视图也可集成在MOSS门户中统一展示。
利用System Center系统监控软件SCOM,自动化完成网络、软、硬件管理和监控功能,监控数据可以通过门户统一展现,同时集成多渠道通讯平台,在特定事件发生时,及时通知运维人员。
利用SCOM系统提供的先进、实用、高效工具, 运维管理人员可
以实时监控各系统的运行状态,包括对服务器、网络、数据库和应用系统的运行状况进行实时监控,如服务器的CPU、内存和磁盘空间使用情况;网络设备的接口利用率、数据流量和丢包率等;分布式应用系统业务视图中各节点状态的监控。当系统超过设定阈值自动报警时, 通过系统间的关联分析, 运维管理人员可以主动发现并解决故障; 并通过系统产生的报表进行趋势分析, 寻找潜在故障, 防患于未然, 有效支持了业务工作的顺利开展。通过SCOM监控管理平台的建立,用电子巡检方式代替了人工巡检,大大缩短巡检周期,提高了工作效率。同时为性能指标设定不同级别的报警阈值, 当性能超过阈值时,系统将自动详细记录报警信息,并自动通知相关运维管理人员,逐步改变了以往被动服务的局面,提高了系统无故障运行时间。
2.4 运维管理支撑平台功能模块
问题管理模块将管理问题的描述、重现环境、解决方案、关联的配置项等信息。对于IT系统的变更阶段以及运行过程中发现的问题,需要通过问题管理模块进行跟踪、管理。相关运维管理人员可以通过问题管理模块,对新提交的问题进行分析,寻找解决方案,并记录入系统,同时,问题管理模块还需要支持发现解决方案后,问题汇总并触发变更请求(RFC),在下一个该IT系统版本中修复已知问题。
变更请求管理可以帮助用户跟踪与设计更改关联的风险。团队成员可以提交更改请求,并向项目负责人通知与更改有关的风险。通过该应用程序模板,团队成员可以批准或拒绝请求。此外还有IT团队工作区、知识管理、风险管理、考核评估以及文档管理模块。
3 结论
通过对基于MOF的IT运维管理体系和技术支撑平台的实施,本单位在提升IT运维管理能力方面取得了初步成效。一方面,主动运维方式可以使设备和系统维护的效率及平均无故障时间得以提高,缓解了技术力量缺乏的问题;另一方面,规范化的IT运维服务管理使运维团队中的各个角色与职责有了较清晰的定义,使维护责任和安全责任落到实处,在实现IT运维服务质量逐步提高的基础上,也将使得IT运维服务的成本得到有效控制。当然,要使运维管理从传统的单一、被动和低效的管理方式彻底转变为统一、主动和高效的管理模式,全面提升运维管理水平,还有待于在工作中通过持续的实践探索对运维管理体系进行不断更新。
参考文献:
[1] 微软运维框架:Microsoft Operations Framework.http://www.microsoft.com/mof.
[2] 信息技术基础架构库:ITIL: Information Technology Infrastructure Library.http://www.itil.com.cn.