![]() |
|
| IT&Telecom Development Summit --IT Appliance&The New Telecommcation Competing Ability 中国 • 北京 | |
| ::: 首页> IT服务管理专栏 > | |
|
|
|
|
◇ 中国信息化推进联盟 IT治理专家 孙强 ◇ IT服务资深顾问 李长征
“前不久爆发的冲击波病毒,让很多计算机中心工作人员依旧记忆犹新:整天在办公楼里“救火”,给用户打windows补丁、装杀毒软件、为用户杀毒、升级。长期重复性的排障工作,让他们倍感“救火”的疲惫。 “救火”在IT业界指处理IT运营过程中频发的突发事件的活动。据2000年对全国400名信息部门经理做过一次调查,结果显示,国内80%以上的信息部门经理把主要精力都扑在了较低层面的实施、运营环节。” 当然我们在IT运营中无法完全避免突发事件的发生,“救火”依旧是IT部门的一项重要工作,但我们是否有足够有效的方法让我们的“救火活动”变得有条不紊,让“救火队员”不再疲于奔命呢? 有!那就是实施事故管理流程。事故管理的目的就是将“救火”变得“轻松自如”。 基本概念 事故(Incident)是任何不符合标准操作且已经引起或可能引起服务中断和服务质量下降的事件。对用户而言,事故包含任何不能顺利使用IT的事件,甚至包括那些由于用户自己原因造成的事件。 事故管理的目的就是在出现事故的时候,能够尽可能快地恢复服务的正常运作,避免业务中断,以确保最佳的服务可用性级别。 “轻松救火”六部曲 No.1查明和记录事故 在上一期服务台中,我们了解到出现事故时服务台要记录相关信息,本期所讲的事故管理也要记录事故信息。但前者主要是标识客户和用户的一些基本信息,如姓名、工作地点和电话号码等,只有后者才详细记录事故信息,比如事故发生的时间、受事故影响的服务等。这样做的目的一是便于确认事故影响,二是问题管理可以根据这些信息查找事故原因,三是密切跟踪事故进展。事故管理给事故一个唯一的编号,记录一些基本的事故分析信息(时间、症状、位置、用户和受影响的服务、硬件等),并补充其它事故信息(与用户的交互信息和配置管理数据库等)。事故管理需要判断事故是否严重,如果严重就先向管理层报告并告知用户有关情况,再采取进一步行动,如果不严重就直接进入下一步的事故初步归类和支持。 记录事故在大多数电信运营商中已经得到了应用,但很多仍旧停留于纸面,没有自动化(电子化)工单记录。这为日后自动判定同类错误造成了低效。 No.2初步归类和支持 这里强调“初步”的目的是为了能够尽可能快地恢复用户的正常工作,尽量避免或者减少事故对IT服务质量的影响。“初步”包含两层含义:一是根据已有的知识和经验对事故的性质进行大概的划分,以便采取相应的措施,二是这里采取的措施和行动不以根本上解决事故为目标,主要目的是维持用户的持续运作。 归类是发现事故原因以便采取相应行动。一般来说,许多事故是重复出现的,因此,当某个事故再次出现时,只需根据已有的经验和措施采取行动即可。 No.3区分事故优先级 优先级(Priority)是根据影响程度和紧急程度而制定的处理事故和问题的先后顺序。优先级=影响度×紧迫性。影响度、紧迫性和优先级三者之间的关系如下图所示。
当IT服务提供方必须同时处理多个事故但受时间、资源和人力等的限制而无法实现时,他就要排定处理的先后次序,即确定每个事故的优先级。服务台最好根据一些量化的指标来决定优先级。这样做既使用户感到公平,又便于组织安排有关的人力和物力。 No.4事故升级 当一线支持人员在规定的时间内不能解决或没有解决某个事故时,就需将这个事故的处理任务交给更有经验和(或)有权限的支持人员,这叫事故升级。 升级是根据No3所讨论的优先级和事故解决时间确定的。升级方式通常有两种。一种是技术升级,另一种是管理升级。前者又称水平升级,指安排更多的技术人员或专家以解决事故。 No.5解决事故和恢复服务 一旦事故被分派给某个支持小组,他们应当: 确认接受了事故处理任务,同时指定有关日期和时间;尽可能快地把发现的权宜措施提供给服务台和客户;参考知名错误、问题、解决方案、计划的变更和知识库等对事故进行评审;必要时要求服务台根据协议的服务级别,重新评价事故影响度和优先级,并在必要时对它们进行调整;记录所有相关信息;把事故处理责任反馈给服务台以让其终止此事故。 在分析和调查事故后,支持小组根据更新后的事故信息、提议的权益措施和解决方案以及有关的变更请求(RFC),解决事故并恢复服务,同时更新有关事故信息。 No.6事故终止 解决事故和恢复服务后,就到事故终止阶段了。在这个阶段的输入是上一阶段更新后的事故记录和已解决的事故,采取的行动主要是和业务部门一起确认事故解决是否成功,输出的结果为更新的事故信息和事故记录。 “事故管理”与其他IT服务管理流程的关系在我们进行“救火六部曲”过程中,“事故管理”流程与其他流程建立起了紧密的关系。如下图所示:
用效益说话 实施事故管理的效益可从两个方面来看。对业务部门而言,一是减少了事故对业务的影响,提高了效率,二是化被动为主动,改进了业务系统,三是获得更多的有用的管理信息,加强了管理。 对IT服务提供方而言,实施事故管理既提高了对员工绩效评价的准确性,又提高了服务人员的工作效率,最终提高了客户满意度,真正做到了变“被动”为“主动”。 欢迎与作者交流IT服务管理的相关经验 作者电子邮件地址:sunqiang@ccidconsulting.com,march@ccidconsulting.com 反馈建议信箱:zhxl@cena.com.cn |
|
| :. |
:: comm-weekly.com.cn :: Copyright 1996-2004 © All Rights Reserved. |
.: |