如何设计问题管理流程将事故影响最小化

日期: 2011-10-30 作者:Michael Cobb翻译:Odyssey 来源:TechTarget中国 英文

“休斯敦,我们遇到问题了”,这是来自科学和技术界最伟大的语录之一。   然而从技术上来说,当他们用无线电告知在休斯敦的任务控制台时,阿波罗13号的工作人员应该说:“我们遇到了事故”,因为问题是事故表面下的未知原因。   事故是任何不属于标准服务运转部分的事件,能引起或是可能造成服务中断或是服务质量下降。谢天谢地,像任何组织良好的项目一样,休斯敦拥有一个中止计划,再加上宇航员们的足智多谋,他们最终能够平安地返回地面。

  这是一起事故或危机管理的典型案例,目的是尽可能快地恢复服务运转的正常状态,从而将对运行的不利影响降至最低。拥有到位的事故管理计划以及应急响应团队来确保处理任何事故,应该成为任何……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

“休斯敦,我们遇到问题了”,这是来自科学和技术界最伟大的语录之一。

  然而从技术上来说,当他们用无线电告知在休斯敦的任务控制台时,阿波罗13号的工作人员应该说:“我们遇到了事故”,因为问题是事故表面下的未知原因。

  事故是任何不属于标准服务运转部分的事件,能引起或是可能造成服务中断或是服务质量下降。谢天谢地,像任何组织良好的项目一样,休斯敦拥有一个中止计划,再加上宇航员们的足智多谋,他们最终能够平安地返回地面。

  这是一起事故或危机管理的典型案例,目的是尽可能快地恢复服务运转的正常状态,从而将对运行的不利影响降至最低。拥有到位的事故管理计划以及应急响应团队来确保处理任何事故,应该成为任何组织的标准惯例。无论是天灾人祸、恶意攻击或是员工的疏忽,都应该被快速地处理,从而可以继续正常的服务。事故是每天业务生活的一部分,应该有帮助台(help desk)或IT支持人员来处理不太严重的问题,并有紧急响应团队来处理重大的事故。但是,究竟有多少组织拥有问题管理团队呢?

  问题的定义是某个或多个事故的未知原因,问题管理流程涉及到判断此类事故表面下的原因,然后找到一个永久的解决方案。它不同于事件管理,因为它的关注点在于问题的解决而不是事件本身的响应速度,以防止它恶化成事件。

  在阿波罗13号甲板上的事故引起了细致的调查以便判断问题的根源。然后用这方面的知识,以确保在未来的任务中问题不会再出现。这种类型的事件后分析可以起到至关重要的作用,确保企业网络运营保持不间断高效运行。没有它,宕机时间会延长,并且时间和金钱可能会浪费在处理重复的事故上。

  让我们举个简单的例子来突出事件管理和问题管理间的差异:某个出问题的网络文件服务器无法让雇员们访问他们的文档。事件响应团队可能仅是重启服务器以便快速地恢复访问。问题响应团队则会找到让服务器宕机的原因,以便能修正并防止问题再次发生(请注意,问题管理不同于吸取经验教训的工作,后者是评审事故是如何处理的,看是否能改善未来事故的处理)。

  尽管问题解决和事件响应是有关联的,但它们不一定要求同样的技能,因此参与到这两个流程的人员也是不同的。一些人可能知道如何恢复最近一次的数据库备份,但是不了解造成数据库崩溃的首要原因是什么。问题解决更加倾向于取证和追溯发生了什么引发了事件,而事件管理要求关于如何恢复一个系统的更具有可操作性的知识。

  问题通常可由之后多个有类似症状的事故辨识——例如跨整个网络的电脑病毒传播并影响它们的性能——或者是从有重要影响的单个事故来辨识的,比如前面提到的情况:没人能访问某个特殊服务器上的文件。

  一旦成功地诊断出事故表面下的原因,它就成了“已知错误”,随后的任务就是找到一个合适的变通方法或永久的解决方案。变通方法应该只用于将问题的影响最小化,直到找到永久的解决方案,并且问题应该归为已知的错误。

  辨识问题根本原因的技术之一是使用因果图(Ishikawa diagram,也叫“鱼骨图”),是用来映射事件起因的工具。潜在的原因通常被归类如人、流程、策略、硬件、软件和环境,在这些类中,任何来源的变化都能帮助找出问题的原因所在。其它技术如阿波罗根源分析方法(Apollo Root Cause Analysis)也能用来辨识原因和寻找解决方案。

  尽管问题管理与事故管理是紧密关联的,但是在需要快速的解决事故和需要找到问题长期的解决方案间,两者可能有冲突。还是用前面的例子,立刻重启文件服务器可能破坏有用的诊断信息来辨识问题的原因。解决这个冲突的方法之一,是事先达成一致需要什么诊断信息,在恢复服务前允许的诊断时间,以及试图解决该问题会需要的那些必要资源。

  问题管理的主动性方法是努力在事故发生前辨识和解决问题。这涉及到对日志报告和帮助台请求的趋势分析,接着是相关的新闻组用来对别处发生的问题进行提前预警,以及针对的支持行动。

  问题管理流程目的是减少业务中事故和问题的次数、严重性和恶劣影响,并且预防与这些错误相关的事故再次发生。团队的成功可以很容易地监控问题诊断和解决的平均时间、重复问题的发生次数、以及重大事故的发生次数,并以此来衡量。拥有到位的问题管理流程会帮助任何组织减少重复的事故发生,并通往更为可靠的网络和应用环境之路。

相关推荐

  • 应用程序日志管理:启用应用程序安全合规

    安全信息和事件管理系统(SIMs或SIEMs)减轻了海量日志数据这一问题。它们集中汇总安全事件和日志,关联分析整个基础设施所部署的网络和安全设备的信息。

  • 成功事故响应五步走

    现实情况是安全专家就得应对可能的各种威胁。也许不是今天,也许不是明天,但就在某个时候,威胁突然就出现,不管是由于一个有缺陷的Web应用程序还是由于内鬼引起……

  • 日志管理 VS 事件管理(SIEM)(下)

    在面对SIEM与日志管理之间的选择时,价钱成了大企业或小公司考虑的关键。SIEM很容易一单就超过十万美元的门槛,如果是那些大公司的话,达到7位数字的金额也不足为奇……

  • 开发事故响应计划

    问:请您提供一个事故响应计划样本,事故响应团队中应该包括哪些人,您有什么建议?答:事故响应团队的组成人员应该有……