上周我们发生了相当严重的中断,影响了几项服务,这使我们脱离了与客户的 SLA。现在一切都已解决,我正在进行事后审查。
从这次审查中,我想提出一份内部文件,描述中断、其影响、我们的响应和解决方案。我想提出一个相当标准的表格以供将来重用。我已经在下面列出了我的想法,但是应该包括哪些其他项目?如果这是与安全相关的事件,您会添加什么?
- 摘要事件的行政级别摘要。
- 受影响的服务
- 影响对我们的用户和 SLA 有何影响?是否有以美元计算的成本、错过的交易、失去的客户等?
- 中断持续时间对于每个受影响的服务(如果存在差异)
- 原因包括原发性和继发性原因
- 解析度
- 事件时间表通知、与外部供应商的联系、客户通知、响应等。
- 我们的响应出现问题 我们对中断的响应是否没有按计划进行?通知的人正确吗?供应商是否履行了合同义务?
- 采取的预防措施我们如何防止这种中断再次发生或减少其影响?
- 检测方法我们对这次中断的检测效果如何?我们如何在未来改进检测?
- 在未来的中断响应中做出的改变
尝试将帖子保留为一项和解释,并且可以使用投票最多的答案来更新此帖子。
虽然它可以包含在要采取的预防措施中,但我建议有一个检测方法部分,您可以使用它来记录真正的症状是什么,以及如果问题再次发生,您如何(更快地)检测到问题,最好使用自动化。
看起来不错。我只会添加以下内容:
影响/后果:中断的后果是什么 - 谁受到影响,违反了哪些 SLA(如果有),是否有任何连锁反应?
受影响的服务和中断持续时间只能告诉您部分中断的严重程度。您还想知道对业务的影响是什么。
影响:这对用户有什么影响,如何看待?这花了我们多少钱(由于缺少 SLA、丢失订单等)?
公开发布和内部发布
这更多是由管理层决定的,但您可能会包括应该向客户发布的内容或您的建议。此外,无论哪种方式,在发布任何内容之前,都要从管理层对将发布给客户的内容的确切措辞进行签字。
公开发布应包含在其中,以便公司中的任何人都知道他们可以告诉客户什么。