我客户的一个站点上周遭受了直接雷击(巧合的是 13 日星期五!)。
我离现场很远,但与现场人员一起工作时,我发现了一种奇怪的损坏模式。两个 Internet 链接都已关闭,大多数服务器都无法访问。大部分损坏发生在MDF中,但一个光纤连接的IDF还丢失了交换机堆叠成员上 90% 的端口。有足够的备用交换机端口可用于在其他地方重新分配布线和重新编程,但在我们追查受影响的设备时出现了停机时间。
这是一个新的建筑/仓储设施,在服务器机房的设计中进行了大量规划。主服务器机房由APC SmartUPS RT 8000VA双转换在线 UPS 供电,由发电机提供支持。所有连接的设备都有适当的配电。异地数据复制和系统备份已经到位。
总之,损害(据我所知)是:
- Cisco 4507R-E 机箱交换机上的 48 端口线卡出现故障。
4 成员堆栈中出现故障的 Cisco 2960 交换机。(哎呀......松散的堆叠电缆)- Cisco 2960 交换机上的几个不稳定端口。
- HP ProLiant DL360 G7 主板和电源。
- Elfiq WAN 链路平衡器。
- 一台 Multitech 传真调制解调器。
- WiMax/固定无线互联网天线和电源注入器。
- 许多 PoE 连接设备(VoIP 电话、Cisco Aironet 接入点、IP 安全摄像头)
大多数问题都与丢失 Cisco 4507R-E 中的整个交换机刀片有关。这包含一些 VMware NFS 网络和站点防火墙的上行链路。VMWare 主机出现故障,但 HA 会在存储网络连接恢复后处理 VM。我被迫重新启动/重新启动许多设备以清除时髦的电源状态。所以恢复的时间很短,但我很好奇应该吸取什么教训......
- 将来应该实施哪些额外的保护措施来保护设备?
- 我应该如何处理保修和更换?Cisco 和 HP 正在更换合同项下的项目。昂贵的 Elfiq WAN 链路平衡器在其网站上有一个宣传语,基本上说“太糟糕了,使用网络电涌保护器”。(似乎他们预料到这种类型的失败)
- 我在 IT 行业工作的时间足够长,过去曾遇到过雷电破坏,但影响非常有限;例如,廉价 PC 的网络接口或微型开关的损坏。
- 我还能做些什么来检测可能存在问题的设备,还是我只需要等待奇怪的行为浮出水面?
- 这只是运气不好,还是应该在灾难恢复中真正考虑在内?
有了足够的 $$$,就可以在环境中构建各种冗余,但是这里预防性/深思熟虑的设计和资源的有效利用之间的合理平衡是什么?
几份工作前,我工作的地方的一个数据中心位于一个非常大的天线下面的一层。这个又大又薄的金属物品是该地区最高的东西,每 18 个月左右就会被闪电击中一次。数据中心本身建于 1980 年左右,所以我不会称它为最现代的东西,但他们在处理雷击损坏方面有长期经验(串行通信板每次都必须更换,这是一个试验,如果通信电路板处于 10 年内没有制造任何新零件的系统中)。
老手们提出的一件事是,所有杂散电流都可以找到绕过任何东西的方法,并且一旦桥接进来就可以在公共接地中传播。并且可以从气隙桥接。闪电是一个特例,正常的安全标准不足以防止电弧,并且会在它有能量的情况下发挥作用。它有很多。如果有足够的能量,它可以从吊顶网格(可能其中一根吊线悬挂在与水泥中的建筑大梁相连的环上)到 2 柱架的顶部,然后从那里进入网络好东西。
和黑客一样,您能做的也只有这么多。您的电源上都有钳位杂散电压的断路器,但您的低压网络设备几乎从来没有,并且代表了一条用于路由极其高能电流的公共路径。
检测潜在的易碎套件是我在理论上知道如何做的事情,但在现实中却不知道。最好的办法可能是将可疑设备放在一个区域,并故意将房间内的温度升高到工作范围的高端,然后看看会发生什么。运行一些测试,加载它。把它放在那里几天。对任何预先存在的电气损坏增加的热应力可能会清除一些定时炸弹。
它确实缩短了某些设备的使用寿命,但很难找出哪些设备。电源内部的功率调节电路可能存在损坏的组件并向服务器提供脏电,您只能通过使用专为测试电源而设计的专用设备来检测这种情况。
除了在屋顶上有巨大避雷针的设施中有一个 DC 之外,雷击不是我考虑过的 DR 。一般来说,罢工是发生得如此罕见的事情之一,它在“天灾”下被洗牌并继续前进。
但是......你现在有一个。它表明您的工厂至少有一次具备正确的条件。现在是评估您的设施在适当条件下的可能性并制定相应计划的时候了。如果您现在只考虑闪电的 DR 影响,我认为这是合适的。
自从它最近被编辑回到首页顶部以来,我一直在思考这个问题。
我自由地规定,对于像 sysadmin1138 这样必须处理对 DC 屋顶上的大雷击极具吸引力的装置的人来说,针对大雷击的具体应急计划是有意义的。但对于我们大多数人来说,这是一次性的情况,我认为更普遍地适合我们其他人的答案可能具有一定的价值。
可以想象各种电影情节威胁;肯定会发生的情况,如果他们这样做的话,无疑会破坏您的业务运营,但没有理由认为发生的可能性会增加。你知道那种事;飞机撞击/闪电/附近的油库爆炸/任何其他看似合理但有背景风险的场景。
其中每一个都有一个可以实施的特定缓解计划,但我建议 - 以我上面的规定为模 -这样做在商业上没有意义。正如 Schneier 试图在上述相关竞赛中指出的那样,仅仅因为您可以想象发生的可怕事情并不能使它成为一种威胁,因此值得制定具体的计划,甚至是可取的。真正具有良好商业意义的是一个通用的、有据可查的、经过测试的业务连续性计划。
您应该问问自己,在不同的时间段(例如 24 小时、96 小时、一周、一个月),完全丢失站点的业务成本是多少,并尝试量化每次发生的可能性。它必须是诚实的业务成本分析,并被所有业务级别接受。我曾在一个普遍接受的停机时间数字为 550 万英镑/小时的站点工作(那是 20 年前,当时 500 万英镑是很多钱);有了这个数字,人们普遍同意了很多决定,因为它们只是简单的数学问题。
您的预算是预计损失乘以该损失的年度机会;现在看看你能做些什么来减轻预算的威胁。
在某些情况下,这将运行到一个完整的备用数据中心,配备冷设备,随时可以 24x7 运行。这可能意味着一个小型备用数据中心,这样客户交互就可以在极少的电话接线员和一个占位网站警告中断的情况下继续进行。这可能意味着在您的主站点上有第二个冗余路由的 Internet 连接,在需要时才使用。正如 Mark Henderson 在上文中指出的那样,这可能意味着保险(但涵盖商业损失以及实际恢复成本的保险);如果您可以将您的 BC 预算花在一张纸上,该纸将涵盖您在发生灾难时的所有预期成本,那么购买那张纸可能是有意义的 - 但不要忘记考虑保险商的失败进入您的业务风险计划。这可能意味着将某些核心设备的维护合同升级为极其昂贵的四小时修复合同。只有您自己知道什么对您的业务有意义。
一旦你有了这个计划,你真的需要测试它(基于保险的计划可能除外)。我曾在一个站点工作过,我们有一个完整的小规模运行的冷站点,准备切换到距我们的主要设施 45 分钟车程的站点。当我们遇到关闭核心网络的问题时,我们最终尝试修复它而不是切换到冷站点然后固定核心并削减。切换失败的原因之一是我们不知道切换和削减需要多长时间。因此,在做出削减决定之前,没有人真正知道在没有切换的情况下应该允许事情运行多长时间,因此 - 完全可以理解 - 对决定切换保持沉默。14 小时后,我们重新上线后,人们开始大吃一惊;不是因为停电本身,而是因为在设施上花费了大量资金来缓解在这种停电期间未使用的一天多的停电。
最后一点,请注意您的商业计划的外包部分不能保证有效。您的高级管理人员可能坐在那里思考“如果我们将服务器放在云端,它们将永远在那里,我们可以解雇系统管理员”。不是这样。 云可能像其他任何东西一样失败; 如果您已将关键组件外包给供应商,那么您所做的只是消除了您估计这些组件发生故障的可能性的能力。SLA 都很好,但除非有大量的不履行罚款作为支持,否则它们毫无意义——如果您的提供商可以花钱并退还您在不可用?为了可靠,您的 SLA 需要附带与您的业务中断成本相近的罚款。是的,这会大大增加外包的成本;是的,这完全可以预料。
它总是取决于你想花多少钱。我没有足够的知识来详细谈论这个,但我曾在一个大型制药数据中心工作过,该数据中心遭受雷击并炸毁了本应是多重冗余尖峰避雷器的东西(并且设计正确,但实施错误,所以有些事情通过了。)
您的 UPS 可以避免的最大峰值是多少?它应该有一个评级。显然,罢工的直接程度足以超过这一点,或者 UPS 馈线周围有什么东西泄漏了,比如接地不良。因此,您可能会审查您的电源设计,确定再次罢工的可能性有多大,比较停机成本 X 可能性与补救措施,并且可能让电工对设施进行良好的调查以确保一切都正确接地 - 一些快速阅读显示安全/规范的接地不如防止闪电损坏的接地那么密集。