前几天,我们注意到服务器机房里散发出难闻的烧焦气味。长话短说,它最终成为 UPS 单元中烧毁的电池模块之一,但我们花了好几个小时才弄清楚。我们能够弄清楚的主要原因是 UPS 显示屏最终显示模块需要更换。
问题就在这里:整个房间都充满了气味。做嗅探测试非常困难,因为气味已经渗透到所有东西中(更不用说它让我们头昏眼花)。我们几乎错误地关闭了我们的生产数据库服务器,因为它是气味最强烈的地方。生命体征似乎正常(CPU 温度显示 60 摄氏度,风扇速度正常),但我们不确定。恰好,烧毁的电池模块与机架上的服务器高度差不多,距离只有 3 英尺。如果这是真正的紧急情况,我们就会惨败。
实际上,实际服务器硬件烧坏的可能性相当小,大多数时候我们会把 UPS 当作罪魁祸首。但如果有多个机架和多个设备,它很快就会变成猜谜游戏。如何快速准确地确定哪台设备正在燃烧?我意识到这个问题在很大程度上取决于环境变量,如房间大小、通风、位置等,但任何输入都将不胜感激。
普遍的共识似乎是你的问题的答案分为两部分:
我们如何找到有趣的燃烧气味的来源?
你已经很好地确定了“如何”:
您可以通过多种方式提高快速发现问题的机会 - 改进监控通常是最简单的方法。一些问题要问:
我们应该什么时候排除故障而不是击中大红色开关?
这是一个更有趣的问题。
按下大红色开关可能会在短时间内让您的公司损失巨额资金:释放清洁剂可能高达数万美元,以及紧急断电后的停电/恢复成本(EPO,“drop the room” ) 可能是毁灭性的。
您不想因为电源中的电容器突然爆裂并使房间散发异味而丢弃数据中心。
相反,服务器机房发生火灾可能会使您的公司损失其数据/设备,更重要的是您的员工的生命。
对“那种有趣的燃烧气味”进行故障排除绝不应优先于安全,因此制定一些关于对“火灾前”情况进行故障排除的明确规则非常重要。
以下准则是我个人的限制,我在没有(或除此之外)任何其他明确定义的程序/规则的情况下应用它们——它们对我很有帮助,它们可能会帮助你,但它们也很容易让我丧命或明天开火,所以使用它们需要您自担风险。
如果您看到烟雾或火灾,请离开房间
这应该不用说,但我们还是要说:如果有活跃的火灾(或烟雾表明很快就会发生),您撤离房间,切断电源,并灭火抑制系统。
可能存在例外情况(运用一些常识),但这几乎总是正确的操作。
如果您要继续进行故障排除,请始终至少让其他人参与
其中,原因有二。首先,您不希望在数据中心四处闲逛,突然之间有一个机架上升到您正走下去的那一排,而没有人知道您在那里。其次,另一个人是你在排除故障和放弃房间时的理智检查,如果你打电话来按下大红色开关,你的好处是让第二个人同意这个决定(有助于避免职业限制方面)如果有人稍后提出质疑,则不会做出这样的决定)。
在排除故障时采取谨慎的安全措施
确保您始终有一条逃生路径(一排的开放端和通往出口的畅通路径)。
派人驻守在 EPO/灭火释放处。
随身携带灭火器(请使用哈龙或其他清洁剂)。
记住上面的规则#1。
如有疑问,请离开房间。注意呼吸:使用呼吸器或氧气面罩。如果发生化学火灾,这可能会保护您的健康。
设置一个限制并坚持下去
更准确地说,设置两个限制:
您设置的限制也可用于让您的团队开始有序关闭受影响的区域,因此当您确实拉电时,您不会破坏一堆活动机器,并且您的恢复时间会短得多,但请记住如果有序关闭花费的时间太长,您可能不得不以安全的名义让一些系统崩溃。
相信你的直觉
如果你在任何时候担心安全,请停止故障排除并清理房间。
您可能会或可能不会根据直觉放弃房间,但在(相对)安全的房间外重新组合是明智的。
如果没有迫在眉睫的危险,您可以选择在采取任何激烈行动(如 EPO 或清洁剂释放)之前联系当地消防部门。(无论如何他们可能会告诉您这样做:他们的任务是保护人员,然后是财产,但他们显然是处理火灾的专家,所以您应该照他们说的做!)
热像仪可以完成这项工作,并让您确定过热的位置。像这样的设备还可以让您识别火灾的起源或在烟雾弥漫的房间里燃烧。
你没有做任何已经说过的事情。你离开危险的环境是因为整个房间里的任何东西都对你的健康有害,而且可能真的会弄脏你的肺。如果房间里有一股你找不到的东西燃烧的刺鼻气味,请拨打(911|112|999|你所在辖区的任何紧急电话号码)并让火灾(公司|部门|大队)在他们的帮助下解决问题靠瓶装空气。
计算机部件包含各种有趣的化学物质,包括汞、镉、铅和外壳中的大量塑料。请注意,我创建的所有链接都解释了低水平暴露如何导致持久损害甚至快速死亡。这是一个可以立即危及生命和健康的环境。
...所以说真的,如果有什么东西在燃烧,不要花几个小时去闻烟雾。如果你不能识别它并立即采取行动遏制它,那就滚出去。
如果您对 UPS 进行了适当的监控(通常通过 SNMP),则设备本身应该会在您的监控系统上敲响警钟。如果没有,请与您的供应商讨论。它要么出现故障,要么您的监控系统配置不正确。
如果某个活动的东西真的在燃烧,它应该以某种方式抱怨它,或者只是断开网络,这也应该引起警报。
如果它类似于真正的电源轨通过绝缘体燃烧,而它不在智能 PDU 上,那么我们回到您最初的问题,即“我如何找到燃烧的东西?” 我认为正确的答案是“联系 EPO 并解决问题。您的生产服务器可能还没有重要到冒着生命危险。”
这是其中一种情况
不适用,你应该打电话给专业人士
其他任何事情都是愚蠢的。
作为一个以前的职业是电子技术人员,我有过“燃烧的气味”而不是火灾的经验。这并不少见。
我不会因为气味而关闭数据中心。烟雾是另一回事,确实有东西在燃烧(通常,豌豆大小的钽电容器也会使房间充满烟雾)。令人惊奇的是,电源中的油炸组件会发出如此多的气味。
TIC 或 IR 温度计(一种有用的工具,比 TIC 便宜很多)不一定会显示它,因为该组件根本不会产生太多热量,而且它在外壳内。但是检查设备是否不工作,使用你的监控工具。对于这样的气味,95% 的时间它会是影响整个设备性能的电源。
我喜欢红外成像或温度计的答案,但也许真正的“气味检测器”也有帮助。毕竟引起你注意的是气味。烟、热、红外线等都是替代品。
像这样的东西:. 我个人从未使用过它们,甚至从未见过它们在数据中心中使用过。但至少从理论上讲,它应该是一个简洁的工具。如果你有钱花在这个小发明上。
http://www.sca-shinyei.com/odormeter 或 http://www.intopsys.com/products/cyranose.html?gclid=CNXXzOrLs7YCFUws6wodViYApQ
它为您提供气味强度和分类。所以归巢到气味应该是可能的。当然,细节决定成败。它有多敏感,掩盖了虚假的背景气味等。
与纯粹基于温度的测量相比,一个优势是气味通常在更早的点或阈值出现。或者,如果过热组件被身体/隐藏布线等隐藏,则比视线热点更容易检测到逸出的分子。
另一种情况是与热无关的气味。我们以前有过冷却回路泄漏,冷却剂的气味也很奇怪。我什至不会讨论现在古老的啮齿动物死在管道中的案例。:)
我很惊讶这些传感器的灵敏程度。显然,硫化氢/硫醇等(通常的罪魁祸首)在亚 ppm 水平下是可检测的。