我们有一夜空调故障。我们发现服务器机房的温度已达到约 110-115°F (43-46°C)。我们关闭了所有尚未安装的电源并修复了空调。
现在它已经修好了,我担心长时间暴露在高温下会造成损坏。我想对我们所有的机器进行一系列测试,以确保机器在我们重新依赖它们之前没有损坏。我的计划如下:
- 运行 memtest86 以检查是否有任何 DIMM 损坏(已经这样做并且基本上没有发现任何问题)
- 运行 Prime95 以检查是否有任何 CPU 损坏(可能会以意外中断或硬件故障的形式出现)
- 在所有磁盘上运行
smartctl -a
并badblocks
检查任何异常的输出
这个列表感觉有点单薄,我不相信这些都能正确地锻炼硬件,以确保我们将来不会遇到任何由热引起的问题。
这组测试是否足够?还有其他我应该考虑的吗?
46.5摄氏度。
不要从检查开始,而是阅读主要服务器的文书工作。
你会发现这很可能在他们的工作温度范围内。可不是闹着玩的。硬件是为多种目的而设计的,而且地球上有很多很热的地方——你真的想在一个非常炎热的日子告诉德克萨斯州的一个人不,他需要空调吗?
哎呀,只是检查我得到的服务器:
https://supermicro.com/Aplus/system/1U/1123/AS-1123US-TR4.cfm
温度范围为 95 华氏度。而且 CPU 会受到温度限制 - 如果有的话,它们会关闭。
您应该检查光盘的完整性并确保备份正常 - CPU 不会那么容易开销和损坏。自从 15 年左右以来,每个人都安装了热节流电路。我遇到了几次 CPU 冷却器故障,导致 CPU 快速关闭了主板。