我们有一夜空调故障。我们发现服务器机房的温度已达到约 110-115°F (43-46°C)。我们关闭了所有尚未安装的电源并修复了空调。
现在它已经修好了,我担心长时间暴露在高温下会造成损坏。我想对我们所有的机器进行一系列测试,以确保机器在我们重新依赖它们之前没有损坏。我的计划如下:
- 运行 memtest86 以检查是否有任何 DIMM 损坏(已经这样做并且基本上没有发现任何问题)
- 运行 Prime95 以检查是否有任何 CPU 损坏(可能会以意外中断或硬件故障的形式出现)
- 在所有磁盘上运行
smartctl -a
并badblocks
检查任何异常的输出
这个列表感觉有点单薄,我不相信这些都能正确地锻炼硬件,以确保我们将来不会遇到任何由热引起的问题。
这组测试是否足够?还有其他我应该考虑的吗?