我有一个运行 CentOS 5.7 的白盒服务器。它是双至强 5620、24GB 内存。主板是SuperMicro X8DT6-F,机箱是SC825TQ-R720LPB。双 720W 电源。
几周前我们发生了一次大停电,一切都停止了,我没有这台服务器的任何停电前数据,我注意到这些的唯一原因是因为当我启动服务器时我正在检查它们受到比平时更多的审查。
http://i.imgur.com/rSjiw.png(电压读数图像)
如您所见,CPU1 DIMM 电压低,+3.3V 电压高,3.3VSB 电压高,+5v 电压高,+12v 电压低(超出正常值 5%(加/减))...并且 VBAT 已关闭图表。
使用我的白盒 VAR,我们尝试了以下操作:
- 用我拥有的具有相同 PSU 的另一台服务器更换 PSU。
- 尝试不同的电源线
- 更新 BMC/IPMI 固件以防读数错误(它们不是)
- 更新BIOS
- 尝试不同的 PDU
- 尝试不同的插座和/或电路
- 更换稳压器单元
在这一点上,我们唯一没有做的事情,似乎是更换主板..这是下一步将要做的,除非有其他事情可以说明这种情况。
我应该提到该系统坚如磐石,否则这令人惊讶,因为 12v 电压距离那么远。
鉴于您说服务器坚如磐石并且工作正常,并且这些电压明显下降,我敢打赌监控软件误解了电压,或者传感器出现故障/有缺陷。如果这些是实际电压,系统就会有很多问题,电池可能会因过度充电而损坏。
我假设您正在使用 IPMI 获取电压读数——因为它由硬件制造商控制,所以不太可能出错。所以这会留下有故障的电压传感器,这些传感器将内置在大多数系统的主板中。
为了检验这一理论,使用电压表测量电池和 12v 电源轨。由于它们距离最远,因此应该很容易看出它们是否接近传感器报告的值。
解决方案是要么更换主板,要么忽略传感器并希望最好。
重置 BMC 配置清除了传感器上的错误,现在一切正常。