我客户的HP ProCurve 5412zl 机箱开关有时会重新启动,尽管它通过四个冗余电源供电并处于 UPS 保护之下。
这些重启通常发生在真正的停电或掉电或低电压事件期间。除开关外,连接到 UPS 的所有设备都保持工作状态。
用于机架的 UPS 是带有降压变压器的 APC SmartUPS SUA3000XL 208V。该交换机为整个设施的电话和接入点提供 PoE。电池单元很健康,最近更换过并充满电。
这些信号的作用是重新启动设施中的所有电话并断开用户与其会话的连接。这是破坏性的。
在交换机日志中:
Keys: W=Warning I=Information
M=Major D=Debug E=Error
---- Event Log listing: Events Since Boot ----
I 02/17/16 22:26:31 03802 chassis: System Self test started on Master
I 02/17/16 22:26:31 03803 chassis: System Self test completed on Master
I 02/17/16 22:26:35 00061 system: -----------------------------------------
I 02/17/16 22:26:35 00062 system: Mgmt Module 1 went down without saving crash
information
M 02/17/16 22:26:35 03001 system: System reboot due to Power Failure
和版本信息:
valley-core# sh version
Image stamp: /ws/swbuildm/rel_orlando_qaoff/code/build/btm(swbuildm_rel_orlando_qaoff_rel_orlando)
Nov 19 2014 15:17:26
K.15.16.0005
335
Boot Image: Secondary
多年来,我没有意识到您必须修改此交换机型号的电源设置,但此单元已正确配置以利用多个 PSU。
valley-core# sh power-over-ethernet
Status and Counters - System Power Status
System Power Status : Full redundancy
PoE Power Status : Full redundancy
Chassis power-over-ethernet:
Total Available Power : 600 W
Total Failover Power : 600 W
Total Redundancy Power : 600 W
Total Used Power : 359 W +/- 6W
Total Remaining Power : 241 W
Internal Power
Main Power
PS (Watts) Status
----- ------------- ---------------------
1 300 POE+ Connected
2 300 POE+ Connected
3 300 POE+ Connected
4 300 POE+ Connected
External Power
EPS1 /Not Connected.
EPS2 /Not Connected.
其他 PSU 信息:
valley-core# sh system power-consumption
Slot Power Usage:
Slot Module Description Current Power
----- ----------------------------------------- ---------------
A HP J9534A 24p Gig-T PoE+ v2 zl Module 18 W
B HP J9536A 20p GT PoE+/2p SFP+ v2 zl Mod 23 W
C HP J9534A 24p Gig-T PoE+ v2 zl Module 18 W
D HP J9534A 24p Gig-T PoE+ v2 zl Module 19 W
E HP J9534A 24p Gig-T PoE+ v2 zl Module 17 W
F HP J9534A 24p Gig-T PoE+ v2 zl Module 18 W
G HP J9534A 24p Gig-T PoE+ v2 zl Module 18 W
H HP J9534A 24p Gig-T PoE+ v2 zl Module 18 W
K HP J9534A 24p Gig-T PoE+ v2 zl Module 18 W
L HP J9534A 24p Gig-T PoE+ v2 zl Module 19 W
valley-core# sh system power-supply
Power Supply Status:
PS# Model State AC/DC + V Wattage
---- --------- ------------- ----------------- ---------
1 Unknwn Powered AC 120V 875
2 Unknwn Powered AC 120V 875
3 Unknwn Powered AC 120V 875
4 Unknwn Powered AC 120V 875
4 / 4 supply bays delivering power.
Total power: 3500 W
独特之处在于开关是唯一断电的设备。尽管使用相同的电池或 PDU,但所有连接的服务器都没有电源问题。
我可以承认,这个位置的电源很差,并且会出现电压骤降和偶尔出现的尖峰。但在最近的热启动过程中,UPS 甚至没有记录故障。
我在一个不相关的客户那里有另一个 5412zl,过去曾多次做过同样的事情。
关于我能做些什么的任何想法?我是否应该尝试将两个 PSU 移至公用电源,而不是全部都在 UPS 上?
编辑:
开机历史显示:
valley-core#sh 启动历史
Mgmt Module 1 -- Saved Crash Information (most recent first):
=============================================================
ID: 29008d6a
Active system went down: 02/01/16 09:23:54 K.15.16.0005 335
Switch rebooting due to temporary loss of power or low voltage
ID: 994a405a
Active system went down: 12/14/15 11:31:15 K.15.16.0005 335
switch rebooting due to temporary loss of power or low voltage
先前固件版本的 HP 更改说明说:
电源 (CR_0000112424) - 当交换机受到交流电源波动且电压降得太低时,交换机会重新启动并生成错误的错误消息,说明交换机已崩溃。使用此修复程序,错误消息更改为“由于暂时断电或低电压而重新启动交换机”。
这与本技术说明一致。
根据此页面,您的 UPS 系列属于“线互动”类型。该名称意味着它不会不断地将市电转换为直流电并再次转换回市电电平。相反,它只是坐在那里监控电源并保持电池充电。输入电源直接通过,尽管它可能会通过一些扼流圈和电涌保护装置,以提高安全性。
当市电断电或电压骤降时,UPS 需要将其逆变器切换到电路中,以开始为连接的设备提供电池供电。不管这种切换是如何完成的(它将是物理继电器或固态继电器),您总是会看到几毫秒的“间隙”。此外,UPS 的逆变器可能不会与市电同相,因此交流波形会跳到新的相位。
大多数设备并不真正关心输入电源是否会丢失几毫秒。电源中的电容器通常足够大,可以毫无问题地跨越小间隙。我已经看到许多服务器和网络设备在没有出现故障的情况下经历了几个完整的错过周期。
我怀疑这个特定交换机的 PSU 比大多数交换机的 PSU 更重要。我认为您的问题可以通过让另一个 UPS(它在循环中不断转换 AC-DC-AC)来关闭开关来解决。这种类型的 UPS 通常被称为“在线”,尽管您应该与您的供应商核实以确认您获得了正确的类型。
我最初和直接的想法与您正在考虑的内容一致。如果这些光点的发生独立于您在 UPS 上设置的任何自检计划(如果光点在自检时发生一定百分比的时间,那么您有 UPS/变压器/负载问题),我会完全按照你的建议去做。将几个 PSU 移动到不同的源,看看是否会再次出现光点。如果他们这样做了——我并不是随便建议的——向惠普开一个案子。这可能是一个痛苦而乏味的过程。但是,它们可能有助于提供指导以从交换机中获取真实的调试信息。我也会花点时间检查交换机上当前固件版本的发行说明/错误列表。
有了您刚刚在编辑中添加的信息,就很清楚了。
想到2个可能的原因:
1) UPS 在实际需要工作时会略微降低其输出电压,并且变化率非常陡峭,足以使开关认为它处于低功率状态。
我以前看到过这种情况发生在 UPS 装置上。
唯一的补救措施是承担一些 UPS 的负载或购买更大的 UPS。
在某些情况下:如果 UPS 有多个输出电路,重新分配这些电路上的负载可能会有所帮助。理想情况下,每个电路应该或多或少具有相同的负载。这最大限度地减少了输出电压降。
2) 另一种可能性,虽然非常罕见,但也适用于具有多个输出的 UPS 单元。考虑到它们提供的交流电的相位,可能是输出不完全同步。
如果您开关的 PSU 连接到具有相位差的多个电路,则开关内部结合其 PSU 电源的电源板可能无法同步并导致相同的问题。在这种情况下,解决方案正好相反:把所有东西放在同一个电路上。
开关说停电了。顶灯说停电了。我猜没有力量,即使只是短暂的。这与开关无关,与 UPS 无关。
我会仔细检查开关和 UPS 之间的电源线,确保它确实插入了您认为的位置,也许将开关放在不同的 UPS 上一段时间看看。可能这个开关比你的其他设备对电池切换更敏感,特别是考虑到它正在为你所有的手机供电;可以快速加起来。