O switch de chassi HP ProCurve 5412zl do meu cliente é reinicializado ocasionalmente, apesar de ser alimentado por quatro fontes de alimentação redundantes e estar sob proteção de UPS.
Essas reinicializações geralmente acontecem durante uma queda de energia real ou durante um evento de queda de energia ou baixa voltagem. Todo o equipamento conectado ao no-break permanece ativo, exceto o switch.
O UPS para o rack é um APC SmartUPS SUA3000XL 208V com transformador redutor. Este switch fornece PoE para telefones e pontos de acesso em toda a instalação. As células da bateria estão saudáveis, substituídas recentemente e com carga total.
Esses blips têm o efeito de reinicializar todos os telefones da instalação e desconectar os usuários de suas sessões. É perturbador.
Nos logs do switch:
Keys: W=Warning I=Information
M=Major D=Debug E=Error
---- Event Log listing: Events Since Boot ----
I 02/17/16 22:26:31 03802 chassis: System Self test started on Master
I 02/17/16 22:26:31 03803 chassis: System Self test completed on Master
I 02/17/16 22:26:35 00061 system: -----------------------------------------
I 02/17/16 22:26:35 00062 system: Mgmt Module 1 went down without saving crash
information
M 02/17/16 22:26:35 03001 system: System reboot due to Power Failure
E informações da versão:
valley-core# sh version
Image stamp: /ws/swbuildm/rel_orlando_qaoff/code/build/btm(swbuildm_rel_orlando_qaoff_rel_orlando)
Nov 19 2014 15:17:26
K.15.16.0005
335
Boot Image: Secondary
Durante anos, não percebi que era necessário modificar as configurações da fonte de alimentação neste modelo de switch, mas esta unidade está configurada corretamente para aproveitar as várias PSUs.
valley-core# sh power-over-ethernet
Status and Counters - System Power Status
System Power Status : Full redundancy
PoE Power Status : Full redundancy
Chassis power-over-ethernet:
Total Available Power : 600 W
Total Failover Power : 600 W
Total Redundancy Power : 600 W
Total Used Power : 359 W +/- 6W
Total Remaining Power : 241 W
Internal Power
Main Power
PS (Watts) Status
----- ------------- ---------------------
1 300 POE+ Connected
2 300 POE+ Connected
3 300 POE+ Connected
4 300 POE+ Connected
External Power
EPS1 /Not Connected.
EPS2 /Not Connected.
Informações adicionais da fonte de alimentação:
valley-core# sh system power-consumption
Slot Power Usage:
Slot Module Description Current Power
----- ----------------------------------------- ---------------
A HP J9534A 24p Gig-T PoE+ v2 zl Module 18 W
B HP J9536A 20p GT PoE+/2p SFP+ v2 zl Mod 23 W
C HP J9534A 24p Gig-T PoE+ v2 zl Module 18 W
D HP J9534A 24p Gig-T PoE+ v2 zl Module 19 W
E HP J9534A 24p Gig-T PoE+ v2 zl Module 17 W
F HP J9534A 24p Gig-T PoE+ v2 zl Module 18 W
G HP J9534A 24p Gig-T PoE+ v2 zl Module 18 W
H HP J9534A 24p Gig-T PoE+ v2 zl Module 18 W
K HP J9534A 24p Gig-T PoE+ v2 zl Module 18 W
L HP J9534A 24p Gig-T PoE+ v2 zl Module 19 W
valley-core# sh system power-supply
Power Supply Status:
PS# Model State AC/DC + V Wattage
---- --------- ------------- ----------------- ---------
1 Unknwn Powered AC 120V 875
2 Unknwn Powered AC 120V 875
3 Unknwn Powered AC 120V 875
4 Unknwn Powered AC 120V 875
4 / 4 supply bays delivering power.
Total power: 3500 W
O que é único é que o switch é o único dispositivo que perde energia. Nenhum dos servidores conectados apresenta problemas de energia, apesar de estarem na mesma bateria ou PDU.
Posso admitir que a energia neste local é fraca e sofre com quedas de tensão e picos ocasionais. Mas o no-break nem mesmo registrou uma falha durante esta recente inicialização a quente.
Tenho outro 5412zl em um cliente não relacionado que fez a mesma coisa várias vezes no passado.
Alguma ideia do que posso fazer sobre isso? Devo tentar mover duas das PSUs para a rede elétrica em vez de todas estarem no no-break?
Editar:
O histórico de inicialização mostra:
vale-core# sh histórico de inicialização
Mgmt Module 1 -- Saved Crash Information (most recent first):
=============================================================
ID: 29008d6a
Active system went down: 02/01/16 09:23:54 K.15.16.0005 335
Switch rebooting due to temporary loss of power or low voltage
ID: 994a405a
Active system went down: 12/14/15 11:31:15 K.15.16.0005 335
switch rebooting due to temporary loss of power or low voltage
Uma nota de alteração da HP em uma revisão de firmware anterior diz:
Power (CR_0000112424) - Quando o switch é exposto a flutuações de energia CA e a tensão cai muito, o switch reinicia e gera uma mensagem de erro incorreta informando que o switch travou. Com essa correção, a mensagem de erro é alterada para "Reinicialização do interruptor devido a perda temporária de energia ou baixa tensão".
Isso é consistente com esta nota técnica .
De acordo com esta página , a sua série UPS é do tipo "line interactivo". Essa designação significa que ele não está constantemente convertendo a energia da rede elétrica em CC e de volta ao nível da rede elétrica novamente. Em vez disso, está apenas sentado monitorando a energia e mantendo as baterias carregadas. A energia de entrada é passada diretamente, embora possa ser passada por alguns estrangulamentos e um dispositivo de proteção contra surtos ao longo do caminho para segurança extra.
Quando a energia elétrica cai ou há uma queda de tensão, o no-break precisa ligar seu inversor no circuito para começar a fornecer energia da bateria para o equipamento conectado. Independentemente de como essa comutação é feita (será um relé físico ou de estado sólido), você sempre verá um "intervalo" de alguns milissegundos. Além disso, o inversor do no-break provavelmente não estará em fase com a rede elétrica, então a forma de onda CA pula para a nova fase.
A maioria dos equipamentos realmente não se importa se a energia de entrada for perdida por alguns milissegundos. Os capacitores na fonte de alimentação geralmente são grandes o suficiente para passar por pequenos intervalos sem problemas. Já vi muitos servidores e equipamentos de rede realizarem alguns ciclos perdidos completos sem sequer uma falha.
Minha suspeita seria que as PSUs desse switch em particular são um pouco mais críticas do que a maioria. Eu acho que seu problema poderia ser resolvido obtendo outro no-break (que está continuamente no loop convertendo AC-DC-AC) para desligar. Esse tipo de no-break costuma ser chamado de "online", embora você deva verificar com seu fornecedor para confirmar se está adquirindo o tipo certo.
Meus pensamentos iniciais e imediatos estão de acordo com o que você está pensando. Se esses blips estiverem ocorrendo independentemente de quaisquer programações de autoteste que você configurou no no-break (se os blips ocorrerem em alguma porcentagem do tempo enquanto estiver LIGADO em um autoteste, então você tem um problema de UPS/transformador/carga), eu faria exatamente o que você está sugerindo. Mova algumas das PSUs para uma alimentação diferente e veja se os blips se repetem. Se o fizerem - e não estou sugerindo isso levianamente - abra um caso com a HP. Pode ser um processo doloroso e tedioso. No entanto, eles provavelmente podem ajudar a fornecer orientação para obter informações reais de depuração do switch. Eu também reservaria um momento para verificar as notas de versão/listas de bugs para a versão atual do firmware no switch.
Com as informações que você acabou de adicionar na edição, fica bem claro.
2 possíveis causas vêm à mente:
1) O no-break, quando realmente precisa fazer o trabalho, diminui ligeiramente sua tensão de saída e a taxa de mudança é acentuada o suficiente para fazer o switch pensar que tem uma condição de baixa energia.
Já vi isso acontecer com unidades UPS antes.
O único remédio é carregar um pouco do no-break ou obter um no-break maior.
Em alguns casos: Se o no-break tiver vários circuitos de saída, a redistribuição da carga neles pode ajudar. Idealmente, cada circuito deve ter mais ou menos a mesma carga. Isso minimiza a queda de tensão nas saídas.
2) Outra possibilidade, embora bastante rara, também se aplica a unidades UPS com múltiplas saídas. Pode ser que as saídas não estejam exatamente sincronizadas, considerando a fase da CA que fornecem.
Se as PSUs do seu switch se conectarem a vários circuitos com uma diferença de fase, a placa de energia dentro do switch que combina a energia de suas PSUs pode ter problemas para sincronizar e causar o mesmo problema. Nesse caso a solução é exatamente oposta: Colocar tudo no mesmo circuito.
O interruptor diz que há uma queda de energia. As luzes do teto dizem que há uma queda de energia. Acho que não há energia, mesmo que brevemente. Isso não tem nada a ver com o switch e tudo a ver com o no-break.
Eu verificaria novamente o cabeamento de energia entre o switch e o no-break, certifique-se de que está realmente conectado onde você pensa que está, talvez coloque o switch em um no-break diferente por um tempo apenas para ver. Pode ser que esse interruptor seja um pouco mais sensível ao corte da bateria do que seus outros dispositivos, especialmente considerando que está fornecendo energia para todos os seus telefones; isso pode aumentar rapidamente.