A situação
- Atualização recente de 2.2 para 3.1(1e).
- Desde a atualização, às 6h51 (UTC+1), todos os dias, tenho falhas entre zero e três (de aproximadamente 60) dos blades da série B200 em minha instalação.
- São sempre as mesmas três lâminas, todas em chassis diferentes.
- As falhas se manifestam como um hard hang com as mensagens 'Falha preditiva de CPU' e 'CATERR_N' no SEL.
- Ligar e desligar o blade o restaura ao serviço (pelo menos até a próxima falha).
- Não há programações únicas ou recorrentes no UCSM que estejam próximas a esta hora do dia.
- O Cisco TAC está investigando, mas não esclarece por que as falhas acontecem no mesmo horário todos os dias.
Minha pesquisa e suspeitas
- Eu tenho uma teoria de trabalho de que esses são problemas reais de hardware que de alguma forma foram expostos pela atualização do firmware.
- Há uma breve menção de algo chamado 'gerenciador de varredura do sensor' no guia de solução de problemas , mas não consigo encontrar nenhum detalhe sobre o que ele faz ou como monitorá-lo.
- Quase descartei uma causa ambiental. Nossos monitores de energia e temperatura não mostram nada incomum naquele momento. Não estamos em zona sísmica :-)
A questão
Por que as falhas estão acontecendo exatamente no mesmo horário todos os dias?
Isso acabou sendo um bug na versão de firmware 3.1(1e) (é necessária uma conta Cisco para esse link). É descrito como um 'evento raro' envolvendo o VIC 1340 e uma interrupção de depuração.
A razão pela qual isso estava acontecendo no mesmo horário todos os dias é que estava sendo acionado por—
lspci
,e isso é exatamente o que o Puppet estava fazendo todas as manhãs (só o executamos uma vez por dia).
Não está claro por que apenas alguns blades foram afetados por esse bug, mas a atualização para a versão 3.1(1h) resolveu o problema.