A situação
- Atualização recente de 2.2 para 3.1(1e).
- Desde a atualização, às 6h51 (UTC+1), todos os dias, tenho falhas entre zero e três (de aproximadamente 60) dos blades da série B200 em minha instalação.
- São sempre as mesmas três lâminas, todas em chassis diferentes.
- As falhas se manifestam como um hard hang com as mensagens 'Falha preditiva de CPU' e 'CATERR_N' no SEL.
- Ligar e desligar o blade o restaura ao serviço (pelo menos até a próxima falha).
- Não há programações únicas ou recorrentes no UCSM que estejam próximas a esta hora do dia.
- O Cisco TAC está investigando, mas não esclarece por que as falhas acontecem no mesmo horário todos os dias.
Minha pesquisa e suspeitas
- Eu tenho uma teoria de trabalho de que esses são problemas reais de hardware que de alguma forma foram expostos pela atualização do firmware.
- Há uma breve menção de algo chamado 'gerenciador de varredura do sensor' no guia de solução de problemas , mas não consigo encontrar nenhum detalhe sobre o que ele faz ou como monitorá-lo.
- Quase descartei uma causa ambiental. Nossos monitores de energia e temperatura não mostram nada incomum naquele momento. Não estamos em zona sísmica :-)
A questão
Por que as falhas estão acontecendo exatamente no mesmo horário todos os dias?