情况
- 最近从 2.2 升级到 3.1(1e)。
- 自升级以来,每天早上 6:51 (UTC+1) 我在安装的 B200 系列刀片中遇到零到三个(大约 60 个)之间的故障。
- 它总是相同的三个刀片,都在不同的机箱中。
- 故障表现为 SEL 中出现“CPU 预测故障”和“CATERR_N”消息的硬挂起。
- 对刀片进行电源循环可将其恢复为服务(至少在下一次故障之前)。
- UCSM 中没有任何接近一天中的这个时间的一次性或重复的时间表。
- 思科 TAC 正在调查,但没有解释为什么这些故障每天都在同一时间发生。
我的研究和怀疑
- 我有一个可行的理论,即这些是真正的硬件问题,固件升级以某种方式暴露了这些问题。
- 故障排除指南中简要提到了一种称为“传感器扫描管理器”的东西,但我找不到关于它的作用或如何监控它的任何细节。
- 我几乎排除了环境原因。我们的功率和温度监视器当时没有显示任何异常情况。我们不在地震带:-)
问题
为什么每天都在同一时间发生故障?
这原来是固件版本 3.1(1e) 中的一个错误(该链接需要 Cisco 帐户)。它被描述为涉及 VIC 1340 和调试中断的“罕见事件”。
之所以每天都在同一时间发生,是因为——
lspci
,这正是 Puppet 每天早上都在做的事情(我们每天只运行一次)。
目前尚不清楚为什么只有某些刀片会受到此错误的影响,但升级到版本 3.1(1h) 解决了该问题。