我有一台 Dell R730 服务器,一直用作 Proxmox 主机,突然收到一条错误,日志中显示“CPU0704:检测到 CPU 2 机器检查错误”。这是触发 iDRAC 重新启动机器的触发器,重新启动后,屏幕上会显示一条警告,提示存在机器检查错误(我无法再让它显示在屏幕上)。
以前没有出现过这种情况,而且似乎是随机发生的。我尝试重置系统时间,因为一开始似乎只在午夜发生这种情况,但后来它在中午失败了,而且似乎与时间无关。在 0704 错误之前,日志显示有四到五个“发生了 OEM 诊断事件”。
我在网上进行的所有研究似乎都表明,对于这个错误是什么,人们的建议不一,更不用说该怎么做了
虽然我还没有弄清楚所有的细节,但我已经发现了这个错误试图表达的意思,以及如果收到这个错误要遵循的一些故障排除步骤。
即,CPU2 控制的子系统内出现通信错误并标记了此错误。
我开始按照上面链接的知识库文章中的建议,通过更新 BIOS 和 iDRAC 进行故障排除。我还拔下了系统电源插头,按住按钮 20 秒,然后重新打开电源 - 但不幸的是,这不是原因。
如果系统在保修期内,您可以将其送回戴尔并让他们处理。我的是一台回收的服务器,当然这不是一个选择。但是,请注意,我只是一个新手用户,正在学习如何“边做边学”管理这些设备,如果您不知道自己在做什么,我不建议您进一步遵循此故障排除。此时您可能正在处理硬件故障,并且不能保证这些后续步骤会有所帮助。
从这里开始,一个旧论坛上的某个人建议在 BIOS 中禁用 C1E 状态(我再也找不到这个帖子了,抱歉),但在我这样做之后,这并没有起到任何作用。我运行了硬件诊断程序(完整的,1 小时加 1 小时),但没有发现任何异常。现在我决定我没有什么可失去的了,于是从我的机架上拔出了庞大的 R730,并拉出了 CPU 2 的 CPU 散热器。我拔出了为 CPU2 安装的所有内存,并把它放在外面,怀疑 IT 才是我真正要处理的问题。但为了保险起见,我还拔出了 CPU,清洁了散热器和散热器,更换了导热膏,然后重新安装。
这实际上解决了问题。我这样做之后让系统运行了 3 天以上,之后我没有再看到错误出现。很难说是 CPU 重新安装解决了问题,还是我的 RAM 坏了,或者更糟糕的是 RAM 插槽坏了或内存控制器坏了……但很可能是 RAM 需要重新安装。我已经重新安装了 RAM,我将让系统再次运行几天,看看这个问题是否得到解决。如果没有,我可能会将 RAM 切换到不同的插槽,如果这不起作用,我可能有一些坏的 RAM。CPU 2 上安装了 64 GB,所以我会尽最大努力让它工作,但我们只能拭目以待。
长话短说 - 如果您已经尝试了所有方法但仍然无法解决此问题,请尝试重新安装 CPU 并从受影响的 CPU 中移除内存。如果您仍然遇到此问题,可能是时候考虑更换 CPU 或进行一些更高级的故障排除了。但如果您看到的症状与我的情况类似,它几乎没有给您提供任何额外的信息,您可能只需要重新安装即可恢复正常运行!