[58306.633900] {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
[58306.633905] {1}[Hardware Error]: It has been corrected by h/w and requires no further action
[58306.633907] {1}[Hardware Error]: event severity: corrected
[58306.633909] {1}[Hardware Error]: Error 0, type: corrected
[58306.633911] {1}[Hardware Error]: fru_text: CorrectedErr
[58306.633912] {1}[Hardware Error]: section_type: memory error
[58306.633914] {1}[Hardware Error]: node: 0 device: 44696
[58306.633916] {1}[Hardware Error]: error_type: 2, single-bit ECC
这已经出现在我的带有ECC RAM的 Debian Xeon 服务器上,这是否意味着 RAM 模块正在死亡或其他类似由 SW 引起的错误?我看到其他一些帖子声称他的操作系统重新启动,而我的没有,这就是我问的原因。谢谢你。
ECC 内存错误始终是硬件错误,而不是软件错误。这并不意味着它们表明硬件出现故障,它们可能是由随机位翻转引起的。(谷歌 2009 年关于该主题的论文提供了有趣的见解;它的引用可能会提供更近期的分析。)
硬件位翻转可以由软件触发,例如 在 Rowhammer 攻击中。
除非 ECC 错误变得频繁,或者您开始看到无法纠正的 ECC 错误,否则我不会担心。