我今天早上醒来,对我来说是第一次;我的一个系统记录了DRAM ECC error
通知。事实上,其中三个,据我所知,内存位置完全相同(显然,系统实际上并未命名为 localhost):
Aug 31 05:00:46 localhost kernel: [719099.816034] [Hardware Error]: CPU:0 MC4_STATUS[-|CE|MiscV|-|AddrV|-|-|CECC]: 0x9c6c40006b080a13
Aug 31 05:00:46 localhost kernel: [719099.816046] [Hardware Error]: MC4_ADDR: 0x0000000641f49d20
Aug 31 05:00:46 localhost kernel: [719099.816051] [Hardware Error]: Northbridge Error (node 0): DRAM ECC error detected on the NB.
Aug 31 05:00:46 localhost kernel: [719099.816059] EDAC amd64 MC0: CE ERROR_ADDRESS= 0x641f49d20
Aug 31 05:00:46 localhost kernel: [719099.816070] EDAC MC0: CE page 0x641f49, offset 0xd20, grain 0, syndrome 0x6bd8, row 2, channel 0, label "": amd64_edac
Aug 31 05:00:46 localhost kernel: [719099.816075] [Hardware Error]: cache level: L3/GEN, mem/io: MEM, mem-tx: RD, part-proc: RES (no timeout)
上述之后是系统时间05:10:46
(719699.8160) 的相同通知,然后是 (720299.8160)的另一个通知,该通知05:20:46
也Over
在线CPU:0 MC4_STATUS
(状态0xdc6c40006b080813
)。到目前为止,系统一直很稳定,没有记录更多错误。系统活动正常,有问题的系统自 2014 年以来一直使用 ECC RAM 运行,但从未记录任何 ECC 错误。
我不会太担心单个可纠正的 ECC 错误。记录的错误之间几乎正好十分钟(实际上低至几微秒)可能只是用于每十分钟进行一次 RAM 清理;不幸的是,在这个特定的系统上,擦洗间隔没有作为设置公开。但是,同一内存位置(相同的值)中的三个连续错误CE ERROR_ADDRESS
确实让我有点担心。
更新:自从我最初发布这个问题以来,有问题的主机已经记录了几个,所有的CE ERROR_ADDRESS
.
我应该认真对待这件事吗?什么是好的回应;立即订购更换 RAM 并安排尽快安装它,将其视为只是暂时的故障,或者如果再次发生但现在没有具体行动,请准备更换 RAM?