我向服务器添加了新的 HP 内存,从 8 GB 增加到 32 GB。现在,我每隔几秒就会在 /var/log/messages 中出现此错误消息。
Jan 8 20:13:08 vmware01 kernel: EDAC MC0: CE row 2, channel 2,
label "": (Branch=1 DRAM-Bank=6 RDWR=Read RAS=13788 CAS=2840,
CE Err=0x2000 (Correctable Non-Mirrored Demand Data ECC))
我用谷歌搜索了错误消息,但没有运气。有谁知道这意味着什么以及如何解决它?
BIOS 和操作系统都看到所有 32 GB。
任何帮助将不胜感激。
该错误信息基本上意味着您安装的内存有故障。系统发现内存已损坏,ECC 能够更正单个位错误并警告操作系统内存不正常的事实。
有问题的 DRAM 是 Bank 6 中的 DRAM(很可能是双通道内存),因此请查看故障内存的位置。
我最近在使用 AMD CPU 的 IBM 刀片时遇到了这个问题。这是一个 64 位刀片,我使用 8 GB 和 32 位 RedHat 3 运行多年,这意味着操作系统只看到 4 GB。我将它升级到 64 位 RH 4 并开始出现非常相似的错误。我发现的研究表明,操作系统中的 EDAC 报告出现在版本 4 中的某个时间点,大约 4.5。
这意味着我不知道是 4-8 GB 部分还是现在报告问题的操作系统,所以我去 BIOS 运行测试。基本测试没有显示错误,但需要数小时才能运行的高级测试最终显示了问题。将不同的 RAM 模块旋转到不同的插槽表明我的 4 个中有 2 个是坏的,并且当它找到第一个时测试退出。将总共 2 GB 的内存放入具有 4 个不同模块的机器中,使机器运行良好。
多年来,如果没有完全断电,机器就不会重新启动,这对于 HA 数据库服务器来说不是问题,但我也报告了这个问题。IBM 很好地改变了我报告的 2 个 RAM 模块和整个主板,所以我不能发誓 RAM 修复了它。
底线:仔细检查您的 RAM。您可以尝试可启动 RAM 测试,例如 OS 磁盘。看来标准 RAM 测试程序是 32 位的,因此它们不会测试超过 4 GB。一个 64 位操作系统磁盘可能包括一个。