AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / server / 问题 / 871429
Accepted
user
user
Asked: 2017-09-01 00:28:27 +0800 CST2017-09-01 00:28:27 +0800 CST 2017-09-01 00:28:27 +0800 CST

如何应对同一内存位置的重复 DRAM ECC 错误通知?

  • 772

我今天早上醒来,对我来说是第一次;我的一个系统记录了DRAM ECC error通知。事实上,其中三个,据我所知,内存位置完全相同(显然,系统实际上并未命名为 localhost):

Aug 31 05:00:46 localhost kernel: [719099.816034] [Hardware Error]: CPU:0   MC4_STATUS[-|CE|MiscV|-|AddrV|-|-|CECC]: 0x9c6c40006b080a13
Aug 31 05:00:46 localhost kernel: [719099.816046] [Hardware Error]:         MC4_ADDR: 0x0000000641f49d20
Aug 31 05:00:46 localhost kernel: [719099.816051] [Hardware Error]: Northbridge Error (node 0): DRAM ECC error detected on the NB.
Aug 31 05:00:46 localhost kernel: [719099.816059] EDAC amd64 MC0: CE ERROR_ADDRESS= 0x641f49d20
Aug 31 05:00:46 localhost kernel: [719099.816070] EDAC MC0: CE page 0x641f49, offset 0xd20, grain 0, syndrome 0x6bd8, row 2, channel 0, label "": amd64_edac
Aug 31 05:00:46 localhost kernel: [719099.816075] [Hardware Error]: cache level: L3/GEN, mem/io: MEM, mem-tx: RD, part-proc: RES (no timeout)

上述之后是系统时间05:10:46(719699.8160) 的相同通知,然后是 (720299.8160)的另一个通知,该通知05:20:46也Over在线CPU:0 MC4_STATUS(状态0xdc6c40006b080813)。到目前为止,系统一直很稳定,没有记录更多错误。系统活动正常,有问题的系统自 2014 年以来一直使用 ECC RAM 运行,但从未记录任何 ECC 错误。

我不会太担心单个可纠正的 ECC 错误。记录的错误之间几乎正好十分钟(实际上低至几微秒)可能只是用于每十分钟进行一次 RAM 清理;不幸的是,在这个特定的系统上,擦洗间隔没有作为设置公开。但是,同一内存位置(相同的值)中的三个连续错误CE ERROR_ADDRESS确实让我有点担心。

更新:自从我最初发布这个问题以来,有问题的主机已经记录了几个,所有的CE ERROR_ADDRESS.

我应该认真对待这件事吗?什么是好的回应;立即订购更换 RAM 并安排尽快安装它,将其视为只是暂时的故障,或者如果再次发生但现在没有具体行动,请准备更换 RAM?

memory
  • 3 3 个回答
  • 3980 Views

3 个回答

  • Voted
  1. Best Answer
    Tim
    2017-09-04T23:26:58+08:002017-09-04T23:26:58+08:00

    ECC RAM 往往用于关键服务器。系统正在报告硬件故障。如果它不是一个关键系统,并且您不介意经历它的所有内容可能会损坏,请务必等待并看看会发生什么,但如果您关心您的数据而不是 RAM 的成本,请尽快更换有故障的 RAM。

    • 2
  2. Jaroslav Kucera
    2017-09-04T23:16:43+08:002017-09-04T23:16:43+08:00

    我建议运行 memtest86+

    http://www.memtest.org

    它还作为标准包包含在某些发行版中。

    它可以证实您对内存模块故障的怀疑。

    • 0
  3. Rob
    2018-11-27T17:13:13+08:002018-11-27T17:13:13+08:00

    我今天早上醒来,对我来说是第一次;我的一个系统记录了 DRAM ECC 错误通知。实际上,其中三个是为了……我不会太担心一个可纠正的 ECC 错误。记录的错误之间几乎正好十分钟(实际上低至几微秒)可能只是用于每十分钟进行一次 RAM 清理;不幸的是,在这个特定的系统上,擦洗间隔没有作为设置公开。

    维基百科关于内存擦洗的网页说:

    “超过 8% 的 DIMM 模块每年都会遇到至少一个可纠正错误。这对于基于 DRAM 和 SRAM 的内存来说可能是个问题。任何单个内存位出现软错误的概率都非常小。”。

    “为了不干扰来自 CPU 的常规内存请求,从而防止性能下降,清理通常只在空闲期间进行。由于清理包括正常的读取和写入操作,与非清理操作相比,它可能会增加内存的功耗。清理操作。因此,清理不是连续执行,而是定期执行。对于许多服务器,可以在 BIOS 设置程序中配置清理周期。

    该网页包含指向 SuperMicro X9SRA 主板手册的链接,其中解释了擦洗间隔:

    " Patrol Scrub
    Patrol Scrubbing 是一个过程,它允许 CPU 纠正在内存模块上检测到的可纠正内存错误,并将纠正发送给请求者(原始来源)。当此项设置为 Enabled 时,北桥将读取和写入每16K周期回一个cache line ,如果没有内部处理造成的延迟。使用这种方法,大约每天会清理北桥后面64 GB的内存。选项有Enabled和Disabled。

    因此,原因不是擦洗。有可能是有故障的位。虽然故障可能突然发生,但它消失又回来似乎很奇怪,尤其是当它如此频繁地发生时。

    “我应该认真对待这个问题吗?什么是好的回应;立即订购更换 RAM 并安排尽快安装它,将此视为只是暂时的故障,或者如果再次发生但现在没有具体行动,请准备更换 RAM ?”

    发明nohammer内核模块的 Pavel Machek 说:

    “不小心撞到划船是相当困难的,所以如果你打到它,可能是有人故意这么做的。......好吧,宇宙射线和划船之间有三个数量级以上的差异。IIRC宇宙射线是预期的导致一年 2 位翻转... rowhammer可以在10 分钟内完成位翻转,那是旧版本,不是优化版本之一。”。

    您可以更换 RAM 模块,并查看错误报告是否跟随芯片、粘在内存位置或发生在其他地方。

    HPE 建议(针对有故障的内存模块):

    “症状:在操作系统日志中发现以下错误消息:

    host1 kernel: Northbridge Error (node X): DRAM ECC error detected on the NB.
    

    修复:
    1. 识别出故障的内存模块编号(如果错误中提到)
    2. 检查 IML 是否有与内存模块相关的错误。Ex Proc x 插槽 x
    3。更新系统 BIOS
    4。如果未发现错误,则运行诊断并更换内存模块(5-6 循环内存诊断以隔离内存模块)"

    建议的行动方案:

    • 在其插槽中切换 RAM 将告诉您它是特定的 RAM 模块还是故障出在其他电路中。

    • 只要您每隔几天没有收到超过一个位错误,就不会出现恐慌(匆忙)。

    • 如果您每 10 分钟受到一次打击,您可能会受到重击。

    另请参阅:“在内核中防御 RowHammer ”和“ ECCploit:ECC 内存毕竟易受 Rowhammer 攻击”。对于 ARM 处理器,有:“ Android GuardION 补丁可缓解基于 DMA 的 Rowhammer 对 ARM 的攻击”。

    • 0

相关问题

  • 不会将整个 XML 文件读入内存的命令行 XML 验证器?

  • 在 Windows Server 2008 中,为什么我的 BIOS 和计算机属性显示我安装的所有 RAM,但任务管理器没有?

  • 如何使用 vmstat 获取 % 内存使用率?

  • 规格相同但引脚不匹配的 DDR2 模块?

  • ECC RAM、后台清理和 IOMMU BIOS 设置

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    新安装后 postgres 的默认超级用户用户名/密码是什么?

    • 5 个回答
  • Marko Smith

    SFTP 使用什么端口?

    • 6 个回答
  • Marko Smith

    命令行列出 Windows Active Directory 组中的用户?

    • 9 个回答
  • Marko Smith

    什么是 Pem 文件,它与其他 OpenSSL 生成的密钥文件格式有何不同?

    • 3 个回答
  • Marko Smith

    如何确定bash变量是否为空?

    • 15 个回答
  • Martin Hope
    Tom Feiner 如何按大小对 du -h 输出进行排序 2009-02-26 05:42:42 +0800 CST
  • Martin Hope
    Noah Goodrich 什么是 Pem 文件,它与其他 OpenSSL 生成的密钥文件格式有何不同? 2009-05-19 18:24:42 +0800 CST
  • Martin Hope
    Brent 如何确定bash变量是否为空? 2009-05-13 09:54:48 +0800 CST
  • Martin Hope
    cletus 您如何找到在 Windows 中打开文件的进程? 2009-05-01 16:47:16 +0800 CST

热门标签

linux nginx windows networking ubuntu domain-name-system amazon-web-services active-directory apache-2.4 ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve