AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / server / 问题 / 643542
Accepted
Jens Erat
Jens Erat
Asked: 2014-11-12 07:00:18 +0800 CST2014-11-12 07:00:18 +0800 CST 2014-11-12 07:00:18 +0800 CST

如何在 Linux 中收到 ECC 错误通知?

  • 772

当配备 ECC 内存的 Linux 机器识别出内存故障时,我如何获得通知?我对可纠正和不可纠正的错误都感兴趣。

  • 如果将消息写入 dmesg/syslog,这已经很好了,但我很想知道要查找什么
  • 安装额外的守护进程(如用于硬盘的 smartmontools)是可以接受的
  • Nagios/Icinga 监控将是另一种方式
  • 并非所有要监控的机器都有 IPMI

感兴趣的系统有 Supermicro 板 (X9SCM-F),关于 HP N54L 微型服务器,我只是好奇,但不要太在意。所有系统都运行 Debian 或 Ubuntu Linux。

linux
  • 5 5 个回答
  • 39086 Views

5 个回答

  • Voted
  1. Best Answer
    maxschlepzig
    2017-12-17T09:41:17+08:002017-12-17T09:41:17+08:00

    Linux 内核支持某些芯片组的错误检测和纠正 ( EDAC ) 功能。在带有ECC的受支持系统上,可以通过 sysfs 访问内存控制器的状态:

    /sys/devices/system/edac/mc
    

    该位置下的目录树应与您的硬件相对应,例如:

    /sys/devices/system/edac/mc/mc0/csrow2/power
    /sys/devices/system/edac/mc/mc0/csrow0/power
    /sys/devices/system/edac/mc/mc0/dimm2/power
    /sys/devices/system/edac/mc/mc0/dimm0/power
    /sys/devices/system/edac/mc/mc1/power
    ...
    

    根据您的硬件,您可能必须显式加载正确的 edac 驱动程序,参见:

    find /lib/modules/$(uname -r) -name '*edac*'
    

    该edac-utils软件包提供了一个命令行前端和一个用于访问该数据的库,例如:

    edac-util -rfull          
    mc0:csrow0:mc#0memory#0:CE:0
    mc0:csrow2:mc#0memory#2:CE:0
    mc0:noinfo:all:UE:0
    mc0:noinfo:all:CE:0
    mc1:noinfo:all:UE:0
    mc1:noinfo:all:CE:0
    

    您可以设置某种 cron-job 定期调用eac-util并将结果提供给您的监控系统,然后您可以在其中配置一些通知。

    除此之外,跑步mcelog通常是一个好主意。取决于系统,但不可纠正/可纠正的 ECC 错误也可能报告为机器检查异常 ( MCE )。我的意思是,即使是由于温度升高而导致的短暂 CPU 节流也被报告为 MCE。

    • 11
  2. Michael Hampton
    2014-11-12T07:50:03+08:002014-11-12T07:50:03+08:00

    mcelog将监视内存控制器并向 syslog报告内存错误事件,并且在某些配置中可以将坏内存页面脱机。当然,这是除了它通常用于监视机器检查异常和各种其他硬件错误之外的。

    大多数 Linux 发行版都设置了一个服务来将其作为守护进程运行,例如对于 EL 6:

    chkconfig mcelog on
    service mcelog start
    
    • 10
  3. spaceman spiff
    2020-01-05T15:01:56+08:002020-01-05T15:01:56+08:00

    该软件包rasdaemon是作为.edac-toolsedac-toolsmcelog

    EDAC linux 内核驱动程序的更新改变了内存错误计数器在用户空间中的管理方式,因此edac-tools实际上mcelog已被弃用。

    • 9
  4. ewwhite
    2014-11-12T07:52:28+08:002014-11-12T07:52:28+08:00

    这取决于您的服务器硬件。白盒或 Supermicro 系统处理此问题的方式与戴尔、惠普或 IBM 不同……

    高端服务器的增值功能之一是具有一定程度的硬件/操作系统集成。作为管理代理和/或带外管理解决方案(ILO、DRAC、IPMI)的一部分,更好的服务器将报告您正在寻找的内容。

    您应该使用硬件平台原生的工具。

    运行 Linux 和 HP 管理代理的 HP ProLiant 服务器的摘录:

    Trap-ID=6056
    ECC Memory Correctable Errors  detected.
    

    和

    Trap-ID=6052
    Advanced ECC Memory  Engaged
    

    或更严重的

    Trap-ID=6029
    A correctable memory log entry indicates a memory module needs to be
    replaced.
    

    或最坏的情况......忽略错误 6 天,直到服务器因 RAM 损坏而崩溃

    0004 Repaired       22:21  12/01/2008 22:21  12/01/2008 0001
    LOG: Corrected Memory Error threshold exceeded (Slot 1, Memory Module 1)
    
    0007 Repaired       02:58  12/07/2008 02:58  12/07/2008 0001
    LOG: POST Error: 201-Memory Error Single-bit error occured during 
    memory initialization, 
    Board 1, DIMM 1. Bank containing DIMM(s) has been disabled.
    
    0008 Repaired       19:31  12/08/2009 19:31  12/08/2009 0001
    LOG: ASR Detected by System ROM
    

    这些都被记录下来,另外还发送了 SNMP 陷阱和电子邮件。

    通常,您会在内核环形缓冲区中看到机器检查异常,因此您可以检查dmesg或运行mcelog。根据我在没有 IPMI 的情况下使用 Supermicro 设备的经验,这并没有解决所有问题,而且我仍然有 RAM 错误从裂缝中溜走并导致中断。不幸的是,这导致了系统部署之前的过时 RAM 老化策略。

    • 8
  5. gabriele
    2020-03-13T00:09:14+08:002020-03-13T00:09:14+08:00

    正如另一张海报所述,mcelog已弃用并有效地替换为rasdaemon. 我写了一篇关于如何在许多 Linux 发行版上安装和配置它的文章,包括正确设置 DIMM 标签的说明。

    • 6

相关问题

  • Linux 主机到主机迁移

  • 如何在 Linux 机器上找到有关硬件的详细信息?

  • 如何在 Linux 下监控每个进程的网络 I/O 使用情况?

  • 在 RHEL4 上修改 CUPS 中的现有打印机设置

  • 为本地网络中的名称解析添加自定义 dns 条目

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    新安装后 postgres 的默认超级用户用户名/密码是什么?

    • 5 个回答
  • Marko Smith

    SFTP 使用什么端口?

    • 6 个回答
  • Marko Smith

    命令行列出 Windows Active Directory 组中的用户?

    • 9 个回答
  • Marko Smith

    什么是 Pem 文件,它与其他 OpenSSL 生成的密钥文件格式有何不同?

    • 3 个回答
  • Marko Smith

    如何确定bash变量是否为空?

    • 15 个回答
  • Martin Hope
    Tom Feiner 如何按大小对 du -h 输出进行排序 2009-02-26 05:42:42 +0800 CST
  • Martin Hope
    Noah Goodrich 什么是 Pem 文件,它与其他 OpenSSL 生成的密钥文件格式有何不同? 2009-05-19 18:24:42 +0800 CST
  • Martin Hope
    Brent 如何确定bash变量是否为空? 2009-05-13 09:54:48 +0800 CST
  • Martin Hope
    cletus 您如何找到在 Windows 中打开文件的进程? 2009-05-01 16:47:16 +0800 CST

热门标签

linux nginx windows networking ubuntu domain-name-system amazon-web-services active-directory apache-2.4 ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve