我很好奇是否有一些性能计数器可以记录所需的 ECC 更正次数,这也许可以作为内存故障的早期指标进行跟踪。我想它理论上可以以与来自 tlb 的页面错误报告给操作系统相同的方式访问?
欢迎使用适用于 Windows 或 FreeBSD 和 Linux 的解决方案。
我很好奇是否有一些性能计数器可以记录所需的 ECC 更正次数,这也许可以作为内存故障的早期指标进行跟踪。我想它理论上可以以与来自 tlb 的页面错误报告给操作系统相同的方式访问?
欢迎使用适用于 Windows 或 FreeBSD 和 Linux 的解决方案。
对于 Linux:
安装 mcelog,它会将所有错误记录到 /var/log/mcelog.log
也可以查看Linux sysfs,相关信息见EDAC文档:https ://www.kernel.org/doc/Documentation/edac.txt
大多数硬件本机处理此日志记录。例如,HP 的 iLO 基板管理控制器将 ECC 内存错误活动喷射到其集成管理日志中。
因此,通用问题的通用答案是:检查您的硬件管理系统的功能和资源。
或者阅读这个页面,它讲述了使用 Linux 的内核 EDAC 来查询内存控制器,并提供了一些示例脚本。:http: //www.admin-magazine.com/Articles/Monitoring-Memory-Errors
更多 /sys/devices/system/edac/mc/mc0/ue_count