Andriy Volkov Asked: 2009-08-21 08:56:17 +0800 CST2009-08-21 08:56:17 +0800 CST 2009-08-21 08:56:17 +0800 CST 如何知道服务器是否由于内存错误而失败 772 我最近阅读了@codinghorror 推特的这篇论文,我想知道我怎么知道我的服务器由于内存错误而失败?特别是,我如何知道它是可纠正的还是不可纠正的错误以及它发生在哪个 DIMM 上? memory ecc 4 个回答 Voted Best Answer mctsonic 2009-08-21T09:19:37+08:002009-08-21T09:19:37+08:00 SNMP 陷阱/消息是获得有关内存/DIMM 错误的主动通知的最佳选择。HP Systems Insight Manager、HP OpenView 和 Dell OpenManage 等产品提供了多个可配置规则,可将 SNMP 消息转发到电子邮件/短信/寻呼机,让您准确了解内存错误或降级发生的时间。 Baruch Even 2014-08-28T10:51:12+08:002014-08-28T10:51:12+08:00 如果您的服务器很好,它有一个 BIOS 和 BMC 组合,可以跟踪这些错误并将它们记录在 IPMI 中,以便您查看它们。通常,您的服务器会因无法纠正的 ECC 错误而停止,BIOS 会在 SMI 中断中接管并将其记录在 BMC 中。然后它恢复到操作系统的操作,这比正常重启更好(有时可以杀死一个进程并继续)。IPMI SEL 日志应该是 ECC 错误的标志。 如果您的服务器没有良好的 BMC/BIOS,您可以诉诸使用加载的崩溃内核,主机内核将跳转到该内核,它可以记录完整的堆栈跟踪和 dmesg 日志以供稍后查看以获取此信息。它将以粗体字母“HARDWARE ERROR”记录在崩溃内核的 dmesg 中。 geeklin 2009-08-21T09:03:21+08:002009-08-21T09:03:21+08:00 只需使用 memtest!它会准确告诉您哪个 DIMM 有问题。http://www.memtest86.com/ John Gardeniers 2009-09-06T16:42:42+08:002009-09-06T16:42:42+08:00 检查服务器自己的诊断。正如您所告诉我们的那样,关于服务器的任何事情都没有我能给出的详细答案。
SNMP 陷阱/消息是获得有关内存/DIMM 错误的主动通知的最佳选择。HP Systems Insight Manager、HP OpenView 和 Dell OpenManage 等产品提供了多个可配置规则,可将 SNMP 消息转发到电子邮件/短信/寻呼机,让您准确了解内存错误或降级发生的时间。
如果您的服务器很好,它有一个 BIOS 和 BMC 组合,可以跟踪这些错误并将它们记录在 IPMI 中,以便您查看它们。通常,您的服务器会因无法纠正的 ECC 错误而停止,BIOS 会在 SMI 中断中接管并将其记录在 BMC 中。然后它恢复到操作系统的操作,这比正常重启更好(有时可以杀死一个进程并继续)。IPMI SEL 日志应该是 ECC 错误的标志。
如果您的服务器没有良好的 BMC/BIOS,您可以诉诸使用加载的崩溃内核,主机内核将跳转到该内核,它可以记录完整的堆栈跟踪和 dmesg 日志以供稍后查看以获取此信息。它将以粗体字母“HARDWARE ERROR”记录在崩溃内核的 dmesg 中。
只需使用 memtest!它会准确告诉您哪个 DIMM 有问题。http://www.memtest86.com/
检查服务器自己的诊断。正如您所告诉我们的那样,关于服务器的任何事情都没有我能给出的详细答案。