Jeremy Privett Asked: 2010-03-30 08:17:10 +0800 CST2010-03-30 08:17:10 +0800 CST 2010-03-30 08:17:10 +0800 CST 诊断导致内核恐慌的 Linux 服务器中的硬件问题 772 我们有一个服务器偶尔会出现内核恐慌一段时间,我们认为它存在硬件问题。您将如何对无法物理访问的硬件进行故障排除?我可以在操作系统本身中使用任何工具来诊断系统的不同部分,以试图找出导致所有这些恐慌的原因吗? linux troubleshooting kernel-panic 2 个回答 Voted Best Answer voretaq7 2010-03-30T08:32:20+08:002010-03-30T08:32:20+08:00 除非系统日志或供应商提供的测试工具(前面板显示屏、戴尔诊断程序等)中显示任何内容,否则大多数诊断程序都需要对系统进行物理访问。 我的建议是让memtest86或memtest86+在系统上运行:大多数恐慌/随机崩溃是由坏 RAM 引起的,这通常会捕获它。 Bart Silverstrim 2010-03-30T08:40:08+08:002010-03-30T08:40:08+08:00 如果不访问硬件,您将很难诊断硬件问题;如果在原木中或者从烟雾和噼啪声中不明显,然后是整齐的闪光,那么很多硬件故障排除都归结为更换部件,直到问题消失。 硬件的问题是,当您使用软件对其进行故障排除时,它只能告诉您问题所在,而不能告诉您可能是什么问题。也就是说,memtest86 发现了一个明确的内存问题,你有一个明确的内存问题,但是如果 memtest86 说没有内存问题,你实际上可能仍然有内存问题(我已经进行了系统测试,但在交换后才停止崩溃模块)。 这就像要求你的大脑诊断自己一样。你不能相信结论。:-)
除非系统日志或供应商提供的测试工具(前面板显示屏、戴尔诊断程序等)中显示任何内容,否则大多数诊断程序都需要对系统进行物理访问。
我的建议是让memtest86或memtest86+在系统上运行:大多数恐慌/随机崩溃是由坏 RAM 引起的,这通常会捕获它。
如果不访问硬件,您将很难诊断硬件问题;如果在原木中或者从烟雾和噼啪声中不明显,然后是整齐的闪光,那么很多硬件故障排除都归结为更换部件,直到问题消失。
硬件的问题是,当您使用软件对其进行故障排除时,它只能告诉您问题所在,而不能告诉您可能是什么问题。也就是说,memtest86 发现了一个明确的内存问题,你有一个明确的内存问题,但是如果 memtest86 说没有内存问题,你实际上可能仍然有内存问题(我已经进行了系统测试,但在交换后才停止崩溃模块)。
这就像要求你的大脑诊断自己一样。你不能相信结论。:-)