在过去的一个月里,我的一台 Debian Squeeze (Linux 2.6.32-bpo.5-amd64) 机器确实锁定了两次,非常严重。对 ARP 没有反应,黑暗的控制台,Caps Lock,Num Lock 不起作用,Magic SysRq无效。将内核从 backports 更改为 3.2.0-0.bpo.2-amd64 也无济于事。
温度和负载监控在崩溃前没有显示任何尖峰。
我应该如何诊断和调试此类问题?
netconsole是我唯一的赌注吗?
编辑: 我已经禁用屏幕消隐:
#/etc/console-tools/config
BLANK_TIME=0
POWERDOWN_TIME=0
和
setterm -blank 0
在物理控制台上。
更新:
这次锁定了,屏幕上仍然显示登录提示。自从上次出现问题以来,我已经使用 BOINC (Prime 95) 测试运行了 6 小时的负载测试,没有任何问题。
我找到了两种可能的解决方案,如果它们有效,我会报告。编辑:他们没有
首先是通过添加到内核引导参数来启用nmi_watchdog 。
nmi_watchdog=1
第二个(感谢@womble 的建议)强制执行ECC
不幸的是,在 2.6.32-bpo.5-amd64 (Debian squeeze) 内核中不支持 ECC DDR3 内存,我不得不使用来自 backports 的 3.2。
我还将这些选项添加到通用内核参数中:
随着挂起越来越频繁地发生,问题可能是由主板故障或不太可能是 CPU 引起的。更换这些组件后,问题就消失了。