几天前,我管理的一台服务器在正常运行 400 多天后发生了恐慌。我重新启动它,它工作了两天左右,然后它针对各种 n 值出现“oops: cpu#n stuck for 61s”。再次重启,今天又出现了原来的kernel panic。跟踪是(手动重新输入,因此跳过地址):
Kernel panic - not syncing: Fatal exception in interrupt
Pid: 0, comm: swapper Tainted: G D 2.6.32-41-server #89-Ubuntu
Call Trace:
<IRQ> panic
oops_end
die
do_general_protection
? consume_skb
general_protection
? put_page
skb_release_data
__kfree_skb
consume_skb
dev_kfree_skb_any
sky2_tx_complete
sky2_status_intr
? __queue_work
sky2_poll
net_rx_action
__do_softirq
? handle_IRQ_event
call_softirq
do_softirq
irq_exit
do_IRQ
ret_from_intr
<EOI> ? mwait_idle
? atomic_notifier_call_chain
? cpu_idle
? start_secondary
RIP put_page
操作系统是 Ubuntu 10.04.4 x64。由于它一直有效并且在恐慌之前没有任何改变,我正在考虑一些硬件故障。在最后一次重新启动之前,我做了一个完整的内存测试并且它通过了,以及一个完整的 fsck 只是为了确定。由于恐慌与 sky2(marvell 网络控制器)有关,它可能是网卡问题?有什么我忽略了吗?考虑到错误之间一切都运行良好(日志中没有错误,没有丢包,没有减速)。
感谢任何指针
很可能是硬件问题。风扇堵塞和/或故障、温度过高、RAM 损坏、CPU 损坏、电源运行异常、主板寿命即将结束......