几天前,我们的一个网络服务器在几个小时内发生了故障。它没有响应任何远程请求(老实说,如果插入 USB 键盘和显示器,我不知道它是否会响应)并且数据中心的工程师为我们重新启动了服务器。
一切都恢复正常,然后我检查了事件日志,看看是否有任何线索表明出了什么问题。我真正能看到的是“上次凌晨 1 点关机是意外的”事件(这是服务器关闭的时间,而不是工程师按下电源按钮的时间)。
服务器有 IIS - 但显然网站日志只显示导致崩溃(或冻结)的文件请求,并且崩溃前的流量没有增加。SQL Server 也已安装,但日志仅报告在服务器恢复时前滚了十几个事务。
还有什么我可以查看的以找到崩溃的可能原因吗?
如果您启用了创建故障转储文件的选项,那么这是另一种可能性,尽管它需要高级分析技能和/或 Microsoft 的支持案例才能从中获取有用的信息。通常转储文件将保存到 %SystemRoot%\MEMORY.DMP。
如果是“蓝屏死机”导致失败,并且服务器配置为保存故障转储(这是默认设置),您可以调试输出。我为此找到的最佳操作方法资源是“如何在几分钟内解决 Windows 系统崩溃问题”。
否则,如果有制造商提供的系统监控工具,例如 HP OpenView 或 Dell OpenManage,那么您应该在那里寻找硬件故障的证据。
最后,如果服务器在 UPS 上,您需要在那里查找与电源相关的故障。
好像箱子挂了。由于现场支持刚刚退回盒子,因此您可能但不太可能从日志中获得任何信息。
您需要启用 CrashOnCtrlScroll 支持 ( http://support.microsoft.com/kb/244139 ),重新启动盒子,然后在下次挂起时让某人按住 RIGHT Ctrl 键并按两次 Scroll Lock。这将检查(蓝屏)框,写出当前状态,然后重新启动它。
您还需要确保系统 si 配置为内核或完整内存转储。
谢谢,Brian Desmond Active Directory MVP