我有在 VMware 下运行的 Windows Server 2008。
最近,它几乎每天都开始崩溃,持续 100% 的 CPU 使用率,并且在 GUI 中没有响应。
有没有一步一步的技术来追踪这个问题的根源?
我会查看哪些日志?
ps 这个问题出现在我尝试卸载 Acronis 的时候,并且蓝屏。但是,我不确定当前的故障是否与 Acronis 有关。
我有在 VMware 下运行的 Windows Server 2008。
最近,它几乎每天都开始崩溃,持续 100% 的 CPU 使用率,并且在 GUI 中没有响应。
有没有一步一步的技术来追踪这个问题的根源?
我会查看哪些日志?
ps 这个问题出现在我尝试卸载 Acronis 的时候,并且蓝屏。但是,我不确定当前的故障是否与 Acronis 有关。
您还可以使用 Windows Server 2008 下提供的“可靠性和性能监视器”。
正如您在下面看到的,它会自动记录服务器的可靠性,并为它分配一个满分 10 分的“可靠性分数”。这个分数从 10 分开始,如果服务器遇到任何崩溃或意外关闭,它就会下降。
它甚至会记录安装了哪些程序以及何时安装,因此您可以诊断安装的程序是否会导致更多故障。
您还可以将其设置为连续记录程序的 CPU 使用率,以查看是哪个程序导致了 100% 的 CPU 使用率。
如果有像 c:\windows\memory.dmp 这样的故障转储,您可以使用WinDbg对其进行分析。通常你想在转储中寻找第三方驱动程序。可在此处找到分步说明。
系统事件日志。应用程序事件日志。谷歌BSOD的消息。使用 chkdsk 检查磁盘的完整性。
你有两个选择:
如果您知道问题开始的时间或者日志足够安静,可以让您注意到导致固定 CPU 的模式,那么日志是回顾系统历史的良好开端。如果系统蓝屏,你可以把dmp的扔进windbg。
如果您正在寻找可能导致 CPU 峰值的事情:
一旦你有一个很好的问题候选人,你可以从 sysinternals 打开进程监视器。它将实时转储系统上每个进程正在执行的每个文件和注册表交互。它甚至可以配置为在启动时加载并捕获所有内容,直到您接下来运行 GUI(请注意,这是大量数据,因此只有在启动后可以快速复制问题时才建议这样做)
有一堆兔子洞,根本原因分析可以让你失望,请随时让我们知道它是如何进行的。
如果是蓝屏,请查看 minidump 文件:http: //support.microsoft.com/kb/315271
...这将告诉您(通常)导致崩溃的驱动程序或软件。
2009-07-06 - 我认为它的硬盘驱动器。
我做了一个 chkdsk,它在 chkdsk 中途崩溃时出现了与之前相同的症状。我使用的是固态硬盘 (SSD),“PQI DK9128GD6R000A03 128GB SATA 2.5”SSD”,MTBF 为 1,500,000 小时。尽管 MTBF 为 133 年,但在 2 周或正常使用后似乎已经死亡!为了验证我的理论,我将 VMware 文件复制到标准硬盘驱动器。运行 chkdsk,它就像一个魅力。我会看看系统是否能存活一周的正常运行时间,如果可以,我可以正式保护我的 PQI SSD .
2009-07-07 - 系统再次崩溃。回到绘图板。
2009-07-08 - 在我安装 SSD 之前再回滚 20 天。我们将看看它是否再次崩溃(确实如此)。
2009-07-09 - 卸载 OpenVPN,升级到最新版本的 Skype,升级到 SQL 2008 到 SP1,移除 TeamViewer。我们将看看它是否再次崩溃(它确实发生了,在 Acronis 备份过程中)。
2009-07-09 - 怀疑运行服务器的 VMware 机器可用的虚拟内存量太小,我目前只有 4GB。增加它(这没有效果)。
2009-07-09 - 发现如果运行 Windows Server 2008 的 VMware 容器在 CPU 利用率为 100% 的情况下崩溃,我暂停/重新启动它,然后它会恢复运行并恢复运行!这往往指向 VMware 或其主机操作系统(即 XP)的问题,而不是 Windows Server 2008 本身的问题。现在非常接近问题的核心。
2009-07-09 - Windows Server 2008 仅在主机操作系统负载非常重时崩溃。将它可以利用的 CPU 数量增加到 2 个 CPU,这似乎已经解决了这个问题。
综上所述:
问题已解决,谢谢各位!
您能否解释一下崩溃是什么意思,服务器遇到 BSOD 还是只是挂在 100% Cpu 上。
对于故障排除,您可以将服务器记录到 syslog 服务器,每隔一段时间运行一个脚本列表来处理它们的资源使用情况,将他的输出写入网络共享。
如果服务器使 bsods 尝试使用谷歌搜索 bsod 中提到的错误代码。
此外,也许 acronis 卸载会在安装文件夹中留下带有一些信息的错误日志。
它是否每 24 小时(每天同一时间)准确地崩溃?
如果是这样,则可能存在导致崩溃的预定进程。