我们有一台运行 Windows Server 2003 R2、Enterprise x64 并安装了 Service Pack 2 的 Dell PowerEdge 2950。
最近,我们遇到了该服务器发生的多个 STOP 错误。幸运的是,它作为故障转移机器就位,因此目前不会影响我们的生产环境。服务器日志中显示的错误是这样的:
Event Type: Error
Event Source: System Error
Event Category: (102)
Event ID: 1003
Description:
Error code 000000000000009c, parameter1 0000000000000004,
parameter2 fffffadf90881240, parameter3 00000000f2000000,
parameter4 0000000000060151.
到目前为止,我能找到的最好的结果是 9C 错误是某种通用硬件问题。其他参数在缩小这一范围方面没有用。
自去年机器投入使用以来,硬件没有发生任何变化。它有一个相同的双盒子(这个盒子充当故障转移的主要盒子),但没有遇到该行为。上一次软件更改是在 2009 年 4 月 16 日,当时应用了几个安全更新。蓝屏从 2009 年 5 月 9 日开始出现。
是否有任何可能有助于解决 tis 问题的诊断方法?
请参阅 Kazna3 在http://www.dal.com/archive/index.php/t-49205.html上的回答他/她写道:
换句话说,你的硬件很可能是坏的。可能是断电或高温。仅仅因为一个组件是固态并不意味着它不会发生故障。例如:RAM 总是出现故障——它装在防静电袋中是有原因的。
您对机器有物理访问权限吗?发生这种情况时,状态 LCD 是否会给出错误代码,还是似乎没有注意到?
如果您安装了 OpenManage,那么您已经是一个优势了。检查 OpenManage 日志以查看它是否记录了任何硬件错误。OpenManage 还包括一个功能齐全的诊断套件。查看http://www.dell.com/downloads/global/power/ps1q06-20050259-Thathireddy.pdf了解如何使用它。戴尔的支持通常会让您运行几个 CLI 诊断测试,因此最好与他们联系。
作为一般步骤(并排除支持人员要求您执行此操作),更新您的 BIOS 和嵌入式服务器管理 BMC 固件。
如果有备用 CPU,请更换 CPU。
此外,这听起来可能很奇怪,但如果您安装了 DRAC,请将其删除。我有一个 2850,它给出了 CPU 错误代码 (E07F0),随机冻结,偶尔无法启动。更换 DRAC 纠正了它,从那以后它一直没有问题。
如果这些都不起作用,是时候给戴尔打电话了。这是 100% 低于 OS 层。
请参阅 Microsoft KB 939315 - storport 驱动程序可能导致此问题.....您是否在重新启动或关机时看到错误,或者只是在运行时看到错误?