我的 Windows Server 2008 R2 x64 机器上个月蓝屏了两次。在这两种情况下,报告的 STOP 原因都是 MEMORY_MANAGEMENT 错误,参数 1 的值是 41790(“发生未知内存管理错误”,根据官方文档)。
这是一台全新的机器,具有 4 GB RAM,运行 IIS 和 SQL Server 2008。工作量非常轻。
有什么想法可能是错的吗?这种故障最常见的原因是什么?你会采用什么诊断策略?
谢谢!
编辑. 我已经按照建议在机器上运行了一些内存测试。所有测试都通过了,没有发现任何问题。我们最近对 BIOS 中的启动延迟进行了一些调整,以便机器中的 RAID 控制器有时间在服务器尝试查找操作系统之前初始化所有磁盘,此后我们再也没有看到蓝屏。也许这就是它?
我会运行memtest来全面测试您的 RAM 是否存在硬件问题。
这可能是由有故障的记忆棒、主板故障和驱动程序问题引起的。
让我们知道您的硬件的品牌和型号,我们可能会为您提供特定的工具和方法来进行故障排除。
首先,我会验证您的驱动程序是否正常。如果您的服务器是 HP,并且您从 smartstart CD 构建它,则驱动程序应该是 kosher 并且可以(暂时)排除。
另一方面,如果您手动下载并安装了所有驱动程序,或者正在使用默认的 Windows 驱动程序,请更新它们。
一旦您对驱动程序进行了简单的测试,请在 RAM 上运行压力测试。同样,您的供应商可能会为此提供工具(HP 位于服务器随附的 CD 上)。一些供应商在 BIOS 菜单中内置了一个测试仪。
如果这两个解决方案都出现空白,请发布有关硬件和构建方法的更多信息,我们可以从那里获取。
这绝对看起来像是有故障的模块、安装不当的模块或制造缺陷。它甚至可能表明您的服务器存在冷却问题,尽管这通常会导致其他事情失败而不是 RAM。也有可能有人错误地配置了 BIOS 设置,因此值得根据服务器制造商关于安装的 RAM 类型和数量的建议来检查这些设置,以便确定。
我安装了很多服务器,并且在我签署任何服务器之前,我总是确保有一个长时间的Memtest86+烧录(24 小时或更长时间)。在这几年里,我看到两批不同的服务器(大约 50 个)出现故障,这两个都是制造质量控制问题 (IMO),所以如果你看到这个结果,我一点也不感到惊讶的一个缺陷。
哦,使用现代硬件,请确保您使用的是 Memtest86+。最初的 Memtest86 仍然存在,但不足以测试具有大量 RAM 的当前一代硬件。