我有一个带有 P420 RAID 控制器的 HP DL380e Gen8,它在我以前的工作中每天 24 小时通电 7 个月,运行几个 VM 时没有任何问题。换工作后,我将家里的服务器关闭了大约 3 个月。我今天在添加 10Gbe 网卡 (HP NC523SFP) 后打开它,服务器启动正常,我登录操作系统 (Centos 7),一切看起来都很好。大约 45 分钟后,我听到服务器风扇以 100% 的速度旋转,然后恢复正常,我连接了一个显示器,并且出现了带有 NMI 错误的红屏死机。在 ILO 上检查错误是指 PCI- E 插槽 1 提升卡 1,这是连接 P420 控制器的位置(10Gbe 在插槽 3 提升卡 1 上)。我以为问题是由 10Gbe 引起的,但在删除它后,服务器仍然出现红屏死机。我' 我还尝试将 10Gbe 移动到转接卡另一侧的 PCI-E 插槽上,但没有任何改变,我还尝试使用电池卸下智能缓存模块并将 P420 移动到插槽 3。我可以检查什么? 我唯一没有尝试过的是在没有连接硬盘驱动器和/或从 P420 移除背板电缆的情况下启动。有可能在转接卡的同一侧有 10Gbe 卡损坏了 P420 控制器?当我第一次使用 10Gbe 启动时,我记得有一条关于启动磁盘/ROM 选项的消息,我之前没有见过,我完全忽略了它。t 尝试在没有连接硬盘驱动器和/或从 P420 移除背板电缆的情况下启动。有可能在转接卡的同一侧有 10Gbe 卡损坏了 P420 控制器?当我第一次使用 10Gbe 启动时,我记得有一条关于启动磁盘/ROM 选项的消息,我之前没有见过,我完全忽略了它。t 尝试在没有连接硬盘驱动器和/或从 P420 移除背板电缆的情况下启动。有可能在转接卡的同一侧有 10Gbe 卡损坏了 P420 控制器?当我第一次使用 10Gbe 启动时,我记得有一条关于启动磁盘/ROM 选项的消息,我之前没有见过,我完全忽略了它。
RAID 控制器确实经常发生故障,所以如果它决定死在你身上,我不会太惊讶。
解决这些问题的最简单方法是从最低启动配置开始,您通常可以在大多数供应商的服务手册中找到该配置。这本质上是 1 个 CPU、1 块 RAM,没有其他附加内容。然后你开始添加组件,直到你再次遇到类似的错误,这样你就可以找到有故障的组件。
还要记住,电缆是半有源组件,我见过维修技术人员在故障组件是 PCI 转接卡或 SAS 电缆时更换主板和 RAID 控制器。
从金属托盘中卸下系统板。从南桥芯片组上取下散热器。刮掉芯片和散热片上的所有石化导热膏。在芯片上放一些质量不错的导热膏。更换散热器。将系统板弹回金属托盘上并重新组装服务器。现在问题应该已经解决了,您将能够在配置管理器中看到 B320i RAID。(这是我使用的适配器)。
这在过去的两块 DL380e Gen8 主板上都有效,带有红屏死机消息。