我在 Proliant DL580 G7 上有 4 个控制器:P410i、LSI9261、P812、P410.添加最后两个或一个操作系统(Windows Server)后开始崩溃。消除最后两个有帮助(在 RBSU 中禁用它们)。但我需要它们:我有 6 个机箱(每个机箱有 4 个 HDD)和机箱 D2700(20 个 HDD)。P812 通过外部端口只能看到 D2700 - 因此我无法将机箱连接到 P812 并使用其他控制器。每个都通过内部控制器端口处理 2X4 HDD。所有控制器共享相同的 IRQ - 10,并且尝试更改一个控制器的 IRQ 会自动将其他控制器更改为新的 IRQ(在 RBSU 中)。P812 和 P410 具有 ROM v 6.62,P410i 具有 v 6.40。怎么修?即使大多数磁盘与控制器断开连接,服务器也会崩溃 - 4 个控制器的存在足以导致崩溃。(我应用了 G7 最新 SPP 推荐的更新)
我用过 lsi 控制器,
首先:
任何品牌的控制器通常都会尝试相互连接并相互查看各种配置。而且当他们的 rom 软件版本发生变化时,他们大多无法恢复阵列或卷。
第二:
由于同年的卡使用相同的LSI芯片,因此可以将其他品牌和不同版本的bios强制到不同的卡上。我猜这被称为交叉闪烁。从品牌到品牌,从 IR 模式到 IT 模式(SATA forward 仅禁用 ram 和 raid on card)。
我要做的很简单。如果您无法从事件查看器中找出崩溃的原因,请执行以下操作,如果一个要点未能解决问题,请切换到下一个
检查电源是否足够
切换并检查 pci-e 端口(可能里面有一些金属废料或纸张)
目视检查卡片是否有烧伤痕迹或损坏的 smd
匹配 rom 软件版本并找出有问题的版本
交叉闪存有问题的一个以匹配所有品牌并放置相同的 rom 软件版本。
cross flash all into IT mode 用 mdadm 软件 raid 做你的 raid 事情。
通常在这些情况下,我们会购买一些新卡。但是sata - 软件raid 的方法是很扎实的。我在每个设置中都使用它。您只需要正确使用一些 bash mdadm 命令。与 LSI 手册相比,它的几个命令非常简单,数千个 raid 控制器命令,巡逻读取,一致性检查计划等。
我最喜欢的设置是来自多个 ssd 的带有 bcache 的软件 raid 10 mdadm。它适用于 iscsi 和 samba。您只需要正确调整 raid 块和 fs 集群大小。
小心不要丢失数据。这是我使用的方法,但我对您的设备或数据丢失或任何其他类型的损坏不承担任何责任。这些交叉闪烁的东西和突袭设置是有风险的(永远如此)。
上面的答案帮助我确定了问题 - 这是一个很好的算法。有时我们会怀疑一些看起来更明显的事情——在我的案例中,使用来自不同供应商的多个 RAID 控制器似乎很可疑。我从接受的答案中检查了所有内容 - 但服务器崩溃了。一开始我注意到事件查看器中的警告 -
WHEA-Logger, "A corrected hardware error has occurred."
。根据这篇文章,这只是警告。但最终我将 RBSU 从 C3 状态切换到“性能”,现在服务器稳定了。我希望这将有助于 HP DL580 G7 的所有者。我还添加了更强大的 PSU。