我已经进行了相当多的故障排除,但我完全不知道会发生什么。
硬件/平台
- Supermicro X10SRi-F 主板
- EVGA 850W G2 PSU(Jonnyguru.com 上电源质量评级最高的电源之一)
- 128GB Crucial DDR4 RDIMM
- LSI 9211-8i PCIe HBA 闪存到最新的 P20-IT(来自 LSI/Avago 网站)
- 8087-to-quad-SAS 连接器电缆(新:见这张图片,电源侧接受 SATA PSU 连接器的那种电缆)
- 希捷 6TB SAS 硬盘(新:ST6000NM0054)
- 各种其他 Seagate 3TB - 6TB SATA 驱动器(测试目的)
到目前为止的问题/故障排除
这是一个正在设置的新服务器,因此所有组件都是新的,尽管之前已经测试了一些组件。
启动时,HBA 无法识别或报告 6TB SAS 驱动器(通过主 BIOS 或通过其自己的 OROM -> SAS 拓扑),并且 6TB 驱动器处于冷态且未启动。没有连接其他驱动器。系统的其余部分工作正常,所以从表面上看,问题仅限于 HBA 损坏、电缆损坏或驱动器损坏中的一个或多个。
到目前为止的故障排除步骤:
- 使用四根电缆上的不同终结器连接 6TB SAS 驱动器,并将四根电缆连接到两个 8087 端口。没有变化 - 意味着问题不是一个特定的终结器或端口。
- 使用相同的电缆连接各种 Seagate 3TB-6TB SATA 驱动器(相同的制造商和类似的现代系列,以消除细微的兼容性问题(如果有))。在启动时、在 8087 端口和所有 4 个终结器上以及在多次重新启动时,所有这些都可以正常识别、报告和旋转——这意味着 HBA 和电缆都可以正常工作,至少对于 SATA 而言。(如果它们完美地适用于 SATA 而不是 SAS,那就奇怪了。)
- 保持相同的连接,但用 6TB SAS 驱动器替换了 SATA 驱动器,没有改变任何其他东西。和以前一样,HBA 没有识别或报告 6TB SAS 驱动器,也没有启动。
- 在基于华硕的台式机上使用不同的卡和平台 m-LSI 9260-8i RAID 控制器进行了完全相同的尝试。再次,所有 SATA 驱动器立即识别并启动,但 6TB SAS 驱动器不是/没有。
- 不情愿地得出结论,尽管不太可能,但最可能的问题是 6TB SAS 驱动器 DOA 并对其进行了 RMA 处理。(“不情愿”是因为我以前从未真正拥有过 DOA,驱动器通常是可靠的,如果它死了,那么更常见/预期的是它至少被识别但不起作用。我只是不能t 比完整的 DOA 更可能是一个问题。)
- 刚刚收到保修更换 - 并且得到与更换完全相同的症状:(a) 当 6TB SAS 驱动器和任何 SATA 驱动器连接到 2 个终结器并且系统启动时,SATA 驱动器立即被识别、报告并启动,而 6TB SAS 驱动器保持冷态和静止。(b) 当 6TB SAS 和任何 SATA 驱动器连接到另一个华硕台式机中的 9260-8i RAID 卡时,SATA 驱动器同样会立即被识别,但 6TB SAS 驱动器保持冷态。
- 最后一步,重新阅读 9211-8i HBA 用户指南以防我第一次错过任何内容,并重新检查 BIOS。找不到任何似乎可以解释这一点的东西,或者任何关于 SAS 驱动器将不会被识别的声明,除非/直到 <some action/content>。
第一次真的不相信这是 DOA。绝对不要相信它现在是 DOA。但如果不是,那么它是什么,我会错过什么?
我已经测试了组件链中的所有内容(AFAIK),HBA 没有太多可能出错的 OROM 接口,或者任何识别 SATA/SAS/两者的选项,或者类似的东西,以及主 PC/服务器在这两种情况下,只需将检测留给 HBA/RAID 卡即可。我已经在两个完全不同的平台上进行了测试,有两种不同型号的控制器卡,SAS 与 SATA 驱动器,我完全被难住了。
(注意:当我开始从 SATA 过渡到 SAS 时,我受到了一些限制,目的是在 SAS 磨损时用 SAS 替换 SATA,所以目前我没有任何其他 SAS 磁盘或电缆测试,否则我也会这样做。但我想我可能已经通过在改变 SATA/SAS 时测试卡+电缆来解决这个问题)
更新了更准确的标题以帮助他人,现在获得了更多信息。见答案。
我与德国的 LSI(现为 Avago)进行了存储技术支持的交谈。他们认为,如果 2 台不同机器中的 2 种不同类型的“已知良好”控制器都识别所有 sata 而不是这个 sas 驱动器(在任何端口和连接器上),那么它很可能是驱动器。
他们还建议进行进一步的测试 - 仅连接驱动器的电源侧(不是 HBA/主板/数据线)并打开服务器。(他警告我这会“听起来很疯狂”!)显然,就像 SATA 一样,如果数据端未连接,SAS 驱动器在首次通电时会旋转(我不知道,想知道交错启动是如何工作的?),提供一个非常好的测试,它只依赖于 PSU 和驱动器的供电,没有别的。
果然,SATA 驱动器都启动了,这个驱动器没有。他觉得这足以“几乎肯定”这是第二次糟糕的驾驶,尽管不太可能,但不花钱。序列号也几乎与原来的哑驱动器相同(1 位变化);所以他还建议与制造商交谈,并提出问题,如果他们有任何其他类似的报告与此驱动器有关,因为它可能是一个坏批次。
2017 年 4 月更新:
我想了一会儿,问题是需要禁用 LSI 9211 BIOS,基于在线线程。我禁用了bios,它确实有效......但后来当我移动盒子时它停止工作,我不知道为什么。我将此信息带回 LSI 技术支持,他们说 BIOS 不可能是问题或禁用它可能会有所帮助。他们认为移动盒子很可能会解除偶然的电缆工作并将其转回不工作状态。
他们说要尝试新的“前向”或“扇出”电缆,特别是 Adaptec(另一方面,因为它是竞争对手!!)对于 SAS,它比大多数电缆更可靠。他们说,电缆是否正确,并不总是很清楚或标记,并要仔细检查。
所需的确切 SAS 电缆将根据 HDD 和卡的接口而有所不同。9211 有一个 SFF-8087 连接,我的硬盘有一个 SFF-8082 连接(看起来有点像 SATA,但电源和数据端口连接)。
我怀疑它是电缆(因为电缆在电气相似的 SATA 上确实可以正常工作),但继续联系 Adaptec,他评论说,从确定到底哪种电缆的意义上来说,正确连接电缆可能是相当具有挑战性的。需要。他们检查了卡规格和 HDD 规格,并在亚马逊上推荐了他们的 2275300-R,令我惊讶的是它第一次工作,所以我想他们一定知道他们在说什么。
实际上,造成这种悲痛的真正原因是由于 SATA / SAS 电源标准的变化。引脚 3 是问题所在。
在使用较新的 SAS 驱动器(2016 年之后构建)时,使用 molex 式电源将解决此问题。
所以不管是电缆(除非它使用 molex 供电)、HBA 还是驱动它都指向这一点。好玩吧?
https://www.hgst.com/sites/default/files/resources/HGST-Power-Disable-Pin-TB.pdf