今天早上我来到办公室发现 RAID-6、3ware 9650SE 控制器上的两个驱动器被标记为降级并且它正在重建阵列。在达到大约 4% 后,它在第三个驱动器上出现 ECC 错误(当我尝试访问此 RAID 上的文件系统并从控制器收到 I/O 错误时可能会发生这种情况)。现在我处于这种状态:
> /c2/u1 show
Unit UnitType Status %RCmpl %V/I/M Port Stripe Size(GB)
------------------------------------------------------------------------
u1 RAID-6 REBUILDING 4%(A) - - 64K 7450.5
u1-0 DISK OK - - p5 - 931.312
u1-1 DISK OK - - p2 - 931.312
u1-2 DISK OK - - p1 - 931.312
u1-3 DISK OK - - p4 - 931.312
u1-4 DISK OK - - p11 - 931.312
u1-5 DISK DEGRADED - - p6 - 931.312
u1-6 DISK OK - - p7 - 931.312
u1-7 DISK DEGRADED - - p3 - 931.312
u1-8 DISK WARNING - - p9 - 931.312
u1-9 DISK OK - - p10 - 931.312
u1/v0 Volume - - - - - 7450.5
检查相关三个驱动器上的 SMART 数据,降级的两个状态良好(通过,没有任何 Current_Pending_Sector 或 Offline_Uncorrectable 错误),但列为 WARNING 的驱动器有 24 个不可纠正的扇区。
而且,“重建”现在已经停留在 4% 十个小时了。
所以:
我如何让它开始实际重建?这个特定的控制器似乎不支持/c2/u1 resume rebuild
,并且似乎是一个选项的唯一重建命令是一个想知道要添加哪个磁盘的命令(/c2/u1 start rebuild disk=<p:-p...> [ignoreECC]
根据帮助)。我的服务器中有两个热备件,我很乐意使用它们,但我不明白在当前状态下它会如何处理这些信息。
当我在 RAID-6 中有两个 DEGRADED 驱动器时,我可以拔出明显发生故障的驱动器(WARNING 驱动器)吗?在我看来,最好的方案是我拉出 WARNING 驱动器并告诉它在重建中使用我的一个热备件。但是我不会通过在带有两个 DEGRADED 驱动器的 RAID-6 中拉出一个“好”驱动器来解决这个问题吗?
最后,我在其他帖子中看到此控制器中的一个严重错误导致良好驱动器被标记为错误并且升级固件可能会有所帮助。鉴于这种情况,刷新固件是否是一项有风险的操作?它对重建但停留在 4% 的 RAID 有帮助还是有害?我是否遇到了这个错误?
精神之外的建议将不胜感激。谢谢。
我设法通过发出以下命令来重建 RAID,
tw_cli
而无需拉出任何驱动器或重新启动系统:重建并没有立即进行,但在我进行此更改后的第二天凌晨 2 点,重建开始,大约 6 小时后,重建完成。有 ECC 错误的驱动器有 24 个坏扇区,现在已被驱动器覆盖和重新分配(根据 SMART 数据)。文件系统看起来完好无损,但如果我在访问这些扇区上的任何数据时遇到错误,我也不会感到惊讶。
无论如何,我比以前好多了,而且很可能能够恢复大部分数据。一旦我得到了我能做的,我就会弹出出现故障的驱动器并将其重建到热备份上。