昨晚收到通知,服务器上的驱动器出现故障。今天早上去更换它,我们得到以下。阵列的控制器配置报告看起来很好,异常状态Ready for Rebuild。
~ # hpacucli controller all show config
Smart Array P400i in Slot 0 (Embedded) (sn: XXXXXXXX )
array A (SAS, Unused Space: 0 MB)
logicaldrive 1 (341.7 GB, RAID 5, Ready for Rebuild)
physicaldrive 1I:1:1 (port 1I:box 1:bay 1, SAS, 72 GB, OK)
physicaldrive 1I:1:2 (port 1I:box 1:bay 2, SAS, 72 GB, OK)
physicaldrive 1I:1:3 (port 1I:box 1:bay 3, SAS, 72 GB, OK)
physicaldrive 1I:1:4 (port 1I:box 1:bay 4, SAS, 146 GB, OK)
physicaldrive 2I:1:5 (port 2I:box 1:bay 5, SAS, 72 GB, OK)
physicaldrive 2I:1:6 (port 2I:box 1:bay 6, SAS, 72 GB, OK)
逻辑驱动器显示提示,奇偶校验初始化状态:初始化失败:
~ # hpacucli controller slot=0 logicaldrive 1 show
Smart Array P400i in Slot 0 (Embedded)
array A
Logical Drive: 1
Size: 341.7 GB
Fault Tolerance: RAID 5
Heads: 255
Sectors Per Track: 32
Cylinders: 65535
Strip Size: 64 KB
Full Stripe Size: 320 KB
Status: Ready for Rebuild
Array Accelerator: Enabled
Parity Initialization Status: Initialization Failed
Unique Identifier: XXXXXXX
Disk Name: /dev/cciss/c0d0
Mount Points: /boot 191 MB, / 28.6 GB
OS Status: LOCKED
Logical Drive Label: XXXXX 6797
阵列配置(如果有帮助):
~ # /usr/sbin/hpacucli ctrl slot=0 show
Smart Array P400i in Slot 0 (Embedded)
Bus Interface: PCI
Slot: 0
Serial Number: XXXXXXXX
Cache Serial Number: XXXXXXXX
RAID 6 (ADG) Status: Enabled
Controller Status: OK
Hardware Revision: B
Firmware Version: 1.18
Rebuild Priority: Low
Expand Priority: Low
Surface Scan Delay: 15 secs
Surface Scan Mode: Idle
Post Prompt Timeout: 0 secs
Cache Board Present: True
Cache Status: OK
Accelerator Ratio: 50% Read / 50% Write
Drive Write Cache: Disabled
Total Cache Size: 256 MB
Total Cache Memory Available: 208 MB
No-Battery Write Cache: Disabled
Cache Backup Power Source: Batteries
Battery/Capacitor Count: 1
Battery/Capacitor Status: OK
SATA NCQ Supported: False
我该如何调试呢?
编辑:
所有单个驱动器看起来都很好:
~ # hpacucli controller all show config detail | grep Status
RAID 6 (ADG) Status: Enabled
Controller Status: OK
Cache Status: OK
Battery/Capacitor Status: OK
Status: OK
Status: Ready for Rebuild
Parity Initialization Status: Initialization Failed
OS Status: LOCKED
Status: OK
Status: OK
Status: OK
Status: OK
Status: OK
Status: OK
编辑2:
我正在调试 hpaducli 和 grsec(还有 mp-SSH 和 Ubuntu)之间的一些不利交互,但我们确实有 hpacucli diag 结果可用,并且隐藏在逻辑驱动器状态标志中的是Rebuild Aborted From Read Error
. 这里让我感到困惑的是,重建期间的读取错误如何不会导致标记其中一个驱动器预测性故障,或者更糟,但确实会导致重建停止。
Ready for Rebuild
如果您使用奇偶校验 RAID 级别(如 5 或 6),则状态不佳。这意味着您可能在阵列中的另一个驱动器上读取错误...例如另一个故障驱动器。如果系统仍然在线,您最好的选择是恢复数据或重建。对此没有很好的解决方法,而且您绝对不能做太多调试。
请参阅以下内容:
强制 HP 智能阵列中的 LUN 重建
HP Proliant ML350 G5 SAS 硬盘
HP SmartArray P400:如何修复发生故障的逻辑驱动器?
当然还有:RAID-5:两个磁盘同时发生故障?
你升级固件了吗?似乎 v1.8 对于 P400i 控制器来说已经很老了。让所有驱动器都正常并且奇偶校验失败对我来说似乎是一个错误。
我遇到过很多情况,其中惠普发布了较旧的固件并进行了升级修复了奇偶校验初始化问题(但我需要从头开始重建阵列)并显着提高了性能(虽然不是完全相同的单元,我正在使用P440AR)。