我在 Ubuntu 10.04.4 LTS(Linux xxxx 2.6.32-67-server #134-Ubuntu SMP Wed Sep 24 18:55:00 UTC 2014 x86_64 GNU/Linux)上运行一个服务器,软件袭击 1 中有两个硬盘.
我反复遇到系统在很长一段时间(> 1 小时)内完全没有响应的问题,从而有效地关闭了服务器。RAID 将问题磁盘保留在阵列中,有时会开始重建。我在三台不同的机器上遇到了同样的问题(相同的设置)。
有没有一种简单的方法来防止这种停机时间?故障磁盘本身并没有给我带来太多困扰(它们都已经不间断地运行了几年),但是由此产生的停机时间确实让我感到困扰。我的印象是即使一个硬盘出现故障,raid 1 也会让系统继续运行。如果 raid 控制器只是将磁盘从阵列中踢出并且系统将继续工作,那将是非常好的。如果它试图在不冻结的情况下在后台解决问题,那就更好了。只要系统保持可操作性,一些性能下降也不是问题。
以下是此类事件的示例日志条目:
Nov 14 14:00:10 xxxx kernel: [2137088.775542] ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Nov 14 14:00:10 xxxx kernel: [2137088.788591] ata2.00: irq_stat 0x40000001
Nov 14 14:00:10 xxxx kernel: [2137088.801879] ata2.00: failed command: READ DMA EXT
Nov 14 14:00:10 xxxx kernel: [2137088.814988] ata2.00: cmd 25/00:80:d1:b9:89/00:00:16:00:00/e0 tag 0 dma 65536 in
Nov 14 14:00:10 xxxx kernel: [2137088.814991] res 51/40:00:d3:b9:89/00:00:16:00:00/e0 Emask 0x9 (media error)
Nov 14 14:00:10 xxxx kernel: [2137088.867197] ata2.00: status: { DRDY ERR }
Nov 14 14:00:10 xxxx kernel: [2137088.880205] ata2.00: error: { UNC }
Nov 14 14:00:10 xxxx kernel: [2137088.906336] ata2.00: configured for UDMA/133
Nov 14 14:00:10 xxxx kernel: [2137088.906345] sd 1:0:0:0: [sdb] Unhandled sense code
Nov 14 14:00:10 xxxx kernel: [2137088.906347] sd 1:0:0:0: [sdb] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Nov 14 14:00:10 xxxx kernel: [2137088.906351] sd 1:0:0:0: [sdb] Sense Key : Medium Error [current] [descriptor]
Nov 14 14:00:10 xxxx kernel: [2137088.906356] Descriptor sense data with sense descriptors (in hex):
Nov 14 14:00:10 xxxx kernel: [2137088.906358] 72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00
Nov 14 14:00:10 xxxx kernel: [2137088.906367] 16 89 b9 d3
Nov 14 14:00:10 xxxx kernel: [2137088.906371] sd 1:0:0:0: [sdb] Add. Sense: Unrecovered read error - auto reallocate failed
Nov 14 14:00:10 xxxx kernel: [2137088.906376] sd 1:0:0:0: [sdb] CDB: Read(10): 28 00 16 89 b9 d1 00 00 80 00
Nov 14 14:00:10 xxxx kernel: [2137088.906385] end_request: I/O error, dev sdb, sector 378124755
Nov 14 14:00:10 xxxx kernel: [2137088.919172] ata2: EH complete
这是 raid 设置(cat /proc/mdstat):
Personalities : [raid0] [raid1] [raid6] [raid5] [raid4] [raid10] [linear] [multipath]
md2 : active raid1 sda3[0] sdb3[1]
726266432 blocks [2/2] [UU]
md1 : active raid1 sdb2[1] sda2[0]
2104448 blocks [2/2] [UU]
md0 : active raid1 sdb1[1] sda1[0]
4200896 blocks [2/2] [UU]
unused devices: <none>
提前非常感谢!