Florian Sander提出的问题 -server

Florian Sander

Asked: 2014-11-15 13:28:57 +0800 CST

尽管进行了 raid 设置，Ubuntu 服务器对硬盘问题仍无响应

我在 Ubuntu 10.04.4 LTS（Linux xxxx 2.6.32-67-server #134-Ubuntu SMP Wed Sep 24 18:55:00 UTC 2014 x86_64 GNU/Linux）上运行一个服务器，软件袭击 1 中有两个硬盘.

我反复遇到系统在很长一段时间（> 1 小时）内完全没有响应的问题，从而有效地关闭了服务器。RAID 将问题磁盘保留在阵列中，有时会开始重建。我在三台不同的机器上遇到了同样的问题（相同的设置）。

有没有一种简单的方法来防止这种停机时间？故障磁盘本身并没有给我带来太多困扰（它们都已经不间断地运行了几年），但是由此产生的停机时间确实让我感到困扰。我的印象是即使一个硬盘出现故障，raid 1 也会让系统继续运行。如果 raid 控制器只是将磁盘从阵列中踢出并且系统将继续工作，那将是非常好的。如果它试图在不冻结的情况下在后台解决问题，那就更好了。只要系统保持可操作性，一些性能下降也不是问题。

以下是此类事件的示例日志条目：

Nov 14 14:00:10 xxxx kernel: [2137088.775542] ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Nov 14 14:00:10 xxxx kernel: [2137088.788591] ata2.00: irq_stat 0x40000001
Nov 14 14:00:10 xxxx kernel: [2137088.801879] ata2.00: failed command: READ DMA EXT
Nov 14 14:00:10 xxxx kernel: [2137088.814988] ata2.00: cmd 25/00:80:d1:b9:89/00:00:16:00:00/e0 tag 0 dma 65536 in
Nov 14 14:00:10 xxxx kernel: [2137088.814991]          res 51/40:00:d3:b9:89/00:00:16:00:00/e0 Emask 0x9 (media error)
Nov 14 14:00:10 xxxx kernel: [2137088.867197] ata2.00: status: { DRDY ERR }
Nov 14 14:00:10 xxxx kernel: [2137088.880205] ata2.00: error: { UNC }
Nov 14 14:00:10 xxxx kernel: [2137088.906336] ata2.00: configured for UDMA/133
Nov 14 14:00:10 xxxx kernel: [2137088.906345] sd 1:0:0:0: [sdb] Unhandled sense code
Nov 14 14:00:10 xxxx kernel: [2137088.906347] sd 1:0:0:0: [sdb] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Nov 14 14:00:10 xxxx kernel: [2137088.906351] sd 1:0:0:0: [sdb] Sense Key : Medium Error [current] [descriptor]
Nov 14 14:00:10 xxxx kernel: [2137088.906356] Descriptor sense data with sense descriptors (in hex):
Nov 14 14:00:10 xxxx kernel: [2137088.906358]         72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00 
Nov 14 14:00:10 xxxx kernel: [2137088.906367]         16 89 b9 d3 
Nov 14 14:00:10 xxxx kernel: [2137088.906371] sd 1:0:0:0: [sdb] Add. Sense: Unrecovered read error - auto reallocate failed
Nov 14 14:00:10 xxxx kernel: [2137088.906376] sd 1:0:0:0: [sdb] CDB: Read(10): 28 00 16 89 b9 d1 00 00 80 00
Nov 14 14:00:10 xxxx kernel: [2137088.906385] end_request: I/O error, dev sdb, sector 378124755
Nov 14 14:00:10 xxxx kernel: [2137088.919172] ata2: EH complete

这是 raid 设置（cat /proc/mdstat）：

Personalities : [raid0] [raid1] [raid6] [raid5] [raid4] [raid10] [linear] [multipath]
md2 : active raid1 sda3[0] sdb3[1]
      726266432 blocks [2/2] [UU]

md1 : active raid1 sdb2[1] sda2[0]
      2104448 blocks [2/2] [UU]

md0 : active raid1 sdb1[1] sda1[0]
      4200896 blocks [2/2] [UU]

unused devices: <none>

提前非常感谢！

尽管进行了 raid 设置，Ubuntu 服务器对硬盘问题仍无响应

新安装后 postgres 的默认超级用户用户名/密码是什么？

SFTP 使用什么端口？

命令行列出 Windows Active Directory 组中的用户？

什么是 Pem 文件，它与其他 OpenSSL 生成的密钥文件格式有何不同？

如何确定bash变量是否为空？

Florian Sander's questions

尽管进行了 raid 设置，Ubuntu 服务器对硬盘问题仍无响应

新安装后 postgres 的默认超级用户用户名/密码是什么？

SFTP 使用什么端口？

命令行列出 Windows Active Directory 组中的用户？

什么是 Pem 文件，它与其他 OpenSSL 生成的密钥文件格式有何不同？

如何确定bash变量是否为空？