2 天前,我收到一条警告消息:
A DegradedArray event had been detected on md device /dev/md1.
我联系了我的数据中心,要求他们更换硬盘。他们告诉我,有时重新启动服务器可以解决问题。我重新启动了服务器,但它没有恢复在线。
数据中心告诉我两个硬盘驱动器都损坏了,建议更换它们并继续进行服务器还原。
我恢复了服务器,第二天 / 分区进入只读模式。我从我的数据中心收到一条消息:
尊敬的顾客,
文件系统检查已经完成。怀疑文件系统结构已损坏,服务器无法启动。由于大量文件系统错误,/dev/md2 的数据已移至目录 lost+found。您可以通过目录 /mnt 中的实际触发恢复模式(恢复密码:***)访问这些文件。请检查并尝试备份您的文件。然后重新恢复操作系统。
我还检查了两个硬盘的 SMART 值。两个硬盘都具有良好的 SMART 值。
什么会导致硬盘驱动器出现此类问题?有没有可能是我的数据中心没有更换损坏的驱动器而我使用相同的驱动器进行了新安装?
您的数据中心由懒惰的人、白痴或很可能是懒惰的白痴组成。
重新启动不会(或至少不应该)神奇地修复发生故障的硬盘驱动器。
重新安装驱动器(一个非常常见的“技巧”)不会修复因错误而标记为失败的驱动器(它最终会再次脱机)。
您的服务器无法在重启后存活的事实意味着您有逻辑损坏 - 由于多个物理故障或其他一些问题。
像他们说的那样备份所有内容,并更换新的磁盘,下次您遇到磁盘故障时坚持要求他们更换驱动器并让 RAID 阵列重建。