长话短说,对于我在这里的第一个线程,我有一个软件 RAID5 阵列设置如下:4 个磁盘设备,每个磁盘设备都有一个 linux-RAID 分区。这些磁盘是: /dev/sda1 /dev/sdb1 /dev/sdd1 /dev/sde1
/dev/md0 是带有加密 LVM 的 raid5 设备。我使用 cryptsetup 打开设备,然后使用 vgscan 和 lvcan -a 映射我的卷。
昨天,我发现 /dev/sdd1 失败了。以下是我遵循的步骤:
0.删除故障磁盘
# mdadm --remove /dev/md0 /dev/sdd1
1.检查故障驱动器
mdadm --examine /dev/sdd1
我收到“无法读取元数据”错误。
2.尝试读取分区表
我使用 parted 发现我的 Linux-RAID 分区不见了,当我尝试重新创建它时(希望能够重新添加驱动器)我得到“你的设备不可写”
所以,很明显:硬盘已经死了。
3. 从我的机箱中取出硬盘(坏事接踵而至)
所以我试图从我的案例中提取 /dev/sdd1 ,不知道它是 4 个驱动器中的哪一个。所以我拔掉了一根 SATA 电缆,发现我刚刚拔掉了 /dev/sde1 ;我重新插入它并拔掉了下面的一个,很好!它是 /dev/sdd1
4.我做了什么?!悲伤的脸
使用 :
# mdadm --detail /dev/md0
我意识到 /dev/sde1 将数组标记为“已删除”。我尝试重新添加它,而不是使用 --re-add,但是:
mdadm --add /dev/md0 /dev/sde1
/proc/mdstat 向我展示了重建过程,并且 mdadm --detail /dev/md0 将 /dev/sde1 显示为“备用”;我知道我可能在这里做了一些可怕的事情。
我试图从阵列中删除 /dev/sde1 并使用 --re-add 但 mdadm 告诉我他不能这样做并建议我停止并重新组装阵列
5. 从这里去哪里?
首先,我正在等待一个新的硬盘来替换有故障的硬盘。一旦我拥有它并将其设置为称为 /dev/sdd1 的新 Linux-RAID 分区设备,我将不得不停止阵列(不再安装 LVM 卷,显然,cryptsetup 关闭了加密设备,然而mdadm 还不能停止阵列)。我正在考虑重新启动整个系统并从头开始工作。这是我认为我应该做的:
# mdadm --stop /dev/md0
# mdadm --stop /dev/md0
# mdadm --examine /dev/sd*1
# mdadm --assemble --scan --run --verbose
我读到没有 --run 选项,mdadm 将拒绝扫描降级的阵列。
最佳情况:/dev/sde1 被重新组装过程识别,新的 /dev/sdd1 用于修复以前的故障。我不会丢失任何数据并且会很高兴。
最糟糕也是最常见的情况:重新组装阵列无法恢复 /dev/sde1,我必须从一个空白的新阵列开始。
我在这里错过了什么吗?我应该从这个程序中查看什么?
来自法国的问候
因此,感谢此链接,我设法完全康复
我所做的如下:
然后,我将新磁盘格式化为 Linux-RAID 分区类型。
然后,基于上面的链接,我(重新)创建了数组,基于 --examine 命令给出的信息。
如该链接所述, --assume-clean 成功了!它避免了来自 /dev/sde1 的“备用”状态,并将其用作新阵列的活动部分。
从“现有”设备重新创建数组的关键可能是不要弄乱块参数,除非您会丢失数据。
然后我将新设备添加到这个新阵列中:
服务器开始重建(10 Tb 需要 6 小时),之后,我强制对整个阵列进行完整性检查(也需要 6 小时)
我恢复了一切,我松了一口气!