我有一个 SW RAID1,我刚刚用新的硬盘替换了 /dev/sda,因为旧硬盘出现故障。
现在,在尝试重新创建 RAID 阵列时,我发现“好”硬盘 (/dev/sdb) 有坏块,阻止 mdadm 重新同步阵列。
虽然我可以进行备份,也可以替换 /dev/sdb 并完全重新安装服务器,但我想知道是否有任何方法可以“欺骗” mdadm 重新同步 RAID 阵列,然后用新的 HDD 替换 /dev/sdb .
据我推测,坏块位于 /dev/sdb 的未使用区域中,仅在尝试重新创建 RAID 阵列时使用。
更好的策略是使用 ddrescue 将坏驱动器复制到好驱动器。该工具会努力读取整个驱动器,重新读取并“修剪”不可读的块。它还会生成日志,用于保存进度,但最终会包含坏块列表。然后,您可以解析此列表并写入每个坏块,以查看驱动器是否能够在重新映射它们时存活下来。如果是这样,您可以 mdadm --zero-superblock 然后将其作为新驱动器添加到降级的 raid1 中。顺便说一句,对于今天的大容量驱动器,不时产生“软”坏块是很正常的。只需每周进行一次突袭检查,就可以了,除非同一个块在两个驱动器上无法读取,这是不太可能的。
您能否验证磁盘上受影响的块和底层坏扇区是否重新分配到“备用扇区”区域?当写操作失败时,应该重新分配坏扇区。使用 smartctl 验证它:
最后一列应包含重新分配的扇区总数。如果为零,请尝试读取坏扇区:
它应该返回一个I/O 错误,否则我建议跳过下一节。
该错误意味着该扇区尚未重新分配。所以你可以尝试通过写它来强制重新分配它。请记住,此步骤后存储在该扇区中的任何数据都将丢失!!!:
顺便说一句,应该可以从内核消息(dmesg 命令或/var/log/messages)中获取扇区号XXXXXXXX 。由于您在重新同步期间遇到了坏块,因此应该有一些类似的相关消息:
然后,尝试再次使用 smartctl 进行验证。计数器增加了吗?如果是这样,请尝试使用 hdparm 阅读它。现在,它应该没有任何错误地读取它,因为它应该被重新分配。完毕。
最后,您可以继续使用 mdadm 并将磁盘添加到降级镜像。