我在软件 RAID 中有 4 个 500GB 驱动器。/dev/md0 是RAID 1,挂载到/boot /dev/md1 是RAID 10,是swap /dev/md2 是RAID 10,是主系统和数据设备
我今天晚上查看了 mdadm 并注意到 md2 ...
State : clean, degraded
Number Major Minor RaidDevice State
0 8 3 0 active sync /dev/sda3
1 0 0 1 removed
2 8 35 2 active sync /dev/sdc3
3 8 51 3 active sync /dev/sdd3
检查 md0 和 md1,所有驱动器都显示为活动同步,设备状态显示为干净。
这是每个设备的 mdadm 的完整输出以及 /proc/mdstat http://pastebin.com/VL0uYdU9的输出
所以看起来 /dev/sdb1 和 /dev/sdb2 分别在 /dev/md0 和 /dev/md1 中运行。但是 /dev/sdb3 已经从 /dev/md2 中退出(显然它已被删除)
对于 RAID 10,我相信数据没问题,除非我丢失了镜像另一侧的另一个驱动器。我当然会备份到外部设备并验证它们是稳定的。
我做了一些日志查询并注意到这对日志行......
Dec 9 04:25:37 hostname smartd[3199]: Device: /dev/sdb, 1 Currently unreadable (pending) sectors
Dec 9 04:25:37 hostname smartd[3199]: Device: /dev/sdb, 1 Offline uncorrectable sectors
每 30 分钟重复一次。看起来这种情况已经有一段时间了,而且驱动器似乎没有通过 SMART 数据检查。
1 月 7 日,一个白痴用户重启了服务器,认为这样可以解决邮件中继问题。
这是来自 /var/log/messages 的引导... http://pastebin.com/jGVsDD54
为什么 /dev/sdb1 和 /dev/sdb2 似乎运行正常而 /dev/sdb3 却失败了?
只是恰好在 sdb3 上的特定故障扇区?
是否值得尝试将此分区重新添加到 md2 阵列?
还是我应该将驱动器装箱并更换为新驱动器?
SMART 故障表明整体驱动器故障即将发生(但是无法预测时间范围);尽快更换此驱动器。