我有一个游泳池,raidz1-0
里面有 5 个驱动器。我不确定确切的时间,但突然之间,所有驱动器都从始终ONLINE
没有读取、写入或校验和错误变为随机吐出各种问题。
NAME STATE READ WRITE CKSUM
Data DEGRADED 0 0 0
raidz1-0 DEGRADED 149 185 0
gptid/905fe084-a003-11e9-9d12-000c29c8a62a DEGRADED 57 127 5 too many errors
gptid/2b75693a-9f09-11e9-8310-000c29c8a62a ONLINE 7 5 5
gptid/b8b4dd8f-82e9-11eb-b23f-000c29c8a62a DEGRADED 70 171 5 too many errors
gptid/b88beac0-e1f3-11e7-aeb0-000c29c8a62a DEGRADED 51 6 14 too many errors
gptid/4eb702b3-e2c3-11e7-9896-000c29c8a62a FAULTED 8 13 2 too many errors
我做了一些基本的故障排除:
- SMART 表明一切都很好(除了一些比我想要的温度在 40C 范围内的温度高一些)。所以驱动器看起来状态良好。没有坏扇区,没有挂起的扇区,没有什么不寻常的。此时,所有驱动器都已旋转了约 3 年。
- 每个驱动器都通过单独的 SATA 连接直接连接到主板。我已经重新安装并更换了 SATA 电缆,但没有成功。
在某个时间点,我更换了池中的第三个磁盘。当时,它吐出的错误最多,并且总是第一个进入 DEGRADED 状态。我用一个全新的驱动器替换了它,它已经运行了几个月,立即发现与池的其余部分相同的问题。
即使在zpool clear
大约 5 小时后,我也有以下状态。
NAME STATE READ WRITE CKSUM
Data DEGRADED 0 0 0
raidz1-0 DEGRADED 1 0 0
gptid/905fe084-a003-11e9-9d12-000c29c8a62a ONLINE 2 4 0
gptid/2b75693a-9f09-11e9-8310-000c29c8a62a ONLINE 0 0 0
gptid/b8b4dd8f-82e9-11eb-b23f-000c29c8a62a FAULTED 1 11 0 too many errors
gptid/b88beac0-e1f3-11e7-aeb0-000c29c8a62a ONLINE 1 1 0
gptid/4eb702b3-e2c3-11e7-9896-000c29c8a62a ONLINE 1 6 0
我不确定这里发生了什么或其他地方可以看。
我不知道这是否是巧合,但我注意到这是在升级 ZFS 池作为 FreeNAS 更新之一的一部分之后开始发生的(我认为它是 11.2U - 是的,我正在运行 FreeNAS)
我唯一能想到的最后一件事是一个坏的 SATA 控制器。但在我开始之前,还有什么我可以解决的吗?这是用于业余爱好的家庭服务器,更换控制器本质上意味着一个全新的服务器,所以如果可能的话,我想避免这种情况。不幸的是,没有任何剩余的 PCIe 端口可以安装外部控制器。
提前致谢!
经过近一个月的调试,可以肯定地说,它确实是芯片组的 SATA 控制器。
@shodanshok 让我注意到英特尔芯片组存在“与年龄相关的重大 SATA 问题”,并且一些额外的谷歌搜索表明我不是唯一一个。
我已经购买了一些新硬件,以及用于连接所有驱动器的 LSI 9205-8I H220。没有对配置进行任何更改(除了更现代的主板 + CPU),它们的 ZFS 池被导入没有问题,并且池已经运行了一整天,校验和/读/写错误为 0。到现在,它应该有数百个。这确认问题出在板载 SATA 控制器上。
希望这可以帮助遇到类似问题的任何人!