我有一个刚刚使用一个月的 NAS 设备。它被配置为通过电子邮件向我发送从硬盘驱动器的 SMART 数据生成的警报。一天后,其中一个硬盘报告一个扇区坏了并被重新分配。在第一周,这个数字攀升至有问题的硬盘驱动器的六个扇区。一个月后,这个数字达到了九个重新分配的部门。这一速度似乎确实在减速。
NAS 在 RAID-5 配置中配置了六个 1.5 TB 驱动器。有了这么大容量的驱动器,我预计一个扇区会不时出现故障,所以我并不担心前几个扇区何时被重新定位。尽管其他磁盘都没有报告任何问题,但这让我很困扰。
以多高的搬迁率或搬迁总数,我应该开始担心驱动器的健康状况吗?这可能会根据驱动器的容量而有所不同吗?
重新阅读 Google 关于该主题的论文“大型磁盘驱动器群体中的故障趋势”,我想我可以肯定地说亚当的答案是不正确的。在他们对大量驱动器的分析中,大约 9% 的重新分配计数不为零。有说服力的报价是这样的:
在处理“离线重新分配”时更有趣,这些重新分配是在驱动器的后台清理期间发现的,而不是在实际请求的 IO 操作期间发现的。他们的结论:
从现在开始,我的政策将是安排更换具有非零重新分配计数的驱动器。
与大多数组件一样,驱动器具有浴缸曲线故障率。他们一开始失败很多,中间失败率相对较低,然后在他们生命的尽头时失败很多。
正如整个驱动器遵循这条曲线一样,磁盘的特定区域也将遵循这条曲线。在开始使用驱动器时,您会看到很多扇区重新分配,但这应该会逐渐减少。当驱动器在使用寿命结束时开始出现故障时,它将开始丢失越来越多的扇区。
您无需担心 6(取决于驱动器 - 咨询制造商),但您需要观察并查看每个新重新分配的频率。如果恶化加速或保持不变,请担心。否则,在最初的磨合期之后应该没问题。
-亚当
不同的驱动器可能具有不同的参数。我上次检查的驱动器是来自一家供应商的 1TB 企业系列磁盘,有 2048 个保留扇区用于重新分配。
您可以估计在 SMART 报告中查看具有非零重新分配扇区数的驱动器的保留扇区数。考虑下面有关故障驱动器的报告。
这里 95% 的保留容量已被使用,即 1955 个扇区。因此初始容量约为2057。实际上是2048,差异是由于四舍五入造成的。
当重新分配的扇区数达到某个阈值时,SMART 会将驱动器置于故障状态。对于有问题的驱动器,此阈值设置为保留容量的 64%。这大约是 1310 个重新映射的扇区。
然而,保留扇区并不处于连续跨度中。相反,它们被分成几组,每组都用于从磁盘的特定部分重新映射扇区。这样做是为了将数据保留在磁盘上的某个区域中。
局部性的缺点是磁盘可能有许多保留扇区。然而,一个区域可能已经用完保留容量。在这种情况下,行为取决于固件。在一个驱动器上,我们观察到它进入 FAILED 状态并在不再受保护的部分发生错误时阻塞。
如果驱动器支持,您可能需要运行 SMART 长时间自检。这可能会为您提供有关驱动器状态的更多信息。如果您的 NAS 无法做到这一点,并且如果您可以拔出驱动器或关闭 NAS 几个小时,那么您可以将硬盘插入另一台机器进行长时间的自检。
当这个新的驱动器表现得像这样时,它根本不值得信任!
尽快将其寄回,并获得替换驱动器。
不同的制造商有不同的“可接受的损失”数字(与显示器和坏像素的想法相同)。请咨询驱动器制造商以了解他们的标准。
虽然它看起来确实是一个糟糕的趋势......
西部数据特别自豪的是在可接受的时间内恢复坏扇区而不是冻结放置在 RAID 中的磁盘的技术,其名称为 TLER ( http://en.wikipedia.org/wiki/Time-Limited_Error_Recovery )。时间通常为 5..7 秒。
正如我在网上发现的那样,有禁用选项的 WD 磁盘驱动器,但有些人在廉价的绿色 WD 驱动器上启用了此功能,然后将它们放入 RAID。
WDTLER 实用程序已从 WD 支持站点中删除,但可以通过 Google 轻松找到。
PS 我只使用这个实用程序来读取状态,我现在不使用 RAID :)