从经验中我了解到,每个硬盘都会出现故障,这只是时间问题。
我已经吸取了教训,现在我做备份。
当我购买新驱动器时,我经常将驱动器列表与保修期分开。硬盘制造商在那里赚钱,显然,大多数时候,他们设计的硬盘至少可以使用保修期。所以在那段时间之后,我预计失败率会更高。我已经有 3 个 RAID 5 驱动器中的 2 个几乎同时发生故障(重建阵列时第二个驱动器发生故障,是的,我有一个最近的备份)。
我的问题是:保修后预防性更换 RAID 中的硬盘的最佳做法是什么?
你在乎吗?您要更换阵列中的多少个驱动器?
响应说明
创建新阵列时:使用不同制造商/批次的驱动器。
当有一个已经旧的阵列时:添加一个新的备用。
谷歌关于硬盘故障率的研究表明,与年龄的相关性比以前怀疑的要小。我听到的最好的建议是避免创建一批或单个制造商的磁盘阵列。谷歌的研究表明,类似制造批次的驱动器同时出现故障之间存在很强的相关性。
如果您担心 RAID 数据集的可靠性,我强烈建议您迁移到 RAID10,或者使 RAID6 失败。
考虑到每 Gb 读取的 MTBF 和错误率,在重建降级的 RAID5 集时发生双重故障的可能性太高,无法适应当今市场上的 TB 大小的驱动器。参考http://hardware.slashdot.org/hardware/08/10/21/2126252.shtml
这取决于您是在谈论服务器级设备还是桌面级设备。
如果它是用您自己的钱和现成的驱动器构建的台式机,并且您不担心兼容性,那么是的,您的策略是合理的。每 X 年,出去购买全新的驱动器来替换您当前的驱动器。它们将更快、更安静、更大。您可以单独更换驱动器,让阵列自行重建,然后在重建完成后,将阵列重新配置为更大。(并非所有的 RAID 适配器都支持这样的操作 - 在线重建和大小更改。)
如果它是像 HP Proliant 或 IBM System X 这样的服务器级机器,它会变得更加复杂。您可能需要在您的 RAID 适配器的兼容性列表中使用硬盘驱动器。在这种情况下,驱动器将会很昂贵,因为它们可能不再生产,或者它们只是从服务器级的东西开始就很昂贵。更糟糕的是,您可能会从经销商那里购买翻新设备,但并不知道 - 这在服务器经销商中并不少见。
此外,您可能会丢弃使用寿命非常长的驱动器,并用注定会出现问题的驱动器替换它们。与其主动替换这些,不如先使用热备件构建服务器,并确保您的 RAID 阵列支持使用热备件的自动重建。然后重建将在您起床进入数据中心之前进行,您可以在闲暇时更换死驱动器,而无需花费金钱或时间。
我会 100% 同意同一批次的驱动器都出现故障。我有 10 个戴尔工作站,4 年后,我有 6 个驱动器都出现故障,彼此之间有 12 个月的时间。
对于生产服务器,我总是从像戴尔这样的地方购买,并确保他们会在我计划让服务器运行多长时间(通常是 4 年)内备有备件。
我有 3 台带 RAID 的服务器,我的驱动器出现故障。我从来没有热备件,但戴尔第二天就给我送来了替换件,很快就完成了重建。加上适当的备份,你应该没问题。
您可以尝试使用raid6。它可以在 2 个故障磁盘中存活,请确保始终有一个热备用磁盘。