我最近刚刚设置了一个 3 驱动器 4TB MDRAID 5 阵列,用于镜像和我们服务器的在线备份。
我正在为未来的硬件(驱动器)故障做准备,并希望减轻 URE 的恢复故障。
通常我认为重建数组的过程是:
- 卸下并更换故障驱动器。
- 重建阵列
据我了解,在降级的 RAID 5 阵列中,您仍然可以访问数据;但是,当故障驱动器已被更换并且阵列正在重建时,如果检测到 URE,恢复将失败,并且阵列上的数据将立即变得不可读和不可恢复。
如果我的理解是正确的,那么在复制所有(可读)数据之前恢复数组似乎并不谨慎。
这给我留下了一个过程:
- 从数组中复制数据。
- 卸下并更换故障驱动器。
- 重建阵列
是否有另一个过程可以减轻重建失败(除了重建期间的第二个驱动器故障)?在不首先复制数据的情况下重建阵列是否安全?我的假设是否错误,例如在 URE 上重新构建失败但数据在降级状态下仍然可用?
通过实施3-2-1 备份计划,您可以为驱动器故障和所有其他问题做好准备,我个人认为3-2-1应该适用于每个关键业务环境。
遵循3-2-1 规则将使生活更轻松,这显然会花费 $,但结果应该值得。
您可以在这里了解更多信息:https ://knowledgebase.starwindsoftware.com/explanation/the-3-2-1-backup-rule/
https://www.veeam.com/blog/the-3-2-1-0-rule-to-high-availability.html
我意识到 URE 对大多数人来说有点复杂和未知,因为它们与阵列故障有关。
结论是URE 会导致数组失败,但不像文章中的数学所说的那么频繁。 但与所有其他 RAID 级别相比,RAID 5 仍然是一个非常容易发生故障的 RAID 阵列。
回到基础,我们在 RAID 5 重建期间要缓解什么? 我们正试图在第二个驱动器发生故障之前恢复奇偶校验。而已! 这是无论如何都需要的努力。
这使我巩固了我的清单
这假设阵列可以脱机,但情况并非总是如此。但最终,有些人发现从头开始构建新阵列并一举传回数据比尝试在大型多 TB 阵列上完全重建更容易和更快。
此外,我怀疑与完全颠簸重建相比,在降级状态下顺序读取数据并将数据从阵列中写入一次,这将大大降低在复制数据之前发生第二个驱动器故障的机会,尽管机会仍然存在那里。
最后,这一切都与风险管理有关,具体情况因过多而异。在我的特定情况下,我通常可以在 24 小时内找到时间来恢复我的阵列,因此在我的情况下,从新备份中重新备份、重建和恢复是最好的。