背景:
我们需要随时访问 30TB 的音频数据,尽管只有一小部分需要播放,即使是多年前的数据也需要立即播放。数据驻留在多个阵列的 SAN 中,每晚对新数据执行备份。每晚也会删除一些数据。由于两者都是写事件,所以称它为每晚 20GB。总体趋势是写入的新数据多于删除的旧数据。
每周巡读 (PR) 和一致性检查 (CC) 占阵列上的大部分磁盘活动,除了它们只是旋转直到它们失败。
问:
我想弄清楚是否应该将基于磁盘的 SAN 替换为使用 NVMe 的 SAN,要考虑什么 RAID 级别,以及降低 VNAND 技术的 PR 或 CC 活动频率是否有意义?
我的理解是,杀死 VNAND 的是写入,即使考虑到一致性检查,我们写入的数据也会比大多数驱动器上的每日最小值要少得多。
我几乎找不到在 NVMe 甚至 SSD 上对 RAID 5/6 进行的测试。我主要追求长期可用性。
研究:
关于这个主题的大多数其他问题都早于 NVMe 技术,并且存在 6-7 年。这是一个例外,但也没有真正涵盖这种情况。
了解 NVMe 存储和硬件要求
通过在 HDD 上使用 SSD,您将获得一些功率优势,并且可能具有可靠性优势(企业级 SSD 比企业级 HDD 可靠得多)。nand 耐力没有问题,尤其是在你所拥有的活动水平上,甚至在更高的水平上,耐力也不是真正的问题。您很可能也可以选择相对便宜的读取优化驱动器(0.3 DWPD),并且不用担心磁盘的耐用性。
在这种用例中,唯一的问题是驱动器的成本是否保证了功率和可靠性优势。
至于可靠性/可用性,我见过的所有企业级 SSD 都宣传 200 万小时的 MTBF,而我使用过的那些都超过了这个标记。与之相反的是,所有企业级 HDD 都声称 120 万小时的 MTBF,但没有一个能达到一半,因此您会看到随着这一举措而大幅提升可靠性。同样,是否真的值得付出代价是你的计算。
我在这里的资格是,我从事涉及 HDD 和 SSD 的企业存储系统,从事硬件/软件集成工作,并深入参与了组合系统的可靠性。我所依赖的数据集是私有的,所以没有我可以指出的公开研究。
电荷衰减也会杀死 NAND。 在良好的固态上可能非常缓慢,但在一段时间后会很明显。与保存数据 10 年或更长时间的磁轴完全不同。如果他们再次旋转,那就是。
根据写入的字节数、旋转小时数和其他指标查找可靠性数据。供应商规格以及任何公共数据集。每当驱动器出现磨损时更换驱动器。特别是在他们的保修期即将结束时,可能是 3 年。
使用与在线数据不同的媒体进行备份。如果主存储为固态,请使用磁带或磁轴作为保护存储。
至少每 10 年重新评估一次存档媒体。将您关心的旧备份转移到当前的保护介质上。
成为一名优秀的档案管理员并不特定于媒体类型或冗余方案,存储随着时间的推移而发展。这里没有一个答案,即使对于类似的性能、可用性和成本要求也是如此。
闪存存储仍然太新,无法对长期寿命进行大规模研究。到目前为止,SLC 和 MLC 闪存的指示看起来不错,并且似乎给您提供与旋转生锈一样好的或更好的寿命。TLC,尤其是 QLC 闪存太新,无法做出任何合格的预测,但可以合理地预期它们提供比 SLC 和 MLC 闪存更差的寿命。就个人而言,出于长寿的原因,我不会从微调器转向闪光灯,但可能是出于其他原因,例如性能。相反,我会研究存储管理系统的完整性功能,并确保它能够正确处理部分丢失或损坏的数据。ZFS 可能是这方面的领导者。