几年前我的 HDD 曾经出现故障,Windows 会警告我 HDD 有严重问题并给我时间做一些事情,因为否则在我重新启动后,不能保证 HDD 再次工作。那就像 10 多年前。
在过去的 6 年多时间里,我一直使用 SSD,并且一直在不停地使用它。这是一个 256 GB 的 SSD,到目前为止我已经在上面写入了超过 170 TB 的数据。在 Windows 磁盘和驱动器设置中,我看到它还有 54% 的剩余生命周期,这很了不起。
我想知道这个寿命数字到底有多可靠?我知道 Windows 设置使用 SMART 数据来估计剩余寿命,但是SSD 是否与 HDD 一样,它们是否会因为坏扇区或类似原因而突然失效?还是它们会随着时间逐渐降解?我每隔几个月检查一次剩余寿命,有时确实会下降 1%。
我的 SSD 的更多详细信息:
我的 SSD 的 TBW 是 160 TB,但我已经写入了 170 TB,SMART 显示剩余 54% 的使用寿命。它几乎总是在 ~50.C 的温度下运行。
您永远无法知道一个特定的驱动器何时会发生故障,或者它是否会缓慢地发生故障以挽救数据,或者突然发生灾难性的故障。
SMART 实际上是一组“猜测”算法。它可以是缓慢下降的可靠预测指标,但它永远不能预测突然的全面失败。
您始终需要一个备份,并且需要定期测试它是否有效。等待警告是不可靠的。如果驱动器已加密,这一点就变得更加重要,因为任何故障都可能导致加密密钥失效,这意味着数据会立即完全丢失。
我最老的 SSD 现在已经有 10 年了。当我查看这些数字时,它仍然显示“100% 健康”。我有两个独立的应用程序,每隔几个小时就会在后台检查一次 SMART 数据。
到目前为止,一切都很好。
我的内部备份每小时运行一次,我的异地备份每晚运行一整夜。我还定期进行直接克隆。
有一天驱动器会发生故障。届时,我将订购一个新驱动器,并在新驱动器到达后半小时内恢复运行,损失不超过一个小时。
由于完全巧合,我曾经有过几个月内两台机器上的两个引导驱动器发生故障。两种驱动器都相对较新,均来自可靠的制造商。
在这两种情况下都没有丢失任何东西。
SSD 磨损主要是由于其上写入的数据量累积所致。因此供应商使用加速测试和统计模型来量化特定模型可以承受多少写入数据,并根据 TBW(TeraBytes Written)对这种模型进行评级。SMART 的“剩余寿命”就是基于此得出的:如果您已写入 170TB 并且还剩下 54%,则您的驱动器可能有 370TBW 左右。
当驱动器达到给定的 TBW 且剩余寿命为 0% 时会发生什么?没什么...TBW只是一个统计值,说“TBW之后,99%的驱动器仍然正常运行”(我不知道是不是99%、90%、99.9%,但这是idea,with一个给定的阈值):所以你的特定对象很可能会持续给定 TBW 的两倍(而且它也很可能在 TBW 的一半后失败)。
还有其他 SMART 属性可以更好地帮助预测故障,例如读取错误率、待定扇区计数、重新分配的扇区计数……当其中一个开始增加时,您应该担心驱动器。请注意,本身有一个坏道,甚至几个坏道,都不足以说明驱动器很快就会发生故障。
而且,SSD 也可能随时发生故障,没有任何警告,所有 SMART 属性都正常。但它与任何电子或机械产品没有什么不同。
它们肯定会随着时间的推移而退化,这与有限数量的编程/擦除周期有关,这基本上是与剩余寿命相关的属性试图衡量的。控制器将尝试使这种磨损在 NAND 上均匀发生。
还已知例如细胞保留“数据”的能力随着这些细胞的p/e循环量的增加而降低。IOW,更接近预测 EOL 的 SSD 与您购买时的 SSD 不同。因此,虽然这些细胞仍然可以被编程,但它们的状态比以前更糟了。
因此 SSD 需要做更多的维护,它本身会导致磨损:这种降低的数据保留能力会被 SSD 定期刷新数据(巡逻)所抵消,这涉及读取数据并将其写入不同的位置,所以这个过程本身也有助于增加市盈率周期。
但是 SSD 可以而且肯定也会由于固件错误、固件损坏、宇宙射线、突然断电、物理创伤、SMD 组件磨损等原因而突然发生故障。
数据恢复实验室对 SSD 的恢复率远低于传统 HDD 的恢复率,因此保留备份可能更为重要(无论如何都很重要,但你明白了)。
对于这种特殊情况,SMART 工具显示的健康评分基于 05 属性:
54% 基于单个RAW 值,属性 05“已使用百分比”,0x2E(十进制为 46)——该值随着情况恶化而增加)。保留的备用容量仍然 100% 可用 (0x64) - 该值随着情况恶化而下降。
SSD 制造商更改规格和更换组件的情况并不少见。
我不会说(总是)那样。HDD 在发生故障之前通常会发出不寻常的噪音,并且只要它在发生故障时仍在运行,您甚至可以继续读取它(此时不要将其关闭!)。当我的 SSD 发生故障时,它从一秒到下一秒完全不可用,从那以后 PC 根本无法将它识别为驱动器。
与往常一样,不同的人有不同的经历,每个人都有一个适合他们的制造商和一个他们不会再购买的制造商。但似乎 SSD 控制器宁愿在 HDD 控制器似乎尽力而为时关闭一切(或者无法检测到它是最终故障还是只是即将发生的故障)。
使用现代磨损均衡,SSD 应该及早知道有故障的单元,因为它们可以在磨损均衡时写入另一个单元时注意到一个单元何时不工作,并且它们通常比 HDD 有更多的备用扇区。当然,这也取决于型号和固件。
“x TB to go”或“54% lifetime left”之类的估计只是估计。只要 smart 仍然报告剩余使用寿命,您就可以在保修期内获得新驱动器,但这无助于找回丢失的数据。进行备份,不时获取新驱动器,并确保监控可能暗示驱动器性能下降的其他智能值。
过去十年制造的每个主要 SSD 都有备用容量。确切的数量会有所不同,但是当驱动器是新的时大约是 10%。这是必要的,因为写入 SSD 具有破坏性。SSD 将您的写入定向到备用容量,然后将被覆盖的部分放回备用容量。磨损均衡可确保 SSD 的所有部分均等写入。如果写入确实失败,因为一个扇区坏了,它会从备用容量中取出,然后在另一个备用扇区上重试写入。
这意味着SSD可以将空闲容量与坏扇区列表进行比较。如果您的 SSD 用完了备用块,它就无法再写入新数据。所以这个比率是一个简单有效的预期寿命衡量标准。
但是 SSD 的其他部分也可能发生故障,并且无法可靠地测量这些部分。因此,这种基于备用容量的生命周期不是跳过备份的借口。
SMART对 HDD 几乎毫无用处,主要是因为它无法考虑大多数故障模式和导致它们的过程。
它确实报告了一些可能有用的数据(开机小时数、开机周期数、坏扇区数和其他一些可用于一些基本预测的数字,但模型参数因模型而异,有时甚至在批次之间也不同的磁盘。
对于SSD,它并没有太大改善。
写入的数据量是 SSD 最重要的数字,理论上可以将其与数据表中的承诺进行比较,但同样,一些磁盘在额定写入量的 10 倍后运行良好,而其他磁盘则提前死亡。
简而言之,使用信誉良好的品牌,使用RAID,使用UPS,进行备份并希望最好。