我有一台带有四个三星硬盘的服务器。所有驱动器都是同一型号,并且是一起购买的。驱动器为 SAMSUNG HE753LJ,固件为 1AA01113。
我收到 SMART 错误,但我觉得 smartctl 不了解他从硬盘驱动器中获得的价值。
这是 SMART 测试的结果:
asgard:~# smartctl -H /dev/sdb smartctl 版本 5.38 [i686-pc-linux-gnu] 版权所有 (C) 2002-8 Bruce Allen 主页是 http://smartmontools.sourceforge.net/ === 开始读取智能数据部分 === SMART 整体健康自我评估测试结果:失败! 预计驱动器故障会在 24 小时内发生。保存所有数据。 失败属性: ID# ATTRIBUTE_NAME 标志值最坏阈值类型在 WHEN_FAILED RAW_VALUE 时更新 3 Spin_Up_Time 0x0007 001 001 011 故障前 始终 FAILING_NOW 60340
我不信任 SMART,因为:
- 一年多来,所有磁盘都将在不到 24 小时内发生故障。还没有爆炸。
- 维基百科说“旋转时间是主轴旋转的平均时间(从零 RPM 到完全运行 [毫秒])。 ”这意味着驱动器需要大约一分钟才能唤醒?!
我想听从 smartctl 的建议并更改这些磁盘,但我只是不相信我读到的结果。
你怎么看待这件事?你会怎么做?
谢谢你的帮助。
这是一个定时炸弹。
根据 SMART 的消息和上面的报价,您应该立即更换磁盘。
由于驱动器是一起购买的并且型号相同,因此它们可能具有相同的弱点,并且可能在相同的条件下同时发生故障...
RAID 的主要概念是磁盘在不同时间发生故障,让您有机会一次交换一个磁盘,并避免数据丢失。
其他人报告了 RAID 配置中的整个相同磁盘阵列同时发生故障,来自同一生产批次,因此受到相同的弱点。
我怎么强调都不为过:您需要开始更换驱动器!
我有一个备用驱动器,我仍然可以从它启动失败 SMART 检查每次启动并需要软重置,已经多年了,但它只是一个转储,而不是系统磁盘!因此,尽管 SMART 错误可能会持续很长时间,但在生产中应始终注意它们,因为风险大大超过了成本、时间和数据完整性的好处。谷歌研究了 100,00 个磁盘,发现:
因此,它并不总是一个稳健的指标。但是 SMART 错误会在初始检测后立即显着增加磁盘崩溃的可能性:
所以从统计上看,你的磁盘可能没问题,因为它远远超过了 60 天的限制。
但是你愿意继续冒险吗?我会尽快更换磁盘以避免在凌晨起床。
smartctl 不会解释该部分(当然,假设我理解正确) - 驱动器告诉 smartctl 对其当前状态不满意(无论出于何种原因),并且 smartctl 只是向您发出警告。即使它是对启动时间读数的误解,我认为它也不是对“自我评估测试”读数做任何解释。
我建议尽快将您的数据从该驱动器上移出,最好在下一次电源循环之前,以防启动问题是真实的并且可能会变得更糟。
我会立即更换磁盘而不会考虑太多。你会是安全的,磁盘很便宜,你会睡得更好。您花在诊断磁盘上的时间可能比磁盘本身更有价值。
确保您拥有最新的智能实用程序副本,而不仅仅是操作系统中包含的那些。smart utils 经常更新,并且从特定驱动器报告的一些错误得到解决。
谷歌的研究提供了非常丰富的信息。30% 的带有 SMART 错误的磁盘最终会失败。这不是我愿意处理的可能性。有 9% 的可能性是两个磁盘发生故障,此时您的 RAID 将被破坏。
几年前,我对一些希捷硬盘也有类似的问题。我们同时购买了大约 8 张磁盘,它们都来自同一批次。大约在 3 年左右,一个驱动器去了。18 小时后,另一个驱动器去了,24 小时后,第三个驱动器去了。
在磁盘上运行 DST,并相应地替换它们。