我有一对 5 年保修的 WD Velociraptors 硬件在英特尔 ICH8R 主板控制器上剥离了大约 1.5 年。
前几天,卷在没有特定活动的情况下随机发生故障,RAID bios 显示其中一个驱动器发生故障。
我在每个驱动器上使用 Spinrite 和 WD Diag 进行了广泛的诊断,他们没有发现任何表面问题,没有扇区错误,也没有 SMART 警告。
然后我用相同的驱动器重新创建了卷,从备份中恢复,并且已经正常运行了 2 周,没有任何问题。
发生了什么?
我的驱动器还好吗?我的一个驱动器是否有一些不健康的东西,诊断没有发现?
您遇到了仅带区数组的最严重问题。RAID0 完全无法容忍任何 IO 中断。如果任何驱动器出现故障,您将需要从头开始重建阵列。这就是为什么我几乎总是 RAID 级别 1 或更高。
许多事情都可能导致驱动器出现暂时的 IO 问题:电源波动、热量、振动和脏连接只是其中的一小部分。系统中的灰尘会积聚并导致气流问题和热量积聚。灰尘也可以进入连接。
您可能需要清洁机器内部以清除积聚的灰尘和粘液,然后重新安装所有驱动器连接。测量内部温度,不仅在系统板上,而且在驱动器附近或之间。如果温度看起来太热,请增加气流。这应该将热量和脏连接作为一个问题来处理。
电源问题是完全不同的野兽。如果您有足够的电源和过滤器,那应该不是问题。如果您在没有任何线路调节或 UPS 的情况下将机器从主电源上挂起,那么您只是在自找麻烦。
有时,我看到其他健康的驱动器/RAID 控制器只是因为它们没有在合理的时间内响应控制器请求而转储驱动器。
您的 SATA 电缆是否紧密且没有被阻塞?重新安装它们并检查末端是否有任何弯曲、损坏或卷曲的电缆。
您正在运行最新的 BIOS 吗?
您是否正在运行最新的驱动程序(在 Windows 中)?
我相信该特定芯片组上的旧版本驱动程序存在一些与 RAID 相关的问题,但我找不到具体细节。
您可能还想尝试使用端口 3-5(请参阅Intel 的文档)如果一切都失败了,请考虑使用 3ware raid 控制器。
我不得不承认,这是一个相当令人印象深刻的故障排除,毕竟我会惊讶地认为硬盘驱动器有任何问题。但是在进一步阅读您的帖子后,我想我发现了问题。
现在,既然您追求的是速度而不是数据冗余,我可以理解为什么使用板载控制器看起来很有吸引力,但实际上几乎所有的板载 RAID 控制器(尤其是消费级主板)都是垃圾。Highpoint、英特尔、nVidia……都是废话。
对于里克关于权力的观点,这实际上是一个很好的观点。功率波动通常会对计算机产生不利影响,但也会对硬盘驱动器产生不利影响。为您的计算机使用 UPS(不间断电源)来处理电源问题可能更容易且更便宜。
既然你运行 RAID 0,我想说总是有出错的风险。还好你在别处有备用图片。我不得不说,虽然我怀疑你的驱动器有什么问题。运行 Spinrite、WDDiag 并查找 SMART 信息非常彻底。很可能,我会责怪车载控制器。我运行过软件 RAID、板载控制器 RAID(两年前)和现在的硬件 RAID,我可以毫无疑问地说,软件和板载最终完全是在浪费我的时间。我不能专门谈论 RAID 0,但如果我不得不猜测问题出在哪里,我会查看控制器。
如果钱不是问题,我会说除了 UPS 之外还要买一个硬件 RAID 控制器。2 端口 RAID 控制器并不太贵,而且讽刺的是,我从不运行 RAID 0,所以我什至无法证明更好的 RAID 控制器(来自 3Ware、Areca、LSI、Adaptec 等)会如何做,但我是更确定我列出的制造商之一的 PCIe RAID 控制器不太可能随机损坏您的剥离阵列。