如果在 dm-crypt 映射器设备顶部有 2x LUKS 加密的 HDD 和 ZFS 镜像池:如果我的一个 HDD 遇到错误并且操作系统将扇区识别为坏扇区会发生什么?
这个坏扇区信息是否会被传递给加密层,因此也会出现在标记为“坏”的映射器设备上?(当然是相应的受影响的块)。
(以便加密设备顶部的 ZFS 层可以看到这一点,并在访问期间或清理期间通过内部机制纠正错误。没有 ZFS 加密 - 有意。然而)。
Debian/Ubuntu。
如果在 dm-crypt 映射器设备顶部有 2x LUKS 加密的 HDD 和 ZFS 镜像池:如果我的一个 HDD 遇到错误并且操作系统将扇区识别为坏扇区会发生什么?
这个坏扇区信息是否会被传递给加密层,因此也会出现在标记为“坏”的映射器设备上?(当然是相应的受影响的块)。
(以便加密设备顶部的 ZFS 层可以看到这一点,并在访问期间或清理期间通过内部机制纠正错误。没有 ZFS 加密 - 有意。然而)。
Debian/Ubuntu。
在 24x7 服务 3 年后,1TB Seagate Barracuda ES.2 企业硬盘出现故障迹象。SMART 重新分配的扇区数很高。
维基百科文章表明,如果重新映射的扇区未被使用,该驱动器仍可用于不太敏感的用途,例如阵列外部的临时存储。
A workaround which will preserve drive speed at the expense of capacity
is to create a disk partition over the region which contains remaps and
instruct the operating system to not use that partition.
为了创建这样的分区,有必要获取重新映射扇区的列表。但是,操作系统看不到坏块。即badblocks
返回一个空列表。
有没有办法恢复重新分配的扇区列表?
编辑:此驱动器来自阵列。我们每年都有一些失败,只是把它们扔掉似乎是一种浪费。我正在考虑给拼盘中更好的部分第二次机会。
这是 SMART 报告现在的样子。
=== START OF INFORMATION SECTION ===
Model Family: Seagate Barracuda ES.2
Device Model: ST31000340NS
Serial Number: **********
Firmware Version: SN05
...
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 056 054 044 Pre-fail Always - 164293299
3 Spin_Up_Time 0x0003 099 099 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 14
5 Reallocated_Sector_Ct 0x0033 005 005 036 Pre-fail Always FAILING_NOW 1955
7 Seek_Error_Rate 0x000f 076 060 030 Pre-fail Always - 8677183434
9 Power_On_Hours 0x0032 072 072 000 Old_age Always - 24893
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 037 020 Old_age Always - 14
184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0
188 Command_Timeout 0x0032 100 100 000 Old_age Always - 0
189 High_Fly_Writes 0x003a 097 097 000 Old_age Always - 3
190 Airflow_Temperature_Cel 0x0022 050 043 045 Old_age Always In_the_past 50 (0 6 50 32)
194 Temperature_Celsius 0x0022 050 057 000 Old_age Always - 50 (0 18 0 0)
195 Hardware_ECC_Recovered 0x001a 021 010 000 Old_age Always - 164293299
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 21
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 21
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
SMART 是否有可能给出错误的读数(比如我在摆弄大量的恢复程序、传输等),还是它绝对是与驱动器物理状态的只读直接关联?
SpinRite 5 级“恢复坏扇区”是否对工厂标记的扇区进行操作?它们是否与您的通用坏扇区处于同一级别,因此 SpinRite 具有完全访问权限?
(许多?)驱动器的主要固件,如 WD Passport存储在盘片上。它是如何保护的?SpinRite 的扇区恢复会损坏它吗?
驱动器无法报告有效身份信息 ( hdparm -I /dev/xx
) 是否与损坏的固件一致,或者只是一般的磁盘故障?我可能误解了固件在这里的作用。我感觉我读过一个驱动器的身份信息是在盘片上,就像分区表等等。这是真的?
我怀疑我的硬盘几天以来就有问题。我之前安装了 Windows 7,它运行良好,很快它就开始出现 BSOD(蓝屏死机)。我重新安装了 Windows 7,但没有工作。我尝试安装Win xp SP2,仍然失败。不知何故,我能够安装 Win 2000,它有时会冻结,但它在安全模式下运行良好。
所以,请给我推荐一个工具来分析我的硬盘,看看它是否有故障,是否有坏扇区。我在硬盘中有 5 个分区。请推荐这样一个支持 Win 2000 的工具。其他选择是我有 Ubuntu Live CD,我可以在没有任何安装的情况下从该 CD 运行 linux。因此,如果有任何 linux 实用程序,请也提出建议。
提前致谢。
我们的戴尔 PowerEdge 2950 服务器在戴尔 PERC 6/i SCSI 卡上的 RAID 5 阵列中有 4 个 SAS 磁盘。我们正在运行 Windows 2003 SBS R2 - 32 位。SP2。
设备 \Device\Harddisk0 有一个坏块。
在几个月的时间里,上述错误在事件日志中记录了很多次,每天记录很多次。
戴尔诊断程序全部恢复正常,没有显示任何类型的错误。戴尔技术支持在远程连接到服务器时进行了检查,也没有发现任何由硬件引起的问题。
CHKDSK 一无所获。
在接下来要检查的内容中,我们正在将头撞到砖墙上。尽管我们没有看到崩溃或其他症状,但我们显然很担心,并希望在任何问题有机会浮出水面之前加以预防。
在尝试解决此问题时,我们将非常感谢您对同类事物的任何输入、建议或经验。
我在一台服务器中有四个 512 MB RAM 模块。当我使用 memtest86+ 测试 RAM 时,第四个 RAM 仅显示一位错误。即使我将第四个插槽中的 RAM 与其他一些 RAM 交换,我仍然会在完全相同位置的第四个插槽中的 RAM 中出现错误。因此,我想阻止服务器使用 RAM 的一个特定地址(或 4kb 页面,如有必要)。服务器具有 Fedora 11,仅用于测试目的。它不托管任何用户应用程序。关于如何阻止使用 RAM 的某些部分的任何想法?或导致错误出现在特定字节的原因,而与安装的 RAM 模块无关。
我有一个刚刚使用一个月的 NAS 设备。它被配置为通过电子邮件向我发送从硬盘驱动器的 SMART 数据生成的警报。一天后,其中一个硬盘报告一个扇区坏了并被重新分配。在第一周,这个数字攀升至有问题的硬盘驱动器的六个扇区。一个月后,这个数字达到了九个重新分配的部门。这一速度似乎确实在减速。
NAS 在 RAID-5 配置中配置了六个 1.5 TB 驱动器。有了这么大容量的驱动器,我预计一个扇区会不时出现故障,所以我并不担心前几个扇区何时被重新定位。尽管其他磁盘都没有报告任何问题,但这让我很困扰。
以多高的搬迁率或搬迁总数,我应该开始担心驱动器的健康状况吗?这可能会根据驱动器的容量而有所不同吗?