提前为冗长的问题道歉。
我们有一个Dell PowerEdge R720
服务器:
- 用于操作系统的 RAID 1 中的 2 个 136GB SAS 驱动器 (
Ubuntu Server 12.04
) - 6 x
3TB SATA drives in RAID 5
为data
几天前,我们在尝试访问大型 RAID 5 分区上的文件时遇到了错误。我们重新启动服务器并收到有关the raid controller has found a foriegn config
. 我们以前有过这种情况,只需要使用戴尔的 RAID 配置实用程序来import foreign config
设置 RAID。上次这有效,但这一次,它开始进行磁盘检查,然后我们得到了这个:
FSCK has returned the following:
"/dev/sdb1 inode 364738 has a bad extended attribute block 7
/dev/sdb1 unexpected inconsistency run fsck manually (i.e without -a or -p options)
MOUNTALL fsck /ourdatapartition [1019] terminated with status 4
MOUNTALL filesystem has errors /ourdatapartition
errors where found while checking the disk drive for /ourdatapartition
Press F to fix errors, I to Ignore or M for Manual Recovery"
我们按 F 来尝试修复错误,但它最终出错:
Inode 275841084, i_blocks is 167080, should be 0. Fix? yes
Inode 275841141 has an invalid extend node (blk 2206761006, lblk 0)
Clear? yes
Inode 275841141, i_blocks is 227872, should be 0. Fix? yes
Inode 275842303 has an invalid extend node (blk 2206760975, lblk 0)
Clear? yes
....
Error storing directory block information (inode=275906766, block=0, num=2699516178): Memory allocation failed
/dev/sdb1: ***** FILE SYSTEM WAS MODIFIED *****
e2fsck: aborted
/dev/sdb1: ***** FILE SYSTEM WAS MODIFIED *****
mountall: fsck /ourdatapartition [1286] terminated with status 9
mountall: Unrecoverable fsck error: /ourdatapartition
我们注意到其中一个驱动灯根本没有点亮,并认为这可能已经失败并且是问题所在。我们用备用驱动器替换了驱动器,并尝试“F”再次修复它,但我们仍然遇到与上述相同的错误。
在 RAID 配置实用程序中,所有驱动器都显示为“在线”和“最佳”。
我们确实在另一台复制服务器上有这些数据,所以我们不担心“恢复”任何东西,我们只想让系统尽快恢复在线。
服务器有 64 或 32GB 内存,我想不起来了,但不管怎样,使用 14TB RAID,我认为它可能仍然不够。
谢谢
编辑- 我在 fsck 按照建议运行时检查了内存使用情况,在 2 或 3 分钟后,它看起来像这样,几乎耗尽了我们所有的服务器内存:
当它在我的帖子中出现错误大约 5 分钟后失败时,内存立即再次释放:
编辑 2 - 我检查了坏块sudo badblocks -nvs /dev/sdb1
,但它回来了Pass completed, 0 bad blocks found. (0/0/0 errors)
看起来文件系统确实被冲洗掉了。由于您在另一台服务器上拥有数据并且不需要从旧文件系统中恢复数据,因此您应该能够对分区进行 newfs 以创建空白文件系统。
并完成它。