** 免责声明,我最近才成为该系统的管理员,并意识到备份无法使用。同样,管理软件的状态也很糟糕**
系统(Ubuntu 14.04)在 RAID 1(A 和 B)中运行两个 146GB 10k SAS 驱动器。机箱是可热插拔的,因此服务器过去和现在仍在运行此过程。
- 故障驱动器 A 被驱动器 C 替换,闪烁绿色状态确认阵列正在重建
回到 C 并显示稳定的绿色状态(在线)但驱动器 B 稳定的琥珀色(离线/严重故障)
但是,输入/输出错误表明存在明显未同步的大量文件系统补丁,并且文件系统恢复为只读
我的目标是确定驱动器 B 故障的根源,如果它是小问题(例如无法读取的块错误),则要么使用驱动器 B 重新启动系统,要么尽管出现错误,仍强制重建阵列。主要是确定如何让阵列控制器报告故障模式,并将故障驱动器视为正常驱动器。
我只想恢复一些小的配置文件,以便在重新安装时让我的生活更轻松。
服务器当前处于受限状态,但如果重新启动,肯定不会从驱动器 C 启动,因为 /bin/ 的一部分丢失了。令人惊讶的是,它仍然发挥着它的作用,因为它只定期用于 dhcp 和 ssh。
我最终解决了这个问题,实际上我设法恢复了大部分配置。
文件系统以只读方式挂载,因为 linux 检测到故障并试图防止更多损坏。
将系统重新启动到 live CD,在 raid 提示下强制系统忽略 [新] 死驱动器
安装 HP 阵列配置实用程序 (HPACUCLI) 以检查 RAID 状态、安装驱动器并尽可能备份文件(大约 24 小时准时)
取出 Live CD 并重新启动,启动到原来的操作系统(确实有效!)
在原始磁盘上运行
fsck
(丢失了很多/home/
数据,但这不是问题)更换新出现故障的驱动器,设置适当的备份策略,以免再次发生这种情况。