我在使用 Dell 1950 服务器时遇到了一些问题。我在这里安装 RHEL 4.6 以及 Oracle 和其他一些软件。
我在我的 ssh 会话和连接到服务器的监视器上随机收到一条错误消息,说“内核:日志提交 I/O 错误”,我看到一个错误滚动显示“EXT3-fs 错误(设备 sda5)在 start_transaction 中:日志已中止。”
它发生了好几次,但在安装过程中从未在同一时间发生过。实际上,上次系统启动并运行时,我只是试图将数据库导入到 oracle 中。
这发生在几个硬盘驱动器上,所以我很确定这不是问题。这让我觉得raid控制器坏了。
你们有什么感想?
** 更新 **
很确定这是一个坏硬盘。我在服务器中扔了另一个驱动器,它已经运行了大约 48 小时,没有出现任何问题。
我以前见过这些错误,但在安装过程中没有。
这意味着驱动器出现了足够多的错误,操作系统将其设置为只读模式。如果您能找到完整的日志,那么可能会有一些 I/O 错误在您看到的完全失败错误之前重试并起作用。提到了实际块的东西。
这是存储系统错误。肯定是 RAID 卡、RAID 阵列中的驱动器、从卡到驱动器的电缆、驱动器连接到的背板、RAID 卡插入的插槽、硬盘驱动器的电源或其他东西在 CPU 和实际存储块之间。
可能是 RAID 控制器像您说的那样坏了(如果有,请尝试备用。)它可能是控制器的驱动程序(如果可用,请检查替代驱动程序,即使性能更差,最好有一个参考点.) 它可能是内核(虽然在 RHEL 中不太可能,但它经过了很好的测试。)它可能是坏 RAM 弄乱了块缓存。
但是,基于看似随机的错误行为,硬件问题是最可能的原因。
想到了三种可能性:
存在内存问题(它们通常会导致“随机”崩溃)。如果你在那里有 ECC ram,那么显然它不太可能。
公交车有问题。几年前,我在 Tyan 双 Opteron 主板上的 APIC 控制器损坏时遇到了同样的问题。还有其他日志条目暗示了这一点,但大部分症状是磁盘驱动器上的随机损坏以及自动只读重新挂载。在我的情况下,我知道它与磁盘无关,因为它是一个外部 FC RAID 盒,它很好。
RAID 控制器是双层的。
这是我考虑问题的顺序。
检查磁盘是否未满 - 特别是根分区。使用 df 查看文件系统磁盘使用情况:
寻找接近或等于 100% 利用率的分区
尝试:
立即关闭 -rF