我在最近安装的旧机器 (HP ProLiant ML350 G4) 上安装了 CentOS 6.4 服务器,并且运行不到 24 小时。它在 RAID 1+0 中有 6 个 146 GB 10k SCSI 驱动器,这些驱动器也是全新的,没有驱动器故障迹象或任何类型的硬件通知。然而,这会随机发生:
一旦发生这种情况,我就无法登录(这发生在登录提示时)并且 SSH 没有响应。Ping 正在响应,但除此之外,盒子被锁得很紧。请注意,重新启动会在短时间内解决问题,但这在 CentOS 6.4和Debian 6 上至少发生了 3 次不同的时间,都是全新安装。
任何人有任何见解?
编辑:事后的日志什么也没显示(甚至没有提到的消息)。
HP 设备上的固件始终很重要。那个时代(2003-2005 年)的 Smart Array 6400 和 641/642 控制器过去常常在某些情况下冻结并做各种时髦的事情。将固件更新到最新版本。
在 Linux 方面,CCISS 块设备驱动程序已经存在于内核中很长时间了。它通常很稳定。但是在EL6上还有一些其他的考虑。调整您的 I/O 调度程序或使用该
tuned-adm
实用程序。如果您正在进行任何写入繁重的活动,请确保该控制器上有电池支持的缓存。hpacucli ctrl all show config detail
并使用命令在控制器上运行健康状态检查。只需确保没有任何磁盘处于故障或故障前状态。