在我的办公室,我们有一台服务器,我们怀疑它的 RAID 控制器 (HP Smartarray) 出现故障。然而,冷启动并不代表任何东西。
谁能推荐一种对控制器进行压力测试的方法?
让我怀疑控制器出现故障的症状:
- 磁盘访问变慢,队列变长
在 XenServer 控制台上运行
dmesg
时,我看到许多与此类似的消息:end_request: I/O error, dev tda, sector 253655584
(扇区号永远不会相同)
当我们将虚拟机移动到另一台物理主机时,我们不再看到上面的消息
- 运行空闲(没有任何正在运行的虚拟机),
dmesg
不再发出上述消息
在 Google 上进行的搜索表明,上述消息最常与失败的 SmartArray 控制器相关联。
我如何确定 SmartArray 控制器出现故障?
HP Smart Array 控制器不会经常出现故障。通常失败是突然的,而不是随着时间的推移而退化。
无论哪种方式,您都可以通过启动服务器附带的HP SmartStart DVD并运行 HP Array Diagnostics Utility (ADU)来对阵列运行离线诊断。
您没有指明服务器或 RAID 控制器的型号或代数(这些东西很有用),但链接的 DVD 映像应该涵盖最新的 HP 系统。
就运行在线压力测试而言,压力实用程序非常适合该目的。
当一个驱动器缓慢发生故障但不足以完全死机或超过计数器阈值以指示故障时,我经历过 RAID 阵列的不稳定行为。
首先:我假设您的 RAID 设置为某种冗余配置,例如 RAID 10 或 RAID 5?并且您配置了热备用(或者至少手头有一个备用驱动器)?
启动 hp 阵列管理软件并查看每个驱动器的 SMART 数据。找出任何错误明显多于其他驱动器的驱动器。
从您识别的驱动器开始,取出一个驱动器。等待热备用重建(如果有的话)。然后再次测试,看看情况是否有所改善。如果是,那么您就找到了驱动器。如果没有,请重新安装驱动器并重复下一步。
此外,根据我的经验,升级硬盘驱动器和控制器上的固件可以改进对故障驱动器的检测。