不管是好是坏,我都被安排负责一个运行 RHEL6 的大型服务器。它有六个 1.5 TB 驱动器,采用 RAID5 配置。我了解 RAID 背后的理论概念,并且我只通过命令行访问此服务器。服务器本身位于一个数据中心内,对于我的工作层级的人来说,访问它是可能的——但并不容易。因此,如果可以接受软件监控,则对服务器进行例行物理检查可能不是有效的途径。
当硬盘驱动器发生故障时,作为命令行用户,我会在例行的 shell 使用期间自动收到警报吗?如果是这样,如何?如果没有,推荐使用什么工具来进行简单的监控和警报?
假设您正在使用硬件 RAID,RHEL 本身只能看到 RAID 提供的逻辑驱动器。它不知道底层物理磁盘。
如果它是 Dell 服务器,您可以使用 OpenManage 运行一个警报脚本,该警报将通过 wall 或电子邮件写入您的控制台。
http://www.howtogeek.com/50555/setup-email-notifications-for-dell-server-hardware-alerts/
以下是在 HP 服务器上执行此操作的一些信息http://blog.mattbrock.co.uk/2010/01/25/monitoring-diskraid-hardware-in-centos-5-on-hp-dl360-servers/
如果您有不同的硬件供应商,他们应该有类似的功能。
如果您使用软件 raid,这里有一篇关于监控 /proc/的好文章http://my.sohost.eu/knowledgebase/4/Monitor-Linux-software-RAID-array-with-e-mail-notification.html mdstat 使用 cron 进行更改,如果有更改则发送电子邮件。