CentOS 5.10 / VMWare ESX 5.1
我有一台运行 CentOS 5.10(带有 SendMail)的旧电子邮件服务器,它遇到间歇性挂起,其中系统完全没有响应。在这些时间里,我根本无法连接到它,虚拟控制台也没有响应。
奇怪的是,我们的 VMWare 管理员组没有看到任何明显的资源峰值,这表明资源不足、负载峰值等。此外,当我检查系统日志(例如邮件日志、消息等)时,有明显的缺失在挂起期间的所有日志活动中,这表明这些中断严重到足以阻止日志记录(或者可能存在文件系统/磁盘问题)。
一个异常是该框上的 sendmail 日志记录非常高(98 而不是通常的 9 级)。我将很快将其恢复正常。
我很难在这里找到更多信息。是否有一个线程转储可以告诉我操作系统在挂起期间正在做什么?
附加信息:
- 内核版本为:
2.6.18-371.4.1.el5 #1 SMP Thu Jan 30 06:09:24 EST 2014 i686 i686 i386 GNU/Linux
- 存储在共享 SAN 上处理。
- 根据内部政策,系统上没有安装 VMWare 工具,但是我们已经在没有 vmware 工具的情况下运行了很长时间,因此我们认为没有它不一定是根本原因。
- VMWare的具体版本为:VMware ESXi 5.1.0 build-2000251
- 硬件为 IBM 3850 M2,型号 7233AC1
所以,32 位 CentOS 5.10……这不一定是个问题……
但是,在运行 VMware 支持的操作系统时,您应该始终安装 VMware 工具。这在 vSphere/ESXi 主机内存受限时非常有用,此外它还添加了内存气球驱动程序、更好的 NIC 接口选项(适用于您的 EL5 系统)和电源管理。
通常,查看这些问题发生时 SAN 正在做什么。此外,如果您不使用 VMware 工具,那么 ESXi 很可能不在稳定的修订级别上。请报告 ESXi 内部版本号。连接到主机后,您将在 vSphere Client 顶部看到它。
编辑:
由于这是一个 vSphere 集群,您能否让团队检查内存分配。我已经看到 Linux VM 由于内存配置错误而挂起或锁定。这可以包括在 vSphere 客户端中为相关 VM 设置 RAM 限制。这也可能包括集群在 RAM 上过度使用和/或 VM 分配了过多 RAM 的情况。
请参阅:vSphere 教育 - 使用*太多* RAM 配置 VM 的缺点是什么?
任何更深入的分析都需要查看一些 VMware 集群/资源状态屏幕。
我只是想关闭这个循环。在我们将 SendMail 日志记录从 99 缩减到 9(默认)后,神秘的挂起停止发生。诚然,这是一个非常高的日志级别设置,但我从未见过完全停止服务器。也不知道这样设置了多久。
我的猜测是,这种间歇性的性质源于平庸的磁盘 I/O 速度和偶尔的 SMTP 负载峰值。
感谢大家的帮助。