在四个相同的 4-CPU 主机上运行 ESX 服务器 3,来宾在光纤 SAN VMFS 上。
来宾操作系统是 Fedora 10。克隆它以创建 web、jboss、mysql 和 memcached 模板。将每个模板克隆为四个来宾,每个服务器一个。
在这 16 个来宾中,一个 jboss 和一个 mysql 来宾运行缓慢以至于无法使用。“缓慢”是指无论进程启动的 CPU 密集程度如何,它们都不会使用超过 ~200Mhz 的 CPU。在主人之间移动它们没有任何效果——它似乎与这些客人本身有关。
但!今天我发现,如果我执行以下任一操作,它们将几乎全速运行:
- 按住控制台中的空格键
- 打开一个 SSH 会话,然后按住一些重复键
- 用 ICMP 数据包淹没它们
换句话说,任何类型的 I/O 活动似乎都会“唤醒它们”,并且在此期间所有进程都以完全正常的速度运行。停止该 I/O 活动,它们会再次缓慢爬行。显然,除非有某种中断活动,否则他们的进程不会被安排。
任何想法为什么?
从今天起,所有客人都已完全修补。已安装 openvm-tools,启用来宾时间同步,内核参数为“notsc”(但更改不会影响此问题)。
已在 --dry-run 模式下使用 rsync 来验证 /bin、/usr/bin、/var/jboss 和 /var/lib/mysql 是否与正常行为的客户机相同,并且 /etc 仅在主机名上有所不同, IP 地址和其他特定于实例的设置。
已尝试将其资源利用率设置为“高”,但没有任何效果。(所有来宾资源利用率都是“正常的”,除了所有 JBoss 和 MySQL 来宾上的内存预留。每台服务器的总内存预留约为主机内存的一半,所有来宾内存大小加起来仅使用主机的 70% 左右记忆。
*.vmx、*.vmxf 和 *.vmdk 文件仅在 uuid、displayName、MAC 地址和磁盘/交换文件名方面有所不同。
同一主机上的其他来宾之一不正确地检查了主机上所有内核的 CPU 关联位。删除关联设置可恢复正常操作。
我们有五个人在这些主机上工作,我应该在发布之前自己检查配置。
编辑:我不能接受我的回答并关闭问题 2 天?
您是否从服务控制台看起来像 esxtop?它可能会给你一些关于正在发生的事情的线索。