上周我们遇到了以下问题:由于更换 UPS,我们不得不关闭整个基础设施。在电气操作结束时,我们重新启动:
- 网络
- SAN
- vCenter
- ESXi(集群中的 2 个)
等待 ESXi 启动后,我们发现集群出现错误:配置资源不足,无法满足集群上所需的 vSphere HA 故障切换级别。
然后我们发现 vCenter 无法通过网络联系 ESXi:交换机的 PDU 在操作期间被拔下。
重新插入 PDU,ESXi 现在可以与 vCenter 通信,但每个主机上都出现以下警报:vSphere HA 代理无法正确安装或配置。
我们决定重新启动两个 ESXi,但运气不好,错误仍然存在。
由于维护窗口的限制,我们决定将两台主机从集群中移除,以便能够启动我们的虚拟机,代价是在一台主机发生故障时不会自动进行故障转移。
在谷歌上搜索了很多之后,阅读了我们尝试的许多 VMware 的 KB(无顺序):
- 断开/重新连接主机
- 在没有虚拟机的情况下将主机一一重新分配到集群
- 重新启动 vSphere High Availability 服务重新配置 HA (FDM)
- 重新检查网络需求搜索 vSphere 6.x 的网络端口图
- 禁用/启用 HA对 VMware 高可用性进行故障排除
- 卸载/重新安装 FDM KB 2056299
没有结果了...
在我们的旅程中,我们发现/var/log/fdm.log
两台主机上只有一个错误:
2018-06-25T09:05:54.232Z error fdm[47A8940] [Originator@6876 sub=Cluster] [ClusterPersistence::DoFetchDataSync] Open of file /etc/opt/vmware/fdm/kvstore failed: No such file or directory
2018-06-25T09:05:54.232Z warning fdm[47A8940] [Originator@6876 sub=Cluster] [ClusterManagerImpl::ReadPersistentObject] Couldn't open kvstore
谷歌搜索这个 kvstore-thing 让我一无所获,也许我必须审查我的 google-fu ...
我知道您提到您已经尝试过,但如果它对其他人有帮助,我只想说我们的解决方案是从整个集群中完全禁用/删除 HA 配置,然后再次启用它。除了你的帖子,我也找不到任何关于这方面的信息。
我们有完全相同的问题。刚刚在 5 个服务器中的第 3 个服务器上完成了对 6.5 的更新。前两个更新很好,HA 没有问题。第三个很好,但 HA 不会回来。同样的错误。fdm.log 文件中的相同消息(打开文件 /etc/opt/vmware/fdm/kvstore 失败:没有这样的文件或目录)。
我有类似的问题,上述标准技巧无法解决。
解决方案是推出 vcenter fdm 包并在主机上使用 force 选项更新它,因为我有一些 dep. 振动问题。
此处描述的详细信息:https ://communities.vmware.com/thread/608113