我们正在使用 Hyper V 的 6 节点故障转移刀片集群上运行多个虚拟机。
我们有一个间歇性的问题(每隔几天在不同的时间 - 不是固定的频率)VM 失去网络连接。对 VM 的控制台访问表明一切正常,并且底层刀片具有正常连接。为了解决这个问题,我们要么必须重新启动 VM,或者更常见的是,我们实时迁移到另一个启动连接的刀片,然后我们将其迁移回原始刀片。
在特定刀片上运行特定虚拟机时,我已经发生过 3 次这种情况,但是在不同刀片上运行不同虚拟机时发生过一次。所有 VM 和刀片都具有相同的基本设置并运行 Windows 2008 R2。
由于事件日志没有提供帮助,我应该寻找诊断此问题的可能原因的任何想法?
编辑:
我检查过每个刀片都运行最新的 NIC 驱动程序,而且一切似乎都很好。
让我感到困惑的事情 - 虚拟机的故障转移或重新启动解决了这个问题。虽然我需要解决导致 NIC 挂起的根本问题,但我也担心 VM 没有故障转移到另一个节点,这本来可以为我解决中断问题。有没有办法配置集群,以便它可以告诉 VM 来宾已失去连接并进行故障转移?就目前情况而言,集群假设 VM 运行良好,因为我认为 Hyper V 表示一切都很好,即使存在问题。
编辑:
我想我会更新这个,因为问题仍然很突出 - 不太频繁,但对于哪个 VM 受到影响似乎仍然是随机的。最新检查是所有 VM 都运行相同的 MPIO 驱动程序和虚拟 NIC 的相同驱动程序版本。一切看起来与运行在同一刀片中心但在该集群之外的一些 VM 相同,并且这些 VM 从未遇到任何问题。
这可能是您问题的答案吗:http: //support.microsoft.com/kb/974909
您是否偶然为您的交换机端口打开了端口安全性?确保您有足够多的 MAC 允许。另外,您的父母网络配置如何?你在组队吗?
不是我希望的理想答案,但在这种情况下,它适用于我们的设置......
我们将受影响的虚拟机从集群中取出,移除了 NIC,然后重新创建了它们。同时,每个刀片都从集群中拉出,并在它们被拉回之前更新了所有驱动程序。
在接下来的 6 周内,我监控他们的连接丢失问题很明显 - 之后换工作意味着我不确定问题是否仍然得到解决;)!