我今天创建了一个 2 节点 AG 设置作为 POC,当我尝试通过停止主节点上的 sql server 服务来进行自动故障转移时,辅助节点中的那个进入解析状态,它花了很长时间才变成初级AG。
它与网络问题有关吗?我还想知道为心跳网络设置一个单独的网络接口是否是一个好习惯。当我进入 WFSC 中的网络时,我只看到“集群和客户端”,我认为它也包括心跳。
我今天创建了一个 2 节点 AG 设置作为 POC,当我尝试通过停止主节点上的 sql server 服务来进行自动故障转移时,辅助节点中的那个进入解析状态,它花了很长时间才变成初级AG。
它与网络问题有关吗?我还想知道为心跳网络设置一个单独的网络接口是否是一个好习惯。当我进入 WFSC 中的网络时,我只看到“集群和客户端”,我认为它也包括心跳。
正如其他人在评论部分指出的那样,这不是一个好的测试方法,因为您已经很好地干净地关闭了服务。我的意思是,如果您的灾难案例是“有人很好地关闭了 SQL Server”,那么这是一个很好的测试,但除此之外它并没有多大帮助。
拥有双节点集群对于测试 HA(或生产)也不是很有帮助,因为只有两个可能的节点。虽然您可以根据某些因素以某种方式争论此设置的有用性,但在您拥有 3 个或更多节点之前,您不会真正体验 AG。这主要是因为 2 节点集群是特殊情况,因为资源太少了。
解析,用 AG 术语来说,意味着它正在尝试查找并连接到主服务器。由于您已经很好地关闭了它,因此需要一些时间(假设集群有法定人数并且已满足故障转移策略)才会失败。
没有。
自 Windows Server 2008+ 以来,没有“心跳”网络这样的东西。集群将决定采用哪条路线。
你真正想要的是什么?
如果您想查看自动故障转移需要多长时间,那么您首先需要弄清楚您想要测试的场景。这里有些例子:
您可以添加更多,但对于每个可能的问题,所需的时间会有所不同。
时间大概是:
总计 = 检测 + 缓解 + 重做队列耗尽 + 撤消
上面的每一个都有不同的检测和缓解时间,但是每个测试的重做和撤消应该大致相同。所以,归根结底,您实际上是在测试检测时间。
如果您只关心进行故障转移需要多长时间,则运行:
ALTER AVAILABILIY GROUP MyAG FAILOVER
在新的主服务器上。时间吧。这就是需要多长时间。