我在非 FCI 节点上安装了 2 节点 FCI 和独立 SQL Server。我一直在自动化 FCI、AG 和 DB 副本的配置/安装,到目前为止,在我的所有测试中都运行良好。
今天我在执行时收到以下错误:
USE [master]
GO
CREATE AVAILABILITY GROUP [AGName]
WITH (AUTOMATED_BACKUP_PREFERENCE = SECONDARY)
FOR
REPLICA ON N'Node3\ReadOnly' WITH (ENDPOINT_URL = N'TCP://Node3-blah.blah.com:5022', FAILOVER_MODE = MANUAL, AVAILABILITY_MODE = ASYNCHRONOUS_COMMIT, SESSION_TIMEOUT = 10, BACKUP_PRIORITY = 50, PRIMARY_ROLE(ALLOW_CONNECTIONS = ALL), SECONDARY_ROLE(ALLOW_CONNECTIONS = ALL)),
N'Primary/Primary' WITH (ENDPOINT_URL = N'TCP://primary.blah.com:5022', FAILOVER_MODE = MANUAL, AVAILABILITY_MODE = ASYNCHRONOUS_COMMIT, SESSION_TIMEOUT = 10, BACKUP_PRIORITY = 50, PRIMARY_ROLE(ALLOW_CONNECTIONS = ALL), SECONDARY_ROLE(ALLOW_CONNECTIONS = NO));
GO
错误:
消息 19405,级别 16,状态 17,第 3 行
无法创建、加入或添加副本到可用性组“AGName”,因为节点“Node3”是副本“Node3\ReadOnly”和“Primary/Primary”的可能所有者。如果一个副本是故障转移群集实例,请从其可能的所有者中删除重叠的节点,然后重试。
节点 3不是FCI 的一部分。它具有 SQL Server 的独立安装,并且未列为可能的所有者。
如果我尝试故障转移到节点 3,FCI 会通知我它不是可能的所有者。
我不确定是什么原因造成的。几天前,我在节点 1 和 2 之间使用 FCI 进行了故障转移。这次我确实删除了侦听器来测试它,因为这是我做的最后一件事。有什么想法吗?
我可以拆除 FCI 并让自动化重新创建它,但我想尝试解决这个问题而不这样做,以防万一有一天这种情况发生在产品中。我们应该能够从 WSFC 中逐出该节点并重新添加它,但我不想让我们的运营团队不得不这样做。我们将拆除整个集群并让它在发布之前从头开始构建。
编辑。这是 FCI 节点的输出:
select * from sys.dm_os_cluster_nodes
NodeName status status_description is_current_owner
---------------------------------------------------------
SQNodeL001-LA 0 up 1
SQNodeL002-LA 0 up 0
SQLNode003-LA 0 up 0
独立的输出为空。它是 WSFC 的一部分,但还不是 FCI 或 AG。
powershell 输出显示所有 3 个都可以是所有者节点,这很奇怪。
ClusterObject OwnerNodes
------------- ----------
SQL Server (Instance) {SQNodeL001-LA, SQNodeL002-LA, SQNodeL003-LA}
从 GUI 中,它没有选择节点 3 作为首选所有者。请原谅进行微小的更改并删除名称。第一个节点名称全部小写。其他2个大写。看起来我可能需要在 powershell 中完成所有这些操作才能获得准确的数据,但还没有实现这一步骤的自动化。那将是下一个冲刺。
编辑 2 - 已解决:
感谢 Sean 的 PowerShell 查询,我可以看到它仍然在 PowerShell 中列为所有者,尽管它不在 GUI 中。我使用它删除了它get-clusterresource "sql server (instance)" | set-clusterownernode -Owners node1 node2
并且它有效。谢谢肖恩!
发生这种情况的主要原因有两个,我目睹了。
原因 #1 - 资源/组错误地设置为对节点拥有所有权
有时(出于多种原因)Windows 集群中的资源和资源组并不总是具有相同的所有权。诊断此错误的最佳方法是首先检查 SQL Server(调用 Windows 集群 API)认为集群节点是什么:
一旦我们知道集群中有什么,通过Powershell检查集群认为 FCI 的所有权是什么:
这将返回可以拥有集群资源的节点。很可能它会包含我们知道不应该真正存在的节点的节点名称。
要解决此问题,请运行以下powershell命令:
通过运行第一个 powershell 命令来检查所有权,然后再次尝试将副本添加到 AG 来仔细检查。
原因 #2 - 节点名称 + 语言!= 节点名称
如果使用的语言不是 US_English,则节点名称(相互比较时)很有可能不一定能正确比较。这将导致 AG 之外的集群出现一大堆其他问题(确实如此)。
这可以通过获取节点名称,将它们转换为大写或小写并将它们与自身进行比较来测试。听起来它应该总是有效的......但是有些语言的特殊字符不能很好地进行 UPPER 和 LOWER 转换。