我们在集群设置中运行旨在与 Microsoft SQL Server 集成的系统。目前我们在 Nagios 下监控了两个数据库节点,除了数据库主机检查外,一切都很好:
check_tcp -H $主机地址$ -p 1433
可能无法像这样直接监控故障转移集群。我应该如何监控集群的数据库可用性?
我们在集群设置中运行旨在与 Microsoft SQL Server 集成的系统。目前我们在 Nagios 下监控了两个数据库节点,除了数据库主机检查外,一切都很好:
check_tcp -H $主机地址$ -p 1433
可能无法像这样直接监控故障转移集群。我应该如何监控集群的数据库可用性?
对于集群上的 SQL Server,无论是默认实例还是命名实例,都必须将其安装为虚拟节点。因此,TCP 检查主机名是具有正确端口的虚拟名称的位置应该可以工作。例如,如果我有一个带有物理节点的两节点集群:
不要监视 SQL Server 中的任何一个。安装 SQL Server 后,假设我选择了 Virtual1 的虚拟节点名称,那么您要监控的就是 Virtual1。如果 SQL Server 已启动,则集群已启动。如果您只想检查集群是否已启动,请查找集群组本身的网络名称。
为什么不像您的应用程序那样使用 mssql 插件连接到相同的 ip/主机名?为了完成监控,我将为虚拟 IP 添加一个主机,并为每个集群节点添加两个主机。因此,如果您的一个节点出现故障,您会收到通知,但您知道集群仍然正常,因为您没有收到通知。