我在每个数据中心都有一对 CentOS Linux 服务器。它们在每个数据中心内都有故障转移,由心跳和DRBD管理(我知道这些是过时的工具,但它们很稳定,所以没有改变它们的愿望)。
它们还具有数据中心间切换的能力,使东部数据中心处于活动状态,而西部数据中心变为被动。但这是一个手动工程过程,没关系。
西部数据中心目前是主动的,东部数据中心是被动的。
serverA.west <-> serverB.west <-----------> serverA.east <-> serverB.east
ACTIVE DATA CENTER PASSIVE DATA CENTER
服务器可以运行 mysqld 和 Java 应用程序。
此服务器上的 Java 应用程序应仅在活动数据中心(即 serverA.west)中的 Primary 主机上运行。如果 Java 应用程序的另一个实例在辅助主机 (serverB.west) 或被动数据中心的任一主机上启动,则存在脑裂问题的风险。
今天serverA.east重新启动,导致心跳切换到serverB.east。Heartbeat 然后尽职尽责地在 serverB.east 上启动了 Java 应用程序,这是我们不希望发生的。
Heartbeat 也在 serverB.east 上启动了 mysqld,这是正确的,因为 MySQL 复制应该继续进行,不断复制来自西部数据中心的更改,以便东部 DC 准备好在需要时接管。
/etc/ha.d/haresources 将 mysqld 和 Java 应用程序的 /etc/init.d 脚本命名为要启动的资源。
我们希望允许 heartbeat 管理被动数据中心中的 A/B 对。它应该在故障转移时启动 mysqld,而不是 Java 应用程序。但是,如果东部数据中心是活动的,那么心跳应该在心跳自动故障转移期间启动 Java 应用程序。
什么是实现这个的好方法?
我希望的是在我们将活动数据中心从西向东切换时需要一步配置的东西。理想情况下,它应该是防错的,即应该保证恰好有一个数据中心被配置为活动的。
我认为,您不能仅使用(本机)心跳来做到这一点。你可以使用起搏器,他可以使用法定人数,但是... 你没有法定人数。想象一下,数据中心之间的链接失败了——东西方的每个人都会认为,他只是一个幸存者,他们每个人都启动应用程序,将 mysql 切换到主模式等。你会得到真正的脑裂位置。
恕我直言,如果你真的需要 HA,你需要第三个数据中心,然后将 MySQL 迁移到带有 Galera 集群的 MariaDB,并在它们上启动你的 Java 应用程序,甚至可能处于主动-主动-主动模式。
我想出的解决方案是保留两个版本的 /etc/ha.d/haresources。
“haresources-dark”用于 DR 数据中心(东部)的所有服务器。我使用符号链接,因此 haresources 指向 haresources-dark。
两个版本的 haresources 之间的唯一区别是提到了 Java 应用程序。在暗版中,Java 应用程序不会启动。
如果/当我们切换到 DR 数据中心时,我们将不得不手动更新这些符号链接。但这是可以接受的。
这不是防错的。我必须在 DR 数据中心的所有心跳管理服务器上手动设置符号链接。没有什么可以强制要求一个数据中心是“暗的”而另一个是“活的”。目前这将是一个手动解决方案。