我们运行 10 台服务器,大部分是征用的廉价台式机,都运行 CentOS 5.1 和 Xen。这 10 台服务器所做的就是运行 Xen 虚拟机。有人关闭了服务器机柜的电源,有几台机器的硬盘烧坏了,将不再启动。不用担心,所有的虚拟机磁盘映像在不同的服务器上都有 DRBD 镜像副本,我只需要在我备份这两台机器的同时启动它们。
我已经更换了它们每个的引导驱动器并重新安装了 CentOS、Xen 和 DRBD。但是,重新启动后,服务器都可以正常查看其本地 DRBD 设备,但报告远程链接的“WFConnection”状态 - 等待连接。每个设备都报告为“次要/未知”。我检查过:
- 每台服务器都正确配置了 iptables 以让 DRBD 流量通过 - 这是确定的,iptables 配置文件来自中央存储库,并且与机器崩溃之前的配置文件相同。
- 这不是 DNS 问题,因为每个服务器都有一个固定的 IP 地址,而 DRBD.conf 直接使用这些 IP 地址,因此甚至没有使用 DNS。我已确保新安装使用与原始服务器相同的固定 IP 地址和主机名。
- 每台服务器都可以在所有使用的 IP 地址上 ping 另一台服务器,这没有问题。服务器都连接到同一个交换机。
有谁知道为什么 DRBD 仍然拒绝连接?
如果您有“脑裂”的情况,您可以使用以下命令来解决它:
drbdadm secondary all; drbdadm -- --discard-my-data connect all
drbdadm primary all; drbdadm connect all
我已将 drbd 配置为在发生脑裂情况时通知我。您可以在 /etc/drbd.conf 中使用处理程序标题下的裂脑处理程序来执行此操作。
您将不得不手动将分区设为主分区
drbdadm primary all
。然后你需要挂载分区。你用心跳吗?如果是这样,heartbeat 应该为您处理一切。跑吧
/usr/lib/heartbeat/hb_takeover
。好的,我找到了答案。正如 Brent 所指出的,在您可以从中运行 Xen 虚拟机之前,DRBD 设备必须是主要设备。但我什至还没有到那个阶段,不同机器上的两个 DRBD 设备拒绝承认另一个存在。我终于想在重新启动后检查 /var/log/messages 并看到“检测到裂脑,断开连接!”这一行,这给了我一些东西给谷歌并打开了这些说明:
http://www.drbd.org/users-guide/s-resolve-split-brain.html
事实证明这是解决方案 - DRBD 无法判断哪台机器上的哪个设备是最新的,因此您必须手动告诉它使用哪个设备。如果 DRBD 可以将问题报告为状态(可能是“SPTBrain”而不是简单的“WFConnection”),那就太好了,因为 /var/log/messages 里面有一大堆东西,我错过了第一个错误消息我看了几次。