我尝试在 centos 6.5 上配置带有起搏器/cman 的 3 节点 HA 集群。STONITH 已禁用 ( pcs property set stonith-enabled=false
)。
当我模拟网络问题 ( iptables -A INPUT -s $OTHER_NODES_IP -j DROP
) 时,主资源被移动到另一个节点,并在失败的节点上停止。
当我再次启用网络 ( iptables -D INPUT -s $OTHER_NODES_IP -j DROP
) 时,故障节点无法自动加入集群。
在日志中,我们有:corosync[3323]: cman killed by node 3 because we were killed by cman_tool or other application
cman 如何重新启动而不是被杀死?
这里的想法是,如果cman 与集群失去联系,您希望它被杀死。这被称为“围栏”。在此期间,该节点将偏离集群的其余部分。如果它只是在没有审查的情况下重新投入生产,您可能会在您的节点中遇到一些相当严重的损坏或未定义的行为。
这里的想法是,通过隔离故障节点,有助于确保数据完整性。修复故障并验证节点已恢复到最新状态后,您可以轻松地重新启动 cman。