我们已经设置了带有 san 盒的 2 个节点集群 我们的配置就像带有 T3400 SAN 盒和 SAN 交换机的 HS22 IBM 刀片中心 我尝试使用 RHEL 5.2 RHEL 5.3 RHEL 5.4 集群套件 我也可以使用 luci 重新启动 我可以隔离两个服务器即使我可以将服务从第一个节点重新定位到第二个节点
问题是,如果节点 1 clustat 上的 ckcek 并向我显示所有服务和集群所有者是节点 1,如果我在节点 1 停止服务网络,它将把所有服务重新定位到节点 2 并且节点 1 断电。当我重新启动节点 1 时,它将加入集群,此时节点 2 是所有服务以及集群的所有者,如果我在节点 2 停止服务不起作用,它不会将集群重新定位到节点 1,并且在我的 /var/log 上我可以看到 52无法更改 RG 状态是否有人遇到过这样的问题,如果是,那么有什么解决方法
非常感谢我得到这个工作的人!!!
我对 RH 集群没有任何直接经验,但根据您的描述,听起来节点 1 在您重新启动后没有正确重新加入集群。
作为一个起点,我会检查所有适当的服务是否都设置为在节点 1 上自动启动,但在我这样做之前,我会清理你的问题,因为它在当前形式下几乎不可读。
在RedHat 的 Bugzilla上似乎也存在与此相关的错误(某种程度)。
我敢打赌我会因此受到一些反对,但我对 RHCS 的经验是它基本上根本不起作用。我尝试并尝试使一个简单的 3 节点集群与 ricci 和 luci 一起工作,结果只是放弃了。我的搜索表明了类似的经历和一个共同的主题,即 RHCS 还没有准备好在生产中部署。我有时可以将几个服务器加入集群,但是当我尝试加入另一个节点时,它就失败了,日志中的信息很少。
我最终转向了支持DRBD文件系统的Pacemaker,发现它更灵活并且可以正常工作。我的建议是使用 Pacemaker。
如果网络服务出现故障,集群节点将进入“未知”状态。CS 不知道宿主是真的死了,还是暂时没有反应。如果你有一个栅栏机制,你可以栅栏主机,这也将通知 RHCS 该节点实际上已关闭,因此可以将服务带到另一个节点。如果服务只是在其他地方重新启动,并且主机恢复了它的网络,那么您将在两个节点上运行相同的服务,访问 SAN 上的相同文件,从而破坏它们。