我一直在 CentOS 6.4 上测试集群套件,并且运行良好,但我今天注意到 [ 8 月 8 日,当这个问题最初被问到时],它不喜欢以前工作的配置。我尝试使用 CCS 从头开始重新创建配置,但这会导致验证错误。
8月21日编辑:
我现在已经从 CentOS 6.4 x86_64 最小安装中完全重新安装了该盒子,添加了以下软件包及其依赖项:
yum install bind-utils dhcp dos2unix man man-pages man-pages-overrides nano nmap ntp rsync tcpdump unix2dos vim-enhanced wget
和
yum install rgmanager ccs
以下命令都有效:
ccs -h ha-01 --createcluster test-ha
ccs -h ha-01 --addnode ha-01
ccs -h ha-01 --addnode ha-02
ccs -h ha-01 --addresource ip address=10.1.1.3 monitor_link=1
ccs -h ha-01 --addresource ip address=10.1.1.4 monitor_link=1
ccs -h ha-01 --addresource ip address=10.110.0.3 monitor_link=1
ccs -h ha-01 --addresource ip address=10.110.8.3 monitor_link=1
ccs -h ha-01 --addservice routing-a autostart=1 recovery=restart
ccs -h ha-01 --addservice routing-b autostart=1 recovery=restart
ccs -h ha-01 --addsubservice routing-a ip ref=10.1.1.3
ccs -h ha-01 --addsubservice routing-a ip ref=10.110.0.3
ccs -h ha-01 --addsubservice routing-b ip ref=10.1.1.4
ccs -h ha-01 --addsubservice routing-b ip ref=10.110.8.3
并导致以下配置:
<?xml version="1.0"?>
<cluster config_version="13" name="test-ha">
<fence_daemon/>
<clusternodes>
<clusternode name="ha-01" nodeid="1"/>
<clusternode name="ha-02" nodeid="2"/>
</clusternodes>
<cman/>
<fencedevices/>
<rm>
<failoverdomains/>
<resources>
<ip address="10.1.1.3" monitor_link="1"/>
<ip address="10.1.1.4" monitor_link="1"/>
<ip address="10.110.0.3" monitor_link="1"/>
<ip address="10.110.8.3" monitor_link="1"/>
</resources>
<service autostart="1" name="routing-a" recovery="restart">
<ip ref="10.1.1.3"/>
<ip ref="10.110.0.3"/>
</service>
<service autostart="1" name="routing-b" recovery="restart">
<ip ref="10.1.1.4"/>
<ip ref="10.110.8.3"/>
</service>
</rm>
</cluster>
但是,如果我使用ccs_config_validate
或尝试启动该cman
服务,它会失败并显示:
Relax-NG validity error : Extra element rm in interleave
tempfile:10: element rm: Relax-NG validity error : Element cluster failed to validate content
Configuration fails to validate
这是怎么回事?这曾经奏效!
我认为您缺少故障转移域,如果您想在 redhat 集群上定义一个服务,首先您需要定义一个故障转移域,您可以将故障转移域用于许多服务或每个服务一个。
如果您需要有关故障转移域“man clurgmgrd”的更多信息
故障转移域是服务可能绑定到的成员的有序子集。以下
是管理选项的语义列表,这些选项关于不同的配置选项如何影响故障转移域的行为:
yum update
在更多的舞蹈之后,它才刚刚开始工作。我比较了新旧/var/lib/cluster/cluster.rng
,惊喜,惊喜,有区别。系统上不起作用的那个是缺少<ip>
元素的任何定义。当前系统的化身是从同一张最小光盘安装的,我有一个逐步的命令来剪切和粘贴,在我开发它的时候工作了几次,然后失败了将近两个月,现在开始了再次工作。我已经建造了大约六次盒子,所以我想这不是程序。
也许是 Red Hat 的失误,但我不确定如何找出在过去两个月内该文件中签入了哪些更改。