RabbitMQ 的心跳值配置

Question

Julien

Asked: 2014-11-19 21:13:26 +0800 CST2014-11-19 21:13:26 +0800 CST 2014-11-19 21:13:26 +0800 CST

损坏的 RabbitMQ 集群不会“重新启动”

772

我在 3 个服务器上运行 RabbitMQ，相同版本的 Erlang 和 RabbitMQ：RabbitMQ 3.4.1，Erlang 17.3

一个节点在服务器 2 上崩溃。另外两个节点没有连接在一起：

服务器 1：

[CentOS-62-64-minimal ~]$ sudo rabbitmqctl cluster_status
Cluster status of node 'rabbit@CentOS-62-64-minimal' ...
[{nodes,[{disc,['rabbit@CentOS-62-64-minimal',rabbit@de3,rabbit@mysql]}]},
 {running_nodes,['rabbit@CentOS-62-64-minimal']},
 {cluster_name,<<"rabbit@CentOS-62-64-minimal">>},
 {partitions,[]}]

服务器 3：

[de3 ~]$ sudo rabbitmqctl cluster_status
Cluster status of node rabbit@de3 ...
[{nodes,[{disc,['rabbit@CentOS-62-64-minimal',rabbit@de3,rabbit@mysql]}]},
 {running_nodes,[rabbit@de3]},
 {cluster_name,<<"rabbit@CentOS-62-64-minimal">>},
 {partitions,[]}]

在服务器 3 上重启并重置 rabbitmq 后，终于连接到了 server1：

[CentOS-62-64-minimal ~]$ sudo rabbitmqctl cluster_status
Cluster status of node 'rabbit@CentOS-62-64-minimal' ...
[{nodes,[{disc,['rabbit@CentOS-62-64-minimal',rabbit@de3,rabbit@mysql]}]},
 {running_nodes,['rabbit@CentOS-62-64-minimal']},
 {cluster_name,<<"rabbit@CentOS-62-64-minimal">>},
 {partitions,[]}]

为什么只有 1 个节点停机时集群会“崩溃”？服务器 3 工作正常，但服务器 1 不是：“队列位于已关闭的服务器上”。

至于服务器 2，它没有重新启动。手动重启后，我无法让它重新连接到集群，即使在多次重置和删除 /var/lib/rabbitmq/mnesia/ 之后也是如此：

[root@mysql ~]# rabbitmqctl cluster_status
Cluster status of node rabbit@mysql ...
[{nodes,[{disc,[rabbit@mysql]}]},
 {running_nodes,[rabbit@mysql]},
 {cluster_name,<<"[email protected]">>},
 {partitions,[]}]

[mysql ~]# rabbitmqctl stop_app
Stopping node rabbit@mysql ...
[root@mysql ~]# rabbitmqctl force_reset
Forcefully resetting node rabbit@mysql ...
[ysql ~]# rabbitmqctl join_cluster rabbit@CentOS-62-64-minimal
Clustering node rabbit@mysql with 'rabbit@CentOS-62-64-minimal' ...
Error: {ok,already_member}
[mysql ~]# rabbitmqctl start_app
Starting node rabbit@mysql ...
[mysql ~]# rabbitmqctl cluster_status
Cluster status of node rabbit@mysql ...
[{nodes,[{disc,[rabbit@mysql]}]},
 {running_nodes,[rabbit@mysql]},
 {cluster_name,<<"[email protected]">>},
 {partitions,[]}]

我不知道出了什么问题。上次发生这种情况时，我将 RabbitMQ qnd Erlang 升级到了最新版本。

3 个回答

Voted

bodgit · Answer 1 · 2014-11-22T06:18:22+08:00

bodgit

2014-11-22T06:18:22+08:002014-11-22T06:18:22+08:00

根据RabbitMQ 集群文档，您的rabbitmqctl cluster_status输出看起来是错误的；running_nodes应该不仅仅包含运行命令的本地节点。这对我来说表明他们无法正常通信，节点之间是否有防火墙？

4

Craig · Answer 2 · 2014-11-25T11:35:14+08:00

Bodgit 是正确的，我可以通过一个可操作的兔子集群告诉你，你的配置是错误的。看起来每个节点都是它自己的集群，只有它自己作为当前运行的节点。

请参阅有关设置集群的 RabbitMQ 文档。

您应该在每个节点上看到类似于以下内容的内容：

    root@rabbit0:~# rabbitmqctl cluster_status
    Cluster status of node 'rabbit@rabbit0' ...
    [{nodes,[{disc,['rabbit@rabbit0','rabbit@rabbit1']}]},
     {running_nodes,['rabbit@rabbit1','rabbit@rabbit0']},
     {cluster_name,<<"[email protected]">>},
     {partitions,[]}]
    ...done.

    root@rabbit1:~# rabbitmqctl cluster_status
    Cluster status of node 'rabbit@rabbit1' ...
    [{nodes,[{disc,['rabbit@rabbit0','rabbit@rabbit1']}]},
     {running_nodes,['rabbit@rabbit0','rabbit@rabbit1']},
     {cluster_name,<<"[email protected]">>},
     {partitions,[]}]
    ...done.

这是经过消毒的，但会保留订单和意图。

如果您希望队列故障转移，您还需要配置高可用性：

https://www.rabbitmq.com/ha.html

joshua · Answer 3 · 2017-04-21T13:52:52+08:00

Best Answer

joshua

2017-04-21T13:52:52+08:002017-04-21T13:52:52+08:00

我今天遇到了这个问题，我为中断修复事件设计了一个有意的中断文档，以教我们的运营团队如何修复问题。我故意取消了一个节点的集群并且无法rabbitmqctl join_cluster成功运行，因为集群认为该节点已经是一个成员。

集群节点 'rabbit@node-1' 和 'rabbit@node-0' ... ...完成（already_member）。

最终对我有用的是rabbitmqctl forget_cluster_node rabbit@node-1来自工作集群节点。一旦我这样做了，我就能够成功运行rabbtmqctl join_cluster rabbit@node-0

1

损坏的 RabbitMQ 集群不会“重新启动”

新安装后 postgres 的默认超级用户用户名/密码是什么？

SFTP 使用什么端口？

命令行列出 Windows Active Directory 组中的用户？

什么是 Pem 文件，它与其他 OpenSSL 生成的密钥文件格式有何不同？

如何确定bash变量是否为空？

损坏的 RabbitMQ 集群不会“重新启动”

3 个回答

相关问题