我一直在审查 XtraDB 集群,并使用 4 个实例在 Openstack 上生成了一个 PoC 环境,这在我的弹性测试中失败了。
根据 pxc 文档:http ://www.percona.com/doc/percona-xtradb-cluster/howtos/virt_sandbox.html涵盖了 3 节点安装,我选择了第 4 个。
- 初始设置完成数据加载测试通过,所有节点使用 1.6GB 测试 sql 文件同步更新以加载数据库。
- 节点的故障和恢复开始,此测试需要停止节点上的 mysql 服务,创建并随后删除数据库以测试幸存的节点复制,并启动已关闭的节点以重新同步。
- 这适用于节点 4、3、2。
- 根据 pxc 文档,Node1 本质上是一个控制器,不会重新加入集群。
所以我的问题如下:
- 如果幸存节点已将数据写入它们,如何使控制器节点返回服务
- 以4个节点为参考,有没有办法去掉node1这个单点故障?(如果一个幸存的节点在控制器(node1)关闭/不同步的情况下重新启动,该节点也将失败)。
根据您在节点一上的症状,您正在使用
在你的配置文件中,这意味着节点将启动一个新的集群。您可以通过 wsrep_cluster_size 变量在 node1 上为 1,在其他节点上为 3 来确认这一点。如果你想加入 node1 到你已经存在的集群,你应该指定
在这种情况下,node1 将重新加入集群。
一些额外的想法:
由于 PXC(Percona Xtradb Cluster)中的仲裁机制,不建议在 4 个节点上运行它。建议使用奇数个节点,这样在网络分裂的情况下,分裂集群的一部分将占多数。
您可以在 [mysqld_safe] 部分中使用 wsrep_urls 而不是 wsrep_cluster_address。
免责声明:我为 Percona 工作。
对该问题的进一步研究似乎是一种可行的方法(暂时不接受此答案,以防有人以更好的设置回复):
此设置似乎至少可以容忍任何节点因断开连接而丢失,并且可以毫无问题地恢复节点同步。
如果 Mysql 无法启动,原因是损坏的数据库表。
复制服务器正在执行的操作,并从已停止的服务器中为客户端数据库获取一份好的副本。
它通过 nc 对 $MYSQLHOME 中的 db 文件进行 tars 处理。
我们使用 scp 将好文件移动到位,然后通过启动坏服务器的 mysql 再次开始同步。