具有 1 个外部 IP 的 Cassandra 多数据中心配置

Question

Sai

Asked: 2024-07-13 03:47:31 +0800 CST2024-07-13 03:47:31 +0800 CST 2024-07-13 03:47:31 +0800 CST

对于大型集群来说，可行的低成本 DR 选项是什么？

我们在 GKE 上运行了一个 Cassandra 集群，该集群具有 32 个 CPU 节点池和 SSD 磁盘。当前集群大小接近 1 PB，每个节点平均使用 10 TB 分配的 SSD 磁盘上的 5 TB。该集群包含 200 个节点，每个节点有 10 TB 磁盘，总共分配了 2 PB 大小。

这个集群规模，维护成本是比较大的，那么如何才能低成本的实现这么大的集群容灾呢？

我正在考虑的一个选项是在不同区域创建一个新的数据中心，副本数为 1（RF1）。虽然不建议这样做，但它至少会将集群大小减少三倍。

任何建议将不胜感激。

Erick Ramirez · Answer 1 · 2024-07-26T17:59:14+08:00

Best Answer

Erick Ramirez

据我所知，成本是一个主要因素，但它不应该是首要考虑因素。真正的决定因素是业务需求。

在过去 25 年中，银行金融、电信、媒体和广告等行业的十多家公司都存在一个共同点：企业没有制定可靠的灾难恢复计划。最近的 CrowdStrike 全球系统崩溃就是一个明显的证据。

业务需求决定了应采用哪种 DR 解决方案。主要标准应包括故障转移所需的时间、DR 站点所需的吞吐量/容量、DR DC 的可靠性等。

因为担心成本而决定添加复制因子为 1 的 DC 是错误的。如果应用程序因为 DR 不足而无法运行，那么您可能没有 DR 解决方案。想象一下当一个节点发生故障时的情况RF=1——游戏就结束了。

顺便说一句，您的问题将得到基于观点的答案，因此很可能会被标记和否决。以供将来参考，请查看您应避免提出的问题。干杯！