我们在 GKE 上运行了一个 Cassandra 集群,该集群具有 32 个 CPU 节点池和 SSD 磁盘。当前集群大小接近 1 PB,每个节点平均使用 10 TB 分配的 SSD 磁盘上的 5 TB。该集群包含 200 个节点,每个节点有 10 TB 磁盘,总共分配了 2 PB 大小。
这个集群规模,维护成本是比较大的,那么如何才能低成本的实现这么大的集群容灾呢?
我正在考虑的一个选项是在不同区域创建一个新的数据中心,副本数为 1(RF1)。虽然不建议这样做,但它至少会将集群大小减少三倍。
任何建议将不胜感激。
据我所知,成本是一个主要因素,但它不应该是首要考虑因素。真正的决定因素是业务需求。
在过去 25 年中,银行金融、电信、媒体和广告等行业的十多家公司都存在一个共同点:企业没有制定可靠的灾难恢复计划。最近的 CrowdStrike 全球系统崩溃就是一个明显的证据。
业务需求决定了应采用哪种 DR 解决方案。主要标准应包括故障转移所需的时间、DR 站点所需的吞吐量/容量、DR DC 的可靠性等。
因为担心成本而决定添加复制因子为 1 的 DC 是错误的。如果应用程序因为 DR 不足而无法运行,那么您可能没有 DR 解决方案。想象一下当一个节点发生故障时的情况
RF=1
——游戏就结束了。顺便说一句,您的问题将得到基于观点的答案,因此很可能会被标记和否决。以供将来参考,请查看您应避免提出的问题。干杯!