我们在 GKE 上运行了一个 Cassandra 集群,该集群具有 32 个 CPU 节点池和 SSD 磁盘。当前集群大小接近 1 PB,每个节点平均使用 10 TB 分配的 SSD 磁盘上的 5 TB。该集群包含 200 个节点,每个节点有 10 TB 磁盘,总共分配了 2 PB 大小。
这个集群规模,维护成本是比较大的,那么如何才能低成本的实现这么大的集群容灾呢?
我正在考虑的一个选项是在不同区域创建一个新的数据中心,副本数为 1(RF1)。虽然不建议这样做,但它至少会将集群大小减少三倍。
任何建议将不胜感激。