Temos um cluster Cassandra em execução no GKE com um pool de nós de 32 CPUs e discos SSD. O tamanho atual do cluster é de quase 1 PB, com cada nó utilizando uma média de 5 TB em discos SSD alocados de 10 TB. O cluster é composto por 200 nós, cada um com discos de 10 TB, totalizando 2 PB de tamanho total alocado.
Dado o tamanho deste cluster, os custos de manutenção são substanciais. Como podemos conseguir uma recuperação de desastres de baixo custo para um cluster tão grande?
Uma opção que estou considerando é criar um novo data center em uma região diferente com fator de replicação 1 (RF1). Embora isso não seja recomendado, reduziria pelo menos o tamanho do cluster por um fator de três.
Qualquer sugestão seria muito apreciada.