Temos um cluster Cassandra em execução no GKE com um pool de nós de 32 CPUs e discos SSD. O tamanho atual do cluster é de quase 1 PB, com cada nó utilizando uma média de 5 TB em discos SSD alocados de 10 TB. O cluster é composto por 200 nós, cada um com discos de 10 TB, totalizando 2 PB de tamanho total alocado.
Dado o tamanho deste cluster, os custos de manutenção são substanciais. Como podemos conseguir uma recuperação de desastres de baixo custo para um cluster tão grande?
Uma opção que estou considerando é criar um novo data center em uma região diferente com fator de replicação 1 (RF1). Embora isso não seja recomendado, reduziria pelo menos o tamanho do cluster por um fator de três.
Qualquer sugestão seria muito apreciada.
Por mais que eu entenda que o custo é um fator importante, não deve ser a consideração principal. O verdadeiro fator decisivo são os requisitos de negócios.
Em mais de 25 anos, em mais de uma dúzia de empresas de sectores que incluem banca e finanças, telecomunicações, meios de comunicação e publicidade, só há uma coisa certa: as empresas não têm um plano de recuperação de desastres fiável em vigor. O recente colapso do sistema global CrowdStrike é uma prova flagrante disso.
Os requisitos de negócios determinam qual solução de DR deve ser implementada. Os critérios principais devem incluir coisas como o tempo necessário para o failover, a taxa de transferência/capacidade necessária do site de DR, a confiabilidade do DC de DR e assim por diante.
Decidir adicionar um DC com um fator de replicação de 1 porque você está preocupado com o custo é um erro. Se o aplicativo não funcionar porque a DR está subprovisionada, talvez você não tenha uma solução de DR. Pense no cenário em que um nó falha
RF=1
: o jogo termina.Como observação lateral, sua pergunta fornecerá respostas baseadas em opiniões, portanto, é provável que seja sinalizada e rejeitada. Para referência futura, dê uma olhada nas perguntas que você deve evitar fazer . Saúde!