Posso ativar o PITR depois que o banco de dados foi usado

Question

Anthony O

Asked: 2024-02-29 09:04:43 +0800 CST2024-02-29 09:04:43 +0800 CST 2024-02-29 09:04:43 +0800 CST

Como posso minimizar a perda e a transferência de dados quando faço failback com o requisito de promover o antigo primário de volta ao seu status primário?

772

A definição de failback de acordo com os documentos da IBM é “o processo de retornar a produção ao seu local original após um desastre ou um período de manutenção programado”.

Pela minha leitura das postagens da comunidade postgresql, colocar um servidor primário antigo online novamente após o failover como um modo de espera que segue o novo primário também pode ser considerado failover.

Isso pode ocorrer porque é amplamente aceito que ter servidores de banco de dados idênticos é uma prática recomendada. No entanto, esta opção não está disponível para mim.

Tenho 2 servidores: Costanza e Kramer. Costanza é um servidor de alto desempenho. Kramer não.

Aqui está o cenário que estou tentando otimizar, passo a passo:

Costanza está em modo de falha irrecuperável (típico)
Kramer é promovido a primário
Costanza está disponível novamente e o PGDATA está intacto
Sincronize Costanza e Kramer de forma que nenhum dado gravado em Kramer seja perdido
Promover Costanza de volta ao status primário
Estabeleça Kramer como reserva

Estou focado nas etapas 4 e 5.

Ao executar o pg_rewind para reproduzir arquivos WAL, parece que "as modificações que ocorreram no servidor de origem após o último ponto de verificação comum são ignoradas - elas serão recuperadas de qualquer maneira quando o servidor de destino se tornar um modo de espera do servidor de origem". - veja esta pergunta SO

Deduzo disso que simplesmente executar pg_rewind não sincronizará Costanza e Kramer (etapa 4) porque as gravações em Kramer podem ter ocorrido após o último ponto de verificação comum. Isso também é o que observamos ao perfurar failbacks.

Minha solução para a etapa 4 é:

4a. Execute pg_rewind para sincronizar cronogramas divergentes

4b. Estabeleça o Costanza como um standby do Kramer e permita que ele acompanhe o atraso de replicação (assumindo que existam pontos de verificação pós-WALs)

Então

Desligue Kramer e promova Costanza para primário (novamente causando divergência na linha do tempo)

6a. Execute pg_rewind com Kramer como alvo

6b. Estabeleça Kramer como um standby do Costanza e permita que ele acompanhe o atraso de replicação (novamente, assumindo que existam pontos de verificação pós-WALs)

Este é um cenário pouco frequente. Mas não sei quais modos de falha encontrarei e se o PGDATA estará intacto ou não.

Este é um banco de dados muito grande e quero evitar mover dados por meio de backup de base sempre que possível.

Essa abordagem parece ineficiente para mim porque devo executar o pg_rewind duas vezes e tenho que estabelecer o Costanza como um modo de espera apenas para aplicar as modificações que ocorreram no ponto de verificação pós-comum de Kramer.

Devo minimizar a perda de dados e esta solução parece fazer isso com transferência mínima de dados.

(Um aparte: devo me preocupar com a criação adicional da linha do tempo? Isso parece inevitável, assim como ocorre na promoção de um banco de dados para primário)

Existe alguma maneira de aplicar as modificações no posto de controle comum de Kramer para Costanza sem estabelecer Costanza como reserva de Kramer?

Existe um caminho mais curto para um resultado equivalente? Ou existe um caminho que você pode julgar "mais fácil" de seguir em um cenário de falha de banco de dados?

1 respostas

Voted

Laurenz Albe · Answer 1 · 2024-02-29T15:25:41+08:00

Antes de responder sua pergunta, deixe-me observar que você esqueceu uma etapa muito importante no procedimento de failover: entre as etapas 1 e 2, você deve ter certeza de que o Constanza está inativo. Isso pode parecer trivial, mas se você não fizer isso, pode acontecer que alguns clientes ainda estejam conectados ao banco de dados no Constanza, e você acabe com um cenário de “cérebro dividido”, que é indiscutivelmente pior do que um tempo de inatividade prolongado. .

Além disso, seus passos são bastante precisos, mas mais complicados do que o necessário. Depois de colocar Constanza em modo de espera e deixá-lo alcançar Kramer, você executa um desligamento limpo em Kramer. Isso garante que todas as alterações no Kramer sejam replicadas no Constanza e não haja necessidade de arquivos pg_rewind. Tudo o que você precisa fazer é garantir que primary_conninfoKramer aponte para Constanza e crie standby.signalem Kramer.

Se você estiver usando slots de replicação, cada failover e alternância também precisará ser criado após a promoção, porque os slots de replicação ainda não foram replicados (a partir do PostgreSQL v16).

Finalmente, acho que é uma má configuração ter Kramer mais fraco que Constanza. Se Kramer não conseguir lidar com a carga, sua configuração de alta disponibilidade não fornecerá alta disponibilidade.

Como posso minimizar a perda e a transferência de dados quando faço failback com o requisito de promover o antigo primário de volta ao seu status primário?

conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

Como fazer a saída do sqlplus aparecer em uma linha?

Selecione qual tem data máxima ou data mais recente

Como faço para listar todos os esquemas no PostgreSQL?

Listar todas as colunas de uma tabela especificada

Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

Como você mysqldump tabela (s) específica (s)?

Listar os privilégios do banco de dados usando o psql

Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

Como faço para listar todos os bancos de dados e tabelas usando o psql?

Como posso minimizar a perda e a transferência de dados quando faço failback com o requisito de promover o antigo primário de volta ao seu status primário?

1 respostas

relate perguntas